apostila-banco-do-brasil-probabilidade-e-estatistica-fabricio-biazotto

•
IFSUL

Daiane Pradella
15/04/2020
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 64 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 64 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 64 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Probabilidade e Estatística

29.616 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
PROBABILIDADE E
ESTATÍSTICA
PROF. FABRÍCIO BIAZOTTO
PROBABILIDADE E ESTATÍSTICA
3
PROBABILIDADE
ANÁLISE COMBINATÓRIA
A análise combinatória é a área da Matemática responsável pela análise das possibilidades e 
das combinações. É um conjunto de procedimentos que possibilita a construção de grupos, 
formados por um número finito de elementos de um conjunto sob certas circunstâncias.
Os três principais tipos de agrupamentos são arranjos, permutações e combinações. 
Assim, em qualquer exercício de combinatória, é necessário seguir e três passos importantes:
1º – A ordem faz ou não faz diferença:
A. A ORDEM FAZ DIFERENÇA: PERMUTAÇÃO OU ARRANJO.
B. A ORDEM NÃO FAZ DIFERENÇA: COMBINAÇÃO.
2º – E = X. OU = +.
3º – Quais são as regras.
Fatorial de um número
O fatorial de um número natural n, representado por n!, é a multiplicação de todos os seus 
números escritos em forma decrescente até 1.
n! = n . (n – 1) . (n – 2) . ... . 1
assim o fatorial é como uma tabuada da análise combinatória e é importante que saiba os 
valores de 0! (zero) a 10!.
0! = 1 (por convenção)
1! = 1 (por definição)
2! = 2.1 = 2
3! = 3 . 2! = 3 . 2 . 1 = 6
4! = 4 . 3! = 4 . 3 . 2 . 1 = 24
5! = 5 . 4! = 5 . 4 . 3 . 2 . 1 = 120
6! = 6 . 5! = 6 . 5 . 4 . 3 . 2 . 1 = 720
7! = 7 . 6! = 7 . 6 . 5 . 4 . 3 . 2 . 1 = 5.040
8! = 8 . 7! = 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 = 40.320
9! = 9 . 8! = 9 . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 = 362.880
10! = 10 . 9! = 10 . 9 . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 = 3.628.800
4
Arranjo
Arranjo simples de n elementos tomados p a p, onde n >= 1 e p é um número natural, é qualquer 
ordenação de p elementos dentre os n elementos, em que cada maneira de tomar os elementos 
se diferenciam pela ordem e natureza dos elementos.
Exemplo: Quantas placas de automóveis com 3 letras podem ser formadas começando por P e 
letras distintas?
Permutação simples 
É um caso particular de arranjo simples. É o tipo de agrupamento ordenado onde entram todos 
os elementos, ou seja, é o número de elementos fatorial:
Exemplo: Quantos anagramas existem na palavra COISA?
Permutação com repetição
É quando o agrupamento ordenado possui trocas onde não há diferença, veja: 
A sigla LoL, por exemplo, possui 6 permutações no total, mas...
LoL LoL
LLo LLo
oLL. oLL
perceba que apesar das 6 permutações apenas 3 são diferentes, pois a letra L mesmo que troque 
de lugar, não muda a permuta e por isso estas repetições devem ser desconsideradas, assim:
Exemplo: Quantos anagramas distintos existem na palavra MATEMÁTICA?
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
5
Combinação simples
É o tipo de agrupamento em que um grupo difere do outro apenas pela natureza dos elementos 
componentes, ou seja, a ordem da escolha não interfere na combinação.
PROBABILIDADE
Se em um fenômeno aleatório as possibilidades são igualmente prováveis, então a probabilidade 
de ocorrer um evento A é:
Por exemplo, no lançamento de um dado, um número par pode ocorrer de 3 maneiras diferentes 
dentre 6 igualmente prováveis, portanto, P = 3/6 = 1/2 = 50%
Dizemos que um espaço amostral S (finito) é equiprovável quando seus eventos elementares 
têm probabilidades iguais de ocorrência.
Num espaço amostral equiprovável S (finito), a probabilidade de ocorrência de um evento A é 
sempre:
Propriedades Importantes:
1. Se A e A’ são eventos complementares, então: P( A ) + P( A’ ) = 1
2. A probabilidade de um evento é sempre um número entre 0 (probabilidade de evento 
impossível) e 1 (probabilidade do evento certo) n0≤P ≤1 .
Probabilidade Condicional
Antes da realização de um experimento, é necessário que já tenha alguma informação sobre o 
evento que se deseja observar. Nesse caso, o espaço amostral se modifica e o evento tem a sua 
probabilidade de ocorrência alterada.
6
Fórmula de Probabilidade Condicional
P(E1 e E2 e E3 e ...e En-1 e En) é igual a P(E1) . P(E2/E1).P(E3/E1 e E2)...P(En/E1 e E2 e ...En – 1).
Onde P(E2/E1) é a probabilidade de ocorrer E2, condicionada pelo fato de já ter ocorrido E1;
P(E3/E1 e E2) é a probabilidade ocorrer E3, condicionada pelo fato de já terem ocorrido E1 e E2;
P(Pn/E1 e E2 e ...En – 1) é a probabilidade de ocorrer En, condicionada ao fato de já ter ocorrido E1 
e E2...En – 1.
Exemplo:
Uma urna tem 30 bolas, sendo 10 vermelhas e 20 azuis. Se ocorrer um sorteio de 2 bolas, uma 
de cada vez e sem reposição, qual será a probabilidade de a primeira ser vermelha e a segunda 
ser azul?
Resolução:
Seja o espaço amostral S = 30 bolas, e considerarmos os seguintes eventos:
A: vermelha na primeira retirada e P(A) = 10/30
B: azul na segunda retirada e P(B) = 20/29
Assim:
P(A e B) = P(A) . (B/A) = 10/30 . 20/29 = 20/87
Eventos Independentes
Dizemos que E1 e E2 e ...En-1, En são eventos independentes quando a probabilidade de ocorrer 
um deles não depende do fato de os outros terem ou não terem ocorrido.
Fórmula da probabilidade dos eventos independentes:
P(E1 e E2 e E3 e ...e En – 1 e En) = P(E1).P(E2).p(E3)...P(En)
Exemplo:
Uma urna tem 30 bolas, sendo 10 vermelhas e 20 azuis. Se sortearmos 2 bolas, 1 de cada vez e 
repondo a sorteada na urna, qual será a probabilidade de a primeira ser vermelha e a segunda 
ser azul?
Resolução:
Como os eventos são independentes, a probabilidade de sair vermelha na primeira retirada e 
azul na segunda retirada é igual ao produto das probabilidades de cada condição, ou seja, P(A e 
B) = P(A).P(B). Ora, a probabilidade de sair vermelha na primeira retirada é 10/30 e a de sair azul 
na segunda retirada 20/30. Daí, usando a regra do produto, temos: 
10/30 . 20/30 = 2/9.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
7
Observe que na segunda retirada forma consideradas todas as bolas, pois houve reposição. 
Assim, P(B/A) = P(B), porque o fato de sair bola vermelha na primeira retirada não influenciou a 
segunda retirada, já que ela foi reposta na urna.
Casos de Eventos
Fórmula da probabilidade de ocorrer a união de eventos:
P(E1 ou E2) = P(E1) + P(E2) – P(E1 e E2)
De fato, se existirem elementos comuns a E1 e E2, estes eventos estarão computados no cálculo 
de P(E1) e P(E2). Para que sejam considerados uma vez só, subtraímos P(E1 e E2).
Fórmula de probabilidade de ocorrer a união de eventos mutuamente exclusivos:
P(E1 ou E2 ou E3 ou ... ou En) = P(E1) + P(E2) + ... + P(En)
Exemplo: Se dois dados, azul e branco, forem lançados, qual a probabilidade de sair 5 no azul e 
3 no branco?
Considerando os eventos:
A: Tirar 5 no dado azul e P(A) = 1/6
B: Tirar 3 no dado branco e P(B) = 1/6
Sendo S o espaço amostral de todos os possíveis resultados, temos:
n(S) = 6.6 = 36 possibilidades. Daí, temos: P(A ou B) = 1/6 + 1/6 – 1/36 = 11/36
Exemplo: Se retirarmos aleatoriamente uma carta de baralho com 52 cartas, qual a probabilidade 
de ser um 8 ou um Rei?
Sendo S o espaço amostral de todos os resultados possíveis, temos: n(S) = 52 cartas. Considere 
os eventos:
A: sair 8 e P(A) = 4/52
B: sair um rei e P(B) = 4/52
Assim, P(A ou B) = 4/52 + 4/52 – 0 = 8/52 = 2/13. Note que P(A e B) = 0, pois uma carta não pode 
ser 8 e rei ao mesmo tempo. Quando isso ocorre dizemos que os eventos A e B são mutuamente 
exclusivos.
O Teorema de Bayes
Para chegar ao teorema de Bayes, partimos de princípios básicos. Assim, a probabilidade de que 
observemos simultaneamente um evento A e um evento B é dada por:
P(AᴖB) = P(A/B) . P(B) (1) 
8
Por outro lado, a probabilidade de que observemos simultaneamente um evento A e um evento 
B também pode ser dada por: 
P(BᴖA) = P(AᴖB) = P(B/A) . P(A) (2) 
Combinando (1) e (2), temos: 
P(A/B) . P(B) = P(B/A) . P(A) (3) 
Rearranjando, chegamos ao teorema de Bayes: 
P(A/B) = (P(B/A) . P(A)) / P(B) (4) 
Como geralmente não conhecemos P(B), precisamos usar uma formulação alternativa, que é 
baseada em:
P(B) = P(BᴖA) + P(BᴖAc ) (5)
Onde Ac é o evento complementar de A, também chamado de não A. Usando nosso 
conhecimento básico (equação 1 acima) e substituindo, obtemos:
P(B) = [P(B/A) . P(A)] + [P(B/Ac ) . P(Ac )] (6) 
Substituindo6 em 4 obtemos a formulação alternativa:
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
9
ESTATÍSTICA
1 – CONCEITOS INICIAIS
Estatística – é um conjunto de métodos e processos matemáticos desenvolvidos para a coleta, 
classificação, apresentação, analise e interpretação de dados acerca de um fenômeno observa-
do, possibilitando a tomada de decisões face às incertezas.
1.1 – Ramos da Estatística
Estatística Descritiva (ou dedutiva) – voltada à coleta, organização, apresentação, analise e 
interpretação dos dados observados através de gráficos e tabelas, além da análise e desses 
dados. 
Estatística Indutiva (ou Inferência Estatística) – processo de generalização que permite tirar 
conclusões a respeito do comportamento do fenômeno estudo.
População (ou Universo Estatístico) – é um conjunto de dados, obtidos na observação de um 
fenômeno, que apresentam pelo menos uma característica em comum. Pode ser finita ou 
infinita.
Censo – é o levantamento envolvendo todos os elementos da população.
Amostra – é qualquer subconjunto finito e não vazio de uma população, excetuando-se a 
própria população. O processo de retirada da amostra requer cuidados especiais na tentativa de 
resguardar a fidelidade e a representatividade da população.
Experimento aleatório – é aquele que, mesmo repetido em idênticas condições, produz 
resultados imprevisíveis.
1.2 – Aspectos de um dado
Qualitativo – característica do elemento em estudo, denominado atributo.
Quantitativo – determina a intensidade com que o atributo ocorre no fenômeno estudado, e é 
representado por uma variável.
Série estatística – é uma sucessão de dados estatísticos referidos a caracteres qualitativos. Se a 
sucessão for quantitativa, configurará uma seriação.
1.3 – Tipos de séries estatísticas
 • Temporal (cronológica, histórica ou evolutiva) – a variável é o fator tempo.
 • Geográfica (territorial, espacial ou de localização) – a variável é o fator geográfico.
 • Específica (especificativa ou categórica) – a variável é o fenômeno.
 • Mista – ocorre a variação de pelo menos dois dos fatores: tempo, local ou fenômeno.
10
Distribuição de frequência (seriação) – neste caso, todos os elementos (época, local ou 
fenômeno) são fixos, variando apenas a intensidade de ocorrência do fenômeno.
1.4 – Organização dos Dados Estatísticos 
Normas para apresentação tabular de dados Elementos essenciais:
Título – indicação contida na parte superior da tabela, onde deve estar definido o fato observa-
do, com a especificação de local e época referentes ao fato;
Cabeçalho – parte da tabela que apresenta a natureza do conteúdo de cada coluna;
Coluna indicadora – indica o conteúdo das linhas;
Célula (casa ou cela) – é o espaço resultante do cruzamento de uma linha com uma coluna, 
onde se registra a frequência ou o valor da variável ou atributo.
Corpo – é a parte da tabela onde se encontram o cabeçalho, a coluna indicadora e as linhas e 
colunas que contem a serie estatística;
Elementos complementares:
Fonte – designação da entidade que forneceu os dados estatísticos;
Notas – esclarecimentos de natureza geral; 
Chamadas – esclarecimentos de natureza específica.
Exemplo:
Frota de veículos (em mil unidades) – 1996
PARANÁ BRASIL
Automóveis 1.224 18.727
Picapes 193 2.980
Caminhões 158 1.630
Ônibus 19 317
Motocicletas 218 2.919
Total 1.812 26.573
Fonte: Denatran
As Tabelas podem ser:
Simples – formadas por uma coluna indicadora (coluna matriz), onde são inscritos os valores ou 
modalidades classificadas, e por uma coluna onde se inserem as ocorrências ou as intensidades 
do fenômeno analisado.
Dupla entrada – apresenta séries conjugadas.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
11
Tabela Simples:
População economicamente ativa por setor de atividade – Brasil/1940
Setor População (1.000 hab.)
Primário 8.968
Secundário 1.414
Terciário 3.620
Fonte: IPEA
2 – DISTRIBUIÇÃO DE FREQUÊNCIAS (SERIAÇÃO)
Dados brutos – são os dados coletados, ainda não organizados.
Rol – lista em que os valores são dispostos em uma determinada ordem (crescente ou decres-
cente.
Tabela de frequência – representação na qual os valores se apresentam com sua incidência de 
repetição, evitando que eles apareçam mais de uma vez.
Distribuição de frequências de Dados Não-Agrupados em Classes – tabela onde os valores 
aparecem individualmente, utilizado para variáveis discretas.
2.1 – Elementos
Amplitude total (At) – é a diferença entre o maior e o menor valor da série.
Frequência absoluta simples (fi) – é o número de repetições de cada valor.
Frequência total (fi ou Σn) – é a soma das frequências absolutas simples.
Frequência relativa simples (fri) – é o quociente entre a frequência absoluta simples e a 
frequência total da série. Pode ser representada sob a forma unitária ou percentual (fri%)
Frequência absoluta acumulada (Fi ou fac) – é a soma das frequências absolutas simples de 
um determinado valor da tabela com as frequências absolutas simples de todos os valores 
anteriores. É também denominada de frequência absoluta “abaixo de”.
Frequência absoluta acumulada “acima de” (Fi+) – é a soma das frequências absolutas simples 
de um determinado valor da tabela com as frequências absolutas simples de todos os valores 
posteriores.
Obs.: Σ ... somatório
12
Exemplo:
Nº de aparelhos defeituosos da Empresa X
xi fi fri fri% Fi Fi+ Fri Fri% Fri+ Fri%+
0 5
1 10
2 18
3 12
4 5
Distribuição de frequências de Dados Agrupados em Classes – os dados são apresentados de 
forma resumida, de forma agrupada. É recomendado, principalmente, para variáveis contínuas.
2.3 – Elementos
Classe – é cada um dos grupos ou intervalos de valores obtidos a partir de um agrupamento de 
dados. Representação de uma classe:
a I––– b ... inclusive a, e exclusive b
a –––I b ... exclusive a, e inclusive b 
a I–––I b ... inclusive a, e inclusive b 
a ––– b ... exclusive a, e exclusive b
Limites de classe – são os valores extremos de uma classe.
a I––– b – a ... limite inferior (Li) b ... limite superior (Ls) 
Ponto médio de uma classe (PMi ou Xi) – é a média aritmética dos limites superior e inferior de 
uma classe. 
Amplitude do intervalo de classe (h) – é a diferença entre os limites superior e inferior de uma 
classe.
Exemplo:
Notas de uma prova de Estatística
xi fi PMi fri fri% Fi Fi+ Fri Fri%
0 I––– 20 10
20 I––– 40 30
40 I––– 60 40
60 I––– 80 15
80 I––– 100 5
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
13
3 – GRÁFICOS
a) de Linha – representado em um plano cartesiano, através de pontos ligados por segmentos 
de reta, mostrando a evolução do fenômeno estudado.
b) em Barras (horizontais) – têm por finalidade comparar grandezas por meio de retângulos 
horizontais de larguras iguais e alturas proporcionais às respectivas grandezas.
c) em Colunas (ou em barras verticais) – representados por retângulos verticais, prestam-se à 
mesma finalidade que os gráficos em barras sendo, entretanto, preferíveis a esses últimos, 
quando as legendas a se inscreverem sob os retângulos forem breves
d) em Setores (pizza) – são representados por círculos divididos proporcionalmente em seg-
mentos circulares de acordo com os dados do fenômeno ou do processo a ser representa-
do. Os valores são expressos em números ou em porcentagens.
Exemplos:
Locações de DVD – Locadora Barão – Ano 2008
MÊS LOCAÇÕES
Janeiro 300
Fevereiro 220
Março 100
Abril 150
Maio 250
Junho 110
Dados fictícios
 
Importação Brasileira 
de Vinho – 1972 (100 Dólares)
PAÍS VALOR
Argentina 48
Chile 83
Espanha 105
Itália 168
Portugal 236
França 242
Dados fictícios
 
14
Produção média mensal de 
Carvão Betuminoso Brasil – 1972
Ano Q (1.000 ton)
1 45
2 50
3 70
4 80
5 130
6 160
Dados fictícios
 
Venda no Almoço 
Lanchonete do Jiraya |Outubro de 20X4
Alimento %
sanduíche 40
salada 21
sopa 15
bebida 9
sobremesa 15
Dados fictícios
 
3.1 – Gráficos representativos de uma Distribuição de Frequências
Histograma – formado por um conjuntode retângulos justapostos de larguras homogêneas, de 
forma que a altura de cada retângulo seja proporcional à frequência da classe que representa.
Polígono de frequências – representação gráfica obtida a partir da união, através de segmentos, 
dos pontos médios das bases superiores dos retângulos do histograma.
Exemplo:
Notas de uma prova de Estatística
xi fi fri%
0 I––– 20 20
20 I––– 40 60
40 I––– 60 80
60 I––– 80 30
80 I––– 100 10
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
15
 
OBS.: Os gráficos representativos de distribuições de frequências acumuladas são denomina-
dos Ogivas (Ogiva de Galton).
Exemplo: O atributo do tipo contínuo X, observado como um inteiro, numa amostra de tamanho 
100 obtida de uma população de 1000 indivíduos, produziu a tabela de frequências seguinte:
Classes Frequência ( f )
29,5-39,5 4
39,5-49,5 8
49,5-59,5 14
59,5-69,5 20
69,5-79,5 26
79,5-89,5 18
89,5-99,5 10
Assinale a opção que corresponde à estimativa do número de indivíduos na população com 
valores do atributo X menores ou iguais a 95,5 e maiores do que 50,5.
a) 700 
b) 638 
c) 826 
d) 995 
e) 900.
LETRA C
4 – MEDIDAS DE POSIÇÃO
Pela dificuldade de se trabalhar com uma distribuição de frequências completa, costuma-se 
lançar mão de determinadas medidas que sumarizam certas características importantes da 
distribuição. 
Dentre as diversas medidas quem possibilitam condensar as informações dentro na fase analíti-
ca da Estatística Descritiva, dois tipos são os mais importantes: as medidas de posição (especial-
mente as de tendência central) e as medidas de dispersão (ou de heterogeneidade).
16
As medidas de posição podem se apresentar de várias formas, dependendo daquilo que se 
pretende conhecer a respeito dos dados estatísticos.
4.1 – Medidas de tendência central (ou promédios)
São medidas de posição em torno das quais os dados tendem a se agrupar. Os três promédios 
mais utilizados para resumir o conjunto de valores representativos de fenômeno que se deseja 
estudar são: a média aritmética, a moda e a mediana. Outros promédios menos usados são as 
médias: geométrica, harmônica, etc.
a) Médias
Média Aritmética Simples (x ou µ) – a média aritmética simples de um conjunto de números é 
igual ao quociente entre a soma de valores do conjunto e o número total de valores.
Média Aritmética Ponderada (P) – utilizada quando os valores do conjunto tiverem pesos 
diferentes. É obtida através do quociente entre a soma dos produtos dos pesos pelos respectivos 
valores e a soma dos pesos.
Esta equação é para dados não agrupados, caso sejam agrupados em classes, o Xi é o mesmo 
que o PMi.
Desvio (di) – é o afastamento de cada valor do conjunto em relação a um valor fixo x0: 
di = xi – x0
Propriedades da média aritmética:
1ª) a soma algébrica dos desvios dos valores em relação à média aritmética é igual a zero.
2ª) a soma algébrica dos quadrados dos desvios dos valores em relação à média aritmética é um 
mínimo.
3ª) sendo n o número de incidência de cada média aritmética x, de cada conjunto k de valores, 
então a média aritmética de todos os valores dos k conjuntos é a média ponderada das médias 
aritméticas dos respectivos conjuntos. Essa média é denominada média global.
4ª) somando-se (ou subtraindo-se) uma constante arbitrária x a cada valor da série, a média 
aritmética desta série fica somada (ou subtraída) dessa constante.
5ª) multiplicando-se (ou dividindo-se) uma constante arbitrária c a cada valor da série, a média 
aritmética desta série fica multiplicada (ou dividida) por essa constante.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
17
Processo breve para o cálculo da média aritmética (para dados tabulados em classes)
A partir das duas últimas propriedades citadas anteriormente, é possível calcular a média 
aritmética utilizando uma variável transformada (di), denominada variável reduzida:
OBS: Recomenda-se utilizar para o valor de A o ponto médio da classe de maior frequência 
se o número de classes k for par, ou o ponto médio da classe intermediária se o número de 
classes for ímpar.
Exemplo: calcular a média aritmética na tabela a seguir.
Notas de uma prova de Estatística
xi fi PMi di fi.di
0 I––– 20 10
20 I––– 40 30
40 I––– 60 40
60 I––– 80 15
80 I––– 100 5
Média Geométrica ( G ) – á média geométrica de um conjunto de n valores é a raiz n–ésima do 
produto de todos os valores do conjunto dado.
Média Harmônica ( H ) – á média harmônica de um conjunto de n valores é o inverso da média 
aritmética dos inversos de todos os valores do conjunto dado.
Obs.: H ≤ G ≤ X
Exemplo: Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram 
examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu 
a tabela de frequências abaixo. A coluna Classes representa intervalos de valores de X em reais 
e a coluna P representa a frequência relativa acumulada. Não existem observações coincidentes 
com os extremos das classes. 
18
Classes P (%)
70-90 5
90-110 15
110-130 40
130-150 70
150-170 85
170-190 95
190-210 100
Assinale a opção que dá o valor médio amostral de X.
a) 140,10
b) 115,50 
c) 120,00 
d) 140,00 
e) 138,00.
LETRA E
b) Moda (Mo)
O valor de maior frequência da série, também chamado norma, valor dominante ou valor típico.
Exemplos:
1) Rol (dados não tabulados)
Determinar a moda nos conjuntos a seguir:
A = {2, 2, 3, 3, 3, 3, 5,5,5,5,5,5,6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 9, 9} Mo =
B = {2, 2, 3, 3, 3, 3, 5,5,5,5, 5, 5,5, 6, 6, 6, 6, 6, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9} Mo =
C = {2, 3, 5, 7, 8, 9} Mo =
Dados Tabulados Não-Agrupados em classes 
Exemplo: determinar o valor da moda na tabela a seguir.
xi fi
1 5
2 10
3 18
4 12
5 4
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
19
Dados Tabulados Agrupados em Classes 
Classe modal: é classe de maior frequência.
Determinação da Moda:
 • Moda Bruta: é o método mais rudimentar de cálculo da moda, que consiste em considerá-
lo como sendo o ponto médio da classe modal.
 • Método de King: baseia-se na influência das frequências das classes adjacentes à classe 
modal.
Li – limite inferior da classe modal
h (ou c) – amplitude do intervalo de classe
fpos – frequência da classe posterior à classe modal 
fant – frequência da classe anterior à classe modal
 • Método de Czuber: utiliza a frequência da classe modal e as das classes adjacentes.
c) Mediana ( Md )
O valor central de uma série ordenada.
A mediana é considerada uma separatriz, por ser um promédio que divide a série em partes 
iguais; e, pelo fato de ocupar uma determinada posição na série ordenada, o número que indica 
a sua posição é denominado elemento mediano (Em).
Determinação da mediana para dados não tabulados
Uma vez ordenados os valores da série (Rol), a mediana será:
 • O valor central da série, se o número de valores (n) for ímpar,
 • A média aritmética dos dois valores centrais da série, se o número de valores for par.
Exemplos:
1) Rol (dados não tabulados)
Determinar a mediana nos conjuntos a seguir:
A = {2, 2, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 9, 9} Md =
20
B = {2, 2, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 9, 9} Md=
C = {2, 2, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 9, 9} Md = 
2) Dados Tabulados Não-Agrupados em classes
O procedimento a ser adotado é praticamente idêntico ao anterior.
Exemplo: calcular a mediana na tabela a seguir.
xi fi
1 5
2 10
3 18
4 12
5 4
3) Dados Tabulados Agrupados em classes
n – frequência total
Fant – frequência acumulada da classe anterior à classe mediana
fmd – frequência da classe mediana
h – Amplitude da classe mediana
Li – Limite inferior da classe mediana
OBS: classe mediana ... é a classe onde se encontra o elemento de posição n/2.
Exemplo: Determinar a moda e a mediana na tabela a seguir.
Notas de uma prova de Estatística
xi fi Fi
0 I––– 20 10
20 I––– 40 30
40I––– 60 40
60 I––– 80 15
80 I––– 100 5
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
21
d) Outras separatrizes
Quartil (Q) – divide a série em 4 partes iguais.
Decil (D) – divide a série em 10 partes iguais.
Centil ou Percentil (P) – divide a série em 100 partes iguais.
Exemplo 1: O atributo do tipo contínuo X, observado como um inteiro, numa amostra de 
tamanho 100 obtida de uma população de 1000 indivíduos, produziu a tabela de frequências 
seguinte:
Classes Frequência ( f )
29,5-39,5 4
39,5-49,5 8
49,5-59,5 14
59,5-69,5 20
69,5-79,5 26
79,5-89,5 18
89,5-99,5 10
Assinale a opção que corresponde ao valor modal do atributo X no conceito de Czuber.
a) 69,50 
b) 73,79 
c) 71,20 
d) 74,53 
e) 80,10
LETRA B
22
Exemplo 2: Considerando a distribuição de frequência relativa ao salário, em milhares de reais, 
de professores de uma faculdade, os valores salariais do terceiro quartil e do nonagésimo 
percentil são respectivamente:
i Salários R$ fi
1 0 |-- 2 8
2 2 |-- 4 12
3 4 |-- 6 22
4 6 |-- 8 25
5 8 |-- 10 18
6 10 |-- 12 15
a) R$ 8.880 e R$ 10.660
b) R$ 6.650 e R$ 4.480
c) R$ 2.920 e R$ 6.560
d) R$ 6.650 e R$ 10.660
e) R$ 6.560 e R$ 8.880.
LETRA A
5. OUTLIER
“Um outlier é uma observação que se diferencia tanto das demais observações que levanta 
suspeitas de que aquela observação foi gerada por um mecanismo distinto” (Hawkins, 1980).
Pode-se dizer que é aquela observação que se diferencia tanto das demais que levanta suspeitas, 
ou seja, o famoso ponto fora da curva.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
23
6 – MEDIDAS DE DISPERSÃO
As medidas de dispersão permitem avaliar o grau de variabilidade ou dispersão dos valores de 
um conjunto de números, proporcionando um conhecimento mais completo do fenômeno a ser 
analisado, permitindo estabelecer comparações entre fenômenos de mesma natureza e mos-
trando até que ponto os valores se distribuem acima ou abaixo da tendência central.
6.1 – Medidas de Dispersão Absoluta
Amplitude Total ou Intervalo Total (AT) – é a diferença entre os valores extremos do conjunto.
Desvio Médio ou Média dos Desvios (Dm)
Desvio Quartil ou Amplitude Semi-Interquartílica (Dq ou Q)
No intervalo (Md ± Q) encontram-se aproximadamente 50% da distribuição. Essa porcentagem 
será exata se a distribuição for simétrica.
Desvio Padrão (S ou σ)
Obs.: quando o desvio padrão representar uma descrição da amostra e não da população, 
caso mais frequente em estatística, o denominador das expressões será n – 1, ao invés de 
n, pois assim se obtém uma estimativa melhor do parâmetro de população. Para valores 
grandes de n (n > 30), não há grande diferença; entretanto, a utilização de n – 1 proporciona 
uma estimativa mais justa do desvio-padrão da população.
Ou também pode ser com frequências:
24
Forma simplificada:
E também pelos desvios (di) como na média:
Onde:
h = amplitude do intervalo de classe e recomenda-se utilizar para o valor de x0 o ponto médio 
da classe de maior frequência se o número de classes for par, ou o ponto médio da classe 
intermediária se o número de classes for ímpar.
Propriedades do desvio-padrão:
1ª) somando-se (ou subtraindo-se) uma constante arbitrária x a cada valor da série, o desvio-
padrão desta série não se altera.
2ª) multiplicando-se (ou dividindo-se) uma constante arbitrária c a cada valor da série, o desvio-
padrão desta série fica multiplicada (ou dividida) por essa constante.
3ª) o desvio-padrão é maior que o desvio médio.
Processo breve para o cálculo do desvio-padrão (para dados tabulados em classes)
A partir das duas primeiras propriedades citadas anteriormente, é possível calcular a média 
aritmética utilizando uma variável transformada (di), como no cálculo da média aritmética pelo 
processo breve:
Exemplo: calcular o desvio padrão na tabela a seguir.
Notas de uma prova de Estatística
xi fi PMi di di2 fi.di fi.di2
0 I––– 20 10
20 I––– 40 30
40 I––– 60 40
60 I––– 80 15
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
25
xi fi PMi di di2 fi.di fi.di2
80 I––– 100 5
∑
Resposta: S 19,95
e) Variância (S2 ou σ2) – é o quadrado do desvio-padrão.
Propriedades da variância:
1ª) somando-se (ou subtraindo-se) uma constante arbitrária x a cada valor da série, a variância 
desta série não se altera.
2ª) multiplicando-se (ou dividindo-se) uma constante arbitrária c a cada valor da série, a 
variância desta série fica multiplicada (ou dividida) pelo quadrado desta constante.
6.2 – Medidas de Dispersão Relativa
Resultam, em geral, de comparação entre uma medida de dispersão absoluta e um promédio, 
sendo expresso em termos percentuais. Proporcionam uma avaliação mais apropriada do grau 
de dispersão da variável e ainda, comparar duas ou mais distribuições, mesmo de fenômenos 
diferentes expressas em unidades de medidas distintas.
a) Desvio Quartil Reduzido (Qr)
b) Coeficiente de Variação
Exemplo: Uma empresa verificou que, historicamente, a idade média dos consumidores de seu 
principal produto é de 25 anos, considerada baixa por seus dirigentes. Com o objetivo de ampliar 
sua participação no mercado, a empresa realizou uma campanha de divulgação voltada para 
consumidores com idades mais avançadas. Um levantamento realizado para medir o impacto 
da campanha indicou que as idades dos consumidores apresentaram a seguinte distribuição:
26
Idade (X) Frequência Porcentagem
18 25 -| 20 40
25 30 -| 15 30
30 35 -| 10 20
35 40 -| 5 10
Total 50 100
Assinale a opção que corresponde ao resultado da campanha considerando o seguinte critério 
de decisão: se for maior que o valor então a campanha de divulgação surtiu efeito, 
isto é, a idade média aumentou; caso contrário, a campanha de divulgação não alcançou o 
resultado desejado.
a) A campanha surtiu efeito, pois = 2,1 é maior que = 1,53.
b) A campanha não surtiu efeito, pois = 0 é menor que = 1,64.
c) A campanha surtiu efeito, pois = 2,1 é maior que = 1,41.
d) A campanha não surtiu efeito, pois = 0 é menor que = 1,53.
e) A campanha surtiu efeito, pois = 2,5 é maior que = 1,41. 
LETRA A
7 – CORRELAÇÃO
7.1 – Conceitos iniciais
Correlação é um valor que indica o grau de inter-relação de influência – algum tipo de associação 
– entre duas ou mais variáveis (por exemplo: grau de escolaridade e número de livros que uma 
pessoa possui).
Para se determinar a Correlação são necessárias as seguintes medidas estatísticas: Desvio 
Padrão (S), Variância (S2) e Covariância (Cov).
O Desvio Padrão e a Variância, já estudados anteriormente, são Medidas de Dispersão utilizadas 
quando desejamos saber o quão próximos ou quão afastados estão os elementos de um 
conjunto, em relação a um determinado referencial (a média aritmética do conjunto)
7.2 – Propriedades da Variância:
1ª) a Variância não é influenciada por operações de soma e subtração: S2X + ou – K = S
2
X, onde K 
é uma constante.
2ª) a Variância é influenciada por operações de produto e divisão: S2K+ ou – X = K
2 S2X, onde K é 
uma constante.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
27
3ª) Propriedade da Variância de Duas Variáveis (Xi e Yi):
1 – S2X+Y = S
2
X + S
2
Y + 2.Cov(X,Y)
2 – S2X-Y = S
2
X + S
2
Y – 2.Cov(X,Y)
No entanto, em algumas situações, é necessário o conhecimento de uma informação adicional 
para uma análise mais apurada (por exemplo: peso e altura para uma análise do aspecto físico 
de um grupo de pessoas).
Para a análise da dispersão conjunta de duas variáveis temos a medida estatística denominada 
Covariância:
7.3 – Propriedades da Covariância:
1ª) a covariância não é influenciada por operações de soma e subtração: Cov(X A,Y B) = Cov(X,Y), 
onde A e B são constantes.
2ª) a covariância é influenciada por operações de produto e divisão: Cov(A X,B Y) = A.B. Cov(X,Y), 
onde A e B são constantes.
7.4 – Cálculo da Correlação (r)
Fator de Correlação Linear de Pearson
O valor da correlação varia de – 1 a 1
 • Se r = – 1, Correlação negativa perfeita (linear decrescente)
 • Se – 1 < r < 0, Correlaçãonegativa
 • Se r = 0, Correlação linear inexistente
 • Se 0 < r < 1, Correlação positiva
 • Se r = 1, Correlação positiva perfeita (linear crescente)
A correlação é positiva quando aumentando o valor de uma variável aumentará também o da 
outra, ou quando diminuindo o valor da primeira, a segunda também diminui; ou seja, teremos 
correlação positiva quando as duas variáveis oscilarem sempre no mesmo sentido.
A correlação é negativa quando as duas variáveis oscilarem em sentido inverso; ou seja, 
aumentando uma, diminuirá a outra, e vice-versa.
28
7.5 – Propriedade: “A Correlação não é influenciada 
pelas operações algébricas”.
EXEMPLO: Considere a seguinte tabela, que apresenta valores referentes às variáveis x e y, 
porventura relacionadas:
Valores das variáveis x e y relacionadas
x y x2 y2 x y
1 5 1 25 5
2 7 4 49 14
3 12 9 144 36
4 13 16 169 52
5 18 25 324 90
6 20 36 400 120
21 75 91 1.111 317
Marque a opção que representa o coeficiente de correlação linear entre as variáveis x e y.
a) 0,903 
b) 0,926 
c) 0,947 
d) 0,962 
e) 0,989 
LETRA E
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
29
AMOSTRAGEM
Amostragem – é o ato de obter amostra de uma população. O levantamento por amostragem 
objetiva a redução do custo e tempo do processo estatístico. O tamanho da amostra deve ser no 
mínimo 10% da população, para que haja uma maior fidedignidade dos fatos.
1 – CONCEITOS EM AMOSTRAGEM
Inferência Estatística – é o processo de obter informações sobre uma população a partir de 
resultados observados na amostra.
Amostragem – É o processo de retirada de informações dos “n” elementos amostrais, na qual 
deve seguir um método adequado (tipos de amostragem).
2 – PLANO DE AMOSTRAGEM
1º) Definir os Objetivos da Pesquisa
2º) População a ser amostrada
Parâmetros a ser estimados (Objetivos)
3º) Definição da Unidade Amostral
Seleção dos Elementos que farão parte da amostra
4º) Forma de seleção dos elementos da população
Tipo de Amostragem: 
30
5º) Tamanho da Amostra
Exemplo: Moradores de uma Cidade (população alvo)
Objetivo: Tipo de Residência 
Unidade Amostral: Domicílios (residências)
Elementos da População: Família por domicílio
3 – TIPOS DE AMOSTRAGEM
A) Probabilísticos:
Amostragem Simples ou Ocasional
É o processo mais elementar e frequentemente utilizado. Todos os elementos da população 
têm igual probabilidade de serem escolhidos. Para uma população finita o processo deve ser 
sem reposição. Todos os elementos da população devem ser numerados. Para realizar o sorteio 
dos elementos da população pode-se usar a Tabela de Números Aleatórios ou gerar números 
aleatórios por meio de um software;
Amostragem Sistemática
Trata-se de uma variação da Amostragem Aleatória Ocasional, conveniente quando a população 
está naturalmente ordenada, como fichas em um fichário, lista telefônica, etc.
Ex.: N = 500 (População)
 n = 50 (Amostra)
 então r = N/n = 500/50 = 10, (teremos uma Progressão Aritmética (PA) de razão 10)
Sorteia-se usando a Tabela de Números Aleatórios um número entre 1 e 10, (x = 3), o número 
sorteado refere-se ao 1o elemento da amostra, logo os elementos da amostra serão:
3 13 23 33 43 ......
Para determinar qualquer elemento da amostra podemos usar a fórmula do termo geral de uma 
P.A.
Amostragem Estratificada
É um processo de amostragem usado quando nos depararmos com populações heterogêneas, 
na qual pode-se distinguir subpopulações mais ou menos homogêneas, denominados estratos.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
31
Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada uma subpopu-
lação (estrato).
As diversas subamostras retiradas das subpopulações devem ser proporcionais aos respetivos 
números de elementos dos estratos, e guardarem a proporcionalidade em relação a variabilidade 
de cada estrato, obtendo-se uma estratificação ótima.
Tipos de variáveis que podem ser usadas em estratificação: idade, classes sociais, sexo, profissão, 
salário, procedência, etc.
Amostragem por Conglomerados (ou Agrupamentos)
Algumas populações não permitem, ou tornam-se extremamente difícil que se identifiquem 
seus elementos, mas podemos identificar subgrupos da população. Em tais casos, uma amostra 
aleatória simples desses subgrupos (conglomerados) podem ser escolhidas, e uma contagem 
completa deve ser feita no conglomerado sorteado.
Agregados típicos são: quarteirões, famílias, organizações, agências, edifícios, etc.
B) Não Probabilísticos: 
Por julgamento – os elementos são escolhidos de modo intencional.
Por quotas – também baseado em um julgamento (escolha intencional). Os grupos (quotas) 
extraídos têm número proporcional àquele em que se encontram na população.
4 – TAMANHO DA AMOSTRA
Os pesquisadores de todo o mundo, na realização de pesquisas científicas, em qualquer setor 
da atividade humana, utilizam as técnicas de amostragem no panejamento de seus trabalhos, 
não só pela impraticabilidade de poderem observar, numericamente, em sua totalidade 
determinada população em estudo, como devido ao aspecto econômico dessas investigações, 
conduzidos com um menor custo operacional, dentro de um menor tempo, além de possibilitar 
maior precisão nos respectivos resultados, ao contrário, do que ocorre com os trabalhos 
realizados pelo processo censitário.
A técnica da amostragem, a despeito de sua larga utilização, ainda necessita de alguma didática 
mais adequada aos pesquisadores iniciantes.
Na teoria da amostragem, são consideradas duas dimensões:
1ª) Dimensionamento da Amostra;
2ª) Composição da Amostra.
Variáveis Aleatórias
Variável representa a intensidade com que o atributo ocorre no fenômeno estudado.
32
a) Uma variável pode ser:
Discreta (ou descontinua) – quando a menor diferença não-nula entre dois valores possíveis 
dessa variável é finita. Normalmente resulta de contagem.
Continua – pode assumir o valor de qualquer número real. Normalmente resulta de mensuração.
Distribuições De Probabilidade
Em Estatística, uma Distribuição de Probabilidade descreve a chance que uma variável pode 
assumir ao longo de um espaço de valores.
Principais Distribuições de Probabilidade
1 – Variáveis Aleatórias Discretas 
a) Distribuição de Bernoulli
Consideremos uma única tentativa de um experimento aleatório. Podemos ter sucesso ou 
fracasso nessa tentativa.
Seja p a probabilidade de sucesso e q a probabilidade de fracasso, com p + q = 1, ou seja, q = 
1 − p.
Seja X o número de sucessos em uma única tentativa do experimento. X assume o valor 0 que 
corresponde ao fracasso, com probabilidade q, ou o valor 1, que corresponde ao sucesso, com 
probabilidade p.
P(X = 0) = q e P(X = 1) = p
Nessas condições a variável aleatória X tem distribuição de BERNOULLI, e sua função de 
probabilidade é dada por:
P(X = x) = p(x) · q(1-x)
A esperança da distribuição de Bernoulli é 
E(X) = p 
Variância é V (X) = p . q.
b) Distribuição Binomial
A probabilidade de um evento A ocorrer exatamente k vezes em um determinado experimento 
aleatório é dada por:
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
33
Onde: n = número de eventos e k = é o número de favoráveis dentro dos eventos
Vale observar que se a probabilidade de realização de um evento (sucesso) é p, a probabilidade 
de não realização desse evento (insucesso) é 1 – p = q.
A esperança da distribuição Binomial é 
E(X) = n . p
Variância é V (X) = n.p.q
c) Distribuição de Poisson
Na distribuição binomial, se n for muito grande, enquanto a probabilidade p da ocorrência de 
um evento for próxima de zero, o evento será denominado raro. Na prática, considera-se um 
evento como raro quando o número de tentativas é, pelo menos, igual a 50 (n ≥ 50), ao passo 
que n.p é menor que 7. Nesses casos, a distribuição binomial é muito aproximada da de Poisson, 
com λ = n.p.
A distribuição de Poisson 
Esta é uma distribuição associada a “eventos raros”. As razões para isso se tornarão mais claras a 
medida que a aplicação desse modelo for descrita.Os eventos podem ser:
 • acidentes automotivos
 • erros de digitação
 • chegada de um cliente em um banco
 • entre outros eventos…
A distribuição de Poisson é aplicável quando o número de possíveis ocorrências discretas é 
muito maior do que o número médio de ocorrências em um determinado intervalo de tempo 
ou espaço. O número de possíveis ocorrências, muitas vezes não se sabe exatamente. Os 
resultados devem ocorrer de forma aleatória, ou seja, totalmente por acaso e da probabilidade 
de ocorrência não deve ser afetado por se ou não os resultados ocorrido anteriormente, 
de modo que as ocorrências são independentes. Em muitos casos, embora possamos 
contar as ocorrências, como a de uma tempestade, não podemos contar as não ocorrências 
correspondentes. (Nós não podemos contar “não-tempestades”!).
De modo geral, dizemos que a variável aleatória X tem uma distribuição de Poisson com 
parâmetro λ > 0, se:
Onde k = 0, 1, 2, ... (número de ocorrências em determinado intervalo de tempo), e representa 
o número médio de eventos ocorrendo no intervalo considerado.
e = 2,71828... (número neperiano).
A esperança da distribuição Poisson é 
E(X) = n . p = λ = V(x) 
Onde: p = λ / n
34
d) A Distribuição Exponencial (ou exponencial negativa)
A distribuição exponencial pode ser associada com a distribuição geométrica. Porém antes 
de tratarmos das similaridades da propriedade dessas duas distribuições avaliaremos as 
características da variável aleatória.
De uma forma bastante resumida imagine uma variável aleatória Poisson, onde temos 
a contagem do número de ocorrências em um intervalo. Suponha agora que estejamos 
interessados em verificar a probabilidade do tempo transcorrido entre duas ocorrências 
consecutivas. Essa última é considerada uma variável aleatória exponencial.
Essa distribuição contínua que pode ser utilizada para descrever as probabilidades envolvidas 
no tempo que decorre para que um determinado evento aconteça. Existe uma conexão muito 
próxima entre a distribuição exponencial e a de Poisson. Ou seja, é Utilizada para descrever o 
tempo entre as ocorrências de sucessivos eventos de uma distribuição de Poisson. As relações 
entre as distribuições podem ser associadas a um processo estocástico, chamado de processo 
de Poisson.
Para simplificar a abordagem imagine um processo de chegada sendo monitorando ao longo do 
tempo (sendo o tempo uma variável contínua).
a) Função de Distribuição Cumulativa:
 ou 
b) Esperança e Variância:
EXEMPLO: Em um experimento binomial com três provas, a probabilidade de ocorrerem 
dois sucessos é doze vezes a probabilidade de ocorrerem três sucessos. Desse modo, as 
probabilidades de sucesso e fracasso são, em percentuais, respectivamente, iguais a:
a) 80 % e 20 % 
b) 30 % e 70 % 
c) 60 % e 40 % 
d) 20 % e 80 % 
e) 25 % e 75 %. 
LETRA D
EXEMPLO: O número de petroleiros que chegam a uma refinaria ocorre segundo uma 
distribuição de Poisson, com média de dois petroleiros por dia. Desse modo, a probabilidade de 
a refinaria receber no máximo três petroleiros em dois dias é igual a:
a) 32/73 e^-4
b) 71/3 e^4
c) 71/3 e^-4
d) 71/3 e^-2
e) 32/3 eˆ-2. 
LETRA C
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
35
2 – Variável Aleatória Contínua (VAC)
A probabilidade de uma VAC X assumir um determinado valor dentro de um intervalo [a,b] de 
valores é dada por:
A função f(x) é chamada Função Densidade de Probabilidade (f.d.p.) da variável X.
Teoricamente, qualquer função f, que não seja negativa e cuja área total sob a curva seja igual à 
unidade, caracterizará uma VAC; ou seja:
a) Esperança de uma Variável Aleatória Contínua
Se uma variável aleatória X possui uma distribuição contínua com f.d.p. f(x), então a esperança 
E(X) é definida por:
b) Variância de uma Variável Aleatória Contínua
Suponha que uma v.a. X possua uma distribuição contínua, cuja f.d.p. é f(x). Então:
c) O Desvio Padrão (DP) será dado por
E(x) = µ(x); Var(x) = σ(x)2 e DP = S = σ(x)
Principais Modelos de Distribuições de Probabilidade 
a) O Modelo Uniforme
É o modelo mais simples para v.a. contínua.
Uma v.a. X tem Distribuição Uniforme no intervalo [α, β ] se sua f.d.p. é dada por
36
A Esperança e a Variância são dadas por
EXEMPLO: A função densidade de probabilidade de uma variável aleatória contínua x é dada 
por:
Para esta função, a média de x, também denominada expectância de x e denotada por E(x) é 
igual a:
a) 4/3.
b) 3/4.
c) – 3/4.
d) – (3/4) x.
e) – (4/3) x.
LETRA C
Distribuição Normal
A distribuição normal é a mais importante distribuição estatística, considerando a questão 
prática e teórica. Esse tipo de distribuição apresenta-se em formato de sino, unimodal, simétrica 
em relação a sua média. Considerando a probabilidade de ocorrência, a área sob sua curva 
soma 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois 
pontos quaisquer é igual à área compreendida entre esses dois pontos.
Na figura, as barras verticais representam os desvios padrões. Quanto mais afastado do centro 
da curva normal, mais área compreendida abaixo da curva haverá. O traço horizontal menor 
indica que 68,26% das observações estão contidas no intervalo entre um desvio padrão para 
a direita e um desvio padrão para a esquerda da média (centro da distribuição). O segundo 
traço indica que a dois desvios padrões em torno da média possuímos 95,44% dos dados e, 
finalmente a três desvios temos 99,73% (traço horizontal maior). Podemos concluir que quanto 
maior a variabilidade dos dados em relação à média, maior a probabilidade de encontrarmos o 
valor que buscamos embaixo da normal.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
37
Características:
1 – É uma curva com a forma de um “sino”, com um eixo de simetria;
2 – Muitas populações reais seguem a distribuição normal; 
3 – Numa população com média µ e desvio-padrão σ:
 • aproximadamente 68% se encontram dentro do intervalo µ ± σ
 • aproximadamente 95% se encontram dentro do intervalo µ ± 2σ;
 • aproximadamente 99,7% se encontram dentro do intervalo µ ± 3σ.
Para achar a área sob a curva normal devemos conhecer dois valores numéricos, a média e o 
desvio padrão.
Para cada valor de e/ou temos uma curva de distribuição de probabilidade. Porém, para se 
calcular áreas específicas, faz-se uso de uma distribuição particular: a “distribuição normal 
padronizada”, o qual é a distribuição normal com µ = 0 e σ = 1. Para obter tal distribuição, isto 
é, quando se tem uma variável X com distribuição normal com média diferente de 0 (zero) e/
ou desvio padrão diferente de 1 (um), devemos reduzi-la a uma variável Z, efetuando o seguinte 
cálculo:
Assim, a distribuição passa a ter média µ = 0 e desvio padrão = 1. Pelo fato de a distribuição ser 
simétrica em relação à média µ = 0, a área à direita é igual a área à esquerda de σ. Por ser uma 
distribuição muito usada, existem tabelas a qual encontramos a resolução de suas integrais. 
Assim, a tabela fornece áreas acima de que vão desde – 3,99 até 3,99. Veja o gráfico da curva 
Normal padronizada na Figura abaixo.
A probabilidade de ocorrência de valores menores ou iguais a um valor genérico z dessa 
distribuição é dada por:
Isso representa a área (entre −∞ e z) sob a curva da função de densidade.
A Tabela III (em anexo) dá os valores de área sob a curva entre 0 e z conforme indicado na Figura 
(a). Portanto, é a fórmula anterior modificada para:
38
Desde que a distribuição normal é simétrica, para calcular a área entre −∞ e z basta somar 0,5 
aos valores da tabela.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
39
EXEMPLO: O Sr. Ramoile, professor de Estatística aposentado, vem há muito tempo 
acompanhando os dados sobre custos e faturamento do restaurante de sua filha Cecília. O 
restaurante funciona todos os dias da semana e o Sr. Ramoile concluiu que: o custo diário do 
restaurante segue uma distribuição normal, com média igual a R$ 500,00 e desvio-padrão igual 
a R$ 10,00 e que o faturamento diário, também,apresenta uma distribuição normal, com média 
R$ 800 e desvio-padrão R$ 20. Como o Sr. Ramoile conhece muito bem os princípios básicos da 
estatística, ele sabe que, se uma variável Z seguir uma distribuição normal padrão, então Z tem 
média 0 e variância 1. Ele também sabe que a probabilidade dessa variável Z assumir valores no 
intervalo entre 0 < Z < 2 ─ ou seja, entre a média 0 e 2 desvios-padrão ─ é, aproximadamente, 
igual a 0,4772. Cecília, muito preocupada com o futuro de seu restaurante, perguntou a seu 
pai se ele poderia verificar a probabilidade de, em um dia qualquer, o custo ser maior do 
que R$ 520,00 e o faturamento ficar no intervalo entre R$ 760,00 e R$ 840,00. Após alguns 
minutos, o Sr. Ramoile disse, acertadamente, que as respectivas probabilidades são, em termos 
percentuais, iguais a
40
a) 2,28; 95,44. 
b) 52,28; 95,44. 
c) 2,28; 98,69. 
d) 98,69; 95,44. 
e) 98,65; 2,28. 
LETRA A
Teorema de Chebychev (A Desigualdade De Tchebycheff)
A proposta do pesquisador russo Pafnuty Lvovich Tchebycheff fornece meios para compreender 
como a variância mede a variabilidade em relação ao valor esperado.
Se conhecermos a distribuição de probabilidade, podemos calcular E(x) e V(x). No entanto, 
se conhecermos E(x) e V(x), não é possível reconstruir a distribuição de probabilidade. Dessa 
forma, sabendo apenas a variância e a esperança não podemos calcular P(|x – E(x)| ≤ c), onde c 
é um valor pequeno qualquer.
Apesar da impossibilidade de calcular P(|x – E(x)| ≤ c) é possível estabelecer limites superiores 
e inferiores para a variabilidade ao redor do valor esperado.
A Equação:
ANTES É PRECISO LEMBRAR OS INTERVALOS BÁSICOS DAS DISTRIBUIÇÕES QUE SÃO: 
intervalo µ ± σ; intervalo µ ± 2σ; intervalo µ ± 3σ.
(I) COMPLEMENTAR: 
(II) PARA 
(III) PARA 
Unindo as três equações acima, para cálculo entre intervalos, chega-se a equação:
Onde K é o número de desvios padrões do intervalo que se deseja.
Vale atentar para os seguintes valores:
Quando K = 2 (intervalo µ ± 2σ): Ao menos 3/4 (75%) de todos os valores estão no intervalo;
Quando K = 3 (intervalo µ ± 3σ): Ao menos 8/9 (89%) de todos os valores estão no intervalo;
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
41
Aproximação da Distribuição Binomial pela Distribuição Normal
Aumentando-se o tamanho da amostra a distribuição de probabilidade binomial se aproxima 
da normal, passando a mesma variável do tipo discreto a ter o mesmo tratamento que uma 
variável do tipo contínuo, com E(x) = n . p e V(x) = n . p . q.
Distribuição “t” de Student
Esta distribuição “t” ou Student foi estudada por Gosset em 1908 e se refere a pequenas 
amostras, isto é, quando n < 30. Sua curva representativa é bem semelhante à curva normal, 
sendo também simétrica em relação a ordenada máxima, mas apresentando as extremidades 
com maior comprimento e mais elevadas, fato este que determina uma variância maior do que 
a distribuição normal.
É MUITO IMPORTANTE ATENTAR PARA OS SÍMBOLOS:
 = MÉDIA DA AMOSTRA;
µ = MÉDIA DA POPULAÇÃO;
S = DESVIO PADRÃO DA AMOSTRA;
σ = DESVIO PADRÃO DA POPULAÇÃO;
δ = GRAU DE LIBERDADE.
Na distribuição normal verificamos que ela depende dos parâmetros µ e σ. Mas na maioria 
das vezes, a variância populacional não é conhecida e as investigações ou análises são feitas 
a partir de amostras retiradas dessa população. Nessas condições o desvio padrão amostral S 
corresponderá a uma estimativa de σ, logo:
onde n – 1 corresponderá ao número de graus de liberdade δ, ou seja, o número de variáveis 
independentes, fixada uma condição.
Para cada amostra da população teremos:
Onde: = média da amostra
µ = média da população
42
A medida que o grau de liberdade aumenta t → Z, observando que ao ultrapassar 30 graus 
de liberdade já é possível usar a distribuição normal, pois a diferença entre os resultados será 
bastante pequena.
Genericamente, existe uma família de distribuições “t”, cuja forma tende à distribuição normal 
reduzida, à medida que n cresce (pois S tende a σ e, portanto, t tende a Z).
Distribuição Qui-quadrado (x2)
A distribuição Qui-quadrado possui numerosas aplicações em inferência estatística, tais 
como os testes não paramétricos. Sejam X1, X2, ..., Xn, variáveis aleatórias independentes, 
normalmente distribuídas com média zero e variância σ2. Define-se a variável aleatória x2, com 
δ graus de liberdade como sendo a soma do quadrado de δ variáveis normais padronizadas e 
independentes, isto é:
A distribuição x2 assume diversas formas gráficas dependendo do número de graus de liberdade
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
43
Parâmetros da Distribuição:
E(x) = δ e V(x) = 2δ
Distribuição F de Snedecor
A distribuição F de Snedecor também conhecida como distribuição de Fisher é frequentemente 
utilizada na inferência estatística para análise da variância
A distribuição F é uma distribuição de amostragem contínua da razão de duas variáveis aleatórias 
independentes com distribuição qui-quadrado, cada uma dividida por seus graus de liberdade. 
O distribuição F é assimétrica à direita e descrito pelos graus de liberdade de seu numerador 
(ν1) e denominador (ν2). Os gráficos a seguir mostram o efeito de diferentes valores de graus de 
liberdade na forma da distribuição, como por exemplo a curva abaixo:
Onde V1 = 1 e V2 = 9
Utiliza-se a distribuição F, quando uma estatística de teste é a razão entre duas variáveis que 
tenham, cada uma delas, uma distribuição do qui-quadrado. Por exemplo, use a distribuição F na 
análise de variância e em testes de hipóteses para determinar se duas variâncias de população 
são iguais. 
A) Principais Características:
 • Cada par de graus de liberdade da origem a uma distribuição F diferente;
 • A distribuição F depende de dois parâmetros. O primeiro (ν1) é o grau de liberdade do 
numerador e o segundo (ν2) do denominador;
 • A variável aleatória Fé não-negativa, e a distribuição é assimétrica à direita;
 • A distribuição F se parece com a distribuição qui-quadrado, no entanto, os parâmetros ν1 e 
ν2 fornecem flexibilidade extra em relação à forma;
44
B) Teorema: 
Sejam Q1 e Q2 variáveis aleatórias independentes, com distribuição qui-quadrado com ν1 e ν2 
graus de liberdade, respectivamente. Então, a variável aleatória 
tem distribuição F de Snedecor com ν1 graus de liberdade no numerador e ν2 graus de liberdade 
no denominador.
C) Relações Importantes: 
Observação:
Suponha que temos duas populações independentes tendo distribuições normais com 
variâncias iguais a σ2. Considere Y11, ...,Y1n uma amostra aleatória da primeira população com 
n observações e Y21, ...,Y2m uma amostra aleatória da segunda população com m observações. 
Então, a estatística 
tem distribuição F de Snedecor com (n − 1) graus de liberdade no numerador e (m − 1) graus 
de liberdade no denominador, onde S1 e S2 são os desvios padrão amostrais da primeira e da 
segunda amostra, respectivamente.
EXEMPLO: Em uma distribuição de probabilidade, a esperança matemática é 75, com uma 
variância de 25 e deseja-se calcular a probabilidade de uma variável aleatória X estar entre os 
limites de 67 a 83:
a) 75% de probabilidade.
b) 25% de probabilidade.
c) 60,9% de probabilidade.
d) 39,1% de probabilidade.
e) 89% de probabilidade. 
LETRA C
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
45
Teste de Hipótese
Quando não temos certeza a respeito de uma afirmação sobre um parâmetro estatístico (média, 
desvio-padrão), dizemos que essa afirmação é uma hipótese
Um teste de hipótese é um processo estatístico que tem como finalidade verificar se uma 
determinada afirmação é verdadeira.
Erros em um teste de Hipótese:
Podemos cometer um erro ao analisar uma afirmação.
H0
verdadeira falsa
Aceitar H0 atitude certa erro II (β )
Rejeitar H0 erro I (α ) atitude certa
A probabilidade de se cometer um erro do tipo I é denominada de nível de significância
P(erro I) = α
Tipos de Testes:
a) Bilateral: H0: µ = P e H1: µ ≠ P (Rejeitar se Zcalc < – Zα ou Zcalc > Zα)
b)Unilateral à esquerda: H0: µ ≥ P e H1: µ < P (Rejeitar se Zcalc < – Zα)
c) Unilateral à direita: H0: µ ≤ P e H1: µ > P (Rejeitar se Zcalc > Zα)
 
46
Estrutura de um teste de hipótese:
a) formular as hipóteses H0 e H1.
b) escolher uma distribuição adequada (comumente a distribuição normal) para testar a média.
c) escolher um nível significância (valor crítico).
d) calcular a estatística teste.
Onde: 
µ = média afirmada em H0.
µ0 = média da amostra testada.
σ = desvio-padrão da população (ou amostra com n ≥ 30).
n = número de elementos da amostra.
e) comparar a estatística teste com a estatística tabelada (Zteste e Ztab).
f) rejeitar H0 se o valor de Zteste estiver na zona de rejeição, ou aceitar H0 se Zteste na área 
de aceitação.
Determinação Do Tamanho De Uma Amostra Com Base Na Estimativa Da Média 
Populacional
Suponha, por exemplo, que queiramos estimar a renda média de pessoas que concluíram um 
curso superior, no primeiro ano após a formatura. QUANTAS rendas devemos incluir em nossa 
amostra? A determinação do tamanho de uma amostra é problema de grande importância, 
porque:
 • amostras desnecessariamente grandes acarretam desperdício de tempo e de dinheiro;
 • e amostras excessivamente pequenas podem levar a resultados não confiáveis.
Em muitos casos é possível determinar o tamanho mínimo de uma amostra para estimar um 
parâmetro estatístico, como por exemplo, a média populacional (µ) .
A fórmula para cálculo do tamanho da amostra para uma estimativa confiável da média 
populacional é dada por: 
Onde:
n = Número de indivíduos na amostra
Zα/2 = Valor crítico que corresponde ao grau de confiança desejado.
σ = Desvio-padrão populacional da variável estudada.
E = Margem de erro ou ERRO MÁXIMO DE ESTIMATIVA (Identifica a diferença máxima entre a 
média amostral (X) e a verdadeira média populacional (µ), ou seja: ).
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
47
EXEMPLO: Suponhamos que uma indústria compre de certo fabricante parafusos cuja carga 
média de ruptura por tração é especificada em 50 Kg, o desvio-padrão das cargas de ruptura é 
suposto ser igual a 4 Kg.
O comprador deseja verificar se um grande lote de parafusos recebidos deve ser considerado 
satisfatório, no entanto existe alguma razão para se temer que a carga média de ruptura seja 
eventualmente inferior à 50 Kg. Se for superior não preocupa o comprador pois neste caso os 
parafusos seriam de melhor qualidade que a especificada.
A hipótese do comprador é que a carga média da ruptura é inferior a 50 Kg. O comprador 
pode ter o seguinte critério para decidir se compra ou não o lote: resolve tomar uma amostra 
aleatória simples de 25 parafusos e submetê-los ao ensaio de ruptura. Se a carga média de 
ruptura observada nesta amostra for maior que 48 Kg, com nível de significância de 5%, ele 
comprará o lote, caso contrário se recusará a comprar.
Resposta: 
EXEMPLO: Em um teste de hipóteses bilateral, com nível de significância α, cujas estatísticas de 
teste calculadas e tabeladas são designadas por Tc e T α/2, respectivamente, pode-se afirmar 
que:
a) Se – Tα/2 ≤ Tc ≤ Tα/2, rejeita-se H0
b) Se – Tα/2 ≤ Tc ≤ T/2, não se pode rejeitar H0
c) a probabilidade de se rejeitar H0, sendo H0 verdadeira, é igual a α/2
d) ocorre erro tipo I quando se aceita H) e H0 é falsa
e) se α for igual a 5%, então a probabilidade de ocorrer erro tipo II é 95% 
LETRA B
Análise de Variância – ANOVA
Técnica utilizada para comparação entre dois ou mais níveis de tratamento, de uma ou mais 
variáveis de teste (fatores de controle).
Para o cálculo da ANOVA é de fundamental importância primeiro calcular a Média e o Desvio 
Padrão de cada uma das varáveis a serem testadas.
Na ANOVA, a hipótese nula H0 determina que:
 • Não exista diferença significativa entre as variáveis testadas;
 • Amostras de uma mesma população de resultados.
H0: µA = µB ... = µn
Isto contra uma hipótese alternativa H1, que determina que:
 • Existe diferença significativa entre as variáveis testadas
Assim, tem-se que:
Caso Ho seja verdadeiro, existem duas para ter a análise:
48
 • Média das variâncias de cada amostra: (Dentro do Tratamento = Erro).
 • A partir da variância das médias amostrais, veja que para cada variável existe uma média, 
assim fazer a variância destas médias (Entre Tratamentos).
(onde n = tamanho das amostras de tratamento)
Assim a relação entre estes dois métodos, que uma distribuição de probabilidades (Z) já 
tabelado, gerando assim a estatística F:
Desta forma existem as seguintes relações:
 • F >> 1 = Rejeitar Ho ( o que quer dizer que as populações são muito diferentes)
 • F ≅ 1 = Aceitar Ho, logo confirma-se a teoria inicial, de aceitar Ho e com isso as populações 
são muito parecidas)
Quadro de ANOVA:
FONTE DE 
VARIABILIDADE
SOMA DOS 
QUADRADOS
GRAU DE 
LIBERDADE
QUADRADO 
MÉDIO RAZÃO F
Entre 
Tratamentos St = nt xt − x( )∑
2
vt =k−1 St
2 = St
vt
F= St
2
Sr
2
Dentro dos 
Tratamentos Sr = xt − x( )
2∑ vr =N−K Sr2 =
sr
vr
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
49
Onde:
K = número de tratamentos ( variáveis)
nt = tamanho da amostra
N = Total de dados (soma dos dados de todas as amostras de cada variável N = n1 + n2 + ... + 
nn)
EXEMPLO: Um metalúrgica deseja fazer o teste de vida útil de brocas de corte. Foram escolhidos 
três fabricantes diferentes e foram obtidos os seguintes dados:
FATOR DE CONTROLE
A B C
245 257 281
259 227 276
255 252 257
247 237 261
241 238 254
251 220 260
271 216 254
256 229 258
Sabendo que: 
Xa = 253,23;
Sa = 9,6; 
Xb = 234,5; 
Sb = 14,5; 
Xc = 262,63; 
Sc = 10,2.
Pela análise da variância, a hipótese nula deve:
a) Ser rejeitada
b) Ser aceita
c) Não existem informações suficiente para análise
d) Está dentro do nível de significância F
e) É melhor rejeitar a hipótese alternativa H1. 
LETRA A
50
ANÁLISE DE REGRESSÃO
A análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação 
existente entre duas variáveis.
1 – REGRESSÃO LINEAR SIMPLES
Dado um conjunto de valores observados de X e Y, construir um modelo de regressão linear de 
Y sobre X consiste em obter, a partir desses valores, uma reta que melhor represente a relação 
entre essas variáveis. A determinação dos parâmetros dessa reta é denominada ajustamento.
O processo de ajustamento deve partir da escolha da função através do qual os valores de X 
explicarão os de Y; para isso recorre-se a um gráfico conhecido como diagrama de dispersão. A 
função escolhida será aquela que for sugerida pelo conjunto dos pontos dispostos no diagrama.
No exemplo a seguir, tem -se um conjunto de pontos sugerindo uma função linear.
A reta é ajustada por:
2 – MÉTODO DOS MÍNIMOS QUADRADOS
O primeiro passo na análise de regressão é obter as estimativas dos parâmetros do 
modelo. Os valores dessas estimativas serão obtidos a partir de uma amostra de n pares de 
valores(Xi, Yi), i = 1,...,n que correspondem a n pontos em um gráfico, como na Figura 1.2.1. No 
método de Mínimos Quadrados, não é necessário conhecer a forma da distribuição dos erros.
Suponha que é traçada uma reta arbitrária passando por esses pontos. No valor Xi da 
variável explicativa, o valor predito por esta reta é , enquanto o valor observado é Yi. 
Os desvios (erros) entre estes dois valores é , que corresponde a distância 
vertical do ponto à reta arbitrária.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
51
O objetivo é estimar os parâmetros de modo que os desvios ( ) entre os valores 
observados e estimados sejam mínimos. Isso equivale a minimizar o comprimento do vetor de 
erros, 
Uma forma de obter essas estimativas é o Método de Mínimos Quadrados. Este método consiste 
em minimizar a soma dos quadrados dos desvios L, como na expressão abaixo:
Obviamente, que poderíamos calcular a distância entre a reta e os valores observados de 
diferentes formas. Por exemplo, poderíamos utilizar o módulo ao invés do quadrado, ou 
qualquer função de distância apropriada. A escolha do quadradoestá na simplicidade dos 
cálculos envolvidos 
3 – REGRESSÃO LINEAR MÚLTIPLA
A equação de regressão estimada pode ser vista como uma tentativa para explicar as variações 
na vaiável dependente Y, que resultam das alterações das variáveis independentes X1, X2,...,Xk. 
Seja a média dos valores observados para a varável dependente.
Uma medida útil associada ao modelo de regressão é o grau em que as predições baseadas na 
equação, , superam as predições baseadas em . 
Se a dispersão (erro) associada equação é muito menor que a dispersão (erro) associada a , as 
predições baseadas no modelos serão melhores que as baseadas em . 
Dispersão em torno de ou Variação Total (SST):
 (Soma dos Quadrados Totais) (n – 1 grau de liberdade)
Dispersão em torno da regressão = Variação não Explicada (SSE)
(Soma dos Quadrados dos Resíduos) (1 grau de liberdade)
OBS: O ajustamento será tanto melhor quanto menor for SSE relativamente a SST
Dispersão em torno de e = Variação Explicada (SSR)
 (Soma dos Quadrados da Regressão) ((n – 2 grau de liberdade)
Assim: SST = SSE + SSR
52
E o quociente entre SSR e SST é o coeficiente de determinação (r2)
Note que: 0 ≤ r2 ≤ 1;
r2 ≅ 1 (próximo de 1) significa que grande parte da variação de Y é explicada linearmente pelas 
variáveis independentes;
r2 ≅ 0 (próximo de 0) significa que grande parte da variação de Y não é explicada linearmente 
pelas variáveis independentes.
Ou também este coeficiente pode ser utilizado como uma medida da qualidade do ajustamento, 
ou como medida da confiança depositada na equação de regressão como instrumento de 
previsão:
r2 ≅ 0 → modelo linear muito pouco adequado;
r2 ≅ 1 → modelo linear bastante adequado.
EXEMPLO: Os dados a seguir referem-se ao volume de precipitação pluviométrica (em mm) e ao 
volume de produção de leite tipo C (em milhões de litros), em determinada região do país.
ANO Produção de Leite C Índice Pluviométrico (mm)
1970 26 23
1971 25 21
1972 31 28
1973 29 27
1974 27 23
1975 31 28
1976 32 27
1977 28 22
1978 30 26
1979 30 25
A partir dos dados fornecidos, pede-se:
a) ajustar os dados através de um modelo linear. 
b) admitindo-se, em 1980, um índice pluviométrico de 24 mm, qual deverá ser o volume 
esperado de produção do leite tipo C? 28,1
EXEMPLO: Um modelo de regressão linear múltipla foi estimado pelo método de Mínimos 
Quadrados, obtendo-se, com um nível de confiança de 95%, os seguintes resultados:
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
53
Desse modo, pode-se afirmar que:
a) se a variável x1 for acrescida de uma unidade, então Y terá um acréscimo de 2,5 %.
b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada.
c) x3 explica 95,32% das variações de Y em torno de sua média.
d) as probabilidades de se cometer o Erro Tipo I e o Erro Tipo II são, respectivamente, iguais a 
5% e 95%.
e) se no teste de hipóteses individual para β2 se rejeitar a hipótese nula (H0), então tem-se 
fortes razões para acreditar que x2 não explica Y. 
LETRA B
54
TESTE DO QUI-QUADRADO
Este teste objetiva verificar se a frequência absoluta observada de uma variável é significativa-
mente diferente da distribuição de frequência absoluta esperada.
1 – TESTE DO QUI-QUADRADO PARA UMA AMOSTRA
Aplica-se quando se quer estudar a dependência entre duas variáveis, através de uma tabela de 
dupla entrada ou também conhecida como tabela de contingência.
Condições para a execução do teste:
1 – Exclusivamente para variáveis nominais e ordinais; 
2 – Observações independentes; 
3 – Não se aplica se 20% das observações forem inferiores a 5;
4 – Não pode haver frequências inferiores a 1. 
Nos dois últimos casos, se houver incidências desta ordem, aconselha-se agrupar os dados 
segundo um critério em específico.
Procedimento para a execução do teste:
1 – Determinar H0. Será a negativa da existência de diferenças entre a distribuição de frequência 
observada e a esperada;
2 – Estabelecer o nível de significância (µ );
3 – Determinar a região de rejeição de H0. Determinar o valor dos graus de liberdade (φ), sendo 
K – 1 (K = número de categorias). Encontrar, portanto, o valor do Qui-quadrado tabelado;
4 – Calcular o Qui Quadrado, através da fórmula.
d2 = (o – e)2
onde, 
o = frequência observada para cada classe; 
e = frequência esperada para aquela classe
ATENÇÃO: O CÁLCULO DO VALOR ESPERADO É: (NÃO ESQUEÇER QUE A 
TABELA É UMA MATRIZ (aij)).
A média dos desvios é nula, porem a elevação ao quadrado transforma todos os desvios em 
valores positivos, tornando possível a soma dos desvios sem haver cancelamento.
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
55
O teste x2 é, essencialmente, um mecanismo pelo qual os desvios de uma proporção hipotética 
são reduzidos a um único valor, que permite determinar uma probabilidade a respeito da 
casualidade ou não dos desvios entre as proporções observadas e esperadas, assim:
Assim, quando as frequências observadas são muito próximas às esperadas, o valor de x2 é 
pequeno, e quando as divergências são grandes, consequentemente assume valores altos. 
2 – DISTRIBUIÇÃO DO QUI-QUADRADO
Valores de x2 menores que 3,841têm 95% de probabilidade de ocorrência.
Valores de x2 menores que 6,635 têm 99% de probabilidade de ocorrência.
3 – TESTE DE HIPÓTESES
 • Hipótese nula (H0) – frequências observadas = frequências esperadas. Não há associação 
entre os grupos (casualidade).
 • Hipótese alternativa (H1) – as frequências observadas ≠ frequências esperadas. Os grupos 
estão associados.
 • Nível de significância (α): significa o risco de se rejeitar uma hipótese verdadeira. Deverá 
ser estabelecido antes da analise de dados e é usualmente fixado em 5% (P = 0,05).
 • O valor de x2 ao nível de significância α é denominado qui-quadrado crítico ou tabelado 
(x2c).
56
 • Graus de Liberdade (G.L.): é a diferença entre o numero de classes de resultados e o núme-
ro de informações da amostra que são necessários ao cálculo dos valores esperados nessas 
classes.
Regras de Decisão:
 • É necessário obter duas estatísticas: X² calculado: obtido diretamente dos dados das 
amostras e X² tabelado: depende do número de graus de liberdade e do nível de significância 
adotado.
 • Se X² calculado ≥ X² tabelado: Rejeita-se Ho. Se X² calculado < X² tabelado: Aceita-se Ho.
 • Quando se consulta a tabela de X² observa-se que é determinada uma probabilidade (P) de 
ocorrência de um determinado acontecimento.
 • Rejeita-se uma hipótese quando a máxima probabilidade de erro ao rejeitar aquela hipótese 
for baixa OU quando a probabilidade dos desvios terem ocorrido pelo simples acaso é baixa.
4 – TESTE DO QUI-QUADRADO PARA 
INDEPENDÊNCIA (DUAS AMOSTRAS)
A utilização do presente teste em pesquisa visa verificar se as distribuições de duas ou mais 
amostras não relacionadas diferem significativamente em relação à determinada variável.
 • Ao aplicar o teste do X², supõe-se que o tamanho amostral será relativamente grande;
 • Quando a amostra é pequena e/ou que a frequência esperada em uma das classes é 
pequena(tipicamente, quando for menor que 5) a fórmula de obtenção de X² poderá 
produzir um valor significativo (> do que o X² crítico), e, portanto, maior do que o valor real;
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
57
 • Nos casos de tabelas 2 x 2, caso necessário, Fisher recomenda o uso de um fator de correção 
de continuidade de YATES para cada classe, a fim de evitar eventuais conclusões erradas.
 • De modo geral, usa-se a correção de Yates quando:
1) o valor de Qui-Quadrado obtido é maior que o crítico e o valor de N é menor que 40 ou;
2) o valor de Qui-Quadrado obtido é maior que o crítico e há pelo menos uma classe com 
frequência esperada menor que 5.
5 – COEFICIENTE DE CONTIGENCIA (CC)
O CC é um indicador do grau de associação entre duas variáveis analisadas pelo Qui-quadrado.
Quanto mais próximo de 1, melhor o coeficiente de contingência, que varia de 0 a 1, ou seja:
ENTRE 0 E 0,5: DE FRACOA MODERADO
ENTRE 0,5 E 1: DE MODERADO A FORTE
Onde: 
n = somatório total das linhas e colunas
K = o menor número possível de linhas ou colunas da tabela
EXEMPLO: Em um certo hospital, foi feita uma pesquisa entre vacinas e resfriados de seus 
pacientes, gerando a seguinte tabela:
VACINAÇÃO
FICAR RESFRIADO
RESFRIADO NÃO RESFRIADO
VACINADO 15 20
NÃO VACINADO 25 40
58
Foi feito então um estudo para se saber através destes dados, as relações entre resfriado e 
vacinação. Após o tratamento estatístico dos dados, através dos qui-quadrados, chegou-se a 
seguinte conclusão:
a) X2 = 0,183; CC = 0,6; Associação Forte 
b) X2 = 0,0183; CC = 0,06: Associação Fraca
c) X2 = 0,183; CC = 0,06: Associação Fraca
d) X2 = 0,183; CC = 0,6; Associação Fraca 
e) X2 = 0,0183; CC = 0,06: Associação Forte 
LETRA C
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
59
CORRELAÇÃO
1 – CONCEITOS INICIAIS
Correlação é um valor que indica o grau de inter-relação de influência – algum tipo de associação 
– entre duas ou mais variáveis (por exemplo: grau de escolaridade e número de livros que uma 
pessoa possui).
Para se determinar a Correlação são necessárias as seguintes medidas estatísticas: Desvio 
Padrão (S), Variância (S2) e Covariância (Cov).
O Desvio Padrão e a Variância, já estudados anteriormente, são Medidas de Dispersão utilizadas 
quando desejamos saber o quão próximos ou quão afastados estão os elementos de um 
conjunto, em relação a um determinado referencial (a média aritmética do conjunto)
Propriedades da Variância
1ª) a Variância não é influenciada por operações de soma e subtração: S2X + ou -K = S
2
X, onde K é 
uma constante.
2ª) a Variância é influenciada por operações de produto e divisão: S2K+ ou – X = K
2 S2X, onde K é 
uma constante.
3ª) Propriedade da Variância de Duas Variáveis (Xi e Yi):
1 – S2X+Y = S
2
X + S
2
Y + 2.Cov(X,Y)
2 – S2X-Y = S
2
X + S
2
Y – 2.Cov(X,Y)
No entanto, em algumas situações, é necessário o conhecimento de uma informação adicional 
para uma análise mais apurada (por exemplo: peso e altura para uma análise do aspecto físico 
de um grupo de pessoas).
Para a análise da dispersão conjunta de duas variáveis temos a medida estatística denominada 
Covariância:
Propriedades da Covariância
1ª) a covariância não é influenciada por operações de soma e subtração: Cov(X A,Y B) = Cov(X,Y), 
onde A e B são constantes.
2ª) a covariância é influenciada por operações de produto e divisão: Cov(A X,B Y) = A.B. Cov(X,Y), 
onde A e B são constantes.
60
2 – CÁLCULO DA CORRELAÇÃO (R)
Fator de Correlação Linear de Pearson
O valor da correlação varia de – 1 a 1
 • Se r = – 1, Correlação negativa perfeita (linear decrescente)
 • Se – 1 < r < 0, Correlação negativa
 • Se r = 0, Correlação linear inexistente
 • Se 0 < r < 1, Correlação positiva
 • Se r = 1, Correlação positiva perfeita (linear crescente)
A correlação é positiva quando aumentando o valor de uma variável aumentará também o da 
outra, ou quando diminuindo o valor da primeira, a segunda também diminui; ou seja, teremos 
correlação positiva quando as duas variáveis oscilarem sempre no mesmo sentido.
A correlação é negativa quando as duas variáveis oscilarem em sentido inverso; ou seja, 
aumentando uma, diminuirá a outra, e vice-versa.
Propriedade: “A Correlação não é influenciada pelas operações algébricas”.
EXEMPLO: Considere a seguinte tabela, que apresenta valores referentes às variáveis x e y, 
porventura relacionadas:
Valores das variáveis x e y relacionadas
x y x2 y2 x y
1 5 1 25 5
2 7 4 49 14
3 12 9 144 36
4 13 16 169 52
5 18 25 324 90
6 20 36 400 120
21 75 91 1.111 317
Marque a opção que representa o coeficiente de correlação linear entre as variáveis x e y.
a) 0,903 
b) 0,926 
c) 0,947 
d) 0,962 
e) 0,989 
LETRA E
PROBABILIDADE E ESTATÍSTICA | PROF. FABRÍCIO BIAZOTTO
61
Números Índices Simples:
Os números índices simples podem ser chamados (como também os compostos) de relativos de 
base fixa ou relativos de ligação.
Números Índices Simples -Relativos de base fixa:
Neste caso um período é escolhido como referência, ou base, e todos os índices são computados 
em relação aos registros deste período específico. Usualmente no período base o índice recebe 
o valor 100. Os números índices simples podem ser de preço (quando calcula-se a razão entre o 
preço observado de um artigo em um período qualquer e o preço do mesmo artigo no período 
base), de quantidade (quando calcula-se a razão entre a quantidade observada de um artigo em 
um período qualquer e a quantidade no período base), e de valor (quando a razão é calculada 
pelo produto de preço e quantidade do artigo em um período qualquer e o produto de preço e 
quantidade do mesmo artigo no período base). Vejamos as equações:
Preço Quantidade Valor
po,t =
pt
p0
×100 qo,t =
qt
q0
×100 vo,t =
pt ×qt
p0 ×q0
×100
Onde p0 é o preço do artigo no período base, pt é o preço do artigo em um período qualquer, q0 
é quantidade do artigo no período base e qt é a quantidade do artigo em um período qualquer. 
Números Índices Relativos de Ligação:
Provavelmente devido à cultura inflacionária existente no Brasil não costumamos encontrar 
índices em valores absolutos. É bastante comum nos depararmos com os Números Índices 
Relativos de Ligação, que sintetizam as variações econômicas entre dois períodos consecutivos. 
Quando o IBGE divulga o IPC -A de determinado mês é apresentada apenas a variação percentual 
em relação ao mês imediatamente anterior. Para obter os números índices relativos de ligação 
de um período basta dividir o índice do período de interesse pelo do período imediatamente 
anterior.
Preço Quantidade Valor
pt−1,t =
pt
pt−1
×100 qt−1,t =
qt
qt−1
×100 vt−1,t =
pt ×qt
pt−1 ×qt−1
×100
Números Índices Compostos:
Os números índices compostos expressam variações no preço, quantidade ou valor de um 
grupo de itens. São chamados de agregados simples quando atribuem a mesma ponderação 
para todos os itens, desconsiderando a importância relativa de cada um. Já os índices agregados 
ponderados atribuem ponderações diferentes para os itens, o que pode permitir dar maior 
ênfase às variações em determinado item, sendo a forma mais utilizada. Os índices compostos 
mais utilizados são:
62
 • Índice de Laspeyres (época básica): ponderação é feita em função dos preços ou 
quantidades do período base. Podem ser calculados índices de preço e quantidade.
 • Índice de Paasche (época atual): ponderação é feita em função dos preços ou quantidades 
do período “atual”. Podem ser calculados índices de preço e quantidade.
 • Outros índices: Fischer, Marshall – Edgeworth, Drobish, Divisia, e os índices de preços 
normalmente utilizados no Brasil(IGP-M, INPC, IPC-A, ICV do DIEESE, IPC da FIPE).
Índice de Laspeyres
No índice de Laspeyres a ponderação é feita em função dos preços e quantidades do período 
base. Por causa disso ele tende a exagerar a alta, por considerar as quantidades (ou preços) 
iguais aos do período base. As equações:
Índice de preços LO,tp =
i=1
n∑ pt,i ×q0,i( )
i=1
n∑ p0,i ×q0,i( )
×100
Índice de quantidades LO,tq =
i=1
n∑ qt,i ×p0,i( )
i=1
n∑ q0,i ×p0,i( )
×100
Onde n é o número de itens, pt,i é o preço de um item qualquer no período “atual”, p0,i é 
o preço de um item qualquer no período base, qt,i é a quantidade de um item qualquer no 
período atual, e q0,i é a quantidade de um item qualquer no período base.
Índice de Paasche
No índice de Paasche a ponderação é feita em função dos preços e quantidades do período atual. 
Por causa disso ele tende a exagerar a baixa, por considerar as quantidades (ou preços) iguais 
aos do período atual. A mudança constante da época “atual” pode encarecer a pesquisa para 
identificar os pesos. Por essa razão os índices de preços, que costumam fazer as ponderações 
dos diversos itens com base em pesquisas de orçamentos familiares, geralmente utilizam a 
fórmula de Laspeyres (ou alguma modificação dela). 
Índice de preços PO,tp =
i=1
n∑ pt,i ×qt,i( )
i=1
n∑ p0,i