Buscar

Apostila de Estatística Aplicada à Química

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 93 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 93 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 93 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

MINISTÉRIO DA EDUCAÇÃO 
UNIVERSIDADE FEDERAL DO PIAUÍ 
CENTRO DE CIÊNCIAS DA NATUREZA 
DEPARTAMENTO DE QUÍMICA 
 
 
 
 
 
 
 
 
 
 
ESTATÍSTICA APLICADA À QUÍMICA 
 
 
 
 
 
Prof. Dr. Alexandre Araujo de Souza 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Teresina – PI 
2013 
 
SUMÁRIO 
 
ASSUNTO 
CARGA 
HORÁRIA 
1. Conceitos Fundamentais em Estatística. Organização de 
dados quantitativos. Estatística descritiva. População e 
amostra. Distribuições de frequências. Tabelas. Gráficos. 
Histogramas. Medidas de tendência central e de dispersão: 
média, mediana, moda, variância, desvio-padrão. Freqüência 
relativa e probabilidade. 
04 h 
2. Aplicação da Matemática à Estatística. Variável aleatória. 
Distribuições de probabilidade. A distribuição normal. 
Esperança. Variância. Distribuição amostral das médias. 
Estatística inferencial. Teste de hipóteses. Hipótese nula. 
Testes unilaterais e bilaterais. Erros do tipo I e do tipo II. Nível 
de significância. Teste Z. Teste t. Teste F. Intervalos de 
confiança. 
12 h 
3. Métodos Gráficos e Numéricos. Diagramas de dispersão. 
Correlação linear. Coeficiente de correlação de Pearson, r. 
Coeficiente de determinação, r2. Teste de hipóteses sobre a 
correlação. Regressão linear simples. Método dos mínimos 
quadrados. Análise de resíduos. 
10 h 
4. Fontes de Erro em Análise Química. Algarismos 
significativos. Erro e desvio de uma medida. Exatidão e 
precisão. Tipos de erros: determinados e indeterminados. 
Precisão de uma medida. Limite de confiança da média. 
Propagação de erros. Rejeição de resultados: teste Q. 
Amostragem. Padronização. Calibração. Validação. Certificação 
da qualidade. 
04 h 
 
 
Capítulo 1. Conceitos Fundamentais em Estatística. 
 
Introdução 
 
 Estatística é a ciência que faz uso efetivo dos dados numéricos relativos a 
grupos de indivíduos ou experimentos. Nesse sentido, ela trata de todos os aspectos, 
incluindo não só a coleta, organização, análise e interpretação dos dados, mas 
também o planejamento da coleta de dados. Importante dizer que todos os métodos 
estatísticos baseiam-se na teoria das probabilidades. A Estatística é bastante útil para 
orientar a tomada de decisões baseada na análise de um número muito grande de 
dados, tal como pesquisas de opinião pública e de mercado. A palavra estatística 
também pode ser usada para significar o próprio conjunto de dados, ou as grandezas 
a ele associadas, tais como a média e o desvio-padrão. Assim, num conjunto de 
dados, podemos dizer que a média é uma estatística. 
 A etimologia, ou origem da palavra Estatística, mostra que ela deriva da 
palavra Estado. De fato, a expressão em Latim Moderno, statisticum collegium 
(conselho de Estado) e a palavra em Italiano, statista (homem de Estado, Político), 
fizeram com que o filósofo alemão Gottfried Achenwall (1719-1772) introduzisse o 
termo em Alemão, Statistik, em 1749, significando “análise dos dados sobre o Estado”. 
Assim, a Estatística foi originalmente desenvolvida para resolver questões de Estado, 
tais como taxas de nascimento e de mortalidade, impostos, heranças, fortunas, etc. 
 Apesar de sua origem peculiar, a Estatística é hoje utilizada nas mais diversas 
áreas. Ela está presente nas teorias mais fundamentais da Física Moderna, como a 
Mecânica Quântica, e hoje se sabe que a natureza das partículas fundamentais é 
governada por leis estatísticas. Nas áreas de Saúde, a Estatística é conhecida como 
Bioestatística. O nome pode ser diferente, mas os métodos são os mesmos, sendo 
apenas as aplicações específicas para as áreas de Saúde. A Química utiliza bastante 
a Estatística, em suas diversas áreas. Entretanto, a área que mais faz uso da 
Estatística é a Química Analítica. Nesse sentido, a compreensão da teoria de erros 
e da obtenção de retas de regressão, pelo método dos mínimos quadrados, estão 
entre os pontos mais relevantes. Reconhecer os tipos de erros em análises 
químicas, saber como é a propagação dos erros e como eles afetam o resultado é 
de suma importância para o químico. As retas de regressão são bastante usadas nas 
curvas de calibração, empregadas em diversas técnicas de análises quantitativas. 
População e Amostra 
 
 População é o conjunto de todos os elementos, ou resultados, do grupo em 
que estamos interessados em estudar alguma característica. Um exemplo são todos 
os brasileiros do sexo feminino. Elas constituem uma população, caso queiramos 
estudar alguma característica delas, por exemplo, a estatura. Outro exemplo, se 
formos fabricantes de postes de concreto para iluminação e tivermos de testar a 
resistência à ruptura dos postes, para atender às normas técnicas, então toda a 
produção será a nossa população. Repare que, coletar os dados de uma população, 
muitas vezes é inviável, pois o custo é muito alto, como no caso da pesquisa com 
todas as brasileiras. Em outros casos, a coleta de dados da população destruiria toda 
a população, como no caso dos postes de concreto para iluminação. O ensaio de 
resistência à tração danifica os postes. Não é sensato realizar esse experimento na 
população, pois se trata de toda a sua produção. 
 Uma população pode ser finita ou infinita. Nos casos acima, as populações 
são finitas. Se uma moeda é jogada uma única vez, a população, P é constituída pelo 
conjunto de todos os resultados possíveis, ou seja, P = {cara;coroa}. Se uma moeda é 
jogada duas vezes, a população, P é constituída pelo conjunto de todos os resultados 
possíveis, ou seja, P = {cara/cara; cara/coroa; coroa/cara; coroa/coroa}. Nesses dois 
exemplos, as populações são finitas. No primeiro caso, a população tem 21 = 2 (dois) 
elementos. No segundo caso, a população tem 22 = 4 (quatro) elementos. Entretanto, 
considere uma moeda sendo jogada várias vezes, indefinidamente. A cada jogada, dá 
cara ou coroa. A população, nesse caso é infinita, pois consiste nas infinitas 
possibilidades de resultados possíveis. Se uma moeda for jogada n vezes, o tamanho 
da população será dado por 2n. 
Exercício Resolvido. 
Se uma moeda for jogada três vezes (n=3), primeiro calcule o tamanho da população e depois escreva o 
conjunto de resultados P que representa a população. 
Resolução: 
Tamanho da população = 2
3
 = 8 (oito) 
P = {cara/cara/cara; cara/cara/coroa; cara/coroa/cara; coroa/cara/cara; coroa/cara/coroa; coroa/coroa/cara; 
cara/coroa/coroa; coroa/coroa/coroa} 
 
 Amostra é um subconjunto de uma população. É uma fração de elementos, 
coletada da população, para fins de análise. Os dados geralmente são coletados a 
partir de amostras. Esse processo de coleta de dados é denominado amostragem. A 
amostra deve ser representativa da população. Por exemplo, se resolvermos 
pesquisar apenas brasileiras de uma cidade onde a média das mulheres é mais alta 
que a média nacional, então chegaremos à conclusão errada de que a mulher 
brasileira é mais alta do que realmente é. Esse é um exemplo de uma amostra que 
não é representativa. Uma amostra representativa deve conter brasileiras de diversas 
cidades, de regiões bem distintas do Brasil, com estaturas médias bastante variadas. 
No caso da produção de postes de concreto para iluminação, apenas uma pequena 
fração da produção (amostra) deverá ser sacrificada para atender à norma técnica. 
 No caso de uma moeda que foi jogada apenas duas vezes (n=2), apesar do 
tamanho da população ser pequeno (22=4), a quantidade de amostras possíveis é bem 
grande, pois cada subconjunto é uma amostra. Só para se ter uma idéia, e lembrando 
que o conjunto vazio { }, bem como o conjunto todo, são sempre subconjuntos de 
qualquer conjunto, podemos escrever aqui apenas algumas das amostras possíveis 
para essa pequenapopulação: P={cara/cara; cara/coroa; coroa/cara; coroa/coroa}. 
Teremos amostras com zero, um, dois, três e quatro elementos. O tamanho da 
amostra é o número de elementos da amostra. Este exemplo foi colocado para ilustrar 
que há sempre uma enorme quantidade de amostras, para qualquer população. 
• Amostras (subconjuntos) possíveis para uma população onde uma moeda foi 
jogada duas vezes: 
A01 = { } 
A02 = {cara/cara} 
A03 = {cara/coroa} 
A04 = {coroa/cara} 
A05 = {coroa/coroa} 
A06 = {cara/cara; cara/coroa} 
A07 = {cara/cara; coroa/cara} 
A08 = {cara/cara; coroa/coroa} 
A09 = {cara/cara; cara/coroa; coroa/cara} 
A10 = {cara/cara; cara/coroa; coroa/coroa} 
∂ 
Afinal = {cara/cara; cara/coroa; coroa/cara; coroa/coroa}. 
 
Organização de Dados Quantitativos 
 
 Os dados quantitativos são representados por números e são denominados 
variáveis aleatórias. Para se utilizar a Estatística, os dados devem ser organizados 
em tabelas e gráficos. O exemplo a seguir trata da análise de íons cloreto [Cl–] da 
água tratada em um município brasileiro. Os valores das concentrações de cloreto na 
água, medidos em 25 coletas são apresentados abaixo, em mg/L. 
Concentrações de íons cloreto [Cl
–
] medidas em 25 coletas de água tratada em um município 
brasileiro. As unidades estão em mg/L. 
254 
253 253 
252 252 252 
251 251 251 251 
250 250 250 250 250 
249 249 249 249 
248 248 248 
247 247 
246 
 
 Os dados acima estão desorganizados. Vamos colocá-los na forma de uma 
tabela. A Tabela 1 apresenta os dados obtidos de forma organizada, colocando 
para cada valor obtido, a frequência absoluta, f com que ele é observado. Por 
exemplo, o valor 250 foi observado em 5 (cinco) coletas. Portanto, a frequência 
absoluta do valor 250 é f = 5. A frequência relativa, fr representa a fração que o valor 
é observado. Por exemplo, o valor 250 é observado numa fração de fr = 0,20. Ou seja, 
em 20% das observações. 
 A frequência relativa, fr é calculada dividindo-se a frequência absoluta , f 
pelo tamanho da amostra, N. 
�� = �� 
 
Tabela 1. Concentração de íons cloreto [Cl–] medidos na água tratada de um município 
brasileiro. As unidades de concentração estão em mg/L. Tamanho da amostra, 
N=25. f = frequência absoluta. fr =frequência relativa. 
[Cl
–
] 246 247 248 249 250 251 252 253 254 
f 1 2 3 4 5 4 3 2 1 
fr 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04 
 
 A somatória de todas as frequências absolutas é numericamente igual ao 
tamanho da amostra. Podemos ver isso no exemplo da Tabela 1, fazendo a conta: 
1+2+3+4+5+4+3+2+1 = 25 
 Essa igualdade é representada pela equação abaixo, onde foi utilizado o 
símbolo de somatória, representado pela letra grega sigma maiúscula, Σ. 
 
�� = � 
 
 A somatória de todas as frequências relativas é numericamente igual à 
unidade. Podemos ver isso no exemplo da Tabela 1, fazendo a conta: 
0,04 + 0,08 + 0,12 + 0,16 + 0,20 + 0,16 + 0,12 + 0,08 + 0,04 = 1 
 Essa igualdade é representada pela equação abaixo, onde foi utilizado o 
símbolo de somatória, representado pela letra grega sigma maiúscula, Σ. 
 
��� = 1 
 
 Os dados da Tabela 1 podem ser visualizados na forma gráfica. Uma forma 
bastante usual é o histograma de frequências. Nesse gráfico, a grandeza medida, ou 
variável aleatória, é colocada no eixo horizontal (abscissa) e a frequência absoluta, 
ou a relativa, no eixo vertical (ordenada). A Figura 1 mostra o histograma de 
frequências para os dados da Tabela 1. 
 
Figura 1. Histograma de frequências para os dados da Tabela 1. 
246 247 248 249 250 251 252 253 254
0,00
0,05
0,10
0,15
0,20
fr
[Cl
-
]/mg/L
 Observa-se, no histograma de frequências da Figura 1, que a 
distribuição dos valores da variável aleatória é simétrica em relação a um 
valor central, igual a 250 mg/L. Esse comportamento é compatível com um 
tipo de distribuição de probabilidade que será visto mais adiante, denominada 
distribuição normal. 
 
Medidas de Tendência Central 
 
 Um conjunto de dados pode ser representado por um único número, 
denominado média. Trata-se de uma medida de tendência central cujo significado vai 
ficar mais claro à medida que os exemplos forem sendo dados. 
 Considere o seguinte conjunto de dados: 
x1 = 40 
x2= 41 
x3 = 42 
x4 = 43 
x5 = 44 
x6 = 45 
 
 A média aritmética simples de um conjunto de dados, ou simplesmente 
média é definida pela soma entre todos os elementos do conjunto, com a subsequente 
divisão pelo número de elementos do conjunto. 
 Se o conjunto de dados for uma população, a média populacional é 
representada pela letra grega mi minúscula, µµµµ. Caso o conjunto de dados seja uma 
amostra, a média amostral é representada pela por um � com uma barra em cima, �	. 
Quem vai determinar se o conjunto de dados é uma população ou uma amostra é a 
pessoa que está fazendo a estatística dos dados. 
 Vamos considerar que os dados acima sejam uma amostra. Então a média 
amostral será dada por: 
�̅ = 16 ��
 + �� + �� + �� + �� + ��� 
 
�̅ = 16 �40 + 41 + 42 + 43 + 44 + 45� 
 
�̅ = 16 �255� 
 
�̅ = 42,5 
 
 A fórmula geral da média aritmética simples é dada pelas equações abaixo, 
onde o i que aparece é denominado índice e é um número inteiro que varia, por 
exemplo, de 1 a n, no caso de uma população, ou seja: i = 1, 2, 3, ..., n... 
 
• Fórmula para a média populacional. O tamanho da população é n. 
 
� = 1����� 
 
• Fórmula para a média amostral. O tamanho da amostra é N. 
 
�̅ = 1����� 
 
 No caso de dados, como os da Tabela 1, em que temos as frequências, o 
cálculo da média pode ser feito de uma das seguintes formas: 
 
• Fórmula para a média amostral, usando as frequências absolutas, �. O 
tamanho da amostra é N. 
 
�̅ = 1����	��� 
 
 
• Fórmula para a média amostral, usando as frequências relativas, �� Neste 
caso, não é preciso dividir pelo tamanho da amostra. 
 
�̅ = ����		��� 
 
 Façamos os cálculos com os dados da Tabela 1, das duas formas. Primeiro 
usando as frequências absolutas: 
 
�̅ = 125 �1�246� + 2�247� + 3�248� + 4�249� + 5�250� + 4�251� + 3�252� + 2�253� + 1�254�# 
�̅ = 125 �6250# 
�̅ = 250 
 
 Agora, refaçamos o cálculo da média, usando as frequências relativas: 
 
�̅ = �0,04�246� + 0,08�247� + 0,12�248� + 0,16�249� + 0,20�250� + 0,16�251� + 0,12�252�
+ 0,08�253� + 0,04�254�# 
�̅ = 250 
 
 Observem que os valores calculados para as médias foram o mesmo, pelos 
dois métodos, ou seja, obteve-se uma média de �̅ = 250 mg/L para a concentração de 
íons cloreto na água tratada desse município brasileiro. Olhando para o histograma de 
frequências da Figura 1, vemos que esse valor coincide com o valor central da 
distribuição de frequências. Para uma distribuição simétrica como essa, a média 
coincide com o valor central da distribuição. Isso ocorre na distribuição normal, a 
qual será vista mais adiante. Por esta razão, a média é considerada uma medida de 
tendência central. 
 Outras medidas de tendência central são a moda e a mediana. A moda é 
simplesmente o valor da variável que possui a maior frequência. No caso dos 
dados da Tabela 1, a moda é 250 mg/L, pois é o valor que possui a maior frequência. 
 A mediana é o valor central, que divide o conjunto de dados em partes iguais. 
Os valores dos dados devem ser previamente colocados em ordem crescente. 
Sendo N o tamanho da amostra, a posição da mediana pode ser encontrada pela 
equação abaixo. 
$%&'çã%	*+	,-*'+�+ = 	� + 12 
 
 Considere o seguinte conjunto, com um número ímpar de dados (N=11): 
40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 
 A posição da mediana será: (11+1)/2 = 6º lugar. O valor da mediana será45. 
 
 Considere, agora, o seguinte conjunto, com um número par de dados (N=10): 
40, 41, 42, 43, 44, 45, 46, 47, 48, 49 
 A posição da mediana será: (10+1)/2 = 5,5. Isso significa que a mediana está 
entre o 5º e o 6º lugar. Neste caso, o valor da mediana é a média entre os valores que 
estão no 5º e no 6º lugar. Logo, o valor da mediana será (44+45)/2 = 44,5. 
 A mediana é bastante útil quando temos um valor muito discrepante dos 
demais. Por exemplo, as vendas de hambúrguer numa lanchonete foram medidas num 
período de 10 dias. Entretanto, em um determinado dia, no 4º dia, houve uma grande 
festa na lanchonete e a venda foi muito mais alta. Vejamos os dados na Tabela 2. 
 
Tabela 2. Número de hambúrgueres vendidos, em uma determinada lanchonete, em 
um período de 10 dias. 
Dia 1 2 3 4 5 6 7 8 9 10 
Vendas 48 47 52 320 50 45 46 53 44 49 
 
 Vamos calcular a média para os dados acima: 
 
�̅ = 110 �48 + 47 + 52 + 320 + 50 + 45 + 46 + 53 + 44 + 49# 
�̅ = 110 �754# 
�̅ = 75,4 
 Vamos calcular a mediana, agora. Mas, para isso, primeiro temos que colocar 
os dados em ordem crescente, na Tabela 3. 
 
Tabela 3. Número de hambúrgueres vendidos, em uma determinada lanchonete, em 
um período de 10 dias. Dados colocados em ordem crescente. 
Dia 9 6 7 2 1 10 7 3 8 4 
Vendas 44 45 46 47 48 49 50 52 53 320 
 
 A posição da mediana será: (10+1)/2 = 5,5. Então, a mediana está entre o 5º e 
o 6º lugar. Neste caso, o valor da mediana é a média entre os valores que estão no 5º 
e no 6º lugar, na Tabela 3. Logo, o valor da mediana será (48+49)/2 = 48,5. 
 A média é 75,4 e a mediana, 48,5. Qual dessas duas medidas reflete melhor as 
vendas diárias da lanchonete? É óbvio que é a mediana. E sabe por quê? Porque a 
mediana não é afetada por valores extremos. Já o valor da média ficou bem alto, 
justamente por causa do valor extremo, 320. Nem sempre a média é a melhor medida. 
 
Medidas de Dispersão 
 
 A dispersão de um conjunto de dados pode ser representado por um único 
número, denominado variância cujo significado vai ficar mais claro à medida que os 
exemplos forem sendo dados. A variância é calculada de forma diferente, caso o 
conjunto de dados seja uma população, ou uma amostra. E lembre-se que é a pessoa 
que está fazendo a estatística dos dados que vai determinar se o conjunto de dados é 
uma população ou uma amostra. 
 
• Fórmula para a variância populacional, var(x)=σ 2. A variância populacional é 
representada pelo quadrado da letra grega sigma minúscula, σ. O tamanho da 
população é n. 
 
.+���� = /� = 1����� − ���� 
 
• Fórmula para a variância amostral. A variância amostral é representada pelo 
quadrado da letra romana s minúscula. O tamanho da amostra é N. 
 
&� = 1�� − 1����� − �̅��� 
 
 A variância tem o significado de ser uma média dos quadrados dos 
desvios entre cada valor e a média amostral, ou populacional. Se todos esses 
desvios fossem zero, ��� − �̅�� = 0, a variância seria zero. Verifique que, se o tamanho 
da amostra for muito grande, não fará diferença usar N–1 ou N no denominador da 
última equação para s2. A diferença só é relevante para amostras pequenas. 
 
Considere o seguinte conjunto de dados abaixo, cuja média é 42,5. 
x1 = 40 
x2= 41 
x3 = 42 
x4 = 43 
x5 = 44 
x6 = 45 
 
 Se o conjunto de dados acima for uma população de media µ=42,5 e tamanho 
n=6, então a variância populacional é calculada da seguinte forma: 
 
/� = 16 ��40 − 42,5�� + �41 − 42,5�� + �42 − 42,5�� + �43 − 42,5�� + �44 − 42,5�� + �45 − 42,5��# 
/� = 16 �17,5# 
/� = 2,91666… 
23≈≈≈≈	3, 43 
 
 Se o conjunto de dados acima for uma amostra de media �̅ = 42,5 e tamanho 
N=6, então a variância amostral é calculada da seguinte forma: 
 
&� = 1�6 − 1� ��40 − 42,5�� + �41 − 42,5�� + �42 − 42,5�� + �43 − 42,5�� + �44 − 42,5��
+ �45 − 42,5��# 
&� = 15 �17,5# 
53 = 6, 7 
 Existe uma fórmula prática para calcular a variância populacional, que é a 
seguinte. 
.+���� = ��888 − �̅� 
 
 É fácil obter o valor de �̅� = �42,5�� = 1806,25. 
 O valor de ��888 é obtido a partir da média dos quadrados dos valores de x. 
 
x1
2 = (40)2= 1600 
x2
2= (41)2= 1681 
x3
2 = (42)2= 1764 
x4
2 = (43)2= 1849 
x5
2 = (44)2= 1936 
x6
2 = (45)2= 2025 
 
��888 = 16 �1600 + 1681 + 1764 + 1849 + 1936 + 2025� 
��888 = 16 �10855� 
��888 = 1809,1666… 
��888≈	1809,17 
 
Assim, a variância é calculada pela diferença: 
 
.+���� = ��888 − �̅� 
.+���� = 1809,17 − 1806,25 
9:;��� = 3, 43 
 
 A variância tem a desvantagem de ter unidades da variável ao quadrado. Por 
isso, define-se uma medida de dispersão muito utilizada denominada desvio-padrão 
como sendo a raiz quadrada da variância. Assim, teremos as seguintes equações. 
 
• Desvio-padrão populacional: 
/ = </� = <.+���� 
 
• Desvio-padrão amostral: 
& = <&� 
 
 Vamos agora comparar dois conjuntos de dados amostrais, com variâncias 
distintas. Primeiramente, vamos utilizar os dados da Tabela 1. Na Tabela 4, 
reproduzimos esses dados e acrescentamos os quadrados das concentrações de 
cloreto, para ficar mais fácil calcular a variância. Vamos supor, somente por 
simplicidade de cálculo, que esses dados sejam referentes a uma população. 
 
Tabela 4. Concentração de íons cloreto [Cl–] medidos na água tratada de um município 
brasileiro. As unidades de concentração estão em mg/L. Tamanho da amostra, 
N=25. f = frequência absoluta. fr =frequência relativa. 
[Cl
–
] 246 247 248 249 250 251 252 253 254 
[Cl
–
]
2 
60516 61009 61504 62001 62500 63001 63504 64009 64516 
f 1 2 3 4 5 4 3 2 1 
fr 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04 
 
 
�	3 = �37=�3 = >37== 
��888 = 125 �1�60516� + 2�61009� + 3�61504� + 4�62001� + 5�62500� + 4�63001� + 3�63504�+ 2�64009� + 1�64516�# 
 
��888 = 125 �1562600# 
�3888 = >37=? 
 
.+���� = �2888− �	2 
.+���� = 62504− 62500 
9:;��� = ? 
 
• Desvio-padrão populacional: 2 = √? = ±3 mg/L 
 
 Os dados da Tabela 1 constituem uma distribuição simétrica, muito similar a 
uma distribuição normal e possuem média 250 mg/L e desvio-padrão ±2 mg/L. 
 
 Vamos calcular, agora, a média e a variância para o conjunto de dados da 
Tabela 5, assumindo que se trata de uma população. A Figura 2 apresenta o 
histograma de frequências para os dados da Tabela 5. 
 
Tabela 5. Concentração de íons cloreto [Cl–] medidos na água tratada de um município 
brasileiro. As unidades de concentração estão em mg/L. Tamanho da amostra, 
N=25. f = frequência absoluta. fr =frequência relativa. 
[Cl
–
] 246 247 248 249 250 251 252 253 254 
[Cl
–
]
2 
60516 61009 61504 62001 62500 63001 63504 64009 64516 
f 1 1 2 8 8 8 2 1 1 
fr 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04 
 
Figura 2. Histograma de frequências para os dados da Tabela 5. 
 
 
�̅ = 125 �1�246� + 1�247� + 2�248� + 8�249� + 8�250� + 8�251� + 2�252� + 1�253� + 1�254�# 
�̅ = 132 �8000# 
�	 = 37= 
�	3 = �37=�3 = >37== 
 
��888 = 132 �1�60516� + 1�61009� + 2�61504� + 8�62001� + 8�62500� + 8�63001� + 2�63504�+ 1�64009� + 1�64516�# 
��888 = 132 �2000082# 
�3888 = >37=3, 7>37 
 
.+���� = �2888− �	2 
.+���� = 62502,5625− 62500 
9:;��� = 3, 7>37 
 
• Desvio-padrão populacional: 2 = <3, 7>37 = ±B, > 
246 247 248 249 250 251 252 253 254
0,00
0,05
0,10
0,15
0,20
0,25
fr
[Cl
-
] / mg/L
 Os dados da Tabela 5 constituem uma distribuição simétrica, muito similar à 
uma distribuição normal e possuem média 250 mg/L e desvio-padrão ±1,6 mg/L. Com 
relação aos dados da Tabela 1, a média manteve-se a mesma. Entretanto, o desvio-
padrão apresentou-se menor no segundo caso. Esse fato pode ser visualizado pela 
comparação dos histogramasde frequência das Figuras 1 e 2. No primeiro caso, os 
dados estão mais dispersos, enquanto que, no segundo caso, os dados estão mais 
concentrados em torno do valor central. Em outras palavras, a dispersão dos dados é 
maior no primeiro caso e esse fato é medido pelo valor maior do desvio-padrão da 
distribuição de frequências. 
 
 
Figura 1. Histograma de frequências 
para os dados da Tabela 1. 
µ = 250 mg/L ; σ = ±2,0 mg/L 
 
Figura 2. Histograma de frequências 
para os dados da Tabela 5. 
µ = 250 mg/L ; σ = ±1,6 mg/L 
 
 
246 247 248 249 250 251 252 253 254
0,00
0,05
0,10
0,15
0,20
fr
[Cl
-
]/mg/L
246 247 248 249 250 251 252 253 254
0,00
0,05
0,10
0,15
0,20
0,25
fr
[Cl
-
] / mg/L
Dados Agrupados 
 
 Muitas vezes, os dados aparecem na forma de dados agrupados, como 
ocorre na Tabela 6. 
 
Tabela 6. Peso de pessoas que trabalham em certa companhia. (N=40) 
Peso / kg Frequência Absoluta 
64-66 16 
67-69 21 
70-72 2 
 
 Para se calcular a média em um conjunto de dados como esse, devemos fazer 
a suposição de que a distribuição dos pesos é uniforme dentro de cada classe. O 
histograma de frequências da Figura 3 ilustra esse conceito. 
 
 
Figura 3. Histograma de frequências para os dados agrupados da Tabela 6. 
 
 Assim, a média da distribuição pode ser calculada através da equação abaixo, 
onde �C é o ponto médio de cada classe. Façamos o cálculo para o exemplo da 
Tabela 6. 
�̅ = 1����� 	�� 
 
64 65 66 67 68 69 70 71
0
5
10
15
20
fr
e
q
u
ên
ci
a
 a
b
so
lu
ta
pesos / kg
�̅ = 140��16�65� + 21�68� + 2�71�#� 
�̅ = 140 �2610# 
�	 = >7, 37 
 
 Vamos supor que tivéssemos acesso aos dados mais completos e 
pudéssemos construir a tabela de dados agrupados mostrada na Tabela 7. 
 
Tabela 7. Peso de pessoas que trabalham em certa companhia. (N=40) 
Peso / kg Frequência Absoluta 
64 3 
65 5 
66 8 
67 11 
68 7 
69 3 
70 2 
72 1 
 
 Agora podemos calcular a média e comparar com aquela anteriormente feita, 
com a suposição de que a distribuição dos pesos é uniforme dentro de cada classe. O 
histograma de frequências da Figura 4 mostra a real distribuição dos pesos. 
 
Figura 4. Histograma de frequências para os dados da Tabela 7. 
 
64 65 66 67 68 69 70 71 72
0
2
4
6
8
10
F
re
q
uê
n
ci
a
 A
bs
ol
u
ta
Pesos / kg
�̅ = 1����� 	�� 
�̅ = 140 �3�64� + 5�65� + 8�66� + 11�67� + 7�68� + 3 ∗ �69� + 3�70� + 1�72�# 
�̅ = 140 �2747# 
�	 = >E, >E 
 
 Comparando com os resultados da médias calculadas com os dados 
agrupados das Tabelas 6 e 7, verificamos que há um erro: ∆�̅ = 68,68 − 65,25 = 3,43. 
O mesmo se dará ao se calcular a variância. Esse erro se deveu ao fato de termos 
poucos dados agrupados na Tabela 6 e de termos feito a suposição de que a 
distribuição dos pesos é uniforme dentro de cada classe. Entretanto, não há outra 
suposição razoável que se possa fazer. Logo, muitas vezes, pela falta de dados, 
temos de aceitar o fato de que haverá um erro. 
 
 
Probabilidade 
 
Experimento Aleatório 
 
 No experimento exemplificado anteriormente, a concentração de íons cloreto 
foi medida na água tratada de um município brasileiro. O que se obteve como 
resultado foi uma distribuição de valores. Por que não se obteve um valor único? Por 
várias razões. Talvez a concentração dos íons cloreto seja realmente diferente em 
cada ponto de coleta, ou então pode ter havido erros de vários tipos durante as 
determinações quantitativas. Quando um experimento pode resultar em uma 
distribuição de resultados possíveis, ele é denominado experimento aleatório. 
Esse é o tipo de experimento que interessa para a Estatística. Uma variável medida 
em um experimento aleatório, como a concentração dos íons cloreto, é denominada 
variável aleatória. A jogada de uma moeda, M vezes, também é um experimento 
aleatório, pois resulta em uma distribuição de resultados possíveis, caras e coroas, 
que são as variáveis aleatórias. 
Espaço Amostral 
 
 O conjunto de todos os resultados possíveis para a variável aleatória é 
denominado espaço amostral. Nesse sentido, o espaço amostral tem o mesmo 
sentido da população definida anteriormente. No caso das concentrações de íons 
cloreto, esse conjunto tem um tamanho infinito, pois há uma quantidade infinita de 
valores possíveis para os resultados. Entretanto, há espaços amostrais de tamanho 
finito, como é o caso do experimento aleatório de uma moeda sendo jogada M vezes. 
O tamanho do espaço amostral, neste caso, será dado por 2M. Para simplificar a 
notação, representaremos o resultado cara pela letra K e coroa pela letra C. 
 
Cara = K 
Coroa = C 
 
 Desde já vamos deixar bem claro que a jogada de uma única moeda M vezes 
e uma única jogada de M moedas são experimentos aleatórios completamente 
equivalentes, com os mesmos espaços amostrais. 
 O espaço amostral, para a jogada de uma moeda, possui 21 = 2 elementos é 
dado pelo conjunto, A1 abaixo. O espaço amostral, para a jogada de duas moedas, 
possui 22 = 4 elementos é dado pelo conjunto, A2 abaixo. O espaço amostral, para a 
jogada de três moedas, possui 23 = 8 elementos e é dado pelo conjunto, A3 abaixo. 
 
A1 = {K, C} 
A2 = {KK, KC, CK, CC} 
A3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK, CCC} 
 
Evento 
 
 Evento é todo subconjunto de um espaço amostral. Nesse sentido, evento 
tem o mesmo sentido da amostra definida anteriormente. Usando o exemplo acima, da 
jogada de três moedas, podemos escrever alguns eventos abaixo, em relação ao 
espaço amostral A3, com seus significados escritos ao lado. 
 
E3,1 = {KKK, KKC, KCK, KCC}: Sair cara no lançamento da primeira moeda. 
E3,2 = {KKC, KCK, CKK}: Sair exatamente uma coroa. 
E3,3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK}: Sair no máximo duas coroas. 
E3,4 = {KKK, KKC, KCK, CKK}: Sair pelo menos duas caras. 
E3,5 = {KKK}: Não sair nenhuma coroa. 
 
Probabilidade de um Evento 
 
 Para chegar ao conceito de probabilidade, vamos usar os exemplos vistos 
anteriormente. Considere o espaço amostral para o lançamento de três moedas, A3 e 
o evento que seja sair pelo menos duas caras, E3,4. 
A3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK, CCC} 
E3,4 = {KKK, KKC, KCK, CKK}: Sair pelo menos duas caras. 
 A pergunta é a seguinte: no lançamento de três moedas, qual é a 
probabilidade de sair pelo menos duas caras? 
 A maneira formal de definir probabilidade considera o seguinte: 
N�E� = número de elementos do evento. N�A� = número de elementos do espaço amostral. 
 Assim, a probabilidade, P(E) de ocorrência do evento EEEE, no espaço 
amostral AAAA, é dada pela seguinte razão: 
J�K� = ��K���L� 
 Para o exemplo acima, o cálculo da probabilidade fica assim: 
J�K� = ��K���L� = 48 = 12 = 0,50 
 O resultado foi P�E�=0,50 ou seja, há 50% de chance de sair pelo menos duas 
caras no lançamento de três moedas. 
 
 
Exercício Resolvido. 
Uma moeda é jogada 2 vezes. Calcule a probabilidade de sair cara na primeira jogada e coroa na segunda. 
Resolução: 
Primeiro escrevem-se o espaço amostral e o evento, com os respectivos tamanhos. 
A2 ={KK, KC, CK, CC}; N(A) = 4; E2,1 = {KC}; N(E) = 1 
A seguir, calcula-se a probabilidade do evento, pela equação abaixo. 
J�K� = ��K���L� = 14 = 0,25 
Logo, há 25% de chance de sair cara na primeira jogada e coroa na segunda. 
 
Frequência Relativa e Probabilidade 
 
 Uma segunda forma de definir probabilidade é através do conceito de 
frequência relativa. Neste caso, definimos as seguintes grandezas: 
 
nE = número de vezes que o evento E é observado. 
N = números de vezes que o experimento aleatórioé repetido. 
 
 Assim, a frequência relativa, f de ocorrência do evento EEEE, no experimento 
aleatório, é dada pela seguinte razão: 
 
� = �N� 
 
 No lançamento de três moedas, a frequência relativa de sair pelo menos duas 
caras depende do número de repetições e do que foi observado. Se o experimento foi 
repetido N=100 vezes e obtiveram-se pelo menos duas caras em nE = 48 vezes, então 
a frequência relativa de sair pelo menos duas caras, neste caso foi f=0,48. 
Acompanhe o cálculo abaixo. 
� = �N� =
48
100 = 0,48 
 Verifique que o valor obtido aproxima-se bastante do valor calculado para a 
probabilidade (P=0,50). De fato, o valor da frequência relativa tende para o valor da 
probabilidade, quando o experimento aleatório for repetido um número muito grande 
de vezes. Por isso, é válida a seguinte definição de probabilidade, que utiliza o 
conceito de limite, quando N tender a infinito (∞). 
J = lim
T→V
W�N� X 
 
Probabilidade da União de dois Eventos Mutuamente Excludentes 
 
 A união de dois conjuntos A e B, simbolizada por A∩∩∩∩B, é o conjunto que 
contém todos os elementos dos dois conjuntos. Por exemplo, considere os 
conjuntos A e B a seguir: 
 
A = {1,3,5,7,9} 
B = {0,2,4,6,8} 
 
 Os conjuntos A e B acima não contêm nenhum elemento em comum. São 
assim chamados conjuntos disjuntos, ou mutuamente excludentes. Diz-se que a 
interseção entre eles é vazia, ou seja; A∪B = { }. A união A∩B será o conjunto dado 
abaixo: 
A∩B = {0,1,2,3,4,5,6,7,8,9} 
 Agora vamos tratar da probabilidade da união de dois eventos mutuamente 
excludentes. A probabilidade da união de dois eventos A e B, mutuamente 
excludentes, é igual à soma das probabilidades de cada evento individual. 
 A probabilidade da união de dois eventos A e B é interpretada como a 
probabilidade de ocorrência do evento A ou do evento B. 
 
J�L %Y Z� = J�L ∪ Z� = J�L� + J�Z� (Eventos mutuamente excludentes) 
 
 Considere, agora, uma moeda sendo jogada duas vezes. Já vimos que o 
espaço amostral é dado pelo conjunto abaixo: 
A2 = {KK, KC, CK, CC} 
 Vamos considerar dois eventos que sejam mutuamente excludentes. Por 
exemplo: 
 
E2,1 = {KK}: Sair duas caras. 
E2,2={KC,CK}: Sair exatamente uma cara (ou uma coroa). 
 
 A união desses dois eventos é o seguinte conjunto: 
E2,1∩E2,2 = {KK, KC, CK} 
 Pode-se ver que os eventos E2,1 e E2,2 são mutuamente excludentes, pois não 
apresentam nenhum elemento em comum. Então podemos calcular a probabilidade da 
união dos dois eventos pela equação acima. Primeiro, calculamos as probabilidades 
dos eventos individuais. 
J\K�,
] =
�\K�,
]
��L��
= 14 = 0,25 
J\K�,�] =
�\K�,�]
��L��
= 24 = 0,50 
 A seguir, aplicamos a equação da soma, para calcular a probabilidade da união 
dos eventos. 
J\K2,1 ∪ K2,2] = J\K2,1] + J�K2,2� 
J\K2,1 ∪ K2,2] = 0,25 + 0,50 
J\K2,1 ∪ K2,2] = 0,75 
 Interpretamos a resposta assim: a probabilidade de sair duas caras ou 
exatamente uma cara (ou uma coroa) é de 75%. Também podemos dizer que a 
probabilidade de ocorrência do evento união E2,1∩E2,2 é de 75%. Essa conta só foi 
válida dessa forma porque os dois eventos eram mutuamente excludentes. Vamos 
aprender, mais a frente, a calcular a probabilidade da união de eventos que não são 
mutuamente excludentes. 
 
Probabilidade da Interseção de dois Eventos 
 
 A interseção de dois conjuntos A e B, simbolizada por A∪∪∪∪B, é o conjunto 
que contém todos os elementos que pertencem simultaneamente aos dois 
conjuntos. Por exemplo, considere os conjuntos A e B a seguir: 
 
A = {1,2,5,6,9} 
B = {0,2,4,6,8} 
 
 A interseção entre os conjuntos A e B acima é o conjunto dado abaixo: 
A∪B = {2,6} 
 Como se vê, os conjuntos A e B acima possuem dois elementos em comum. 
Portanto não são disjuntos, ou seja, não são mutuamente excludentes. 
 Não há uma fórmula geral para calcular a probabilidade da interseção entre 
dois eventos A e B. Por isso, teremos de obter a interseção e contar seu número de 
elementos. A partir daí, a interseção passa a ser vista como um evento e a 
probabilidade é calculada com a fórmula da probabilidade de um evento. 
 A probabilidade da interseção de dois eventos A e B é interpretada como 
a probabilidade de ocorrência do evento A e do evento B. 
 Consideremos uma moeda sendo jogada três vezes. Já vimos que o espaço 
amostral é dado pelo conjunto abaixo: 
A3 = {KKK, KKC, KCK, KCC, CKK, CKC, CCK, CCC} 
 
 Vamos considerar os dois eventos seguintes; 
E3,1 = {KKC, CCK}: Sair duas caras ou duas coroas, nas duas primeiras jogadas. 
E3,2 = {KKC, KCK, CKK}: Sair exatamente duas caras. 
 A interseção desse dois eventos é dada pelo conjunto abaixo: 
E2,1∪E2,2 = {KKC} 
 Logo, a probabilidade da interseção desses dois eventos é calculada pela 
equação abaixo. 
J\E2,1∪E2,2] =
�\E2,1∪E2,2]
��L��
= 18 = 0,125 
 Interpretamos a resposta assim: a probabilidade de sair duas coroas, nas duas 
primeiras jogadas e sair exatamente duas caras é igual a 12,5%. Também podemos 
dizer que a probabilidade de ocorrência do evento interseção E2,1∪E2,2 é de 12,5%. 
 
Probabilidade Geral da União de dois Eventos 
 
 Agora estamos em condições de formular a equação que estabelece a 
probabilidade da união de dois eventos A e B, sejam eles mutuamente excludentes, ou 
não. A fórmula é bastante geral e é dada abaixo. 
 
J�L %Y Z� = J�L ∪ Z� = J�L� + J�Z� − J�L ∩ Z� 
 
 No caso dos eventos mutuamente excludentes, o termo P�A∪B�=0 e a 
equação torna-se igual àquela que foi vista anteriormente. Assim, vê-se que aquela 
equação é um caso particular desta última. 
 Por exemplo, considere, agora, uma moeda sendo jogada duas vezes. Já 
vimos que o espaço amostral é dado pelo conjunto abaixo: 
A2 = {KK, KC, CK, CC} 
 Vamos considerar dois eventos que não sejam mutuamente excludentes, ou 
seja, que tenham pelo menos um elemento em comum. Por exemplo: 
E2,1 = {KK}: Sair duas caras. 
E2,2 = {KK, KC,CK}: Sair pelo menos uma cara. 
 A interseção entre os eventos é dada pelo conjunto abaixo: 
E2,1∪E2,2 = {KK} 
 Vamos agora calcular a probabilidade da união dos dois eventos, usando a 
última equação. 
J\K2,1 ∪ K2,2] = J\K2,1] + J\K2,2] − J�K2,1 ∩ K2,2� 
J\K2,1 ∪ K2,2] =
�\K2,1]
��L��
+ �\K2,2]��L�� −
��K2,1 ∩ K2,2�
��L��
 
J\K2,1 ∪ K2,2] =
1
4 +
3
4 −
1
4 =
3
4 = 0,75 
 Interpretamos a resposta assim: a probabilidade de sair duas caras ou de sair 
pelo menos uma cara é de 75%. Note que, se não fosse a subtração do termo de 
probabilidade de interseção, a soma teria chegado a 100%, dando um resultado 
errado. 
Exercício Resolvido. 
Uma dado de seis faces é jogado 2 vezes. Calcule (a) a probabilidade de sair 1 na primeira jogada e 2 na 
segunda jogada; (b) a probabilidade de sair 1 na primeira jogada ou 2 na segunda jogada. 
 
Resolução: 
Primeiro escrevem-se o espaço amostral e os eventos, com os respectivos tamanhos. 
A2 ={11, 12, 13, 14, 15, 16, 21, 22, 23, 24, 25,26, 31, 32, 33, 34, 35, 36, 41, 42, 43, 44, 45, 46, 51, 52, 53, 
54, 55, 56, 61, 62, 63, 64, 65, 66}; N(A2) = 36 
E2,1 = {11, 12, 13,14, 15, 16}: Sair 1 na primeira jogada. N(E2,1) = 6 
E2,2 = {12, 22, 32, 42, 52, 62}: Sair 2 na segunda jogada. N(E2,1) = 6 
Os eventos não são mutuamente excludentes. Eles têm um elemento em comum. A interseção entre os 
eventos é o conjunto: E2,1∪ E2,2 = {12}. N(E2,1∪ E2,2) = 1 
 
(a) A probabilidade de sair 1 na primeira jogada e 2 na segunda jogada é a probabilidade da interseção 
entre os dois eventos, ou seja, é dado pelo cálculo abaixo: 
J\K�,
 ∩ K�,�] = ��K�,
 ∩ K�,����L�� = 136 = 0,0278 
Jogando um dado duas vezes, há uma chance de 2,78% de sair 1 na primeira jogada e 2na segunda 
jogada. 
 
(b) A probabilidade de sair 1 na primeira jogada ou 2 na segunda jogada é a probabilidade da união entre 
os dois eventos, ou seja, é dado pelo cálculo abaixo: 
J\K�,
 ∪ K�,�] = J\K�,
] + J\K�,�] − J�K�,
 ∩ K�,�� 
J\K�,
 ∪ K�,�] = �\K�,
]��L�� + �\K�,�]��L�� − ��K�,
 ∩ K�,����L�� 
J\K�,
 ∪ K�,�] = 636 + 636 − 136 = 0,167 + 0,167 − 0,0278 = 0,306 
Jogando um dado duas vezes, há uma chance de 30,6% de sair 1 na primeira jogada ou 2 na segunda 
jogada. 
 
Amostragem com Reposição 
 
 Amostragem significa escolher alguns elementos da população. Ela pode ser 
feita com reposição, ou sem reposição. Na amostragem com reposição, uma vez 
que o elemento é escolhido uma vez, ele pode voltar a ser escolhido novamente. 
Esse é o caso das jogadas de moedas e dados. Uma vez que deu resultado cara, na 
jogada de uma moeda, nada impede que dê cara novamente na próxima jogada. 
 Quando se joga uma moeda M vezes, o número de resultados possíveis é dado 
por 2M. Da mesma forma, quando se joga um dado M vezes, o número de resultados 
possíves é dado por 6M. De um modo geral, quando escolhemos M objetos, com 
reposição, de uma população de A objetos, teremos AM maneiras distintas de 
selecionar os objetos. 
 Vamos analisar um exemplo interessante, usando amostragem com 
reposição.Considere uma prova com 30 questões de múltipla escolha, com cinco 
alternativas em cada questão. Qual é a probabilidade de tirar a nota máxima na prova, 
apenas na sorte? 
 Neste caso, podemos considerar que estamos escolhendo M=30 questões, 
com reposição, de uma população de A=5 alternativas. O número total de respostas 
possíveis é dado por AM = 530 = 9,31 x 1020. Como há apenas uma maneira de se 
responder a prova para tirar a nota máxima, essa probabilidade será dada pela conta 
abaixo. Verifica-se que o resultado P=10–21 é extremamente baixo para que alguém 
consiga acertar a prova toda, apenas na sorte. 
J = 19,31 × 10�a = 1,07 × 10b�
 
 
Amostragem sem Reposição 
 
 Veremos agora a amostragem sem reposição. Na amostragem sem 
reposição, uma vez que o elemento é escolhido uma vez, ele não pode voltar a 
ser escolhido novamente. 
 Considere que há sete camisas em uma gaveta, para serem usadas durante a 
semana, uma cada dia. Suponha que, a cada dia, uma camisa é retirada da gaveta, 
mas não é devolvida, pois vai para o cesto de roupas para serem lavadas. No 
domingo, há sete camisas. Na segunda-feira, haverá seis. Na terça-feira, cinco. E 
assim por diante. No sábado só haverá uma camisa na gaveta. De quantas maneiras 
diferentes podem-se escolher as camisas para os sete dias da semana? 
 No domingo, há 7 escolhas possíveis de camisas. Na segunda-feira, há 6 
escolhas possíveis. Então, haverá 7x6=42 escolhas possíveis para os dois primeiros 
dias. Continuando o processo, podemos concluir que haverá o seguinte número de 
escolhas possíveis de camisas para toda a semana; 
7! = 7 x 6 x 5 x 4 x 3 x 2 x 1 = 5 040 
 Em outras palavras, há 5040 maneiras diferentes de se escolher as camisas 
durante a semana, assumindo que a retirada das camisas é sem reposição. Este é 
uma caso de permutação de 7 camisas. 
 Caso a escolha tivesse sido feita com reposição, esse número seria bem maior: 
77=823 543. 
 O valor 7! é denominado fatorial de 7. O fatorial de um número é muito 
importante na teoria das probabilidades. Abaixo estão os valores dos fatoriais de zero 
a dez, dando a idéia do conceito. Os valores dos fatoriais crescem muito depressa e 
números grandes têm fatoriais gigantescos, por exemplo, 70! ≈ 10100. 
 Por definição, o fatorial de zero é 1. 
 
0! =1 
1! = 1 
2! =2x1 =2 
3! = 3x2x1 = 6 
4! = 4x3x2x1 = 24 
5! = 5x4x3x2x1 = 120 
6! = 6x5x4x3x2x1 = 720 
7! = 7x6x5x4x3x2x1 = 5 040 
8! = 8x7x6x5x4x3x2x1 = 40 320 
9! = 9x8x7x6x5x4x3x2x1 = 362 880 
10! = 10x9x8x7x6x5x4x3x2x1 = 3 628 800 
 
Arranjos 
 
 Vamos considerar ainda a amostragem sem reposição. Entretanto, considere 
agora que há dez camisas em uma gaveta, para serem usadas durante a semana, 
uma cada dia. Note que, neste caso, nem todas as camisas serão usadas. De quantas 
maneiras diferentes podem-se escolher as camisas para os sete dias da semana? 
 Há 10 escolhas para o domingo, 9 para a segunda, 8 para a terça, e assim por 
diante. No sábado haverá 4 camisas na gaveta. Podemos concluir que haverá o 
seguinte número de escolhas possíveis de camisas para toda a semana: 
10 x 9 x 8 x 7 x 6 x 5 x 4=604 800 
 Em outras palavras, há 604 800 maneiras diferentes de se escolher as camisas 
durante a semana, assumindo que a retirada das camisas é sem reposição. Este é 
uma caso de arranjo de 10 camisas durante os 7 dias da semana. 
 Podemos escrever uma fórmula conveniente para arranjos, em termos de 
fatoriais. Vamos usar o último exemplo para deduzir essa fórmula. Note que a última 
expressão pode ser reescrita na forma abaixo: 
 
10 × 9 × 8 × 7 × 6 × 5 × 4 × 3 × 2 × 13 × 2 × 1 = 10!3! = 10!�10 − 7�! = 604	800 
 A expressão acima mostra que a fórmula para o arranjo, def de jjjj objetos, 
escolhidos sem reposição, de uma população de nnnn objetos pode ser escrita na 
forma abaixo. 
Lhi = �!�� − j�! 
 
Combinações 
 
 Vamos considerar ainda a amostragem sem reposição. Vamos considerar uma 
exemplo bastante conhecido na loteria, a Mega-Sena. São 60 dezenas e você tem de 
acertar seis. A pergunta é, de quantas formas distintas pode-se escolher as seis 
dezenas? 
 Poderíamos pensar em um arranjo. No início tem-se 60 dezenas. Depois de 
sorteada a primeira dezena, sobram 59. Depois de sorteada a segunda, sobram 58. E 
assim por diante. Pode-se pensar no seguinte cálculo de arranjo: 
60 x 59 x 58 x57 x56 x55 = 36 045 979 200 
 Esse resultado seria calculado pela fórmula do arranjo d>=> , dada abaixo. 
 
L�a� = 60!�60 − 6�! = 60!54! = 60 × 59 × 58 × 57 × 56 × 55 × 54!54! = 36	045	979	200 
 
 O único problema com esse cálculo é o seguinte. Suponha que tenha saído as 
dezenas: 01, 05, 23, 25, 37, 39. Esse cálculo conta todas as permutações possíveis 
dessas dezenas. Então, temos de dividir o resultado pelo número de 
permutações, ou seja 6! = 720. Isto porque a ordem em que os resultados saem 
não importa. 
 Assim, a fórmula para a combinação W�jX de n objetos, tomados j de cada vez é 
dada pela fórmula abaixo. 
W�jX = �!j! �� − j�! 
 
 Fazendo o cálculo da combinação de 60 objetos, tomados 6 de cada vez, 
chegamos ao número de formas distintas que se pode escolher as seis dezenas na 
Mega-Sena. 
W606 X = 60!6! �60 − 6�! = 60!6! 54! = 60 × 59 × 58 × 57 × 56 × 55 × 54!6! 	54! = 36	045	979	200720 = 50	063	860 
 
 
Probabilidade Condicional 
 
 Dados dois eventos A e B, a probabilidade condicional P�A|B�P�A|B�P�A|B�P�A|B� é a 
probabilidade de ocorrência do evento A, dado que o evento B tenha ocorrido. 
 Considere N�A∪B� o número de elementos e P�A∪B� a probabilidade de 
ocorrência da interseção entre os eventos A e B. Considere, também N�B� o número 
de elementos e P�B� a probabilidade de ocorrência do evento B. A expressão para o 
cálculo da probabilidade condicional P�A|B�				é dada abaixo. 
 
J�L|Z� = ��L ∩ Z���Z� = J�L ∩ Z�J�Z� 
 
 Note que se a interseção A∪B for vazia, então a probabilidade condicional será 
zero, ou seja, P�A|B�=0.	
 Um exemplo é a jogada de um dado duas vezes. O espaço amostral tem 
N(A2)=36 elementos e é dado pelo conjunto abaixo. 
A2 ={11, 12, 13, 14, 15, 16, 21, 22, 23, 24, 25,26, 31, 32, 33, 34, 35, 36, 41, 42, 43, 44, 
45, 46, 51, 52, 53, 54, 55, 56, 61, 62, 63, 64, 65, 66} 
 Considere os seguintes eventos: 
E2,1 = {12, 21}: Obter soma 3 nas duas jogadas. N(E2,1)=2 
E2,2 = {21, 22, 23, 24, 25, 26}: Obter 2 na primeira jogada. N(E2,2)=6A interseção entre os dois eventos é dada pelo conjunto abaixo: 
E2,1∪E2,2 = {21}. N(E2,1∪E2,2) = 1 
 A probabilidade condicional J\K�,
mK�,�] é dada pela equação abaixo. 
J\K�,
mK�,�] = ��K�,
 ∩ K�,����K�,�� = 16 = 0,167 
 Então, a probabilidade condicional de obter soma 3 nas duas jogadas, dado 
que se obteve 2 na primeira jogada é de 16,7%. 
 
Eventos Independentes 
 
 Dois eventos A e B são independentes se a equação abaixo for 
verdadeira: 
 
J�L|Z� = J�L� 
 
 Considere que apareça um 3 na primeira jogada de um dado. No que isso afeta 
a probabilidade de aparecer qualquer outro número na próxima jogada? A resposta é 
que não afeta em nada. Nesse caso, os eventos são independentes. 
 Portanto, para eventos independentes pode-se escrever a expressão abaixo. 
J�L� = J�L ∩ Z�J�Z� 
 Lembrando que P(A∪B)=P(A e B), essa última expressão pode ser rearranjada 
na forma abaixo. 
J�L	-	Z� = 	J�L� ∙ J�Z� (eventos independentes) 
 
 Por exemplo, na jogada de dois dados, qual é a probabilidade de aparecer 3 na 
primeira jogada e 5 na segunda jogada? 
A2 ={11, 12, 13, 14, 15, 16, 21, 22, 23, 24, 25,26, 31, 32, 33, 34, 35, 36, 41, 42, 43, 44, 
45, 46, 51, 52, 53, 54, 55, 56, 61, 62, 63, 64, 65, 66}. N(A2) = 36 
 Considere os seguintes eventos independentes: 
E2,1 = {31, 32, 33, 34, 35, 36}: Aparecer 3 na primeira jogada. N(E2,1)=6 
E2,2 = {15, 25, 35, 45, 55, 65}: Aparecer 5 na segunda jogada. N(E2,2)=6 
J\K�,
	-	K�,�] = 	J\K�,
] ∙ J\K�,�] = 636 ∙ 636 = 16 ∙ 16 = 136 = 0,0278 
 
 Então, na jogada de dois dados, a probabilidade de aparecer 3 na primeira 
jogada e 5 na segunda jogada é de 2,78%. 
 
Problemas 
 
1. Quais são os significados da palavra Estatística? 
2. Defina e dê exemplos, diferentes daqueles dados no texto, de: (a) população; (b) 
amostra; (c) população de tamanho infinito; (d) população de tamanho finito; (e) 
amostra representativa; (f) amostra não representativa. 
3. Considere os conjuntos de dados amostrais A e B, abaixo. Para cada um, calcule a 
média, a mediana e a moda. 
(a) A={28, 22 , 33, 30, 100, 28, 25, 30, 27, 28} 
(b) B={213, 210, 215, 213, 220, 1018, 214, 213, 211, 213, 215} 
4. Para as populações de dados abaixo, calcule as respectivas variâncias e desvios-
padrão, usando as duas fórmulas, a da definição e a fórmula prática. 
(a) A={70, 72, 75, 78, 74, 73, 79, 71, 77, 76} 
(b) B={1010, 1015, 1017, 1014, 1018, 1020, 1011} 
5. Os visitantes do Parque Nacional de Yellowstone, nos Estados Unidos, 
consideram uma erupção do gêiser Old Faithful uma atração que não pode ser 
perdida. A tabela de freqüências a seguir resume uma amostra de tempos (em 
minutos) entre erupções, Construa um histograma para a tabela de frequências 
dada. Se um guia turístico deseja garantir que seus turistas presenciem uma 
erupção, qual o tempo mínimo que devem permanecer no parque? Calcule a 
média e o desvio-padrão da distribuição de frequências. 
Tempo / minutos Freqüência 
40-49 8 
50-59 44 
60-69 23 
70-79 6 
80-89 107 
90-99 11 
100-109 1 
 
 
6. Obtiveram-se, em uma universidade brasileira, os dados da tabela abaixo, 
referentes ao número de carros de estudantes e de professores e servidores e 
seus respectivos anos de uso. Construa um histograma de freqüências relativas 
para cada um dos dois conjuntos de dados. Com base nos resultados, quais são 
as diferenças perceptíveis entre as duas amostras? Calcule as médias e os 
desvios-padrão para cada distribuição de frequências. 
Ano do carro Estudantes Professores e Servidores 
0-2 anos 23 carros 30 carros 
3-5 33 47 
6-8 63 36 
9-11 68 30 
12-14 19 8 
15-17 10 0 
18-20 1 0 
21-23 0 1 
7. A tabela de freqüências a seguir dá as velocidades, de motoristas multados pela 
polícia de uma cidade brasileira, onde o limite de velocidade estabelecido era de 
40 km/h. Construa um histograma para essa tabela de freqüências. O que essa 
distribuição sugere sobre o limite fixado comparado com o limite de velocidade 
constatado? Calcule as médias e os desvios-padrão para cada distribuição de 
frequências. 
Freqüência Absoluta Velocidade / km/h 
14 42-43 
11 44-45 
8 46-47 
6 48-49 
4 50-51 
3 52-53 
1 54-55 
2 56-57 
1 58-59 
8. As companhias de seguro pesquisam continuamente as idades e as causas de 
morte. Construa um histograma de frequências relativas correspondente à tabela de 
freqüências abaixo. Os dados se baseiam em um estudo da revista Veja sobre 
vítimas fatais de armas de fogo no Brasil, durante uma semana. O que o 
histograma sugere quanto às idades dessas vítimas fatais? Calcule as médias e os 
desvios-padrão para cada distribuição de frequências. 
Freqüência Idade na Morte 
22 16-25 
10 26-35 
6 36-45 
2 46-55 
4 56-65 
5 66-75 
1 76-85 
9. Defina e dê exemplos, diferentes daqueles dados no texto, de: (a) experimento 
aleatório; (b) variável aleatória; (c) espaço amostral; (d) evento; (e) união de 
eventos (f) interseção de eventos; (g) eventos mutuamente excludentes. 
10. Discuta a diferença conceitual entre as duas definições de probabilidade de um 
evento apresentadas, ou seja: J�K� = T�N�T�o� e J = limT→V WhpT X. Utilize um exemplo, 
diferente daquele dado no texto, para ilustrar sua discussão. 
11. Uma moeda é jogada três vezes. Calcule a probabilidade dos eventos abaixo. Dica: 
escreva os conjuntos que representam o espaço amostral e os eventos. 
(a) Sair exatamente uma cara. 
(b) Sair no máximo duas caras. 
(c) Sair coroa no lançamento da primeira moeda. 
(d) Não sair nenhuma cara. 
12. Uma moeda é jogada três vezes. Calcule as probabilidades que se pedem abaixo. 
(a) Sair três caras ou três coroas. 
(b) Sair três caras e três coroas. 
(c) Sair duas caras ou duas coroas. 
(d) Sair duas caras e duas coroas. 
(e) Sair uma cara e uma coroa. 
(f) Sair uma cara ou uma coroa. 
13. Defina e dê exemplos, diferentes daqueles dados no texto, de: (a) amostragem com 
reposição; (b) amostragem sem posição; (c) fatorial de um número; (d) permutação; 
(e) arranjo; (e) combinação. 
14. De quantas formas distintas 9 pessoas podem ficar dispostas em fila indiana? 
15. Quantos anagramas podemos formar com a palavra TEORIA? 
16. Em uma prova com 10 questões de múltipla escolha, com 4 alternativas cada, qual 
é a probabilidade de um candidato responder a prova e acertar todas a questões 
apenas no palpite? 
17. Se você tem 15 camisas em uma gaveta, para serem usadas durante a semana (7 
dias), uma cada dia, sem reposição, de quantas maneiras diferentes pode-se 
escolher as camisas para os sete dias da semana? 
18. Em um campeonato de futebol, participam 20 times. Quantos resultados são 
possíveis para os 3 primeiros lugares? 
Capítulo 2. Aplicação da Matemática à Estatística. 
 
A Distribuição Binomial 
 
 Uma variável aleatória discreta é aquela que pode ser descrita por meio de 
números inteiros. Por exemplo, quando se joga uma moeda 20 vezes, podemos definir 
uma variável aleatória X discreta como sendo o número de vezes que sai o resultado 
cara. Assim, os valores possíveis de X podem ser: X = 0, 1, 2, 3, ..., 20. 
 A distribuição binomial é uma distribuição de probabilidade para variável 
discreta. Ela é caracterizada por dois parâmetros, apenas (n,p). O parâmetro n é 
o número de vezes que o experimento é executado. 
 Por exemplo, no lançamento de uma moeda, a moeda pode ser lançada n = 1, 
2, 3, 4, 5, ... vezes. O parâmetro p é a probabilidade de sucesso em cada vez que 
o experimento é executado. Por exemplo, no lançamento de uma moeda, p=½ pode 
representar a probabilidade de sair cara (ou coroa). Por consequência, 1–p é a 
probabilidade de fracasso. 
 Uma distribuição de frequência coloca a variável aleatória no eixo horizontal 
(abscissa) e a probabilidade de ocorrência de cada valor da variávelno eixo vertical 
(ordenada). Seja X uma variável aleatória. A probabilidade P�X=i�	 de se obter X=i 
sucessos, em uma distribuição binomial (n, p), é dada pela equação abaixo. 
J�r = '� = W�' X$��1 − $�hb� 
 
 Na equação acima, foi utilizada a notação de combinação, dada abaixo. 
W�' X = �!'! �� − '�! 
 
 
Exemplo da Jogada de 20 moedas 
 
 Vamos calcular a distribuição binomial �n, p�	=	�20, ½� para uma jogada de 20 
(vinte) moedas. A probabilidade de sucesso, em cada jogada, pode ser definida 
arbitrariamente como a probabilidade de sair cara e seu valor é p = ½. 
 Por exemplo, P�X=1�, a probabilidade de sair cara em apena 1 moeda e coroa 
nas outras 19 moedas, pela distribuição binomial �20, ½� é calculada da forma abaixo. 
 
J�r = 1� = 20!1! �20 − 1�! �0,5�
�1 − 0,5��ab
 = 0,0000190735 
 
 A Tabela 8 e a Figura 5 mostram os resultados de todos os cálculos. 
 
Tabela 8. Distribuição binomial �n, p�	=	�20, ½�. Seja X a variável aleatória e P�X=i�, a 
probabilidade de se obter X=i sucessos. O valor central X=10 está 
destacado. 
iiii				 P�P�P�P�XXXX=i�=i�=i�=i�				
0 0,0000009537 
1 0,0000190735 
2 0,0001811980 
3 0,0010871900 
4 0,0046205500 
5 0,0147858000 
6 0,0369644000 
7 0,0739288000 
8 0,1201340000 
9 0,1601790000 
10 0,1761970000 
11 0,1601790000 
12 0,1201340000 
13 0,0739288000 
14 0,0369644000 
15 0,0147858000 
16 0,0046205500 
17 0,0010871900 
18 0,0001811980 
19 0,0000190735 
20 0,0000009537 
 
 
 
Figura 5. Distribuição binomial �n, p� = �20, ½�. Seja X a variável aleatória e P�X=i�, a 
probabilidade de se obter X=i sucessos. 
 
 Como interpretamos a distribuição de probabilidades acima? Ao jogarmos 20 
(vinte) moedas, a probabilidade de se obter 10 caras (X=10) é máxima, ou seja, 
P�X=10� = 0,176197 é o valor máximo. As probabilidades diminuem à medida que X se 
distancia de 10. 
 A esperança (valor médio), E�X� e a variância, Var�X� de uma variável aleatória 
com distribuição binomial são calculadas a partir dos valores dos parâmetros n e p, de 
acordo com as equações abaixo. 
K�r� = � ∙ $ 
t+��r� = � ∙ $ ∙ �1 − $� 
 
 No exemplo dado acima, �n, p� = �20, ½�. Portanto, a esperança e a variância 
de X possuem os seguintes valores. 
K�r� = 20 ∙ 0,5 = 10 
t+��r� = 20 ∙ 0,5 ∙ �1 − 0,5� = 5 
 Logo, é de se esperar o valor central X=10 para a distribuição binomial acima, 
já que este é o valor da esperança de X. 
0 2 4 6 8 10 12 14 16 18 20
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
P
(X
=
i)
i
Exemplo das 30 questões de múltipla escolha 
 
 Outro exemplo de utilização da distribuição binomial foi o caso abordado 
anteriormente de uma prova de múltipla escolha, com 30 questões e 5 alternativas em 
cada questão. Vimos que há um total de 530 = 9,31 x 1020 respostas possíveis. 
 Considerando X o número de questões que um candidato acertou na prova, os 
valores possíveis para essa variável aleatória discreta serão: X = 0, 1, 2, 3, ..., 30. 
Podemos considerar que essa variável siga uma distribuição binominal (n,p) = (30,1/5). 
Como há 5 alternativas, a probabilidade de sucesso, ou seja, de acertar uma questão 
é p=1/5. Assim, podemos calcular a probabilidade de acertar qualquer número de 
questões, apenas na sorte, usando a fórmula da distribuição binomial. 
 Vamos calcular a probabilidade de acertar a prova inteira na sorte, ou seja, 
vamos calcular P(X=30), usando a distribuição binomial, com n=30 e p=1/5=0,2. 
J�r = 30� = 30!30! �30 − 30�! �0,2�
�a�1 − 0,2��ab�a = 1,07 × 10b�
 
 Esse é o mesmo resultado encontrado anteriormente, da ordem de P=10–21. 
Vamos agora encontrar a probabilidade de acertar metade da prova na sorte, ou seja, 
vamos calcular P(X=15), usando a mesma distribuição binomial. 
J�r = 15� = 30!15! �30 − 15�! �0,2�
��1 − 0,2��ab
� = 0,000179 
 A probabilidade encontrada é muitas vezes maior que a anterior. De fato, para 
alguém acertar metade da prova, na sorte, a probabilidade é de 0,0179%. O valor 
continua sendo pequeno para que alguém consiga acertar na sorte, mas já é possível 
que alguém consiga, pois esta probabilidade é bem maior que as de muitas loterias! 
 Calculemos a esperança e a variância de X para este caso. 
K�r� = 30 ∙ 0,2 = 6 
t+��r� = 30 ∙ 0,2 ∙ �1 − 0,2� = 4,8 
 Vamos calcular a probabilidade de acertar apenas 6 (seis) questões, na sorte, 
ou seja, vamos calcular P(X=6), usando a mesma distribuição binomial. 
J�r = 6� = 30!6! �30 − 6�! �0,2�
��1 − 0,2��ab� = 0,179 
 Para se acertar 6 questões na sorte, a probabilidade é máxima e é igual a 
17,9%. O desvio padrão é igual à √4,8 = ±2,2. Portanto, espera-se que a 18% dos 
candidatos que façam a prova no puro palpite acertem 6±2 questões. 
 
 
A Distribuição Normal 
 
 Uma variável aleatória contínua é aquela que pode ser descrita por meio de 
números reais. Por exemplo, a concentração dos íons cloreto em amostras de água. 
 A distribuição normal é uma distribuição de probabilidade para variável 
contínua. Ela é caracterizada por dois parâmetros populacionais (µµµµ, σσσσ). Ela é uma 
distribuição simétrica, em forma de sino, sendo que o valor central é a média da 
população, µµµµ e a medida da dispersão é o desvio-padrão, σσσσ da população. 
 A distribuição normal é dada pela curva gaussiana, nome dado em 
homenagem ao matemático alemão Johann Carl Friedrich Gauss (1777-1855). Seja x 
uma variável aleatória contínua. A curva gaussiana é a função densidade de 
probabilidade, f�x� para a variável aleatória x e é dada pela equação abaixo. 
���� = 12√2v
-b
� 
�wbx�y
23 
 
 A esperança E(x) e a variância Var(x) da variável aleatória contínua x, em uma 
distribuição normal, são dadas pelas equações abaixo, respectivamente. 
 
E(x) = µ 
Var(x) = σ2 
 
 A Figura 6 apresenta duas curvas gaussianas, ambas com µ=0. Uma das 
curvas possui σ=1,0 e a outra, σ=2,0. A curva com σ maior é mais larga e menos alta. 
 
Figura 6. Curva gaussiana para µ=0, σ=1,0 e σ=2,0. 
 
 
A Distribuição Normal Reduzida 
 
 Qualquer conjunto de dados {x}, com media µ e desvio-padrão σ, pode ser 
transformado em outro conjunto de dados {Z}, com média µµµµ=0 e desvio padrão σσσσ=1, 
mediante o uso da equação de transformação abaixo. 
 
z = � − �/ 
 
 Aplicando a transformação acima para uma função gaussiana, obtemos a 
equação abaixo, denominada distribuição normal reduzida: (µµµµ, σσσσ) = (0, 1). 
 
��z� = 1
√2v
-b
� z
2
 
 
 Note que a Figura 6 apresenta o gráfico da distribuição normal reduzida. 
 
 Vejamos um exemplo. Consideremos as estaturas de uma população de 
mulheres. As estaturas são representadas pela variável aleatória x. Vamos supor que 
essa variável siga uma distribuição normal e que a média e o desvio padrão dessa 
população sejam, respectivamente: µ = 1,60 m; σ = 0,20 m. Neste caso, duas 
mulheres da população que tivessem estaturas x1 = 1,47 m e x2 = 1,68 m na 
distribuição normal, passariam a ter as seguintes estaturas na distribuição normal 
reduzida: 
 
z
 =
�1,47 − 1,60� ,
0,20 , = −0,65 
z� =
�1,68 − 1,60� ,
0,20 , = +0,40 
 
 Os valores na distribuição normal reduzida podem ser positivos ou 
negativos, indicando se são maiores ou menores que a média. Na distribuição normal 
reduzida, o valor Z=0 significa que a variável tem o valor médio. Além disso, a 
distribuição normal reduzida é adimensional, ou seja, os valores não têm unidade, 
são números puros. 
 
Probabilidade de uma variável aleatória contínua 
 
 Para discutir a probabilidade de uma variável aleatória contínua assumir um 
determinado valor, vamos usar a distribuição normal reduzida. 
 A função gaussianaf�Z� dá a densidade de probabilidade para a variável 
reduzida Z. O valor da probabilidade P da variável reduzida Z assumir um valor entre 
Z1 e Z2 é dado pela integral definida abaixo. 
 
J�z
 < z < z
� = | ��}�	*}~y~ 
 
 A Equação acima significa que a probabilidade P da variável reduzida Z assumir 
um valor entre Z1 e Z2 é dada pela área abaixo da curva de f����Z����, entre os valores Z1 e 
Z2. Usando a expressão da distribuição gaussiana reduzida, a última equação assume 
a forma dada abaixo. A equação abaixo é integrada numericamente. Na prática,os 
valores são tabelados. Por exemplo, a Figura 7 mostra que a probabilidade de a 
variável reduzida Z assumir valores entre -2 < Z < 2 é de 95,45%. 
 
J�z
 < z < z
� = 1√2v| -−12	~y 	*}
~y
~ 
 
 
Figura 7. Área abaixo da curva gaussiana reduzida (µ=0, σ=1) na faixa –2 < Z < 2. 
 A área total sob a curva é 1, significando 100% (vide Figura 7). Em outras 
palavras, a probabilidade de a variável Z assumir valores na faixa –∞ < Z < +∞ é P=1. 
Essa é a denominada condição de normalização, expressa pela equação abaixo. 
 
| ��}�	*}€VbV = 1 
 
 A partir da condição de normalização, podemos calcular, por exemplo, a 
probabilidade de a variável Z assumir valores maiores que 2, ou seja, P(Z>2). 
Observando a Figura 7, vemos que a probabilidade de Z estar na faixa -2>Z>2 é dada 
por: 1 – 0,9545 = 0,0455. Como a função é simétrica, a probabilidade de Z ser maior 
que 2 é metade desse valor, ou seja: 
 
J�z > 2� = 1 − 0,95452 = 0,045502 = 0,02275 
 
 Se quisermos saber a probabilidade de Z assumir valores menores que 2, ou 
seja, P(Z>2) é só fazer o seguinte cálculo: 
 
J�z < 2� = 1 − 0,02275 = 0,97725 
 
 Há uma série de valores de probabilidade que podemos calcular para os 
valores da variável reduzida Z. Uma coisa é importante notar. Que, como a 
probabilidade é uma área sob a curva, a probabilidade de a variável assumir um 
determinado valor seria zero, pois a área sob a curva seria zero. 
 
J�z = +� = | ��}�	*}‚‚ = 0 
 
 Na prática são utilizadas tabelas de probabilidades. No Apêndice A1 é 
mostrada a tabela para a probabilidade de Z assumir valores menores que a, P(Z<a). 
 Vamos aprender a usar as tabelas de probabilidades para distribuição normal 
reduzida, com exemplos. 
 Suponha que a concentração do gás poluente SO2 apresente uma distribuição 
normal em uma cidade brasileira e que a média da concentração seja µ = 0,14 ppm e 
o desvio-padrão σ = 0,01 ppm. Calcule o que se pede abaixo: 
 
(a) A probabilidade de que a concentração de SO2 seja maior do que a média. 
 
 Neste caso, queremos a probabilidade P(X>0,14 ppm). Vamos 
transformar em variável reduzida primeiro. 
z = � − �/ = 0,14 − 0,140,01 = 0,00 
 Agora, o problema é determinar a probabilidade P(Z>0,00). Na tabela de 
probabilidades, encontramos P(Z<0,00) = 0,5000. Como a área total sob a 
curva é 1, ou seja, como a curva é normalizada, então a probabilidade que se 
deseja calcular é dada pelo cálculo abaixo. 
 
J�r > 0,00� = 1 − J�r < 0,00� = 1 − 0,5000 = 0,5000 
 
 Concluímos que a probabilidade de que a concentração do gás poluente 
SO2 venha a assumir um valor acima da média, na cidade, é de 50%, como 
mostra a Figura 8. 
 
 
Figura 8. Probabilidade de que a variável Z assuma valores acima da média, 
ou seja, P(Z>0)=0,5000. 
 
(b) A probabilidade de a concentração de SO2 ser maior que 0,15 ppm. 
 Neste caso, queremos a probabilidade P(X>0,15 ppm). Vamos 
transformar em variável reduzida primeiro. 
z = � − �/ = 0,15 − 0,140,01 = 1,00 
 Agora, o problema é determinar a probabilidade P(Z>1,00). Na tabela de 
probabilidades, encontramos P(Z<1,00) = 0,8413. Como a área total sob a 
curva é 1, ou seja, como a curva é normalizada, então a probabilidade que se 
deseja calcular é dada pelo cálculo abaixo. 
 
J�r > 0,00� = 1 − J�r < 0,00� = 1 − 0,8413 = 0,1587 
 
 Concluímos que a probabilidade de que a concentração do gás poluente 
SO2 venha a assumir um valor acima de 0,15 ppm, na cidade, é de 15,87%, 
como mostra a Figura 9. 
 
 
Figura 9. Probabilidade de que a variável Z assuma valores acima de 1,00. Ou 
seja, P(Z>1,00)=0,1587. 
 
(c) A probabilidade da concentração de SO2 ser maior do que 0,17 ppm. 
 Neste caso, queremos a probabilidade P(X>0,17 ppm). Vamos 
transformar em variável reduzida primeiro. 
z = � − �/ = 0,17 − 0,140,01 = 3,00 
 Agora, o problema é determinar a probabilidade P(Z>3,00). Na tabela de 
probabilidades, encontramos P(Z<3,00) = 0,9987. Como a área total sob a 
curva é 1, ou seja, como a curva é normalizada, então a probabilidade que se 
deseja calcular é dada pelo cálculo abaixo. 
 
J�r > 3,00� = 1 − J�r < 3,00� = 1 − 0,9987 = 0,0013 
 
 Concluímos que a probabilidade de que a concentração do gás poluente 
SO2 venha a assumir um valor acima de 0,17 ppm, na cidade, é de 0,13%, o 
que representa um valor muito baixo. 
 
(d) A probabilidade de que a concentração de SO2 tenha um valor entre 0,141 
ppm e 0,142 ppm. 
 
 Neste caso, queremos a probabilidade P(0,141 ppm < X > 0,142 ppm). 
Vamos transformar em variáveis reduzidas primeiro. 
 
z
 = �
 − �/ = 0,141 − 0,140,01 = 0,100 
z� = �� − �/ = 0,142 − 0,140,01 = 0,200 
 
A probabilidade que se quer pode ser obtida da tabela de probabilidades, 
através do seguinte cálculo: 
 
P(0,100 < Z< 0,200) = P(Z<0,200) – P(Z<0,100) = 0,5793 – 0,5398 = 0,0395 
 
 Concluímos que a probabilidade de que a concentração do gás poluente 
SO2 venha a assumir valores entre 0,141 ppm e 0,142 ppm, na cidade, é de 
3,95%. 
 
A Distribuição Amostral das Médias 
 
 Já vimos que, para uma dada população, existe um grande número de 
amostras possíveis. Cada amostra tem um tamanho �, uma média �̅� e um desvio-
padrão &�. 
 Se estivermos amostrando uma população que tenha uma distribuição de 
probabilidades desconhecida, com média x e variância 23, caso o tamanho 
amostral e seja grande o suficiente, a distribuição amostral das médias será 
aproximadamente normal. A esperança, K��̅� e a variância, t+���̅� da média 
amostral são dadas, respectivamente, pelas equações abaixo. Esse resultado é 
conhecido como Teorema do Limite Central. 
 
K��̅� = � 
t+���̅� = /�� 
 
 O desvio-padrão da média amostral, &��̅� é a raiz quadrada da variância, ou 
seja, é dado pela equação abaixo. 
 
&��̅� = <t+���̅� = /√� 
 
 
 A Figura 10 ilustra a idéia por trás do Teorema do Limite Central, usando o 
experimento aleatório da jogada de n dados. Quando se joga apenas 1 (um) dado, as 
probabilidades são todas iguais para os seis números, ou seja P=1/6. Quando se joga 
mais de um dado, as probabilidades de se obter cada número vão ficando diferentes, 
podendo ser calculadas pela distribuição binomial. À medida que o número de jogadas 
aumenta, a distribuição se aproxima da distribuição normal. 
 
 
Figura 10. Ilustração do Teorema do Limite Central. À medida que o número 
de jogadas de dados aumenta, a distribuição se aproxima da 
distribuição normal. 
 
 
Exercício Resolvido. 
Suponha que a concentração do gás poluente SO2 apresente uma distribuição populacional desconhecida 
em uma cidade brasileira. A média da concentração é µ = 0,140 ppm e o desvio-padrão, σ = 0,010 ppm 
são conhecidos na população. Você coletou uma amostra aleatória de tamanho n=100, na cidade e mediu 
o teor de SO2. Qual a probabilidade de a média amostral ter um valor entre 0,141 ppm e 0,142 ppm, ou 
seja, calcule a seguinte probabilidade: P(0,141 ppm < �̅ < 0,142 ppm) = ? 
 
Resolução: 
 
Pelo Teorema do Limite Central, temos que a média amostral segue uma distribuição aproximadamente 
normal, com esperança, K��̅� = 0,14ppm e desvio-padrão, &��̅� = /√� = a,a
a√
aa ppm = 0,001 ppm. 
Vamos agora usar a variável reduzida Z, para calcular as probabilidades. 
 
z = �̅ − �/√�
 
 
z
 = 0,141 − 0,140,001 = 1,00 
z� = 0,142 − 0,140,001 = 2,00 
 
A probabilidade que se quer pode ser obtida da tabela de probabilidades, através do seguinte cálculo: 
 
P(1,00 < Z< 2,00) = P(Z<2,00) – P(Z<1,00) = 0,9772 – 0,8413 = 0,1359 
 
Resposta: A probabilidade de a média amostral ter um valor entre 0,141 ppm e 0,142 ppm, na população 
considerada, será de 13,59%. 
 
 
Teste de Hipóteses 
 
 Muitas vezes precisamos aceitar ou rejeitar o valor de algum parâmetro. Para 
tanto, devemos estabelecer critérios. Os critérios que iremos adotar são estatísticos e 
obedecem a leis probabilísticas. 
 Uma afirmação sobre um parâmetro estatístico, tal como a média, µ ou a 
variância, σ2 de uma, ou mais de uma população, é denominada hipótese estatística. 
O procedimento de tomada de decisão sobre a hipótese é denominado teste de 
hipótese. A hipótese que se quer testar é denominada hipótese nula e é 
normalmente denotada por Ho. Por exemplo, a hipótese nula pode ser a de que a 
média populacional seja zero. Podemos expressá-la da seguinte forma: Ho: µµµµ = 0. A 
hipótese oposta à hipótese nula é denominada hipótese alternativa e é denotada por 
H1 ou por Ha. No exemplo usado, podemos expressá-la da seguinte forma: H1: µµµµ ≠≠≠≠ 0. É 
importante ressaltar que as hipóteses estatísticas são sempre afirmações sobre a 
população, nunca sobre a amostra. 
• Rejeitar a hipótese nula Ho, quando de fato ela for verdadeira, é definido como 
erro do tipo I. 
 Vamos supor que hipótese nula seja Ho: µ = 0 e que chegássemos, através de 
um teste de hipótese, à conclusão de que ela devesse ser rejeitada. Nesse caso, 
haveria uma probabilidade de cometer o erro do tipo I. Essa probabilidade é 
denotada por α (alfa). O valor dessa probabilidade é denominado nível de 
significância do teste e deve ser fixado pelo estatístico logo no início do teste de 
hipótese. Normalmente, o nível de significância é estabelecido em 1% ou 5%, ou seja, 
α = 0,01 ou α = 0,05. 
α = nível de significância do teste. 
 
 O teste de hipótese tem determinadas etapas a serem seguidas. A ordem em 
que elas aparecem abaixo deve ser respeitada, caso contrário o teste não funciona. 
 
(1) Formular as hipóteses, nula e alternativa. Por exemplo: Ho: µ = 0; H1: µ ≠ 0. 
(2) Fixar o nível de significância do teste de hipótese. Por exemplo: α = 0,05. 
(3) Se a hipótese nula for verdadeira, então existe uma variável aleatória 
denominada estatística de teste, que deve ser calculada e essa estatística de 
teste segue uma distribuição de probabilidade conhecida. 
Por exemplo: uma amostra de tamanho n=100 obteve média amostral �̅ = 0,10. O desvio-
padrão da população é conhecido, σ = 0,01. Neste caso, sabemos que, se a hipótese nula for 
verdadeira, �̅ terá distribuição normal com média µ = 0 e desvio-padrão & = ƒ√h = a,
a√
aa =0,010. Portanto, a estatística de teste escolhida, denominada teste Z, será a distribuição normal 
reduzida: z = w̅b„…√† . 
(4) Estabelecer valores críticos para a estatística de teste, em função do nível de 
significância fixado (α = 0,05). A Figura 11 mostra que acima de Z = 1,96 e 
abaixo de Z = –1,96, a área total é igual a 0,05. Isto significa que a 
probabilidade de a variável Z assumir valores na faixa –1,96 > Z >1,96 é de 5%. 
Se a estatística de teste calculada assumir um valor nessa faixa, então Ho será 
rejeitada com um nível de significância de 5%. O valor crítico é Zcrít. = ±1,96. 
Esse valor foi encontrado a partir das tabelas de probabilidades. Como se quer 
P(Z>a) = 0,025 (α/2), então se tem que P(Z<a)=1–0,025=0,975. Procurando na 
tabela de probabilidades, encontra-se o valor crítico Z = 1,96. Este é um teste 
bicaudal, ou bilateral. 
 
 
Figura 11. Distribuição normal reduzida. Valores críticos Z = –1,96 e Z = 1,96. 
Acima e abaixo desses valores, a área total é igual a 0,05. A região 
de rejeição de Ho é denominada região de significância. 
 
(5) Calcular a estatística de teste. 
z‡‚ˆ‡. = �̅ − �/√�
= 0,10 − 00,01√100
= 100 
(6) Decisão. Compara-se a estatística de teste calculada com o valor crítico. No 
caso, verifica-se que |Zcalc.|>Zcrit. Em outras palavras, o valor de Zcalc. cai na 
região de rejeição de Ho (vide Figura 11). Por isso, rejeita-se Ho com nível de 
significância de 5% (α=0,05). Isso significa que a probabilidade de estarmos 
rejeitando Ho, dado que de fato ela é verdadeira, ou seja, a probabilidade de 
estamos cometendo um erro do tipo I é de 5%. 
(7) Conclusão. No exemplo dado, pelos dados amostrais e pelo teste de hipótese 
efetuado, não temos razões significativas (α=0,05) para supor que a média 
populacional seja zero. 
 É costume chamar a estatística de teste (e os dados) de significantes quando a 
hipótese nula Ho for rejeitada. Inclusive, a região de rejeição de Ho é denominada 
região de significância. 
 
Valor p 
 
 O valor p é o menor nível de significância que conduz à rejeição da hipótese 
nula Ho, com os dados fornecidos. 
 Por exemplo, vamos supor que em um teste de hipótese, usando a estatística 
de teste Z, calculou-se o seguinte valor, na etapa 5: Zcalc. = 2,56. Consultando a tabela 
de probabilidades, para Z<2,56, encontra-se P(Z<2,56) = 0,9948. O valor p é calculado 
pela expressão abaixo e possui o valor p = 0,0104. Isso quer dizer que o menor nível α 
em que esses dados são sinificantes seria α = 0,0104. 
 
p = 2 x [1 – P(Z<2,56)] = 2 x [1 – 0,9948] = 2 x [0,0052] = 0,0104 
 
 A Figura 12 ilustra a idéia do valor p. Ele é simplesmente a soma das áreas 
sombreadas, à direita e à esquerda no gráfico. Quanto maior o valor de Zcalc., menor 
o valor p. no exemplo usado para explicar o teste de hipótese, encontrou-se Zcalc. = 
100. Nesse caso, recorrendo-se à tabela de probabilidades, conclui-se que o valor p é 
praticamente zero nesse caso (p=0). 
 
 
Figura 12. Valor p para Zcalc. = 2,56. p = 2 x [0,0052] = 0,0104. 
 
Regras de decisão, baseadas em um valor p 
 
1. Se p≤α, então rejeite Ho. 
2. Se p>α, então falhe em rejeitar Ho. 
 
 
Erros do Tipo I e II 
 
Tipo I 
 Vimos o erro do tipo I cuja probabilidade se expressa por α (alfa). 
• Rejeitar a hipótese nula Ho, quando de fato ela for verdadeira, é definido como 
erro do tipo I. 
• Vimos que, em um teste de hipótese, essa probabilidade é o nível de 
significância do teste e deve ser pré-estabelecida pelo estatístico. 
 
Tipo II 
 Veremos agora o erro do tipo II cuja probabilidade se expressa por β (beta). 
• Não rejeitar a hipótese nula Ho, quando de fato ela não for verdadeira, é 
definido como erro do tipo II. 
 
 Para se calcular β é necessário ter uma hipótese alternativa bastante 
específica. Vamos usar um exemplo para calcular a probabilidade de erro do tipo II. 
 
Exemplo: 
 
 Suponha que o desvio-padrão da concentração do gás poluente SO2 em uma 
população seja conhecido, σ = 0,040 ppm. Considere que tomamos uma amostra 
de tamanho n =100 e que obtivemos uma média amostral �̅ = 0,147 ppm. 
 
(a) Testar a hipótese nula de que a média populacional seja � = 0,140 ppm. Fixar 
nível de significância em 5%. 
(b) Calcular o valor p. 
(b) Calcular a probabilidade, β de erro do tipo II, caso a média populacional de fato 
fosse µ = 0,147 ppm. 
 
Resolução: 
 
(a) Teste de hipótese: 
(1) Hipótese nula e alternativa: Ho: µ = 0,140 ppm; H1: µ ≠ 0,140 ppm 
(2) Nível de significância: α = 0,05 ( = probabilidade do erro do tipo I) 
(3) Estatística de teste: z = w̅b„…√† 
(4) Valores críticos (para α = 0,05): Zcrít. = ±1,96 
(5) Cálculo da estatística

Outros materiais