Buscar

Inferência Estatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 124 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 124 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 124 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Sumário
1 Revisando Alguns Modelos Probabilísticos Discretos e Continuos 1
1.1 Modelos Probabilísticos para Variáveis Aleatórias Discretas . . . . . . . . . . . . 1
1.1.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.3 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.4 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.5 Distribuição Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Modelos Probabilísticos para Variáveis Aleatórias Contínuas . . . . . . . . . . . . 10
1.2.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.4 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.5 Distribuição de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.6 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.7 Distribuição normal padrão . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.8 Padronização de uma variável . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2.9 Distribuições obtidas da Normal . . . . . . . . . . . . . . . . . . . . . . . 28
2 Introdução à Inferência Estatística 32
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.1 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.2 Amostra aleatória simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.3 Estatísticas e Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3 Distribuições Amostrais 41
3.1 Distribuição Amostral da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.1 Média e variância da distribuição amostral da média . . . . . . . . . . . . 42
i
3.1.2 Distribuição amostral da média para populações Normais com Variância
conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.3 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.4 Deterrminação do tamanho de uma amostra . . . . . . . . . . . . . . . . . 47
3.2 Distribuição Amostral da Proporção - Amostras grandes . . . . . . . . . . . . . . 48
3.2.1 Aproximação normal da distribuição binomial . . . . . . . . . . . . . . . . 48
3.2.2 A distribuição amostral da proporção . . . . . . . . . . . . . . . . . . . . . 50
3.2.3 Determinação do Tamanho de uma Amostra . . . . . . . . . . . . . . . . . 51
3.3 Outras Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.1 Distribuição amostral da Média para populações Normais com Variância
desconhecida - amostras pequenas . . . . . . . . . . . . . . . . . . . . . . 52
3.3.2 Distribuição amostral da Média para populações Quaisquer com Variância
desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3.3 Distribuição Amostral da soma ou diferença de duas Médias com variância
conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.4 Distribuição Amostral da Soma ou Diferença de duas Proporções . . . . . 56
3.3.5 Distribuição Amostral da soma ou diferença de duas Médias com variância
desconhecida - amostras pequenas . . . . . . . . . . . . . . . . . . . . . . 56
3.3.6 Distribuição Amostral da Variância . . . . . . . . . . . . . . . . . . . . . . 58
3.3.7 Distribuição da Razão entre duas Variâncias Amostrais . . . . . . . . . . . 61
4 Estimação de Parâmetros 63
4.1 Propriedade dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2 Erro Quadrático Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Métodos de Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3.1 O Método de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . 75
4.3.2 O Método dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3.3 Estimadores por Mínimos Quadrados . . . . . . . . . . . . . . . . . . . . . 84
5 Intervalos de Confiança 86
5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2 Intervalo de confiança para a Média de Populações Normais com Variância
Conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.1 Margem de Erro e Determinação do tamanho amostral . . . . . . . . . . . 89
5.3 Intervalo de confiança para a Média de Populações Normais com Variância
desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
ii
5.3.1 Margem de Erro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3.2 Amostras Grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.4 Intervalo de Confiança para uma Proporção - Amostras Grandes . . . . . . . . . 92
5.4.1 Margem de Erro e Determinação do tamanho amostral . . . . . . . . . . . 94
5.5 Intervalo de Confiança para a Diferença entre médias de duas Populações Normais 95
5.5.1 Variância Conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.5.2 Variância Desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.6 Intervalo de Confiança para a Diferença entre Duas Proporções . . . . . . . . . . 100
5.7 Intervalo de Confiança para a Variância de uma População com Distribuição
Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.8 Intervalo de Confiança para a Razão das Variâncias de duas Populações Normais 103
6 Testes de Hipóteses 106
6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.1.1 Nocões Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.1.2 Componentes de um Teste de Hipóteses . . . . . . . . . . . . . . . . . . . 115
6.1.3 Passos para a Construção de um Teste de Hipóteses . . . . . . . . . . . . 118
6.1.4 Exemplo 6: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
iii
Lista de Tabelas
iv
Lista de Figuras
1.1 Densidade uniforme no intervalo [a, b] . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Exemplo gráfico da Densidade Gama . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Exemplo gráfico da Densidade Weibull . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Exemplo gráfico da Densidade Qui-quadrado . . . . . . . . . . . . . . . . . . . . . 29
1.5 Exemplo gráfico da Densidade t-Student . . . . . . . . . . . . . . . . . . . . . . . 30
1.6 Exemplo gráfico da Densidade F-Snedecor . . . . . . . . . . . . . . . . . . . . . . 31
3.1 Gráfico da Distribuição F-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.1 Resultados de 15 tiros dados por 4 rifles . . . . . . . . . . . . . . . . . . . . . . . 65
4.2 Representação gráfica para o EQM . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.1 Representação gráfica para o EQM . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.2 Quadro 1 - Erros associados a um Teste de Hipótese . . . . . . . . . . . . . . . . 108
6.3 Regra de decisão para o exemplo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . 108
v
Capítulo 1
Revisando Alguns Modelos
Probabilísticos Discretos e Continuos
1.1 Modelos Probabilísticos para Variáveis Aleatórias Discretas
1.1.1 Distribuição de Bernoulli
Muitos experimentossão tais que os resultados apresentam ou não uma determinada
característica. Por exemplo:
1. uma moeda é lançada: o resultado ou é cara, ou não (ocorrendo, então, coroa);
2. um dado é lançado: ou ocorre face 5 ou não (ocorrendo, então, umas das faces 1,2,3,4 ou
6);
3. uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça é defeituosa ou
não;
4. uma pessoa é escolhida ao acaso entre os moradores de uma cidade e verifica-se se ela é
favorável ou não a um projeto social.
Um experimento de Bernoulli é um experimento aleatório com apenas dois resultados
possíveis; por convenção, um deles é chamado sucesso e o outro fracasso.
Consideremos uma unica tentativa de um experimento aleatório, cujo resultado pode ser
sucesso ou fracasso nessa tentativa.
1
Seja X: número de sucessos em uma única tentativa do experimento.
X =
{
0, fracasso, com P (X = 0) = q = 1− p
1, sucesso, com P (X = 1) = p.
(1.1)
Definição A v.a X que assume apenas os valores 0 e 1 com função de probabilidade pX(x),
tal que: p(0) = P (X = 0) = 1 − p = q e p(1) = P (X = 1) = p, 0 < p < 1, é chamada variável
aleatória de Bernoulli, e sua função de distribuição é dada por:
P (X = x) = pxq1−x, x = 0, 1.
Notação: X ∼ Bernoulli(p)
Exemplo: Se X ∼ Bernoulli(1/2)⇒ p(x) = (12)x (12)1−x
O valor de p é o único valor que precisamos conhecer para determinar completamente a
distribuição; ele é, então, chamado parâmetro da distribuição de Bernoulli. Vamos denotar a
distribuição de Bernoulli com parâmetro p por X ∼ Bern(p).
Características
• E(X) = p;
• V (X) = p(1− p);
•
FX(x) =

0, se x < 0
1− p, se 0 ≤ x < 1
1, se x ≥ 1
(1.2)
Exemplo: Um auditor da Receita Federal examina declaracoes de Imposto deRenda de
pessoas físicas, cuja variação patrimonial ficou acima do limite considerado aceitável. De dados
históricos, sabe-se que 10% dessas declarações sao fraudulentas. Vamos considerar o experimento
correspondente ao sorteio aleatório de uma dessas declarações. Esse é um experimento de
Bernoulli, onde sucesso equivale à ocorrência de declaração fraudulenta e o parâmetro da
distribuição de Bernoulli é p = 0, 1.
Esse exemplo ilustra o fato de que �sucesso", nesse contexto, nem sempre significa uma
situação feliz na vida real. Aqui, sucesso é definido de acordo com o interesse estatístico no
problema. Em uma situação mais dramática, �sucesso"pode indicar a morte de um paciente,
por exemplo.
2
Exemplo: Uma urna contém 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna.
Seja a v.a X: número de bolas verdes. Determinar a função de probabilidade de X, p(x), E(X)
e V ar(X).
Solução:
X =
{
0 → q = P ( bola branca ) = 3050 = 35
1 → q = P ( bola verde ) = 2050 = 25
(1.3)
Portanto: p(x) = P (X = x) =
(
2
5
)x (3
5
)1−x
, x = 0, 1 e E(X) = p = 25 , V ar(X) = pq =
2
5
3
5 =
6
25
1.1.2 Distribuição Binomial
Este modelo fundamenta-se nas seguintes hipótes:
1. n provas independentes e do mesmo tipo são realizadas, ou seja, n ensaios de Bernoulli;
2. cada prova admite apenas dois resultados: sucesso ou fracasso.
3. a probabilidade de sucesso em cada prova é p e de fracasso é 1− p.
Considere agora as seguintes situações, obtidas de (1) a (4) da seção anterior:
1. uma moeda é lançda três vezes: qual a probabilidade de se obter duas caras?
2. um dado é lançado cinco vezes: qual é a probabilidade de se obter face 5 no máximo três
vezes?
3. dez peças são extraídas, ao acaso, com reposição, de um lote contendo 500 peças; qual é a
probabilidade de que todas sejam defeituosas, sabendo-se que 10% das peças do lote são
defeituosas?
4. sabe-se que 90% das pessoas de uma cidade são favoráveis a um projeto municipal.
Escolhendo-se 100 pessoas ao acaso entre os moradores, qual é a probabilidade de que
pelo menos 80 sejam favoráveis ao projeto?
Seja X: número de sucessos em n tentativas de um experimento. Logo X pode assumir os
valores: 0, 1, . . . , n. A função de distribuição de probabilidade da v.a X é definida por:
P (X = x) =
(
n
x
)
pxqn−x, x = 0, 1, . . . , n e
(
n
x
)
=
n!
(n− x)!x! (1.4)
Notação: X ∼ Binomial(n, p)
3
Exemplo: Se X ∼ Binomial(4, 1/2)⇒ p(x) =
(
4
x
)(
1
2
)x (1
2
)4−x
, x = 0, 1, 2, 4
Características
• E(X) = np;
• V ar(X) = npq.
Exemplo: Uma moeda não viciada é lançada 20 vezes. Qual a probabilidade de sairem 8
caras? Solução:
X : número de sucessos (caras)
X = 0, 1, 2, . . . , 20⇒ p = P ( cara ) = 1
2
⇒ X ∼ Binomial(20, 1/2)
p(x) =
(
20
x
)(
1
2
)x(1
2
)20−x
Assim: P (X = 8) =
(
20
8
)(
1
2
)8 (1
2
)20−8
= 0, 12013
Exemplo: Um atirador acerta, na mosca do alvo, 20% dos tiros. Se ele dá 10 tiros, qual
a probabilidade de ele acertar na mosca no máximo 1 vez?
Solução: Podemos pensar os tiros como experimentos de Bernoulli independentes, onde
sucesso é acertar no alvo e a probabilidade de sucesso é 0, 20. Então, o problema pede P (X ≤ 1),
onde X = núumero de acertos em 10 tiros. Logo, X ∼ Bin(10; 0, 20) e
P (X ≤ 1) = P (X = 0) + P (X = 1)
=
(
10
0
)
(0, 20)0 (0, 80)10 +
(
10
1
)
(0, 20)1 (0, 80)9
= 0, 37581
Exemplo: As linhas telefônicas em um sistema de reservas de uma companhia aérea estão
ocupadas 40% do tempo. Suponha que os eventos em que as linhas estejam ocupadas em
sucessivas chamadas sejam independentes. Considere que 10 chamadas aconteçam.
4
a) Qual é a probabilidade de que, para exatamente três chamadas, as linhas estejam
ocupadas?
b) Qual é a probabilidade de que, para no mínimo uma chamada, as linhas estejam ocupadas?
c) Qual é o número esperado de chamadas em que todas as linhas estejam ocupadas?
Solução: Seja X : Número de linhas ocupadas em 10 chamadas telefônicas.
p = P ( sucesso ) = P ( linha ocupada ) = 0, 4
X ∼ Binomial(10; 0, 4)→ p(x) = P (X = x) =
(
10
x
)
(0, 4)x(0, 6)10−x, x = 0, 1, . . . , 10
a) P (X = 3) =
(
10
3
)
(0, 4)3(0, 6)10−3 = 120× 0, 064× 0, 02799 = 0, 2149 = 21, 49%
b) P (X ≥ 1) = 1 − P (X < 1) = 1 − P (X = 0) = 1 −
(
10
0
)
(0, 4)0(0, 6)10 = 0, 9939 =
99, 39%
c) E(X) = np = 10× 0, 4 = 4 chamadas.
1.1.3 Distribuição Geométrica
Considere as seguintes situações:
1. uma moeda com probabilidade p de cara é lançada até que apareça cara pela primeira vez;
2. Considere uma população muito grande onde p% das pessoas sofrem de uma doença
desconhecida. Precisa-se encontrar uma pessoa portadora da doença para que os médicos
possam estudá-la. Quantas pessoas teremos que examinar até encontrar uma portadora?
Em ambas as situações, cada repetição do experimento (lançamento da moeda ou exame
de uma pessoa) tem dois resultados possíveis (cara ou coroa e Portadora ou não portadora da
doença), ou seja, temos experimentos de Bernoulli.
Consideremos repetições independentes de um experimento de Bernoulli com parâmetro
p. Cada tentativa admite sucesso com probabilidade p e fracasso com probabilidade q, p+q = 1.
Seja X: número de tentativas necessárias ao aparecimento do primeiro sucesso.
5
Logo, X assume os valores:
X = 1, que corresponde ao sucesso (S) e P (X = 1) = p;
X = 2, que corresponde ao fracasso (F) na primeira tentativa e ao sucesso na segunda, (FS)
e P (X = 2) = P (F ∩ S) = q × p;
X = 3, que corresponde a (FFS) e P (X = 3) = P (F ∩ F ∩ S) = q × q × p = q2p;
e assim sucessivamente.
X = x, que correspinde a FF . . . FS com
P (X = x) = qx−1p, x = 1, 2, 3, .....
• E(X) = 1/p;
• V ar(X) = q/p2.
As características definidoras desse modelo são: (i) repetições de um mesmo experimento de
Bernoulli, o que significa que em todas elas a probabilidade de sucesso (e, portanto, de fracasso)
é a mesma e (ii) as repetições são independentes. No caso do lançamento de uma moeda essas
hipótesessão bastante plausíveis mas no caso da doença a hipótese de independência pode não
ser satisfeita; por exemplo, pode haver um componente de hereditariedade.
Exemplo: A probabilidade de se encontrar aberto o sinal de trânsito numa esquina é 0,20.
Qual a probabilidade de que seja necessário passar pelo local 5 vezes para encontrar o sinal
aberto pela primeira vez?
Solução:
X = número de vezes necessárias para encontrar o sinal aberto.
p = 0, 20 e q = 0, 80
P (X = 5) = (0, 80)4(0, 20) = 0, 08192 ∼= 8, 2%
6
1.1.4 Distribuição Poisson
Consideremos a probabilidade de ocorrência de sucesso em um determinado intervalo.
A distribuição de Poisson é uma distribuição discreta de probabilidade, aplicável a ocorrência
de um evento em um intervalo especificado (tempo, distância, área, volume ou outra unidade
análoga). A probabilidade do evento ocorrer x vezes em um intervalo é dada a seguir:
Seja X : o número de sucessos no intervalo, então:
A variável aleatória discreta X tem distribuição de Poisson com parâmetro λ, se sua função
de distribuição de probabilidade é dada por
P (X = x) =
λx
x!
e−λ, x = 0, 1, 2, . . .
• E(X) = V (X) = λ;
• MX(t) = eλ(et − 1)
Como aplicações da distribuição de Poisson podemos citar:
• número de usuários de computador ligados à Internet;
• número de clientes que chegam numa loja durante uma hora de promoção relâmpago;
• carros que passam por um cruzamento por minuto, durante uma certa hora do dia;
• erros tipográficos por página, em um material impresso;
• defeitos por unidade (m2,m3,m etc ) por peça fabricada;
• colônias de bactérias numa da cultura por 0, 01mm2, numa plaqueta de microscópio;
• mortes por ataque de coração por ano, numa cidade. É aplicada também em problemas
de filas de espera em geral, e outros.
Exemplos:
1. Numa central telefônica chegam 300 telefonemas por hora. Qual a probabilidade de que:
a) num minuto não haja nenhum chamado?
7
b) em 2 minutos haja 2 chamadas?
c) em t minutos não haja chamadas?
Solução: X : número de chamadas telefônicas por hora.
λ = 300/60 = 5
a) P (X = 0) = e
−5×50
0! = 0, 006737
b) λ = 2× 5 = 10 e P (X = 2) = e−10×1022! = 50× e−10 = 0, 002269
c) λ = t× 5 = 5t e P (X = 0) = e−5t×(5t)00! = e−5t
2. Num livro de 800 páginas há 800 eros de impressão. Qual a probabilidade de que uma
página contenha pelo menos 3 erros?
Resolução: X : número de erros por página.
λ = 1
P (X ≥ 3) = 1− P (X < 3) = 1− {P (X = 0) + P (X = 1) + P (X = 2)
= 1−
{
e−1 × 10
0!
+
e−1 × 11
1!
+
e−1 × 12
2!
}
= 1− {0, 367879 + 0, 367879 + 0, 183940}
= 1− 0, 919698 = 0, 080302 (1.5)
3. Uma firma recebe 720 mensagens em seu fax em 8 horas de funcionamento. Qual a
probabilidade de que:
a) em 6 minutos receba pelo menos 4 mensagens?
Solução: X : número de mensagens em β minutos.
720 mensagens → 480min
λ→ 6min
Ou seja, λ = 9
Assim:
P (X ≥ 4) = 1− P (X < 4) = 1− {P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)
= 1−
{
e−9 × 90
0!
+
e−9 × 91
1!
+
e−9 × 92
2!
+
e−9 × 93
3!
}
8
= 1− {0, 000123 + 0, 001111 + 0, 004998 + 0, 014994}
= 1− 0, 021226 = 0, 978774 (1.6)
1.1.5 Distribuição Multinomial
Considere um experimento aleatório e k eventos A1, A2, . . . , Ak que formam uma partição do
espaço amostral do experimento.
Sejam P (Ai) = pi, i = 1, . . . , k (probabilidades de sucessos).
Considere n tentativas independentes do mesmo experimento, sendo que os pi,i = 1, . . . , k
permanecem constantes durante as repetições, com
∑k
i=1 pi = 1.
Sejam X1, X2, . . . , Xk os números de ocorrências de A1, A2, . . . , Ak, respectivamente, com∑k
i=1Xi = n
Nestas condições:
P (X1 = n1, X2 = n2, . . . , Xk = nk) =
n!
n1! . . . nk!
pn11 ∗ pn22 ∗, . . . , pnkk (1.7)
com
∑n
i=1 ni = n.
Esta função de probabilidade caracteriza a distribuição polinomial ou multinomial de
Xi, i = 1, . . . , k.
Quando k = 2, temos a distribuição binomial, pois
P (X1 = n1, X2 = n2) =
n!
n1!n2!
pn11 ∗ pn22
, com {
n2 = n− n1
p2 = 1− p1 (1.8)
• E(Xi) = nipi;
• V (Xi) = nipiqi, i = 1, 2, . . . , k;
Exemplo: Uma urna tem 6 bolas brancas, 4 pretas e 5 azuis. Retiram-se 8 bolas com
reposição. Qual a probabilidade de sair 4 bolas brancas, 2 pretas e 2 azuis?
9
Solução:
p1 = P ({branca}) = 615 = 25 e X1 : saída de 4 bolas brancas
p2 = P ({preta}) = 415 e X2 : saída de 2 bolas pretas
p3 = P ({azuis}) = 515 = 13 e X3 : saída de 2 bolas azuis
Portanto:
P (X1 = 4, X2 = 2, X3 = 2) =
8!
4!2!2!
(
2
5
)4( 4
15
)2(1
3
)2
1.2 Modelos Probabilísticos para Variáveis Aleatórias Contínuas
1.2.1 Distribuição Uniforme
Uma variável aleatória contínua X tem distribuição uniforme no intervalo [a, b] (finito) se sua
função de densidade é constante nesse intervalo, ou seja, temos que ter
f(x) = k, ∀x ∈ [a, b]
Então, o gráfico da f.d.p. de X é como o ilustrado na Figura abaixo:
Figura 1.1: Densidade uniforme no intervalo [a, b]
Logo, a função de densidade de uma v.a. uniforme no intervalo [a, b] é dada por:
fX(x) =
{
1
b−a se a ≤ x ≤ b
0 caso contrário
(1.9)
Os valores a e b são chamados parâmetros da distribuição uniforme; note que ambos têm que
ser finitos para que a integral seja igual a 1. Quando a = 0 e b = 1 temos a uniforme padrão,
denotada por U ∼ (0, 1).
10
Função de distribuição acumulada
Por definição, temos que FX(x) = P (X ≤ x) e essa probabilidade é dada pela área sob a curva
de densidade à esquerda de x. Logo:
FX(x) =

0 se x < a
x−a
b−a se a ≤ x ≤ b
1 se x ≤ b
(1.10)
O gráfico dessa f.d.a. é dado na Figura abaixo:
Esperança e Variância
• E(X) = a+b2 ;
• V (X) = (b−a)212 .
Exemplo
Um ponto é escolhido ao acaso no segmento de reta [1, 4]. Calcular:
a) probabilidade de que o ponto escolhido esteja entre 2 e 3;
b) entre 0,5 e 2,5;
c) seja exatamente o 2;
d) a média dessa distribuição;
e) a variância dessa distribuição.
1.2.2 Distribuição Exponencial
A distribuição exponencial é um modelo para um tempo de vida com taxa de falha constante.
11
Uma variável aleatória X tem distribuição exponencial com parâmetro λ se sua densidade
de probabilidade é da forma:
fX(x) =
{
λe−λx se x ≥ 0
0 caso contrário
(1.11)
onde o parâmetro λ é uma constante real positiva. A figura mostra um gráfico da densidade
exponencial.
Como a f.d.p. exponencial depende apenas do valor de λ, esse é o parâmetro da densidade
exponencial. Então, usaremos a notação X ∼ exp(λ) para indicar o fato de que a v.a. X tem
distribuição exponencial com parâmetro λ.
Função de distribuição acumulada
Por definição, temos que:
FX(x) == P (X ≤ x)
{
1− e−λx se x > 0
0 se x ≤ 0 (1.12)
O gráfico dessa f.d.a. é dado na Figura abaixo:
12
Média, Variância e Função geradora de momento da Distribuição Exponencial
E(X) =
1
λ
V (X) =
1
λ2
e
MX(t) =
(
1− t
λ
)−1
Parametrização alternativa
É possível parametrizar a densidade exponencial em termos de um parâmetro β = 1λ . Neste
caso,
fX(x) =
1
β
e
− x
β , x > 0, β > 0
E(X) = β
E(X2) = 2β2
V (X) = β2
1.2.3 Exemplos
1. Uma v.a contínua X tem fdp dada por:
fX(x) =
{
k/2e−x se x ≤ 0
0 se x < 0
(1.13)
a) Calcular o valor de k;
b) Determinar F (x);
c) Determinar a mediana da distribuição.
2. Seja X ∼ exp(4). Calcule:
a) Calcula P (X > 1);
b) Calculer P (1 ≤ X ≤ 2);
13
1.2.4 Distribuição Gama
A distribuição gama é uma das mais gerais distribuições, pois diversas distribuições são caso
particular dela como por exemplo a exponencial, a qui-quadrado, entre outras. Essa distribuição
tem como suas principais aplicações à análise de tempo de vida de produtos. Tem sido utilizada
para modelar as precipitações de chuvas.
A função gama
A funçãogama é definida pela seguinte integral:
Γ(α) =
∫ ∞
0
e−xxα−1dx
O argumento da função é α que aparece no expoente da variável de integração x
A função gama tem a seguinte propriedade recursiva: Γ(α+ 1) = αΓ(α)
agora, com α = n inteiro.
Γ(1) = 1
Γ(2) = 1Γ(1) = 1 = 1!
Γ(3) = 2Γ(2) = 2 ∗ 1 = 2!
Γ(4) = 3Γ(3) = 3 ∗ 2 ∗ 1 = 3!
Em geral, se n é inteiro:
Γ(n) = (n− 1)!
A Distribuição Gama
Definição Diz-se que uma variável aleatória tem distribuição gama com parâmetros (α e β)
se sua função de densidade de probabilidade é dada por
fX(x) =
{
β
Γ(α)(βx)
α−1e−βx se x > 0, β > 0
0 se x ≤ 0 (1.14)
14
Note que, quando α = 1 resulta a densidade exponencial com parâmetro β, ou seja, a
distribuição exponencial é um caso particular da densidade gama.
Notação X ∼ gamma(α, β) para indicar que a variável aleatória X tem distribuição gama
com parâmetros α, β. Abaixo, figura 2, temos um exemplo gráfico para essa distribuição.
Figura 1.2: Exemplo gráfico da Densidade Gama
Média, Variância e Função geratriz de momento da Distribuição Gama
E(X) =
β
α
V (X) =
β
α2
e
MX(t) =
[(
1− t
λ
)−1]r
1.2.5 Distribuição de Weibull
A distribuição Weibull foi proposta originalmente por W. Weibull (1954) em estudos
relacionados ao tempo de falha devido a fadiga de metais. Ela é frequentemente usada para
15
descrever o tempo de vida de produtos industriais. A sua popularidade em aplicações práticas
deve-se ao fato dela apresentar uma grande variedade de formas, todas com uma propriedade
básica: a sua função de taxa de falha é monótona. Isto é, ou ela é crescente ou decrescente
ou constante. Ela descreve adequadamente a vida de mananciais, componentes eletrônicos,
cerâmicas, capacitores e dielétricos.
Definição Uma variável aleatória X tem distribuição de Weibull com parâmetros α > 0 e
β > 0 se sua função de densidade de probabilidade é dada por:
fX(x) =
α
βα
xα−1e
(
− x
β
)α
, x > 0
A função de distribuição acumulada é dada por:
F (x) = 1− exp
[(
x
β
)α]
, x > 0
Figura 1.3: Exemplo gráfico da Densidade Weibull
1.2.6 A Distribuição Normal
A distribuição Normal é a distribuição de probabilidade mais usada na Estatística, pois serve
de modelo para um grande número de variáveis contínuas e também como modelo aproximado
16
para outras distribuições de probabilidade (Binomial, Poisson, etc).
Uma variável aleatória contínua X, definida para todos os valores da reta real, tem densidade
normal com parâmetros µ e σ2, onde −∞ < µ <∞ e 0 < σ2 <∞, se sua função de densidade
de probabilidade é dada por:
fX(x) =
1√
2piσ2
exp
[
−1
2
(
x− µ
σ
)2]
−∞ < x <∞ (1.15)
onde: σ > 0, e = 2, 718282, pi = 3, 14159...
Será usada a seguinte notação para indicar que uma v.a. X tem distribuição normal com
parâmetros µ e σ2: X ∼ N(µ, σ2).
Propriedades da Distribuição Normal
A distribuição normal tem várias propriedades importantes.
1. fX(x) ≥ 0, para todo x;
2.
∫∞
−∞ fX(x) = 1;
3. E(X) = µ;
4. V (X) = σ2;
5. limx→+∞ = limx→−∞ = 0;
6. f(µ+ x) = f(µ− x). A densidade é simétrica em torno de µ;
7. O valor máximo de f ocorre em x = µ;
8. Os pontos de inflexão de f estão em x = µ± σ.
17
Efeito da média µ e do desvio-padrão σ na curva normal
A média µ determina o valor do centro da curva normal, enquanto que o desvio-padrão σ
determina a largura da curva normal. Quanto menor o valor do desvio-padrão σ , menor será a
variabilidade dos dados, conseqüentemente menor será a largura da curva.
Algumas Características da Distribuição Normal
1. A média, mediana e moda são iguais. Ou seja, µ = Md = mo;
2. A curva normal, além de ter uma área total igual a 1, é simétrica em torno da média ,
sendo assim, P (X < µ− b) = P (X > µ+ b);
18
3. P (X ∈ [a; b]) = P (a ≤ X ≤ b) = área da curva no intervalo [a; b]:
4. A inclusão ou exclusão dos extremos não altera o valor da probabilidade. Portanto, P (a ≤
X ≤ b) = P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b);
5. Quaisquer que sejam os valores da média µ e do desvio-padrão σ de uma distribuição
normal, os seguintes resultados são válidos:
• P (µ − 1σ ≤ X ≤ µ + 1σ) = 0, 6827 - Cerca de 68, 3% dos valores estão a um
desvio-padrão distante da média;
• P (µ− 2σ ≤ X ≤ µ + 2σ) = 0, 9545 - Cerca de 95, 5% dos valores estão a 2 desvios-
padrões distante da média;
• P (µ− 3σ ≤ X ≤ µ + 3σ) = 0, 9973 - Cerca de 99, 7% dos valores estão a 3 desvios-
padrões distante da média;
Se as notas em matemática dos candidatos em um vestibular forem normalmente Distribuídas
com média de µ = 65 pontos e desvio-padrão de σ = 12 pontos, então aproximadamente 95%
desses candidatos irão obter notas de 41 a 89 pontos, pois
41 = 65− 2× 12(= µ− 2σ)
89 = 65 + 2× 12(= µ+ 2σ)
19
1.2.7 Distribuição normal padrão
A distribuição normal padrão é um acaso especial da distribuição normal onde a média é zero
(µ = 0) e desvio-padrão é um (σ = 1). As áreas dessa distribuição são obtidas com o auxilio de
tabelas (em anexo) e serve de referência para calcular probabilidades das outras distribuições
normais.
Por que usamos tabela na distribuição normal?
Como foi dito anteriormente, as probabilidades são obtidas resolvendo a integral da função
densidade no intervalo de interesse. O grande problema é que integrar algebricamente uma
curva normal não é possível e a solução encontrada foi usar métodos numéricos para calcular de
forma aproximada as áreas de interesse. Essas áreas são calculadas apenas para a distribuição
normal padrão.
A tabela dá as probabilidades sob uma cursa normal padrão, que mada mais são do que as
correspondentes áreas sob a curva. A Figura abaixo ilustra a probabilidade fornecida.
P (0 ≤ Z ≤ Zc), onde Z ∼ N(0, 1)
Exemplos:
a) P (0 < Z < 1, 22) = 0, 3838
20
b) P (1 < Z < 2)
21
Logo:
P (1 < Z < 2) = P (0 < Z < 2)− P (0 < Z < 1) = 0, 4772− 03413 = 0, 1359 (1.16)
c) P (Z ≥ 1)
Logo: P (Z ≥ 1) = P (Z ≥ 0)− P (0 ≤ Z ≤ 1) = 0, 5− 0, 3413 = 0, 1587
d) Determine o valor de k tal que P (Z ≤ k) = 0, 90.
22
Solução: Queremos encontrar a abcissa k da normal padrão com 0, 90 de área
(probabilidade) à esquerda dela. Como 0, 9 é a área à esquerda de k, resulta que k tem
que ser maior que zero, isto é, temos que ter k > 0. Veja a Figura abaixo á esquerda de
k temos área 0, 90 e à esquerda de 0 temos área 0,5. Logo, entre 0 e 0, 90 temos que ter
área 0,40.
Escrevendo essas observações em termos de probabilidade, temos:
P (Z ≤ k) = 0, 90⇔
P (Z ≤ 0) + P (0 < Z ≤ k) = 0, 90⇔
0, 5 + P (0 < Z ≤ k) = 0, 90⇔
P (0 < Z ≤ k) = 0, 40⇔
tab(k) = 0, 40
Esta última igualdade nos diz que k é a abcissa correspondente ao valor 0, 40 na Tabela.
Para identificar k; temos que buscar no corpo dessa tabela, o valor mais próximo de 0, 40.
Na linha correspondente ao valor 1,2 encontramos as entradas 0, 39973 e 0, 40147. Como
a primeira está mais próxima de 0,40, olhamos qual é a abcissa correspondente: a linha é
1, 2 e a coluna é 8, o que nos dá a abcissa de 1,28, ou seja, k = 1, 28 e P (Z ≤ 1, 28) = 0, 90,
completando a solução.
e) P (−2, 1 ≤ Z ≤ 1, 4)
Solução: Note que este exemplo trata da área (probabilidade) entre duas abcissas, uma
negativa e outra positiva. A Figura 1 abaixo ilustra-se a área (probabilidade) desejada.
23
Essa área é a soma das áreas representadas nas Figuras 2 e 3. Por simetria, essa última
área é igual à área sombreada na Figura 4, o que nos leva à cocnlusão de que
P (−2, 1 ≤ Z ≤ 1, 4) = P (0 ≤ Z ≤ 1, 4) + P (−2, 1 ≤ Z ≤ 0)
= P (0 ≤ Z ≤ 1, 4) + P (0 ≤ Z ≤ 2, 1)
= tab(1, 4) + tab(2, 1)
= 0, 4821 + 0, 4192 = 0, 9013
1.2.8 Padronização de uma variável
Até agora só trabalhamos com a distribuição normal padrão. E como devemos trabalhar com
as outras distribuições de probabilidades?Qualquer variável X tendo distribuição normal com
média µ e desvio-padrão σ pode ser �transformada"em uma distribuição normal padrão, basta,
para isto, padronizar a variável X.
Se X ∼ N(µ,2 ), entao, a variavel aleatoria definida por
Z =
X − µ
σ
terá uma distribuição N(0, 1). Essa transformação é ilustrada pela figura abaixo:
24
Exemplos
1. Se X ∼ N(2, 5). Calcular a P (1 ≤ X ≤ 7).
Solução:
P (1 ≤ X ≤ 7) = P
(
1− 2√
5
≤ X − 2√
5
≤ 7− 2√
5
)
= P (−0, 45 ≤ Z ≤ 2, 24)
= P (−0, 45 ≤ Z < 0) + P (0 ≤ Z ≤ 2, 24)
= P (0 ≤ Z ≤ 0, 45) + P (0 ≤ Z ≤ 2, 24)
= tab(0, 45) + tab(2, 24)
= 0, 4875 + 0, 1700 = 0, 6575
2. Se X ∼ N(5, 1). Calcular a P (X ≤ 7).
Solução:
P (X ≥ 2) = P
(
X − 5√
1
≥ 7− 5√
1
)
= P (Z ≥ 2, 0) = P (Z ≥ 0)− P (0 ≤ Z ≤ 2)
= 0, 5− tab(2, 0)
= 0, 5− 0, 47725 = 0, 02275
3. Se X ∼ N(µ, σ2). Calcular a P (µ− kσ ≤ X ≤ µ+ kσ) , para k = 1, 2, 3.
Solução Note que essa probabilidade corresponde à probabilidade de X estar a uma
distância de k desvios-padrão da média.
25
P (µ− kσ ≤ X ≤ µ+ kσ) = P
(
µ− kσ − µ ≤ X − µ
σ
≤ µ+ kσ − µ
σ
)
= P (−k ≤ Z ≤ k)
Chegamos a uma probabilidade que nao depende de µ ou σ, ou seja, esse resultado vale
qualquer que seja a distribuicao normal.
• k = 1
P (µ− σ ≤ X ≤ µ+ σ) = P (−1 ≤ Z ≤ 1) = 2× tab(1, 0) = 2× 0, 3414 = 0, 6828
• k = 2
P (µ− 2σ ≤ X ≤ µ+ 2σ) = P (−2 ≤ Z ≤ 2) = 2× tab(2, 0) = 2× 0, 4772 = 0, 9544
• k = 3
P (µ− 3σ ≤ X ≤ µ+ 3σ) = P (−3 ≤ Z ≤ 3) = 2× tab(3, 0) = 2× 0, 4987 = 0, 9974
Essas probabilidades nos dizem que, para qualquer distribuição normal, 68, 28% dos valores
estão a um desvio-padrão da média, 95, 44% estão a dois desvios-padrão e 99, 73% dos
valores estão a três desvios-padrão da média. Veja a Figura abaixo para uma ilustração
desses resultados.
4. Se ∼ N(3; 4). Determine o valor de k tal que P (X ≤ k) = 0, 90.
Solução: Com a probabilidade à esquerda de k é maior que 0, 5, resulta que k tem de
ser maior que a média. O primeiro passo na solução é escrever a probabilidade dada em
termos da normal padrão.
26
P (X ≤ k) = 0, 90⇔
P
(
X − 3
2
≤ k − 3
2
)
= 0, 90⇔
(
Z ≤ k − 3
2
)
= 0, 90⇔
P (Z ≤ 0) + P
(
0 ≤ Z ≤ k − 3
2
)
= 0, 90⇔
0, 5 + P
(
0 ≤ Z ≤ k − 3
2
)
= 0, 90⇔
P
(
0 ≤ Z ≤ k − 3
2
)
= 0, 40⇔
tab
(
k − 3
2
)
= 0, 40⇔
k − 3
2
= 1, 28⇔ k = 5, 56
5. O consumo mensal em minutos por conta de celular em uma região é uma variável aleatória
normal com média 36 e desvio padrão 12.
a) Qual é a probabilidade de uma pessoa desta região usar o telefone celular por menos
de 48 minutos?
b) Qual é a probabilidade de uma pessoa desta região usar o telefone celular por mais
de 30 minutos?
c) Qual o tempo mínimo que alguém deve gastar ao telefone no mês para estar entre os
5% que MAIS usam o celular?
Solução: X = consumo em minutos; X ∼ N(36; 122)
(a)
P (X < 48) = P
(
X − 36√
12
<
48− 36√
12
)
= P (Z < 1, 0) = P (Z < 0) + P (0 < Z < 1)
= 0, 5 + tab(1, 0)
= 0, 5 + 0, 34134 = 0, 84134
(b)
P (X > 30) = P
(
X − 36√
12
>
30− 36√
12
)
= P (Z > −0, 5) = P (Z > 0) + P (−0, 5 < Z < 0)
= P (Z > 0) + P (0 < Z < 0, 5)
27
= 0, 5 + tab(0, 5)
= 0, 5 + 0, 19146 = 0, 69146
(c) Seja m o tempo mínimo.
P(X ≥ m) = 0, 05⇔ P (X−3612 ≥ m−3612 ) = 0, 05⇔ P (Z ≥ m−3612 ) = 0, 05⇔
tab
(
m−36
12
)
= 0, 05⇔ m−3612 = 1, 64⇔ m = 55, 68
A pessoa tem que falar pelo menos 55,68 minutos para estar entre os 5% que mais usam
o celular.
1.2.9 Distribuições obtidas da Normal
Nesta seção estudaremos as 3 principais famílias de distribuições definidas a partir de
variáveis aleatórias independentes identicamente distribuídas com distribuição N(0; 1).
Distribuição Qui-Quadrado
Sejam Z1, Z2, . . . , Zk variáveis aleatórias independentes identicamente distribuídas
distribuição da variável aleatória
k∑
i=1
Z2i
é denominada Distribuição Qui-quadrado com k graus de liberdade e anotada χ2k. A função
densidade de probabilidade da Distribuição Qui-quadrado com k graus de liberdade é:
fX(x) =
1
2k/2Γ(k/2)
x
k
2
−1e−
x
2 , x ≥ 0
onde k representa o número de graus de liberdade, Γ(k/2) representa a função Gamma,
que possui uma forma fechada para a metade de valores inteiros.
IDEIA Graus de liberdade: Considere um conjunto de dados qualquer. Graus de
liberdade é o número de valores deste conjunto de dados que podem variar após terem
sido impostas certas restrições a todos os valores.
Exemplo Consideremos que 10 estudantes obtiveram em um teste média 8.0. Assim,
a soma das 10 notas deve ser 80 (restrição). Portanto, neste caso, temos um grau de
liberdade de 10−1 = 9, pois as nove primeiras notas podem ser escolhidas aleatoriamente,
contudo a 10a nota deve ser igual a [80-(soma das 9 primeiras)].
28
A esperança de uma distribuição Qui-quadrdo é dado pelo valor k, enquanto a variância
é dada por 2k.
Figura 1.4: Exemplo gráfico da Densidade Qui-quadrado
Distribuição t de Student
Sejam Z ∼ N(0, 1) e Y ∼ χ2v variáveis aleatórias indepndentes. A distribuição da variável
aleatória
Z√
Y
v
, v = 1, 2, . . .
é denominada Distribuição de t de Studente com V graus de liberdade e a indicaremos
por t(v).
A função densidade de probabilidade da distribução de Student com v graus de liberdade
é:
f(t) =
Γ(v+12 )√
vpiΓ(v/2)
(
1 +
t2
v
)−(v+1)
2
,−∞ < t <∞ (1.16)
Mais uma vez, o parâmetro v, chamado de graus de liberdade, está associado ao número
de parcelas independentes em uma soma.
Alguns resultados e propriedades importantes a respeito da distribuição t de student são:
29
Figura 1.5: Exemplo gráfico da Densidade t-Student
• A densidade da distribuição t é simétrica em relação a t = 0. Se v > 2, então E(X) = 0
e V (X) = vv−2 ;
• Se X ∼ t(v) e v →∞, então tem-se que limv→∞X ∼ N(0, 1);
• A distribuição t resolve o problema de estimação da média para populações
normalmente distribuídas quando o tamanho da amostra é pequeno. Por causa disso,
ela é base para os populares testes de significância t, testes para comparações de
médias de duas amostras ou para a construção de intervalos de confiança para média
ou para a diferença entre as médias de duas populações.
Distribuição F de Snedecor
Sejam U e V duas variáveis aleatórias independentes, cada uma com distribuição qui-
quadrado com v1 e v2 graus de liberdade, respectivamente. Então, a v.a.
W =
U/v1
V/v2
é denominada Distribuição de Snededor com v1 e v2 graus de liberdade e anotada
W ∼ F (v1, v2).
A função densidade de probabilidade da distribuição de Snedecor é:
f(w) =
Γ(v1+v22 )
Γ(v1/2)Γ(v2/2)
(
v1
v2
)
w(v1−2)/2
(1 + v1w/v2)(v1+v2)/2
, w > 0
30
• A densidade da distribuição F é assimétrica e W assume valores positivos em todos
os reais.
• E(W ) = v2v2−2 e V (W ) =
2v22(v1+v2−2)
v1(v2−2)2(v2−4) .
• A distribuição F surge, normalmente, como a distribuição sob a hipótese nula de
testes estatísticos, principalmente testes de comparação de variâncias. Seu uso é muito
comum na análise de experimentos, onde utiliza-se o teste F na análise de variância
de planejamentos fatoriais.
Figura 1.6: Exemplo gráfico da Densidade F-Snedecor
31
Capítulo 2
Introdução à Inferência Estatística
2.1 Introdução
Em linhas gerais a Inferência estatística tem por objetivo produzir afirmações a respeito
de uma população, baseado em uma amostra. É a amostra que contém os elementos
observáveis e é onde as quantidades de interesse podem ser medidas.
Definição 1: Seja X uma variável aleatória com função de densidade (ou de
probabilidade) que abreviamos por (f.d.p) ou (f.p) e que denotamos por f(x|θ), em que θ é
um parâmetro desconhecido. Chamamos de inferência estatística o problema que consiste
em especificarum ou mais valores para θ, baseado em um conjunto de valores observados
de X.
2.1.1 População e Amostra
Definição 2: O conjunto de valores de uma característica (observável) associada a uma
coleção de indivíduos ou objetos de interesse é dito ser uma população.
É um conjunto de indívíduos ou objetos que possuem uma certa característica em comum.
Amostra é um subconjunto da população.
Definição 3: A população de uma pesquisa estatística pode ser representada por uma
variável aleatória X que descreve a característica de interesse.
Definição 4: Uma sequência X1, . . . , Xn de n variáveis aleatória independentes e
identicamente distribuídas(i.i.d) com função de densidade (f.d.p) ou, no caso discreto,
32
função de probabilidade (f.p) f(x|θ), é dita ser uma amostra aleatória de tamanho n da
distribuição de X. Nesse caso, temos,
f(x1, . . . , xn|θ) =
n∏
i=1
f(xi|θ) = f(x1|θ) . . . f(xn|θ). (2.1)
Concluímos, a partir da Definição 4, que usamos a amostra X1, . . . , Xn para obter
informação sobre o parâmetro θ. A função de densidade (ou de probabilidade) conjunta
dada em (1) é denominada função de verossimilhança de θ, correspondente à amostra
observada x = (x1, . . . , xn)∆e será denotada por
L(θ,x) =
n∏
i=1
f(xi|θ).
Exemplos de População X Amostra:
(a) Um estudo antropométrico em nível nacional, uma amostra de 500 adultos é
selecionada dentre os adultos brasileiros e uma das variáveis de estudo é a altura.
• Neste exemplo, a população é o conjunto de todos os brasileiros adultos. No
entanto, o interesse (um deles, pelo menos) está na altura dos brasileiros. Assim,
nesse estudo, a cada sujeito da população associamos um número correspondente
a sua altura.
• Se determinado sujeito é sorteado para entrar na amostra, o que nos interessa é
esse numero, ou seja, sua altura.
• Como vimos, essa é a definição de variavel aleatoria: uma função que associa a
cada ponto do espaco amostral um número real. Dessa forma, a nossa população
pode ser representada pela variável aleatoria X = �altura do adulto brasileiro".
• Como essa é uma v.a. continua, a ela esta associada uma função de densidade
de probabilidade f(x) e da literatura, sabemos que é razoavel supor que essa
densidade seja a densidade normal. Assim, nossa população, nesse caso, e
representada por uma v.a. X ∼ N(µ;σ2). Conhecendo os valores de µ e σ2
teremos informações completas sobre a nossa população.
• Uma forma de obtermos os valores de µ e σ2 é medindo as alturas de todos
os brasileiros adultos. Mas esse seria um procedimento caro e demorado. Uma
solução, então, é retirar uma amostra (subonjunto) da população e estudar essa
amostra.
33
• Supondo que essa amostra seja retirada com reposição e que os sorteios sejam
feitos de forma independente, isto é, o resultado de cada extração nao altera o
resultado das demais extrações. Ao sortearmos o primeiro elemento, estamos
realizando um experimento que da origem a v.a. X1 = �altura do primeiro
elemento"; o segundo elemento da origem a v.a. X2 = �altura do segundo
elemento"; e assim por diante.
• Como as extrações são feitas com reposição, todas as v.a. X1, X2, . . . tem a
mesma distribuição, que reflete a distribuição da altura de todos os brasileiros
adultos. Para uma amostra específica, temos os valores observados x1, x2, . . .
dessas variaveis aleatorias.
(b) Consideremos, agora, um exemplo baseado em pesquisas eleitorais, em que estamos
interessados no resultado do segundo turno de uma eleição presidencial brasileira.
Mais uma vez, nossos sujeitos de pesquisa são pessoas com 16 anos ou mais, aptas
a votar. O interesse final é saber a proporção de votos de um e outro candidato.
Vamos considerar uma situação simplificada em que não estamos considerando votos
nulos, indecisos, etc.
• Cada sujeito de pesquisa dá origem a uma variável aleatoria binaria, isto é, uma
v.a. que assume apenas dois valores.
• Podemos representar esses valores por 1 (candidato A) e 0 (candidato B), o
que define uma variável aleatoria de Bernoulli, ou seja, essa população pode ser
representada pela v.a. X ∼ Bern(p).
• O parâmetro p representa a probabilidade de um sujeito dessa população votar
no candidato A. Uma outra interpretação é que p representa a proporção
populacional de votantes no candidato A.
• Para obtermos informação sobre p, retira-se uma amostra da população e, como
antes, vamos supor que essa amostra seja retirada com reposição. Ao sortearmos
o primeiro elemento, estamos realizando um experimento que da origem a
v.a. X1 =�voto do primeiro elemento"; o segundo elemento da origem a v.a.
X2 =�voto do segundo elemento"; e assim por diante. Como as extrações são
feitas com reposição, todas as variáveis X1, X2, . . . tem a mesma distribuicão de
Bernoulli populacional, isto é, Xi ∼ Bern(p), i = 1, 2, . . . .
(c) Consideremos uma pesquisa para estudar salários dos 500 funcionários da companhia
MB. Seleciona-se 36 indivíduos e anotam-se os seus salários.
(d) Estudar a proporção de indivíduos de uma cidade que são favoráveis a certo projeto
34
governamental. Uma amostra de 200 pessoas é sorteada e a opnião de cada uma é
registrada como sendo a favor ou contra o projeto.
2.1.2 Amostra aleatória simples
Nas pesquisas por amostragem, uma amostra é selecionada da população de interesse e
todas as conclusões serão baseadas apenas nessa amostra. Para que seja possível inferir
resultados para a população a partir da amostra, é necessário que esta seja representativa
da população.
Embora existam vários métodos de seleção de amostras, vamos nos concentrar aqui no
caso mais simples, que é a amostragem aleatória simples. Segundo tal método, toda
amostra de mesmo tamanho n tem igual chance (probabilidade) de ser sorteada. É
possível extrair amostras aleatórias simples com e sem reposição. Quando estudamos as
distribuições binomial e hipergeométrica, vimos que a distribuição binomial correspondia
a extrações com reposição e a distribuição hipergeométrica correspondia a extrações
sem reposição. No entanto, para populações grandes - ou infinitas - extrações com
e sem reposição não levam a resultados muito diferentes. Assim, no estudo da
Inferência Estatística, estaremos lidando sempre com amostragem aleatória simples com
reposição. Este método de seleção atribui a cada elemento da população a mesma
probabilidade de ser selecionado e esta probabilidade se mantém constante ao longo do
processo de seleção da amostra (se as extrações fossem sem reposição isso não aconteceria).
Seja uma população representada por uma variável aleatória X. De tal população será
sorteada uma amostra aleatória simples com reposição de tamanho n. Como visto nos
exemplos anteriores, cada sorteio dá origem a uma variável aleatória Xi e, como os
sorteios são com reposição, todas essas variáveis têm a mesma distribuição de X. Isso nos
leva à seguinte definição.
Definição: Uma amostra aleatória simples (aas) de tamanho n de uma v.a. X
(população) é um conjunto de n v.a. X1, X2, . . . , Xn independentes e identicamente
distribuídas (i.i.d.).
35
2.1.3 Estatísticas e Parâmetros
Obtida uma aas, é possível calcular diversas características desta amostra, como, por
exemplo, a média, a mediana, a variância, etc. Qualquer uma destas características é
uma função de X1, X2, . . . , Xn e, portanto, o seu valor depende da amostra sorteada.
Sendo assim, cada uma dessas características ou funções é também uma v.a. . Por
exemplo, a média amostral é a v.a. definida por:
X =
1
n
(X1 +X2 + . . .+Xn)
Estimador ou Estatística:
Uma estatística amostral ou estimador T é qualquer função da amostra X1, X2, . . . , Xn,
isto é, T = f(X1, X2, . . . , Xn), onde f é uma função qualquer.
Sejam X1, X2, . . . , Xn uma amostra aleatória da variável aleatória X, com (f.d.p) ou (f.p)f(x|θ). Exemplos de estatísticas são:
• Média Amostral: X = 1n
∑n
i=1Xi
• Variância da Amostra: S2 = 1n−1
∑n
i=1
(
Xi −X
)2
• A frequência relativa: f = p̂ = xn = NCF na amostra
NTC na amostra
• A soma, ou diferença, entre duas médias amostrais (X1 ±X2)
• O quociente entre duas variâncias amostrais (S21 ÷ S22)
• O menor valor da amostra: X1 = min (X1, X2, . . . , Xn)
• O maior valor da amostra: Xn = max (X1, X2, . . . , Xn)
• amplitude amostral: Xn −X1
• Xi = a i-ésima maior observação da amostra
Parâmetro:
Um parâmetro é uma medida usada para descrever uma característica da população.
36
Assim, se a população é representada pela v.a. X, alguns parâmetros são a esperança
E(X) e a variância V ar(X) de X.
Os símbolos mais comuns são:
Denominação População (Parâmetro) Amostra (Estimador)
Média µ = E(X) X
Variância σ2 = V ar(X) S2
Proporção P p
Soma ou diferença entre duas médias µ1 ± µ2 X1 ±X2
Quociente entre duas Variâncias σ21 ÷ σ22 S21 ÷ §22
Número de elementos N n
Quartis Q1, Q2, Q3 q1, q2, q3
Intervalo inter-quartil dQ = Q3 −Q1 dq = q3 − q1
Função densidade fX(x) histograma
Função de distribuição FX(x) Fe(x)
Estimativa
O valor numérico de um estimador é chamado de estimativa de seu respectivo parâmetro.
Exemplo:
(a) Uma amostra aleatória de retornos de 100 ações apontou média de 2, 5% e desvio-
padrão de 1, 7%. Logo, podemos afirmar que a estimativa do retorno médio dessas
ações é de 2, 5% e que a estimativa do desvio-padrão é de 1, 7%
Definição: O conjunto Θ em que θ toma valores é denominado espaço paramétrico.
Exemplo: Sejam X1, . . . , Xn uma amostra aleatória da variável aleatória X ∼ N(µ, σ2).
• Se σ2 = 1, então θ = µ é o parâmetro desconhecido e Θ = {µ,−∞ < µ <∞};
• Se µ = 0, então θ = σ2 é o parâmetro desconhecido e Θ = {σ2, σ2 > 0};
• Se µ e σ2 são desconhecidos então θ = (µ, σ2) são desconhecidos e Θ = {(µ,2 ),−∞ <
µ <∞ e σ2 > 0};
Definição: Qualquer estatística que assuma valores em Θ é um estimador para θ.
37
2.2 Distribuições Amostrais
O problema da inferência estatística é fazer uma afirmação sobre os parâmetros da
população através da amostra. Digamos que nossa afirmação deva ser feita sobre
um parâmetro θ da população. Usando uma AAS de n elementos sorteado dessa
população. Nossa decisão será baseada na estatística T , que será uma função da amostra
(X1, X2, . . . , Xn) , ou seja T = f(X1, X2, . . . , Xn) . Colhida essa amostra, teremos
observado um particular valor de T , digamos t0, e baseado nesse valor é que faremos a
afirmação sobre θ , o parâmetro populacional.
A validade da resposta será melhor compreendida se soubermos o que acontece com a
estatística T , quando retiramos todas as amostras de uma população conhecida segundo
o plano amostral adotado. Isto é, qual a distribuição de T quando X1, X2, . . . , Xn
assume todos os valores possíveis. Essa distribuição é chamada distribuição amostral da
estatística e desempenha papel fundamental na teoria da inferência estatística.
38
Procedimento:
a) Uma população X, com determinado parâmetro de interesse θ;
b) Todas as amostras retiradas da população, de acordo com certo procedimento;
c) para cada amostra, calculamos o valor t da estatística T ; e
d) os valores t formam uma nova população, cuja distribuição recebe o nome de
distribuição amostral de T .
O exemplo abaixo ilustra como a distribuição da média amostral pode ser determinada
por uma situação simples, quando o tamanho da amostra é 2, n = 2 e a distribuição da
população é discreta.
Exemplo 1: Considere a população (1, 3, 5, 5, 7). Uma amostra aleatória simples com
reposição (X1, X2) de tamanho (n = 2) é tomada nesta população. Qual a distribuição
do número médio amostral, ou seja:
X =
X1 +X2
2
Solução:
Amostra (1, 1) (1, 3) (1, 5) (1, 5) (1, 7) (3, 1) (3, 3) (3, 5) (3, 5) (3, 7)
X 1 2 3 3 4 2 3 4 4 5
Amostra (5, 1) (5, 3) (5, 5) (5, 5) (5, 7) (5, 1) (5, 3) (5, 5) (5, 5) (5, 7)
X 3 4 5 5 6 3 4 5 5 6
Amostra (7, 1) (7, 3) (7, 5) (7, 5) (7, 7)
X 4 5 6 6 7
Portanto:
X 1 2 3 4 5 6 7 Total
P (X = x) 1/25 2/25 5/25 6/25 6/25 4/25 1/25 1
Observação:
i) µ = E(X) = 4, 2 e σ2 = V ar(X) = 4, 16
ii) E(X) = 4, 2 e V ar(X) = 2, 08
39
Podemos notar que E(X) = 4, 2; dizemos que X é estimador não-viesado do parâmetro µ.
Exemplo 2: Usando os dados anterior, construa a distribuição amostral das estatísticas?
a) S2 = 1n−1
∑n
i=1
(
Xi −X
)2
b) σ̂2 = 1n
∑n
i=1
(
Xi −X
)2
40
Capítulo 3
Distribuições Amostrais
3.1 Distribuição Amostral da Média
Vamos estudar agora a distribuição amostral da estatística X, a média da amostra.
Considere uma população identificada pela variável aleatória X, cujos parâmetros média
populacional µ = E(X) e variância populacional σ2 = V ar(X) são supostos conhecidos. Vamos
Retirar todas as possíveis aas de tamanho n dessa população, e para cada uma calcular a média
X. Em seguida, consideremos a distribuição amostral e estudemos suas propriedades.
A título de ilustração voltemos ao exemplo 1:
Exemplo: A população X = {1, 3, 5, 5, 7} tem média µ = 4, 2 e variância σ2 = 4, 16. Vimos
que a distribuição amostral de X é da seguinte forma:
X 1 2 3 4 5 6 7 Total
P (X = x) 1/25 2/25 5/25 6/25 6/25 4/25 1/25 1
Onde:
E(X) = 4, 2 e V ar(X) = 2, 08
Podemos verificar dois fatos:
1. a média das médias amostrais coincide com a média populacional;
2. a variância de X é igual à variância de X, dividida por n = 2.
Com isso, temos o seguinte resultado.
41
3.1.1 Média e variância da distribuição amostral da média
Teorema 1: Seja (X1, X2, . . . , Xn) uma amostra aleatória simples de tamanho n de uma
população representada pela variável aleatória X com média µ e variância σ2. Então:
E(X) = µ
Se a população é infinita (ou muito grande) OU se a amostragem é com reposição, a variãncia
da distribuição amostral das médias, denotada por σ2(X), é dada por:
V ar(X) = σ2(X) =
σ2
n
Como decorrência, o desvio-padrão das médias é dado por: σ(X) = σ√
n
, também chamado
erro padrão de X.
Se a população é finita (N < 20n ou n > 5% de N) OU se a amostragem é sem reposição,
então a variância da distribuição amostral das médias é dada por:
σ2(X) =
σ2
n
(
N − n
N − 1
)
É importante notar que esse resultado se refere a qualquer populaçãoX. O que ele estabelece
é que as médias amostrais das diferentes aas, de tamanho n tendem a "acertar o alvo"da média
populacional µ.
Agora, como obter informação sobre a forma da distribuição dessa estatística.
3.1.2 Distribuição amostral da média para populações Normais com
Variância conhecida
Teorema 2: Seja (X1, X2, . . . , Xn) uma amostra aleatória simples de tamanho n de uma
população normal, isto é, uma população representada por uma variável aleatória normal X
com media µ e variância σ2. Entao:
X ∼ N
(
µ;
σ2
n
)
⇒ Z = X − µσ√
n
∼ N(0, 1)
ou
42
X ∼ N
(
µ;
σ2
n
(
N − n
N − 1
))
⇒ Z = X − µ√
σ2
n
N−n
N−1
∼ N(0, 1)
Na Figura abaixo ilustra-se o comportamento da distribuição amostral da média amostral com
base em amostras de tamanho n = 4 para uma populacao normal com media 2 e variancia 9.
A titulo de comparação, apresenta-se ai a distribuição populacional. Pode-se observar que ela
e mais dispersa que a distribuição amostral de X, mas ambas estão centradas no verdadeiro
valor populacional µ = 2.
Exemplos:
1. Uma v.a. X tem distribuição normal com média 100 e desvio padrão 10.
a) Calcule P (90 < X < 110)
b) Se X é a média de uma amostra aleatória simples de 16 elementos retirados dessa
população, calcule P (90 < X < 110).
c) Que tamanho deveria ter a amostra para que P (90 < X < 110) = 0, 95?
2. A capacidade máxima de um elevador é de 500kg. Se a distribuição dos pesosdos usuários
é N(70; 100), qual é a probabilidade de que 7 pessoas ultrapassem este limite? E de 6
pessoas?
43
3.1.3 Teorema Central do Limite
Os resultados vistos anteriormente sao válidos para populações normais, isto é, se uma
população é normal com média µ e variância σ2, então a distribuição amostral de X é também
normal com média µ e variância σ2/n, onde n é o tamanho da amostra. O teorema limite
central que veremos a seguir nos fornece um resultado análogo para qualquer distribuição
populacional, desde que o tamanho da amostra seja suficientemente grande.
Exemplo: Para a população X = {1, 3, 5, 5, 7}, considere os histogramas das distribuições
de X para n = 1, 2, 3.
1. Para n = 1, temos que a distribuição de X coincide com a distribuição de X, com E(X) =
E(X) = 4, 2 e V ar(X) = V ar(X) = 4, 16 (Figura a);
2. Para n = 2, temos que a distribuição de X dada na Figura (b), com E(X) = 4, 2 e
V ar(X) = 2, 08;
3. Para n = 3, temos que a distribuição de X dada na Figura (c), com E(X) = 4, 2 e
V ar(X) = 1, 39;
44
Conforme n vai aumentando, o histograma tende a se concentrar cada vez mais em torno de
E(X) = E(X) = µ, já que a variância vai diminuindo. Quando n for suficientemente grande, o
histograma alisado aproxima-se de uma distribuição normal.
Teorema 3: Teorema Central do Limite
Seja (X1, X2, . . . , Xn) uma amostra aleatória simples de uma população X tal que E(X) = µ
e V ar(X) = σ2. Então, a distribuição de X converge para a distribuição normal com média µ
e variância σ2/n quando n→∞. Equtivalentemente,
X − µ
σ√
n
→ N(0, 1)
Corolário 1: Se (X1, X2, . . . , Xn) for uma amostra aleatória simples da população X, com
média µ e variância σ2 finita, e X = (X1 +X2 + . . .+Xn)/n, então
Z =
X − µ
σ√
n
∼ N(0, 1)
Chamemos de e a v.a que mede a diferença entre a estatística X e o parâmetro µ, isto é,
e = X − µ é chamamdo o erro amostral da média. Então, temo o
Corolário 2: A distribuição de e aproxima-se de uma distribuição normal com média 0 e
variância σ2/n, isto é:
√
ne
σ
∼ N(0, 1)
45
A interpretação prática do teorema limite central é a seguinte: para amostras grandes de
qualquer população, podemos aproximar a distribuição amostral de X por uma distribuição
normal com a mesma média populacional e variância igual à variância populacional dividida
pelo tamanho da amostra.
Na Figura abaixo ilustra-se esse teorema para a distribuição exponencial, ou seja, para
uma população distribuída segundo uma exponencial com parâmetro λ = 1. O grafico superior
representa a distribuição populacional e os histogramas representam a distribuição amostral
de X ao longo de 5000 amostras de tamanhos 10, 50, 100 e 250. Assim, podemos ver que,
embora a população seja completamente diferente da normal, a distribuição amostral de X vai
se tornando cada vez mais proxima da normal a medida que n aumenta.
46
Exemplo: Uma moeda é lançada 50 vezes, com o objetivo de se verificar sua honestidade.
Se ocorrem 36 caras nos 50 lançamentos, o que podemos concluir?
Neste caso, a população pode ser representada por uma variável de Bernoulli X com
parâmetro p, isto é, X assume o valor 1 com probabilidade p na ocorrência de cara e assume o
valor 0 com probabilidade 1− p na ocorrência de coroa. Para uma variável de Bernoulli, temos
que E(X) = p e V ar(X) = p(1− p) . Como sao feitos 50 lançamentos, o tamanho da amostra
é 50 (n grande!) e, pelo Teorema Centraldo Limite,X é aproximadamente normal com média
E(X) = p e variância V ar(X) =
Suponhamos que a moeda seja honesta, isto é, que p = 1/2. Nessas condições, qual é a
probabilidade de obtermos 36 caras em 50 lançamentos? Com a hipótese de honestidade da
moeda, o teorema central do limite nos diz que
X ∼ N
(
1
2
,
1
2 × 12
50
)
A probabilidade de se obter 36 ou mais caras em 50 lan�camentos é equivalente à
probabilidade de X ser maior ou igual a 3650 = 0, 72 e essa probabilidade
P
(
X ≥ 0, 72) = P (X − 0, 5√
1/200
0, 72− 0, 5√
1/200
)
= P (Z3, 11)
= 0, 5− 0, 49906 = 0, 00094
Note que essa probabilidade é bastante pequena, ou seja, há uma pequena probabilidade de
obtermos 36 ou mais caras em um lançamento de uma moeda honesta. Isso pode nos levar a
suspeitar sobre a honestidade da moeda!
Exercício: O fabricante de uma lâmpada especial afirma que o seu produto tem vida média
de 1.600 horas, com desvio padrao de 250 horas. O dono de uma empresa compra 100 lâmpadas
desse fabricante. Qual é a probabilidade de que a vida média dessas lâmpadas ultrapasse 1.650
horas?
3.1.4 Deterrminação do tamanho de uma amostra
Em nossas considerações anteriores fizemos a suposição que o tamanho da amostra, n, era
conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da amostra a ser
escolhida de uma população, de modo a obter um erro de estimação previamente estipulado,
47
com determinado grau de confiança.
Por exemplo, suponha que estejamos estimando a média µ populacional e para tanto
usaremos a média amostral, X, baseada numa amostra de tamanho n. Suponha que se queira
determinar o valor de n de modo que:
P
(∣∣X − µ∣∣ ≤ �) ≥ α
A fórmula para cálculo do tamanho da amostra para uma estimativa confiável da MÉDIA
POPULACIONAL µ é dada por:
n =
σ2z2α
�2
Onde:
• n = Número de indivíduos na amostra;
• zα = Valor crítico que corresponde ao grau de confiança desejado.
• σ = Desvio padrão populacional da variável estudada.
• � erro amostral máximo que podemos suportar. Margem de erro ou ERRO MÁXIMO
DE ESTIMATIVA. Identifica a diferença máxima entre a MÉDIA AMOSTRAL (X) e a
verdadeira MÉDIA POPULACIONAL.
Note que na expressão anterior conhecemos zα e �, mas σ
2 = é a variância desconhecida da
população. Para podermos ter uma idéia sobre n devemos ter alguma informação prévia sobre
σ2 ou, então, usar uma pequena amostra piloto para estimar σ2.
Exemplo: Um economista deseja estimar a renda média para o primeiro ano de trabalho de
um bacharel em direito. Quantos valores de renda devem ser tomados, se o economista deseja
ter 95% de confiança em que a média amostral esteja a menos de R$500, 00 da verdadeira média
populacional?
3.2 Distribuição Amostral da Proporção - Amostras grandes
3.2.1 Aproximação normal da distribuição binomial
Vimos anteriormente o Teorema Limite Central, que trata da distribuição da media amostral
X quando n → ∞. Esse teorema nos diz que, se X e uma população com média µ e variância
48
σ2, então a distribuição amostral da media de uma amostra aleatória simples de tamanho n se
aproxima de uma distribuição normal com média µ e variância σ2/n quando n→∞.
Usando as propriedades da média e da variância, podemos estabelecer esse teorema
em termos de Sn =
∑n
i=1Xi, em vez de X. Como Sn = nX, entao E(Sn) = nE(X) e
V ar(Sn) = n
2V ar(X) e isso nos dá o seguinte resultado.
Teorema: Teorema Central do Limite
Seja X1, . . . , Xn uma amostra aleatória simples de uma população X tal que E(X) = µ e
V ar(X) = σ2. Então, a distribuição de Sn =
∑n
i=1Xi converge para a distribuição normal com
média nµ e variância nσ2 quando n→∞.
A variável aleatória binomial foi definida como �número de sucessos em n repetições
independentes de um experimento de Bernoulli com parâmetro p". Então, uma variável
binomial é a soma de n variáveis independentes Bern(p). Pelo teorema acima e usando o fato
de que se X ∼ Bern(p) então E(X) = p e V ar(X) = p(1−p), podemos dizer que a distribuição
binomial com parâmetros n e p se aproxima de uma normal com média np e variância np(1− p)
quando n→∞.
Quando usamos a aproximação Normal para a Binomial, estamos aproximando uma variável
discreta (que só assumem valores inteiros) por uma variável contínua (que pode assumir
quaisquer valores dentro de um intervalo de número reais).È de se esperar que algum ajuste
deva ser feito. Este ajuste é denominado de correção de continuidade.
A correção de continuidade ajuda a melhorar as probabilidades obtidas por meio da
aproximação normal para a Binomial. A correção é simplesmente somar ou subtrair 0,5 ao
valor (antes de obter as probabilidades).
• P (X ≤ a) = P (X ≤ a+ 0, 5);
• P (X ≥ a) = P (X ≥ a− 0, 5):
• P (X = a) = P (a− 0, 5 ≤ X ≤ a+ 0, 5).
• P (a < X ≤ b) = P (a− 0, 5 ≤ X ≤ b+ 0, 5).
A aproximação dada pelo teorema limite central é melhor para valores grandes de n. Existe
a seguinte regra empirica para nos ajudar a decidir o que é �grande".
49
A distribuição binomial com parâmetros n e p pode ser aproximada por uma distribuição
normal com media np e variância np(1− p) se são satisfeitas as seguintes condições:
1. np ≥ 5
2. n(1− p) ≥ 5
Exemplo: Lança-se uma moeda 20 vezes. Qual a probabilidade de se obter de uma a cinco
caras, usando:
a) distribuição binomial
b) aproximação da binomial pela normal
3.2.2 A distribuição amostral da proporção
Considere uma população em que cada elemento é classificado de acordo com a presença ou
ausência de determinada característica.
Em termos de variável aleatória, essa população é representada por uma v.a. de Bernoulli,
isto é:
X =
{
1 se o indivíduo for portador da característica
0 se o indivíduo não for portador da característica
(3.1)
Denotando por p a proporção de elementos da população que possuem a característica de
interesse. Então, P (X = 1) = p e P (X = 0) = 1 − p, E(X) = p e V ar(X) = p(1 − p). Em
geral, esse parâmetro é desconhecido e precisamos estimá-lo a partir de uma amostra.
Suponha, então, que dessa população seja extraída uma amostra aleatória simples
X1, X2, . . . , Xn com reposição. Essas n extrações correspondem a n variáveis aleatórias
de Bernoulli independentes e, como visto, Sn =
∑n
i=1Xi tem distribuição binomial com
parâmetros n e p.
Com relação à proporção p̂ de elementos na amostra que possuem a característica de interesse,
temos que:
p̂ =
Sn
n
=
X1 +X2 + . . .+Xn
n
(3.2)
e
50
E(p̂) = p e V ar(p̂) =
p(1− p)
n
(3.3)
Vemos, então, que a proporção amostral é um estimador não-viesado da proporção
populacional P .
Pelo Teorema Limite Central temos que:
p̂ ∼ N
(
p;
p(1− p)
n
)
→ p̂− p√
p(1−p)
n
∼ N(0, 1) (3.4)
Como essa aproximação é uma conseqüência direta da aproximação normal da binomial, as
mesmas regras continuam valendo: a aproximação deve ser feita se np ≥ 5 e n(1− p) ≥ 5.
Exemplo: Suponha que p = 30% dos estudantes de uma escola sejam mulheres. Colhemos
uma AAS de n = 10 estudantes e calculamos p̂ = proporção de mulheres na amostra. Qual a
probabilidade de que p̂ difira de p em menos de0, 01?
3.2.3 Determinação do Tamanho de uma Amostra
Fizemos suposições que o tamanho da amostra n, era conhecido e fixo. Podemos em certas
condições, querer determinar o tamanho da amostra a ser escolhida de uma população, de
modo a obter um erro de estimação previamente estipulado, com determinado grau de confiança.
Por exemplo, suponha que estejamos estimando a média µ populacional e para tanto
usaremos a média amostral, X, baseada numa amostra de tamanho n. Suponha que se queira
determinar o valor de n de modo que:
P (
∣∣X − µ∣∣ ≤ �) ≥ 1− α, (3.5)
com 0 < 1−α < 1 e � é o erro amostral máximo que podemos suportar, ambos valores fixados.
Sabemos que X ∼ N(µ;σ2/n), logo X − µ ∼ N(0;σ2/n) e portanto a equação anterior,
pode ser escrita:
p(−� ≤ X − µ ≤ �) = P
(−√n�
σ
≤ X − µ
σ/
√
n
≤
√
n�
σ
)
= 1− α (3.6)
51
com Z = (X − µ)√n/σ. Dado 1 − α, podemos obter Zα/2 da N(0, 1), tal que P (−Zα/2 <
Z < Zα/2) = 1− α, de modo que
√
n�
σ
= Zα/2 (3.7)
do que obtemos:
n =
σ2Z2α/2
�2
. (3.8)
No caso de proporções, usando a aproximação normal para p̂, é fácil ver que (9) resulta
n =
Z2α/2p(1− p)
�2
. (3.9)
Como não conhecemos p, a verdadeira proporção populacional, podemos usar o fato de que
p(1− p) ≤ 1/4, para todo p e (10) fica
n ≈
Z2α/2
4�2
. (3.10)
Exemplo: De uma população normal com variância 25 extrai-se uma amostra aleatória
simples de tamanho n com o objetivo de se estimar a média populacional µ com um nível de
confiança de 90% e margem de erro de 2. Qual deve ser o tamanho da amostra?
3.3 Outras Distribuições Amostrais
3.3.1 Distribuição amostral da Média para populações Normais com
Variância desconhecida - amostras pequenas
Em muitas situações da vida real, o desvio padrão da população é desconhecido. Além disso,
por causa das diversas limitações como tempo e custo, frequentemente não é prático coletar
amostras de tamanho 30 ou mais.
Como não se conhece o valor da variância populacional σ2, e portanto não se conhece
também o valor do desvio padrão populacional σ, uma possibilidade é substituir o desvio
padrão populacional pelo seu estimador, o desvio padrão amostral. Neste caso, passamos a
ter a estatística T :
52
T =
Xi − µ
s/
√
n
que possui Distribuição t-Studente com (n− 1) graus de liberdade, e portanto:
Xi − µ
s/
√
n
∼ tn−1
Propriedades da Distribuição t-Student
i) A distribuição t tem a forma de sino e é simétrica sobre a média;
ii) A distribuição t é uma família de curvas, cada uma determinada por um parâmetro
chamado grau de liberdade. Os graus de liberdade são o número de escolhas livres deixadas
depois que uma amostra estatística tal como X é calculada.
iii) Quando usamos a distribuição t para estimar a média da população os graus de liberdade
são iguais ao tamanho da amostra menos um g.l = n− 1.
iv) Conforme os graus de liberdade aumentam, a distribuição t aproxima a distribuição
normal. Depois de 30 g.l, a distribuição t está muito próxima à distribuição normal
padrão.
v) Quando a população é normal com parâmetros desconhecidos, teoricamente a solução
N(0, 1) só é aconselhável quando n > 120. Ná prática, para n > 30 usa-se a N(0, 1).
Portanto:
� Se n > 30, usa-se a distribuição normal com s2;
� Se n ≤ 30, usa-se a distribuição t de Studente, com v = n− 1 graus de liberdade.
53
vi) A distribuição t está tabelada. A tabela dá as abscissas da distribuição para diversas áreas
(probabilidades) nas caudas.
Exemplos do uso da Tabela
1. Para uma distribuição t de Student com 12 graus de liberdade, encontre a probabilidade
(área) de cada uma das seguintes regiões (esboce um gráfico para auxiliar na solução):
a) à esquerda de 1,782;
b) à direita de -1,356;
c) à direita de 2,681;
d) entre -1,356 e 2,179.
2. Encontre o valor crítico tc para um nível de confiança de 95%, para uma distribuição t de
Student com 14 graus de liberdade.
3. Encontre o valor crítico tc para um nível de confiança de 90%, para uma distribuição t de
Student com 21 graus de liberdade.
3.3.2 Distribuição amostral da Média para populações Quaisquer com
Variância desconhecida
Pelo Teorema Central do Limite, temos que:
À medida que se aumenta o tamanho da amostra, a distribuição de amostragem da média
se aproxima da forma da distribuição normal, qualquer que seja a forma da distribuição da
população. Ná prática, a distribuição de amostragem da média pode ser considerada como
aproximadamente normal sempre que o tamanho da amostra for n ≥ 30.
Assim se o desvio padrão da população for desconhecido, o erro padrão da média pode
ser estimado usando-se o desvio padrão da amostra como um estimador do desvio pdrão da
população. Dessa forma o erro padrão estimado da média é:
S(x) =
S√
n
Exemplo: Um auditor toma uma amostra de n = 36 de uma população de 1.000
contas a receber. O desvio padrão da população é desconhecido, mas o desvio padrão da
amostra é S = R$43, 000. Se o verdadeiro valor da média da população de contas a receber
54
é µ = R$260,000, qual a probabilidade de que a média da amostra seja menor ou igual a
R$250, 000
3.3.3 Distribuição Amostral da soma ou diferença de duas Médias com
variância conhecida
Desejamos identificar a distribuição amostral do estimador X1 ±X2 .
Considere duas populações 1 e 2 e sejam X1, X2, . . . , Xn e X1, X2, . . . , Xm amostras
independentes com n e m elementos, obtidas respectivamente das duas populações normalmente
distribuídas, com médias µ1 e µ2 e variâncias σ
2
1 e σ
2
2.
Sabe-se que:
X1 ∼ N
(
µ1;
σ21
n
)
e X2 ∼ N
(
µ2;
σ22
m
)
Temos:
X1 ±X2 ∼ N
(
µ1 ± µ2; σ
2
1
n
+
σ22
m
)
e
Z =
(
X1 ±X2
)− (µ1 ± µ2)√
σ21
n +
σ22
m
∼ N(0, 1)
Exemplo: A vida efetiva de um componente usado em um motor de uma turbina de avião
a jato é uma variável aleatória, com média de 5.000 horas e desvio-padrão de 40 horas. A
distribuição da vida efetiva é razoavelmente próxima da distribuição normal. O fabricante do
motor introduz uma melhoria no processo de fabricação para esse componente, que aumenta
a vida média para 5.050 horas e diminui o desvio-padrão para 30 horas. Suponha que uma
amostra aleatória de n1 = 16 componentes seja selecionada do processo "antigo"e uma amostra
de n2 = 25 componentes seja selecionada do processo "melhorado". Qual é a probabilidade de
que a diferença nas duas médias amostrais X2 −X1 seja no minimo 25 horas?
55
3.3.4 Distribuição Amostral da Soma ou Diferença de duas Proporções
Desejamos identificar a distribuição amostral do estimador p̂1 ± p̂2.
Considere duas populações 1 e 2 e sejam X1, X2, . . . , Xn e X1, X2, . . . , Xm amostras
independentes com n e m elementos, obtidas respectivamente de duas populações com
parâmetros p1 e p2.
Vimos que:
p̂1 ∼ N
(
p1;
p1(1− p1)
n
)
(3.11)
e
p̂2 ∼ N
(
p2;
p2(1− p2)
m
)
(3.12)
Assim:
p̂1 ± p̂2 ∼ N
(
p1 ± p2; p1(1− p1)
n
+
p2(1− p2)
m
)
(3.13)
e
(p̂1 ± p̂2)− (p1 ± p2)√
p1(1−p1)
n +
p2(1−p2)
m
∼ N (0; 1) (3.14)
3.3.5 Distribuição Amostral da soma ou diferença de duas Médias com
variância desconhecida - amostras pequenas
Desejamos identificar a distribuição amostral do estimador X1 ±X2 .
Considere duas populações 1 e 2 e sejam X1, X2, . . . , Xn e X1, X2, . . . , Xm amostras
independentes com n e m elementos, obtidas respectivamente das duas populações normalmente
distribuídas, com médias µ1 e µ2 e variâncias σ
2
1 e σ
2
2 desconhecidas.
a) σ21 = σ
2
2 = σ
2
56
Denotemos as médias amostrais por X1 e X2, e as variâncias amostrais por S
2
1 e S
2
2 . Como
S21 e S
2
2 são ambos, estimativas da variância comum σ
2
, podemos obter um estimador
combinado de σ2.
S2p =
(n− 1)S21 + (m− 1)S22
n+m− 2
Assim:
T =
(
X1 ±X2
)− (µ1 ± µ2)
Sp
√
1
n +
1
m
∼ tn+m−2
Exemplo: Em um processo químico de matérias-primas, usado para gravar placas de
circuito impresso, estão sendo comparados dois catalisadores diferentes para se determinar
se eles exigem tempo diferentes de imersão para a remoção de quantidades idênticas de
material fotorresistente. Doze lotes foram submetidos ao catalisador 1, resultando em uma
média amostral do tempo de imersão de X1 = 24, 6 minutos e um desvio padrão amostral
de s1 = 0, 85 minutos. Quinze lotes foram submetidos ao catalisador 2, resultado em um
tempo médio de imersão de X2 = 22, 1 minutos e em um desvio-padrão de s2 = 0, 98
minuto. Achar um intervalo de confiança de 95% de confiança para a diferença entre as
médias µ1 − µ2, supondo que os desvios-padrão das duas populações sejam iguais.
Solução:
Temos que:
i) S2p =
(n−1)S21+(m−1)S22
n+m−2 =
11(0,85)2+14(0.98)2
12+15−2 = 0, 8557
ii) O desvio-padrão combinado é Sp =
√
0, 8557 = 0, 925
iii)
P (−tα/2,n+m−2 ≤ t ≤ tα/2,n+m−2) = 1− α
ou
P (−tα/2,n+m−2 ≤
(
X1 −X2
)− (µ1 − µ2)
Sp
√
1
n +
1
m
≤ tα/2,n+m−2) = 1− α
P
((
X1 −X2
)− tα/2,n+m−2Sp√ 1
n
+
1
m
≤ (µ1 − µ2) ≤
(
X1 −X2
)
+ tα/2,n+m−2Sp
√
1
n
+
1
m
)
= 1− α
(3.15)
57
iv) tα/2,n+m−2 = t0,025;25 = 2, 060. Portanto:
P (24, 6− 22, 1− 2, 060(0, 925)
√
1
12
+
1
15
≤ (µ1 − µ2) ≤ 24, 6− 22, 1 + 2, 060(0, 925)
√
1
12
+
1
15
) = 1− 0, 5
(3.16)
P (1, 76 ≤ (µ1 − µ2) ≤ 3, 24) = 0, 95 (3.17)
Portanto, estamos 95% confiantes de que o catalisador 1 requer um tempo de imersão
maior do que o tempo de imersão exigido pelo catalisador 2 por uma quantidade que
está entre 1,76 minuto e 3,24 minutos.
b) σ21 6= σ22
Em muitas situações não é razoável supor que σ21 = σ
2
2. Portanto, quando a hipótese de
igualdade de variâncias for rejeitada, devemos usar a estatística:
T =
(
X1 ±X2
)− (µ1 ± µ2)√
S21
n +
S22
m
∼ tv
com v graus de liberdade dado por:
v =
(
S21
n +
S22
m
)2
(S21/n)
2
n+1 +
(S22/m)
2
m+1
3.3.6 Distribuição Amostral da Variância
Há casos em que se está mais interessado na variância do que na média da amostra. Por
exemplo, em filas de espera. Mesmo conhecendo-se o tempo médio de espera, a informação do
grau de variabilidade deste tempo é importante.
Quando há incerteza em relação ao valor de σ2 estima-se o seu valor por:
σ̂2 = S2 =
n∑
i=1
(Xi −X)2/(n− 1)
Teorema: Se S2 é a variância de uma amostra aleatória de tamanho n, retirada de uma
população normal com parâmetros µ e σ2, então a estatística
58
∑n
i=1(Xi −X)2
σ2
=
(n− 1)S2
σ2
tem distribuição χ2 com (n− 1) graus de liberdade.
e
E(S2) = σ2 e V (S2) =
2σ4
n− 1
Teorema: Sejam Z1, Z2, . . . , Zk variáveis aleatórias independentes identicamente
distribuídas, a distribuição da variável aleatória
k∑
i=1
Z2i
é denominada Distribuição Qui-quadrado com k graus de liberdade e anotada χ2k.
A esperança de uma distribuição Qui-quadrdo é dado pelo valor k, enquanto a variância é
dada por 2k.
Propriedades da distribuição qui-quadrado
• Todos os valores qui-quadrado χ2 são maiores ou iguais a zero;
• A distribuição qui-quadrado é uma família de curvas, cada uma determinada pelos graus
de liberdade;
• A área abaixo da curva da distribuição qui-quadrado é igual a um;
• As distribuições qui-quadrados são assimétricas positivas.
Graus de liberdade:
• Os graus de liberdade podem ser vistos como uma medida da informação amostral.
• Sabendo que
∑n
i=1(xi−µ)2
σ2
∼ χ2n →
∑n
i=1(xi−x)2
σ2
∼ χ2n−1 quando µ não é conhecido há 1 grau
de liberdade a menos ou considera-se que um grau de liberdade é perdido na estimação de
µ.
59
• Generalização: Há n graus de liberdade, ou partes de informação independentes, em
uma amostra aleatória de uma população normal e cada vez que se utiliza uma estatística
em substituição a um parâmetro perde-se um grau de liberdade.
• O número de graus de liberdade para uma coleção de dados amostrais é o número de
valores amostrais que podem variar depois que certas restrições tiverem sido impostas
aos dados amostrais.
Exemplo: Se 10 estudantes têm escores de testes com uma média de 80, podemos
livremente atribuir valores aos nove primeiros escores, mas o 10
o
escore está, então,
determinado. A soma dos 10 escores deve ser 800, de modo que o 10
o
escore deve ser
800 menos a soma dos 9 primeiros escores. Como esses 9 primeiros escores podemos ter
valores escolhidos livremente, dizemos que há 9 graus de liberdade disponíveis. Portanto,
o número de grau de liberdade é simplesmente o tamanho amostral menos 1.
60
3.3.7 Distribuição da Razão entre duas Variâncias Amostrais
Suponha que X1, X2, . . . , Xn formem uma amostra aleatória de n observações de
uma distribuição normal com média µ1 e variância σ
2
1 desconhecidos, e suponha que
X1, X2, . . . , Xm formem uma amostra aleatória de m observações de uma distribuição

Outros materiais