Buscar

Apostila de Amostragem, inferencia e testes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 123 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 123 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 123 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Antonio F. Beraldo 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Teoria da Amostragem, 
Inferência Estatística e 
Testes de Hipótese 
 
Estatística 
III 
 
Teoria da Amostragem,
Inferência Estatística
e Testes de Hipótese
Antonio Fernando Beraldo
Departamento de Estatística
ICE - UFJF
Revisão e digitação
Ana Darc da Silva
Elisa Lancini Nogueira
Lucas Silva Novais
Marcelle Souza Pinto
Mirela Rigolon Valinote
Raphael de Freitas Saldanha
Rosiany Grosman
Stéfani Ferreira
Vanessa Castro Abreu
Victor Lopes Costa Serra
Versão provisória 3 — 2014
Apresentação
Esta Apostila é o segundo volume de um conjunto de textos preparados para os alunos
dos cursos de Graduação e Pós-Graduação que possuem disciplinas de Estatística em sua
grade curricular. Os textos abordam os seguintes temas:
Apostila Conteúdo
I Estatística Descritiva
II Cálculo de Probabilidades
III Amostragem, Inferência e Testes Estatísticos
IVa Metodologia do Trabalho Científico
IVb Elaboração e Apresentação de Trabalhos Científicos
V Análise Estatística de Dados
VI Tópicos Especiais de Estatística Aplicada
Em cada capítulo das Apostilas procuramos sintetizar os conteúdos, em textos breves
de exposição dos conceitos, seguidos de exemplos de aplicações das fórmulas.
Outros materiais didáticos, referenciados no corpo das Apostilas, estão disponíveis
no site do Professor:
http://www.ufjf.br/antonio_beraldo
A. F. Beraldo iii
Agradecimentos
Este é um trabalho que reflete a experiência - e aprendizagem - do ensino de Estatística
e a valiosíssima contribuição dos alunos nestes 21 anos de atividades na Universidade
Federal de Juiz de Fora, como também a prática da aplicação da Estatística em dezenas
de dissertações e teses de mestrandos e doutorandos de diversas IES do País. Sem esta
contribuição, este trabalho não existiria.
Em destaque, agradeço ao estímulo do Prof. Lourival Batista de Olivrira Jr., da
Faculdade de Economia, amigo e companheiro de todos os momentos.
A todos os alunos que, com suas críticas e sugestões, me ensinaram o como, o quando
e o quê.
Este trabalho é dedicado, in memoriam, a
Gabi
(1994 - 2006)
Et, des pieds jusques à la tête,
Un air subtil, un dangereux parfum
Nagent autour de son corps brun.
— Charles Baudelaire, Les Fleurs du Mal.
A. F. Beraldo v
Sumário
Sumário vi
I Teoria da Amostragem e
Inferência Estatística 1
1 Teoria da Amostragem 3
1.1 O Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Distribuição Amostral de Médias . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Distribuição Amostral das Proporções . . . . . . . . . . . . . . . . . . . . . 19
1.5 Distribuição Amostral das Variâncias . . . . . . . . . . . . . . . . . . . . . 20
1.6 Distribuição Amostral das Diferenças e Somas de Médias e Proporções . . 23
1.7 A Desigualdade de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.8 Glossário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.9 Erros Padrões de algumas estatísticas . . . . . . . . . . . . . . . . . . . . . 26
1.9.1 Dimensionamento da amostra para a inferência da média populacional 28
1.9.2 Dimensionamento da amostra para estimar a proporção populacional 28
2 Inferência estatística 29
2.1 Inferência da Média Populacional . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.1 Grandes amostras (n > 30) . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.2 Pequenas amostras (n < 30) . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Inferência das Proporções Populacionais . . . . . . . . . . . . . . . . . . . 40
2.3 Inferência da Variância Populacional . . . . . . . . . . . . . . . . . . . . . 44
2.4 Inferência da Diferença entre duas Médias . . . . . . . . . . . . . . . . . . 46
2.5 Inferência do Desvio Padrão e de outras estatísticas. . . . . . . . . . . . . . 46
2.6 Cálculo do tamanho ótimo das amostras . . . . . . . . . . . . . . . . . . . 48
II Teoria da Decisão Estatística 49
3 Introdução 51
3.1 O que são Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Teoria da Decisão Estatística . . . . . . . . . . . . . . . . . . . . . . . . . 56
vi A. F. Beraldo
SUMÁRIO
3.3 Erros Tipo I e Tipo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4 O p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4 Testes de Hipóteses Paramétricos 65
4.1 Testes da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1.1 Média Amostral × Média Populacional . . . . . . . . . . . . . . . . 65
4.1.2 Duas médias, amostras independentes . . . . . . . . . . . . . . . . . 67
4.1.3 Amostras emparelhadas . . . . . . . . . . . . . . . . . . . . . . . . 72
4.1.4 Análise da Variância — ANOVA . . . . . . . . . . . . . . . . . . . 76
4.2 Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2.1 Proporção Amostral × Proporção Populacional . . . . . . . . . . . 79
4.2.2 Duas proporções amostrais . . . . . . . . . . . . . . . . . . . . . . . 81
4.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.3.1 Variância Amostral × Variância Populacional . . . . . . . . . . . . 85
4.3.2 Duas variâncias amostrais . . . . . . . . . . . . . . . . . . . . . . . 87
4.4 Testes Unilaterais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5 Testes de Hipóteses Não Paramétricos 93
5.1 Teste do Qui-Quadrado de Aderência . . . . . . . . . . . . . . . . . . . . . 93
5.2 Teste do Qui-Quadrado de Associação . . . . . . . . . . . . . . . . . . . . 95
5.3 Teste dos sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.4 Teste de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5 Teste de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.6 Teste Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
IIITabelas 105
A. F. Beraldo vii
Parte I
Teoria da Amostragem e
Inferência Estatística
A. F. Beraldo 1
1 Teoria da Amostragem
Seja um experimento, ou fenômeno aleatório, por exemplo, a intenção de voto nos
candidatos a prefeito, declarada em uma pesquisa realizada entre os moradores do Bairro
B. Cada morador, nesta pesquisa de intenção de voto, poderá dizer se pretende votar
no candidato X, Y ou Z, ou se votará “em branco”, ou não votará... Esta declaração
de voto é chamada de observação. Assim, dizemos que um experimento ou fenômeno
aleatório produz uma série de observações, que são agrupadas em um conjunto chamado
Universo, ou População, identificado pela letra grega ômega maiúscula (Ω).
Figura 1.1: O conjunto Universo
O conjunto Universo também pode ser definido como o conjunto formado por N
elementos que tem pelo menos um atributo em comum.
Explicando: imagine o conjunto de moradores do Bairro B: são muitas famílias, muitas
pessoas que tem os mais diversos atributos — idade, estado civil, naturalidade, renda,
etc., que desejamos conhecer. No entanto, todos estes moradores possuem pelo menos
um atributo em comum: são pessoas residentes no Bairro B.
Pertencem ao conjunto Universo todas as pessoas que possuem este atributo. Estão
fora do Universo todas as pessoas que não possuem este atributo. Os demais atributos
dos moradores podem ser descritos por conjuntos de valores denominados variáveis.
Assim, temos as variáveis sexo, idade, estado civil, renda, etc. Assume-se, para efeito de
estudo, que estas variáveis são aleatórias (veja Apostila de Estatística II - Capítulo 2, e,
A. F. Beraldo 3
1. Teoria da Amostragem
Figura 1.2: O conjuntoUniverso
para uma discussão mais pormenorizada, veja a Apostila IV - Metodologia de Pesquisa
Quantitativa).
A variável que estudamos é a “intenção de voto”, Xi, ou seja, cada morador i do
Bairro B declara a sua intenção de voto xi. Então, podemos agora considerar o conjunto
Universo formado por todas as "intenções de voto xi", dos moradores do Bairro B.
Figura 1.3: Elementos do conjunto Universo e Variável
As variáveis de um conjunto Universo (e o próprio conjunto Universo) são descritas por
medidas chamadas parâmetros. Por exemplo, as variáveis quantitativas idade, renda,
escolaridade (medida em anos de estudo) tem, cada uma, os parâmetros média (µ - mi),
variância (σ2 - sigma quadrado), desvio-padrão (σ - sigma); as variáveis qualitativas sexo,
escolaridade (medida em nível de ensino) e naturalidade, tem, cada uma, o parâmetro
proporção (pi - pi). Para generalizar, chamaremos os parâmetros pela letra grega θ (teta).
4 A. F. Beraldo
Figura 1.4: O conjunto Universo e o Parâmetro θ
Os parâmetros são, no início de nossa pesquisa, desconhecidos. Assim, não conhe-
cemos a média populacional µ das idades dos eleitores, nem a variância populacional σ2
de suas rendas. E também não conhecemos a proporção populacional pi de sua intenção
de voto.
Um conjunto Universo é suposto de tamanho infinito, ou finito inumerável, ou
seja, mesmo sendo de tamanho finito, sempre partimos do princípio que estes conjuntos
têm um tamanho muito grande — um número muito grande de elementos. Este
“tamanho muito grande” torna extremamente difícil, senão impossível, a obtenção ou
cálculo destes parâmetros. Para estudarmos o Universo, dispomos de dois métodos
principais: o Censo e o Método Estatístico.
Censo, ou recenseamento é o processo de coleta de dados em que, teoricamente, todo
o conjunto Universo é pesquisado. Todos os elementos do conjunto são estudados, um a
um, e o censo só termina quando todo o conjunto Universo for abrangido. Censos são
trabalhosos, demorados, custam muito dinheiro e, por isso, são realizados apenas por
instituições oficiais e por órgãos do governo. Censos demográficos, por exemplo, são
realizados de dez em dez anos, pelo IBGE (Instituto Brasileiro de Geografia e Estatística)
quando uma grande quantidade de recenseadores é recrutada para coletar dados sobre a
população, através de questionários. Desta forma, podemos medir a evolução de variáveis
como a população das cidades e do meio rural, as taxas de natalidade e mortalidade,
as condições de moradia, o percentual de seguidores das crenças religiosas, as migrações
internas, etc1.
1O Censo 2010 compreendeu um levantamento minucioso de todos os domicílios do país. Nos meses
de coleta de dados e supervisão, 191 mil recenseadores visitaram 67,6 milhões de domicílios nos 5.565
municípios brasileiros para colher informações sobre quem somos, quanto somos, onde estamos e como
vivemos. Os primeiros resultados definitivos, divulgados em novembro de 2010, apontaram uma população
A. F. Beraldo 5
1. Teoria da Amostragem
Além do Censo Demográfico, citamos o Censo Escolar, o Censo Industrial, o Censo
Agropecuário e o Censo da Educação Superior, entre outros. Cada um destes censos
realiza levantamentos nestes setores específicos da vida nacional.
1.1 O Método Estatístico
Tendo o Censo tanta dificuldade em ser realizado, nas pesquisas chamadas quantita-
tivas é utilizado o Método Estatístico. O Método Estatístico foi desenvolvido, a partir
do Cálculo de Probabilidades, para que possamos calcular o valor dos parâmetros — as
medidas que descrevem o Universo —, a partir das medidas obtidas de um subconjunto
ω do Universo chamado Amostra. Este método consiste nos seguintes passos:
1. O conjunto Universo é tratado de forma que cada um, e todos os seus elementos,
tenha a mesma probabilidade de ser sorteado. Este processo é chamado de
homogeneização do Universo. Homogeneizar o Universo consiste em fazer com
que cada um de seus elementos tenha probabilidade de ser sorteado igual à de
qualquer outro. Em outras palavras, é tornar equiprovável este Universo.
2. Em seguida, alguns elementos do Universo são sorteados para compor um subcon-
junto chamado amostra (ω). Este sorteio é feito de acordo com o tipo e a técnica
de amostragem adotada2.
Figura 1.5: Amostragem
formada por 190.732.694 pessoas. A previsão de custo do Censo era de R$ 1,4 bilhão. Mais informações
em http://www.ibge.gov.br/home/estatistica/populacao/censo2010/.
2As técnicas de amostragem são discutidas na Apostila IV - Metodologia de Pesquisa Quantitativa
6 A. F. Beraldo
1.1 O Método Estatístico
3. A amostra, assim constituída, é processada estatisticamente, ou seja, são calculadas
as suas medidas descritivas, ou estatísticas: média X , variância s2 , desvio
padrão s , proporção (ou freqüência relativa), p. Estas estatísticas são chamadas
estimadores, e notadas pela letra θˆ (teta chapéu). Veja a Figura 1.6 a seguir:
Figura 1.6: Cálculo de Estatísticas
Calculando as estatísticas, temos todas as informações sobre a Amostra. Já é uma
boa parte do caminho até chegarmos aos parâmetros, que, como vimos, são as medidas
do Universo – objetivo final deste método. Para calcularmos os parâmetros, utilizamos um
conjunto de processos chamados Inferência Estatística. Partimos da seguinte relação:
Parâmetro = Estatística ±margem de erro (1.1)
Esta relação decorre de duas postulações fundamentais do Cálculo de Probabilidades:
a Lei dos Grandes Números, e o Teorema do Limite Central (a apresentação e o estudo
da LGN e do TLC não fazem parte do conteúdo desta Apostila). Em linhas gerais, esta
relação pode ser dita como:
Um parâmetro (medida do Universo) pertence ao intervalo dado pela estatística
(medida da Amostra), mais ou menos a margem de erro desta estatística.
Com mais rigor, dizemos que um parâmetro θ é igual à seu estimador θˆ mais ou menos
a margem de erro do estimador:
A. F. Beraldo 7
1. Teoria da Amostragem
θ = θˆ ± εθˆ
Desta forma, por exemplo, temos:
µ = X ± εX
ou
µ ∈
[
X − εX , X + εX
]
Em que:
µ = Média do Universo (média populacional)
X = Média da Amostra (média amostral)
εX = Margem de Erro da Média amostral
O intervalo
[
X − εX , X + εX
]
é chamado intervalo de confiança do parâmetro
(neste exemplo, intervalo de confiança da média populacional). A margem de erro ε
é um valor que calculamos, utilizando a medida de dispersão e o tamanho da amostra, e
informações oriundas da distribuição de probabilidades da estatística.
De maneira mais adequada e completa, dizemos que há uma probabilidade NC de que
o parâmetro θ pertença ao intervalo de confiança IC:
P
(
θ ∈
[
θˆ − εθˆ, θˆ + εθˆ
])
= NC (1.2)
NC é chamado Nível de Confiança.
Exemplificando: seja a tabela 1.1 a seguir, referente a distribuição de frequências das
idades de moradores de uma rua, extraídos aleatoriamente.
8 A. F. Beraldo
1.1 O Método Estatístico
Classes de idades f
0 pa 10 2
10 a 20 6
20 a 30 9
30 a 40 13
40 a 50 24
50 a 60 38
60 a 70 15
70 a 80 12
80 a 90 8
90 a 100 3
n = 130
O histograma desta distribuição é o seguinte:
Figura 1.7: Histograma para a distribuição de idades
Calculamos a média X = 52, 2 anos e o desvio-padrão s = 19, 1 anos. Então, se esta
amostra de 130 pessoas for representativa de todas as pessoas desta rua, podemos dizer
que a média µ (das idades de todas as pessoas da rua) pertence a um intervalo formado
por:
A. F. Beraldo 9
1. Teoria da Amostragem
θˆinf = θˆ − S = 52, 2− 19, 1 = 33, 1
θˆsup = θˆ + S = 52, 2 + 19, 1 = 71, 3
E escrevemos
θˆinf ≤ θ ≤ θˆsup
33, 1 anos ≤ µ ≤ 71, 3 anos
Note que utilizamos como margem de erro apenas a estatística desvio padrão.
Voltando ao Intervalo de Confiança e ao Nível de Confiança, utilizando as frequências
relativas das classes, podemos dizer que há uma probabilidade de 63, 2% de que a média
µ estejacontida no intervalo [33, 1− 71, 3].3
Neste exemplo, o Nível de Confiança NC é igual a 63, 2%. Assim, dizemos, grosso
modo, que:
P (µ ∈ [33, 1− 71, 3]) = 63, 2%
Comentários:
Sobre o Método Estatístico, você deve ter em mente que:
• Um parâmetro não é um número definido único, e sim um valor dentro de um
intervalo. Dizemos que o parâmetro pertence ao intervalo de confiança, ou, melhor
ainda, que há uma probabilidade de que o parâmetro pertença ao intervalo de
confiança. Ao contrário, uma estatística (medida amostral) é um valor definido
único, calculado segundo uma expressão matemática. Por exemplo, a média de um
conjunto é dada por:
X = Σxi
n
(Como foi visto na apostila de Estatística Descritiva.)
3Este cálculo foi feito utilizando a interpolação de valores, conforme visto na Apostila I - Estatística
Descritiva.
10 A. F. Beraldo
1.1 O Método Estatístico
Assim, podemos dizer que a média amostral é, por exemplo, igual a 3,70. No
entanto, nunca poderemos afirmar que a média populacional é igual a 3,70, mas que
há uma probabilidade de, por exemplo, 95% da média populacional estar entre 3,05
e 4,28. O NC, Nível de Confiança, é, neste exemplo, 95%.
• Parâmetros (que descrevem o Universo) e estatísticas (que descrevem a Amostra)
tem o mesmo nome. Assim para diferenciar estas medidas, utilizamos letras do
alfabeto grego para parâmetros e letras do alfabeto latino para as estatísticas:
Medidas Estatísticas
(na Amostra) ω
Parâmetros
(no Universo) Ω
Média X µ
Variância s2 σ2
Desvio Padrão s σ
Proporção p pi
• Portanto, há uma correspondência entre as medidas amostrais (estatísticas) e
as medidas populacionais (parâmetros). Esta correspondência é formulada na
expressão:
Parâmetro = Estatística ±margem de erro
• A margem de erro pode ser interpretada como a diferença existente entre as
medidas de uma Amostra e as do Universo de onde foi extraída. Cada estatística,
ou estimador, possui a sua margem de erro. A margem de erro é função:
√
do Nível de Confiança com que se está trabalhando;
√
do tamanho da amostra, n;
√
das condições do Universo (infinito ou finito);
√
do tipo de amostragem que foi realizado (com reposição ou sem reposição).
√
da distribuição de probabilidades da variável;
Estas características da margem de erro serão detalhadas nos tópicos seguintes.
A. F. Beraldo 11
1. Teoria da Amostragem
Como vimos, o Método Estatístico utiliza estatísticas para calcular parâmetros. Nas
próximas seções, e no Capítulo 2, iremos estudar como é realizado este processo. Antes,
porém, introduzimos um outro conceito: estimadores.
Em linhas gerais, uma amostra é extraída aleatoriamente de uma população. Cal-
culamos as estatísticas desta amostra, e se estas estatísticas são utilizadas para inferir
os parâmetros populacionais, estas estatísticas são chamadas de estimadores. Assim,
dizemos, tecnicamente, que a média amostral X é um estimador da média populacional
µ; que a proporção amostral p é um estimador da proporção populacional pi, e assim por
diante.
Nas seções seguintes estudaremos os estimadores, em detalhe.
1.2 Distribuições Amostrais
Antes de começar o estudo desta seção, certifique-se que estão bem claros os conceitos
do que seja população, amostra, amostragem, estatísticas, estimador, inferência,
parâmetros, e margem de erro.
1. Suponha que estejamos analisando o comportamento da variável aleatória X. O
universo desta variável (conjunto de todas observações possíveis, ou valores, da
variável), é dado por Ω = {x1, x2, x3, ...xn}. A maneira pela qual os diversos
valores xi ocorrem no universo é chamada de distribuição de probabilidades de
X, formada pelos pares X, P (X = xi). Esta distribuição de probabilidades possui
os parâmetros E(X), Var(X), etc., como foi estudado na Apostila II.
2. Imagine que retiremos deste conjunto Ω um bom número de amostras, ou mesmo,
uma amostra de tamanho razoavelmente grande, através do método de amostragem
aleatória simples. Se as amostras foram convenientemente extraídas do universo,
isto é, se seguimos com rigor o critério da aleatoriedade, a distribuição dos valores
de X, nas amostras, terá uma distribuição de probabilidades bem parecida com a
distribuição de probabilidades de X dentro do Universo, e tão mais parecida quanto
maior(es) for(em) a(s) amostra(s).
3. Para cada amostra retirada, podemos calcular um conjunto de estatísticas (média,
moda, desvio-padrão, etc.) dos valores amostrais de X. Como as amostras
foram retiradas aleatoriamente, estas estatísticas terão também valores
aleatórios.
4. Ao analisarmos os valores destas estatísticas, podemos montar distribuições amos-
trais destas estatísticas. Por exemplo, se calculamos a estatística média X de cada
12 A. F. Beraldo
1.2 Distribuições Amostrais
uma das amostras, podemos montar uma tabela com a distribuição das médias
amostrais, ou distribuição amostral das médias.
5. Para estas distribuições amostrais de estatísticas, podemos calcular seus parâmetros
E(X), Var(X), etc., que serão de grande interesse daqui por diante, como se verá.
Comentários:
Não cabe aqui teorizar se o conjunto universo é finito ou infinito. Na realidade,
conjuntos infinitos são hipotéticos, e o Cálculo de Probabilidades possui recursos para
efetuar sua “contagem”. Mas poderemos encontrar conjuntos universo com tamanhos
muito grandes (N →∞), que faz com que a retirada de elementos deste conjunto, mesmo
sem reposição, não altere a distribuição de freqüências (e de probabilidades) dentro do
conjunto. Por outro lado, se o conjunto for finito, e não tão grande, se retirarmos amostras
com reposição, o número de amostras será bastante grande. Por exemplo, o número de
amostras de tamanho n = 3, retiradas com reposição, de um universo de tamanho N = 10,
é de Nn, ou 103 = 1.000 amostras.
Novamente chamamos a sua atenção para os símbolos empregados para estatísticas e
parâmetros. As estatísticas, medidas amostrais, são simbolizadas por letras do alfabeto
latino; os parâmetros, medidas populacionais, são simbolizados por letras do alfabeto
grego. Assim, teremos µ (mi), média populacional e X , média amostral. Teremos σ
(sigma), desvio-padrão populacional e s, desvio-padrão amostral.
Resumindo:
Na seção anterior, vimos algumas das características do processo de amostragem.
Estudamos que, de uma população, podem ser retiradas amostras, sendo que cada
amostra contém uma informação sobre a população. O conjunto de amostras, se for
suficientemente grande, irá fornecer subsídios para o conhecimento da população. Em
outras palavras, as estatísticas calculadas sobre as amostras irão nos permitir
inferir os parâmetros da população4.
4A esta altura, você já deve estar suficientemente familiarizado com o termo “inferência”, do verbo
inferir, que significa, em estatística, conhecer o todo (população) a partir do estudo de suas partes
(amostras).
A. F. Beraldo 13
1. Teoria da Amostragem
Veja a ilustração a seguir:
Figura 1.8: Cálculo de Estatísticas
Da população Ω, que possui um parâmetro θ cujo valor é desconhecido, extraímos 3
amostras (w1, w2 e w3). Em cada amostra calculamos uma estatística "θˆ": θˆ1, θˆ2 e θˆ3. O
processamento destas estatísticas θˆ irá nos permitir inferir o valor de θ.
O que chamamos “processamento”, no parágrafo anterior, começa pela montagem
de uma tabela, que toma o nome de distribuição amostral das estatísticas. Nas seções
seguintes iremos analisar a distribuição das médias amostrais, das variâncias e das
proporções amostrais, entre outras estatísticas.
1.3 Distribuição Amostral de Médias
Teorema I
Seja um conjunto universo Ω dos valores da variável X, Ω = {x1, x2, x3, ..., xn}. Seja
µ a média desta população – parâmetro desconhecido. Considere todas as amostras
wi, de tamanho ni retiradas aleatoriamente deste conjunto. Se, para cada amostra wi
calcularmos sua média X i , podemos montara distribuição amostral das médias das
amostras. Calculando µXi (média da distribuição de médias amostrais), temos que
µ = µX (1.3)
Em outras palavras: a média da distribuição amostral das médias é igual á
média do conjunto universo.
14 A. F. Beraldo
1.3 Distribuição Amostral de Médias
Exemplo 1.1. Seja o conjunto universo Ω formado pelos valores {1, 3, 3, 2, 6}. A média
µ deste conjunto é dada por:
µ = 1 + 3 + 3 + 2 + 65 =
15
5 = 3
Retiramos todas as amostras possíveis, com reposição, de tamanho n = 2, deste
conjunto:
1 1
1 3
1 3
1 2
1 6
3 1
3 3
3 3
3 2
3 6
3 1
3 3
3 3
3 2
3 6
2 1
2 3
2 3
2 2
2 6
6 1
6 3
6 3
6 2
6 6
Calculamos a média X i de cada amostra:
1 2 2 1,5 3,5
2 3 3 2,5 4,5
2 3 3 2,5 4,5
1,5 2,5 2,5 2 4
3,5 4,5 4,5 4 6
Montamos a distribuição de frequência das médias X i:
X i f fX i
1 1 1
1,5 2 3
2 5 10
2,5 4 10
3 4 12
3,5 2 7
4 2 8
4,5 4 18
6 1 6
Σ 25 75
A. F. Beraldo 15
1. Teoria da Amostragem
A terceira coluna, fX i, é utilizada para calcular a média da distribuição das médias
X i.
Você deve estar lembrado, da Estatística Descritiva, que a letra f significa freqüência
simples, ou seja, quantas vezes determinado valor da média ocorreu no conjunto de
amostras. No conjunto acima, o valor 1,5 ocorre 2 vezes, ou seja possui frequência f = 2.
O valor 2 ocorreu 5 vezes, ou seja, possui frequência f = 5.
No gráfico a seguir, você pode visualizar a distribuição amostral das médias:
1 1.5 2 2.5 3 3.5 4 4.5 6
Distribuição das médias amostrais
Médias
f
0
1
2
3
4
5
Figura 1.9: Distribuição das médias amostrais
A média, ou esperança, desta distribuição, é dada por
E(X) = µX =
∑
fX∑
f
= 7525 = 3, 0
Então, vemos que a média da distribuição amostral das médias, µX , é igual à média
µ do universo.
16 A. F. Beraldo
1.3 Distribuição Amostral de Médias
Comentários:
1. Você deve estar se perguntando: “se a amostragem é feita para se obter o valor da
média da população, a partir da média das amostras, o que deve acontecer se não
conseguirmos retirar todas as amostras possíveis de uma população (que deve
ser a situação que encontramos, na prática) ?” No exemplo que é dado, poderíamos
ter extraído uma amostra, ou duas, ou três, que indicassem que o valor da média é
1,5 ou 6,0, ao invés do valor correto, que é 3 ...
2. Realmente, isto é o que acontece se o tamanho de suas amostras é tão pequeno.
No exemplo dado, as amostras possuem tamanho 2, muito pouco para se estimar a
média populacional. Mas lembre-se que as amostras coletadas, na prática, terão um
tamanho bem maior, e que a média populacional pertence a um intervalo: média
populacional é igual à média amostral mais ou menos a margem de erro da média
amostral. Aguarde mais um pouco ...Enquanto isso, veja a seguir um outro exemplo,
com amostras de tamanho n = 3, retiradas de um conjunto de 7 elementos:
Distribuição das médias amostrais
Médias
f
2 4 6 8 10 12 14
0
10
20
30
40
50
60
70
Figura 1.10: Distribuição das médias amostrais
A. F. Beraldo 17
1. Teoria da Amostragem
Você pode notar que o histograma toma a forma aproximada de uma curva normal.
Isto sempre acontece, e a distribuição amostral das médias tem distribuição normal, tanto
mais aderente quanto maior for o tamanho da amostra.
Observando o gráfico, você pode ver a zona central, de maior densidade de frequência,
em torno da média populacional, µ, sabendo que µ = 8.
1. Quanto maior for o tamanho das amostras (e mais amostras você terá), maior a
concentração das médias amostrais X i em torno da média populacional µ.
2. No limite, você pode afirmar que
µX = µ
A seguir, apresentamos dois teoremas (sem demonstração):
Teorema II
Se a população da qual se extraem as amostras tem distribuição normal com média
µ e variância σ2 ,então a distribuição das médias amostrais também é normalmente
distribuída, com média µ e variância σ2
X
= σ2/n. (Veja Distribuição Amostral das
Variâncias)
Teorema III
Se a população da qual se extraem as amostras não tem, necessariamente, uma
distribuição normal, mas possui média µ e variância σ2, então a variável padronizada
Z ligada a X, sendo
Z = X − µ
σ√
n
Z possui uma distribuição assintoticamente normal, ou seja, é muito aproximadamente
normal5, e adere mais a esta distribuição quanto maior for n.
Estes dois teoremas II e III são importantíssimos para a Estatística Inferencial, e logo
você verá porque. Não cabe aqui, nesta Apostila, comentar toda a teoria matemática que
envolve estas leis, mas tenha em mente que são a base do ciclo Amostragem-Inferência.
5Em outras palavras, Z é assintóticamente normal, ou seja: limP (Z ≤ z) = 1
σ
√
2pi
∫ Z
−∞ e
−u2/2du
18 A. F. Beraldo
1.4 Distribuição Amostral das Proporções
1.4 Distribuição Amostral das Proporções
Outra estatística que iremos utilizar bastante (além da média e do desvio-padrão),
é a chamada proporção, ou frequência relativa. Por exemplo, se uma caixa contém
4 bolas brancas e 6 bolas azuis, a proporção de bolas brancas é 4/10, ou 0,4 ou 40%.
Normalmente, trabalha-se com proporções escritas em números decimais.
Quando trabalhamos com proporções, é melhor que o Universo seja tratado de forma
dicotômica, tal como nas provas de Bernoulli. No exemplo acima, teríamos a proporção
p = 0, 4. A proporção complementar, q, é dada por q = 1− p = 0, 6 (no exemplo).
Seja um Universo Ω, constituído de N elementos. Ao retiramos aleatoriamente, com
reposição, k amostras de tamanho n, e calcularmos a proporção p de determinada categoria
(ou atributo), teremos uma distribuição amostral das proporções. A proporção pi da
população é dada por
pi = µp (1.4)
Da mesma forma que fizemos a inferência da média populacional, estimamos a
proporção populacional a partir da proporção amostral. Supomos que a população de
onde extraímos as amostras tem um modelo normal. Aqui também se aplica a expressão
Parâmetro = Estatística±Margem de Erro
O parâmetro a ser calculado é pi, a proporção populacional. A estatística que estima
este parâmetro é a média das proporções amostrais, que notaremos por p (proporção
média). O desvio padrão da distribuição de proporções é sp.
Exemplo 1.2. Seja o conjunto universo Ω = {1, 3, 3, 2, 6} e seja A o evento xi ≥ 3.
Observamos que o número de elementos de Ω que cumpre a condição A são 3 : {3, 3, 6}.
Então, a proporção piA é dada por
piA =
3
5 = 0, 6
A. F. Beraldo 19
1. Teoria da Amostragem
Retiramos todas as amostras possíveis de tamanho n = 2:
1 1
1 3
1 3
1 2
1 6
3 1
3 3
3 3
3 2
3 6
3 1
3 3
3 3
3 2
3 6
2 1
2 3
2 3
2 2
2 6
6 1
6 3
6 3
6 2
6 6
Montamos a seguinte distribuição de frequências:
p(A) f f.p(A)
0 4 0
0,5 12 6
1 9 9
25 15
Média 0,6
A média de pA é dada por
p = fpA∑
f
= 1525 = 0, 6
Assim, verifica-se a condição
pi = Xp (1.5)
1.5 Distribuição Amostral das Variâncias
Seja um conjunto universo Ω = {x1;x2;x3; · · · ;xn}. A média µ do conjunto é calculada
pela expressão
µ =
∑
xi
n
E a variância é calculada pela expressão
20 A. F. Beraldo
1.5 Distribuição Amostral das Variâncias
σ2 =
∑(xi − µ)2
n
ou
σ2 = (x1 − µ)
2 + (x2 − µ)2 + (x3 − µ)2 + · · ·+ (xn − µ)2
n
Considere, agora, todas as amostras de tamanho n, retiradas desta população. Cada
amostra terá a sua média X i e variância s2i .
O conjunto de variâncias s2i tem sua distribuição amostral, mas, devido a caracterís-
ticas desta distribuição, é mais conveniente utilizar a variável Y , dada por
Y = (n− 1)s
2
i
σ2
A estatística Y tem uma distribuição qui-quadrada (v. Apostila II), com n− 1 graus
de liberdade.
Se a população é infinita, ou se a amostragem é feita com reposição, então a variância
da distribuição amostral das médias (σ2
X
) é igual a
σ2X = E(x− µ)2 =
σ2n
(1.6)
onde n é o tamanho da amostra. Escrevendo de outra forma:
σ2 = n× σ2X (1.7)
Portanto, a variância do universo é igual ao produto do tamanho das amostras pela
variância da distribuição amostral das médias.
Exemplo 1.3. Seja o mesmo conjunto dos exemplos 1.1 e 1.2:
A. F. Beraldo 21
1. Teoria da Amostragem
σ2 =
∑(x− µ)2
n
= (1− 3)
2 + (3− 3)2 + ...+ (6− 3)2
5 = 2, 8
Calculamos a variância da distribuição amostral das médias:
X f fx d d2 fd2
1 1 1 -2 4 4
1,5 2 3 -1,5 2,25 4,5
2 5 10 -1 1 5
2,5 4 10 -0,5 0,25 1
3 4 12 0 0 0
3,5 2 7 0,5 0,25 0,5
4 2 8 1 1 2
4,5 4 18 1,5 2,25 9
6 1 6 3 9 9
Σ 25 75 35
Calculando σ2
X
, temos:
σ2X = E
[
(x− µ)2] = Σfd2Σf =
35
25 = 1, 4
então, σ2 = n× σ2
X
σ2 = nσ2X = (2)(1, 4) = 2, 8
que confirma o Teorema II.
Se a população tem tamanho N , finito, e a amostragem é feita sem reposição, e se o
tamanho da amostra é n ≤ N , então a fórmula anterior (Teorema II) é substituída por:
σ2X =
σ2(N − n)
n(N − 1) (1.8)
22 A. F. Beraldo
1.6 Distribuição Amostral das Diferenças e Somas de Médias e Proporções
Veja que esta fórmula se reduz à 1.8, para o caso de N →∞.
Esta adaptação é bastante conveniente, para o caso de estarmos lidando comN grande,
o que ocorre com mais freqüência.
1.6 Distribuição Amostral das Diferenças e Somas
de Médias e Proporções
Sejam duas populações, Ω1 e Ω2, da qual retiramos com reposição todas as amostras
possíveis, de tamanhos n1 e n2, calculando as médias µ1 e µ2, e os desvios padrões σ1 e
σ2.
Construímos a distribuição amostral da variável X1 − X2 (diferença das médias das
amostras retiradas das populações Ω1 e Ω2). Demonstra-se que, para populações infinitas,
µX1−X2 = µX1 − µX2 = µ1 − µ2 (1.9)
e
σX1−X2 =
√
σ21
n1
+ σ
2
2
n2
(1.10)
Para populações finitas, mas com amostragem com reposição, temos que a variável
padronizada Z, dada por
Z = (X1 −X2)− (µ1 − µ2)√√√√√σ21
n1
+
σ22
n2
(1.11)
tem distribuição muito aproximadamente normal para n1, n2 ≥ 30.
No caso de proporções, sendo as populações binomialmente distribuídas, com
parâmetros de “sucesso” pi1 e pi2, respectivamente, e as correspondentes estatísticas
amostrais p1 e p2, temos as seguintes expressões:
A. F. Beraldo 23
1. Teoria da Amostragem
µp1−p2 = µp1 − µp2 = p1 − p2 (1.12)
e
σp1−p2 =
√√√√pi(1− pi1)
n1
+ pi2(1− pi2)
n2
(1.13)
1.7 A Desigualdade de Chebyshev
Até agora, estudamos as distribuições amostrais de estatísticas, em amostras extraídas
de populações supostamente normais. Quando a amostra é pequena (n < 30), e não há a
condição de normalidade da população, podemos utilizar a Desigualdade, ou Teorema,
de Chebishev, que é o seguinte:
P
(∣∣∣X − µ∣∣∣ ≤ kσX) ≥ 1− 1k2 (1.14)
ou seja, a probabilidade da média amostral diferir da média populacional, de k desvios
padrões não é menor do que 1− 1
k2 (sendo k > 1).
24 A. F. Beraldo
1.8 Glossário
1.8 Glossário
Antes de passarmos ao próximo capítulo, é necessário que você tenha entendido
perfeitamente os termos que utilizamos até agora. Os principais conceitos estão definidos
a seguir, e não prossiga em seus estudos sem que estejam perfeitamente compreendidos:
Universo Conjunto de elementos (ou observações sobre este con-
junto) que possuem pelo menos um atributo em comum.
O mesmo que População.
Amostra Conjunto cujos elementos foram extraídos do Universo.
Amostragem
probabilística
Processo em que a extração de elementos que irão compor
a amostra é feito segundo as regras do Cálculo de
Probabilidades (sorteio).
Amostragem
não-probabilística
Processo de extração da amostra em que não há o rigor
probabilístico.
Parâmetro Medida descritiva de variáveis do Universo.
Estatística Medida descritiva de variáveis da Amostra.
Margem de erro Diferença entre as medidas da População e da Amostra.
Geralmente é uma expressão matemática que engloba
medidas de dispersão e tamanho da amostra (erro padrão),
junto com valores retirados de distribuições de probabili-
dades.
Inferência estatística Processo de cálculo dos parâmetros a partir de estatísticas
conhecidas e da margem de erro destas estatísticas.
Intervalo de confiança Intervalo formado pela expressão estatística ± margem de
erro, em que se calcula a probabilidade de pertinência de
um parâmetro.
Nível de confiança Probabilidade de que o parâmetro pertença ao Intervalo de
Confiança.
Distribuição amostral Conjunto de valores das estatísticas e da frequência com
que ocorrem.
Estimador É uma estatística utilizada para calcular os valores dos
parâmetros.
A. F. Beraldo 25
1. Teoria da Amostragem
1.9 Erros Padrões de algumas estatísticas
Vimos que um Intervalo de Confiança, em que calculamos a probabilidade NC de que o
parâmetro (medida populacional) a ele pertença, possui os limites θˆinf e θˆsup, de maneira
que
θˆinf ≤ θ ≤ θˆsup
Os limites inferior e superior do IC são dados por
θˆinf = θˆ − εθˆ e
θˆsup = θˆ + εθˆ
onde θˆ é o estimador e εθˆ é a margem de erro do estimador.
A margem de erro do estimador é calculada da seguinte forma:
εθˆ = KEp
onde
εθˆ: margem de erro do estimador
K: um coeficiente que depende da distribuição de probabilidades do estimador θˆ.
Ep: erro padrão do estimador, geralmente a razão entre sua medida de dispersão
(variância ou desvio-padrão) e a raiz quadrada do tamanho da amostra. A seguir, o
quadro com os erros-padrões de algumas estatísticas.
26 A. F. Beraldo
1.9 Erros Padrões de algumas estatísticas
Estatística
Amostral
Erro Padrão Observações
Média
σ√
n
(1.15)
Válido para grandes ou pequenas amos-
tras quando a população é infinita ou a
amostragem é feita com reposição. A
distribuição amostral das médias é normal
ou assintoticamente normal quando n > 30
mesmo quando a população não é normal.
Proporções √
pi(1− pi)
n
(1.16)
Idem às observações feitas para a média.
Medianas 1, 2533σ
n
Para n > 30, a distribuição amostral
das medianas é aproximadamente normal.
Este Ep é válido apenas para populações
normais.
Desvios Padrão
σ√
n
(1.17)
√
µ4 − σ4
4nσ4 (1.18)
Para n > 100 a distribuição amostral
dos desvios padrão é aproximadamente
normal. Se a população é normal, emprega-
se (1.17); se não é normal, emprega-se
(1.18).
Variâncias
σ2
√
2
n
(1.19)
√
µ4 − σ4
n
(1.20)
Retirado de SPIEGEL, M. S., Probabilidade e Estatística, McGraw-Hill, Rio de Janeiro, 1978.
A. F. Beraldo 27
1. Teoria da Amostragem
1.9.1 Dimensionamento da amostra para a inferência da média
populacional
n =
(
zcrit × σ
d
)2
n = (zcrit × σ)
2 ×N
d2(N − 1) + (zcritσ)2
1.9.2 Dimensionamento da amostra para estimar a proporção
populacional
n =
(zcrit
ε
)2
× p̂× q̂
n = z
2
crit × p̂× q̂ ×N
ε2(N − 1) + z2crit × p̂× q̂
28 A. F. Beraldo
2 Inferência estatística
Inferir, segundo o dicionário1, vem do latim inferere, significando “Tirar por conclusão; deduzir pelo
raciocínio”.
Em Estatística, a inferência é o processo indutivo2de estimarmos os parâmetros (medidas da
população) a partir das estatísticas (medidas da amostra).
Lembrando as fases do método estatístico:
1. Um conjunto ω , chamado amostra, com n elementos, é extraído aleatoriamente de uma população
Ω , de tamanho N , (infinito ou finito).
Figura 2.1: Amostragem
2. Como o tamanho da amostra é muito menor do que o tamanho da população
(n << N), podemos calcular facilmente as estatísticas, que são as medidas das variáveis de uma
amostra. Comumente, calculamos as estatísticas média X, variância s2 e desvio padrão s, e as
proporções p (ou freqüências relativas fr). No caso de estudarmos mais de uma variável na amostra,
calculamos também os coeficientes de correlação r e a covariância COVxy, entre outras estatísticas3.
Estas medidas, estatísticas “amostrais”, vão permitiro cálculo de seus correspondentes parâmetros
1Dicionário Aurélio Século XXI.
2No processo indutivo conhece-se o todo a partir do que conhecemos sobre suas partes.
3O coeficiente de correlação e a covariância são estudados na apostila Estatística V – Tópicos Especiais
de Estatística.
A. F. Beraldo 29
2. Inferência estatística
“populacionais”: média µ, variância σ2 e desvio padrão σ, proporções pi, coeficientes de correlação
ρ e covariância σxy.
Figura 2.2: Cálculo de Estatísticas
3. Os parâmetros são calculados pela expressão
Parâmetro = Estatística±Margem de erro da estatística
Ou seja, um parâmetro pertence a um intervalo numérico cujos limites inferior e superior são
obtidos pela estatística correspondente, subtraída e somada à margem de erro calculada. Este
intervalo de confiança, IC, é calculado para cada estatística.
Isto nos faz pensar que o cálculo dos parâmetros pode ser resumido em calcular a margem de
erro das estatísticas. De uma certa forma é assim, embora após o cálculo dos parâmetros, uma
boa dose de bom senso e de análise tenha que ser exercida, para evitarmos erros (grosseiros ou
não) nas afirmações que fazemos sobre o universo.
Todo parâmetro, portanto, está ligado à sua estatística correspondente, e a um intervalo de
confiança. Nos tópicos a seguir, estudaremos o cálculo dos intervalos de confiança para alguns
dos parâmetros mais utilizados. Antes, no entanto, algumas considerações sobre estimadores.
Como explicado anteriormente, iremos inferir os parâmetros θ de uma população a partir de
estatísticas (ou estimadores) θˆi, calculados sobre amostras retiradas aleatoriamente do conjunto Universo.
Em outras palavras, iremos estimar parâmetros θ a partir de estimadores θˆ calculados sobre a amostra.
A relação é a seguinte:
θ = θˆ ± εθˆ
onde θ é o parâmetro (que descreve a população), θˆ é o estimador e εθˆ a margem de erro do estimador.
Estimadores podem ser enviesados ou não-enviesados. Um estimador é não-enviesado quando
E(θˆi) = θ
30 A. F. Beraldo
2.1 Inferência da Média Populacional
ou seja, quando a média, ou esperança do estimador, é igual ao parâmetro correspondente. Na
inferência dos parâmetros que estudaremos a seguir, os estimadores não-enviesados (ou não-tendenciosos)
são X, p e s2, pois:
E(Xi) = µ, E(pi) = pi
E(s2i ) = σ2
O desvio-padrão amostral não é um estimador não-enviesado do desvio-padrão populacional, uma
vez que, em geral,
E(s) 6= σ
Estimadores também podem ser eficientes, ou não. Se temos dois ou mais estimadores para um
parâmetro, o estimador eficiente será aquele com a menor variância. Por exemplo, a média populacional
µ pode ser estimada tanto pela média amostral X quanto pela mediana amostral X˜ No entanto, a
variância, ou média quadrática utilizando a média é menor do que aquela utilizando a mediana:
Σ(xi −X)2
n
≤ Σ(xi − X˜)
2
n
Portanto, a X (média amostral) é o estimador não-enviesado e eficiente de µ (média populacional).
Ao final deste capítulo, mostraremos o uso de alguns estimadores tendenciosos (enviesados), que,
mesmo assim, podem ser - com reservas - utilizados pela facilidade em que são calculados, junto com
outros estimadores.
Neste capítulo, iremos estudar a Inferência Estatística como sendo o cálculo e a análise dos intervalos
de confiança dos parâmetros, ou seja, a estimação intervalar dos parâmetros. Para a estimação pontual de
parâmetros, que utiliza as técnicas de máxima verossimilhança, consulte a Apostila V - Tópicos Especiais
em Estatística.
2.1 Inferência da Média Populacional
Seja um Universo Ω, que pode ser infinito ou finito, constituído de N elementos, com média µ e desvio
padrão σ. Retiramos aleatoriamente, com ou sem reposição, uma amostra de tamanho n, e calculamos
a sua média X e o desvio padrão s. O intervalo de confiança IC para a média populacional é calculado
conforme as seguintes condições:
2.1.1 Grandes amostras (n > 30)
População infinita, amostragem com reposição e variância populacional conhecida, distribuição
normal.
A. F. Beraldo 31
2. Inferência estatística
X − zcrit σ√
n
≤ µ ≤ X + zcrit σ√
n
(2.1)
onde zcrit é tabelado segundo o nível de significância (vide quadro abaixo):
NC zcrit
90% 1,645
95% 1,96
99% 2,58
32 A. F. Beraldo
2.1 Inferência da Média Populacional
Na quase totalidade das vezes, o desvio padrão populacional σ é desconhecido. No entanto, para
amostras bem maiores, em que se tem normalidade das variáveis, podemos substituir σ por s, e a expressão
de cálculo torna-se
X − zcrit s√
n
≤ µ ≤ X + zcrit s√
n
(2.2)
População finita, amostragem sem reposição, e variância conhecida, distribuição normal.
X − zcrit σ√
n
√√√√N − n
N − 1 ≤ µ ≤ X + zcrit
σ√
n
√√√√N − n
N − 1 (2.3)
Da mesma forma, para grandes amostras, podemos substituir σ por s, e a expressão torna-se a
seguinte:
X − zcrit s√
n
√√√√N − n
N − 1 ≤ µ ≤ X + zcrit
s√
n
√√√√N − n
N − 1 (2.4)
onde zcrit é tabelado segundo o nível de significância (vide quadro da página anterior).
2.1.2 Pequenas amostras (n < 30)
População infinita, amostragem com reposição, com a variável normalmente distribuída, e
variância populacional desconhecida, distribuição t de Student.
X − tcrit s√
n
≤ µ ≤ X + tcrit s√
n
(2.5)
onde tcrit é tabelado em função do nível de significância α e do número de graus de liberdade ϕ, dado
por ϕ = n− 1 (vide Tabelas no Anexo I desta Apostila).
População finita, amostragem sem reposição, com a variável normalmente distribuída, e
variância populacional desconhecida:
A. F. Beraldo 33
2. Inferência estatística
X − tcrit s√
n
√√√√N − n
N − 1 ≤ µ ≤ X + tcrit
s√
n
√√√√N − n
N − 1 (2.6)
onde tcrit é tabelado em função do nível de significância α e do número de graus de liberdade ϕ, dado
por ϕ = n− 1 (vide Tabelas no Anexo I desta Apostila). A expressão √N − n/N − 1 é chamada fator
de correção para populações finitas.
Exemplo 2.1. Uma amostra de 400 habitantes de uma cidade de porte médio foi extraída aleatoriamente
e, em relação à variável peso, foram calculadas a média X = 67, 5 kg e o desvio padrão s = 12, 5 kg.
Estime o valor da média populacional, para os níveis de confiança de 90%, 95% e 99%.
Pelos dados acima, a população pode ser considerada infinita (cidade de porte médio). Não foi
informada a variância da população - o que é situação mais comum. No entanto, considerando o tamanho
da amostra, e admitindo que a distribuição da variável peso é normalmente distribuída, podemos utilizar
s no lugar de σ, e adotar a seguinte expressão de cálculo:
X − zcrit s√
n
≤ µ ≤ X + zcrit s√
n
Para o NC = 90%, zcrit = 1, 645 e a margem de erro é
zcrit
s√
n
= 1, 645 12, 5√
400
= 1, 03 kg
E a expressão para o IC é a seguinte
67, 5− 1, 03 ≤ µ ≤ 67, 5 + 1, 03
66, 47 ≤ µ ≤ 68, 53
Há uma probabilidade de 90% de que a média populacional µ pertença ao IC
[66, 47− 68, 53].
Para o NC = 95%, zcrit = 1, 96, e a margem de erro é
zcrit
s√
n
= 1, 96 12, 5√
400
= 1, 23 kg
e a expressão do IC é a seguinte:
67, 5− 1, 23 ≤ µ ≤ 67, 5 + 1, 23
66, 27 ≤ µ ≤ 68, 73
34 A. F. Beraldo
2.1 Inferência da Média Populacional
Há uma probabilidade de 95% de que a média populacional µ pertença ao intervalo [66, 27− 68, 73].
Para o NC = 99%, zcrit = 2, 58. A margem de erro é a seguinte
zcrit
s√
n
= 2, 58 12, 5√
400
= 1, 61 kg
O IC é o seguinte
67, 5− 1, 61 ≤ µ ≤ 67, 5 + 1, 61
65, 89 ≤ µ ≤ 69, 11
Há uma probabilidade de 99% de que a média populacional µ pertença ao intervalo [65, 89− 69, 11].
Veja a figura seguinte:
A. F. Beraldo 35
2. Inferência estatística
Figura 2.3: Intervalos de confiança
Exemplo 2.2. Seja a mesma situação do Exemplo 1.1, com uma amostra de n = 400, média X = 67, 5
kg e s = 12, 5 kg. No entanto, imagine que esta amostra seja extraída de um Universo finito, com
N =2.000. Assim, a expressão de cálculo da margem de erro, para um NC de 95%, seria:
εX =zc
s√
n
√
N − n
N − 1
εX =1, 96
12, 5√
400
√
2000− 400
2000− 1
εX =(1, 96)× (0, 625)× (0, 895) = 1, 096
67, 5− 1, 096 ≤ µ ≤ 67, 5 + 1, 096
66, 404 ≤ µ ≤ 68, 596
36 A. F. Beraldo
2.1 Inferência da Média Populacional
Figura 2.4: Intervalo de confiança
A. F. Beraldo 37
2. Inferência estatística
Exemplo 2.3. Seja a mesma situação do Exemplo 1.1, porém com uma amostra menor, n = 20 elementos.
Neste caso, utilizamos a distribuição de Student t
X = 67, 5 s = 12, 5 n = 20
População infinita
tcalc =?, ϕ = n− 1, ϕ = 20− 1 = 19, NC = 95%
tcalc = 2, 093
εX = 2, 093
12, 5√
20
= 5, 85 kg
67, 5− 5, 85 ≤ µ ≤ 67, 5 + 5, 85
61, 650 ≤ µ ≤ 73, 350
Figura 2.5: Intervalo de confiança
38 A. F. Beraldo
2.1 Inferência da Média Populacional
Comentários:
1. Você já deve ter reparado que costumamos falar em grandes e pequenas amostras, distribuição
normal e aproximadamente normal, grandes valores de n (tamanho da amostra), etc. Muito ainda
se dirá e se verá sobre isto, mas, por enquanto, vamos estabelecer o seguinte:
• Em termos teóricos, conforme se encontra nos livros sobre o assunto, as amostras dividem-se
em “grandes” amostras e “pequenas” amostras. Isto depende do tamanho n da amostra. Se
n < 30, a amostra é pequena; se n > 30, a amostra é grande. Isto implica, basicamente,
numa diferença de tratamento estatístico e matemático, uma vez que pequenas amostras
seguem a distribuição binomial (por exemplo), e grandes amostras seguem a distribuição
normal. Existe uma distribuição teórica, da qual estudaremos daqui a pouco, chamada t de
Student, e que se aplica a qualquer tipo de amostra.
• Ainda em termos teóricos, assume-se que pequenas amostras implicam em grandes margens de
erro. Note que o desvio padrão das medidas (que é uma espécie de medida da margem de
erro), vem sempre no numerador das fórmulas, dividido pela raiz quadrada do tamanho da
amostra. Isto quer dizer que a margem de erro das medidas é inversamente proporcional
à raiz quadrada do tamanho da amostra, ou seja, quanto menor a amostra, maior a
margem de erro, e vice-versa.
• Em termos práticos, o método de pesquisa não é bem assim. Depende muito do objeto em
estudo. Universos que possuem grande regularidade, são bem homogêneos, não necessitam
de grandes amostras, uma vez que o desvio padrão (que é uma medida de dispersão, lembra-
se?) será, correspondentemente, também pequeno. De outra forma, Universos altamente
irregulares produzem grandes margens de erro, mesmo se extraímos amostras de quinhentos,
ou mil, ou mais elementos...
2. Existe uma lei em matemática, a chamada Lei dos Grandes Números, que diz mais ou menos
o seguinte: “Quanto mais observações tivermos sobre um fenômeno quantificável, mais nos
aproximaremos dos parâmetros verdadeiros que medem estes fenômenos”. Isto quer dizer que, por
exemplo, quanto mais lançamentos de uma moeda fizermos, mais os resultados irão se aproximar
dos previstos 50% de caras e 50% de coroas. Quanto mais nascimentos de crianças acontecerem,
mais nos aproximaremos da proporção metade meninos, metade meninas. Uma das maneiras de
enunciarmos a Lei dos Grandes Números é a seguinte:
Se Y/n é a proporção amostral de uma categoria Y em uma amostra de tamanho n, e pi a proporção
dessa mesma categoria, no Universo, e ε um número pequeno, porém maior que zero, temos que
lim
n→∞Pr
(∣∣∣∣Yn − pi
∣∣∣∣ ≥ ε) = 0
Ou seja, à medida que aumentamos a amostra (n→∞), a probabilidade de que a diferença entre
a estatística amostral Y/n e o parâmetro populacional pi seja maior que dado número ε (muito
pequeno), tende a zero.
O mesmo pode ser aplicado a qualquer outra estatística e seu parâmetro correspondente. Por
exemplo, este que acabamos de estudar, a média populacional. Se µ é a média populacional, e X
a média amostral, temos, segundo a Lei dos Grandes Números,
lim
n→∞Pr
(∣∣µ−X∣∣ ≥ ε) = 0
A. F. Beraldo 39
2. Inferência estatística
Dizendo de outra maneira, a diferença entre a média populacional e a média amostral pode se tornar
tão pequena quanto quisermos (se pudermos aumentar o tamanho da amostra ilimitadamente, a
média populacional tende a se tornar igual à média amostral).
3. Você deve ter notado que, extraindo a amostra de uma população, o fazemos sem reposição, ou seja,
não consideramos que um elemento amostrado possa ser amostrado mais de uma vez. Neste caso,
para manter um rigor teórico, teríamos que utilizar um desvio padrão corrigido pela expressão√
N − n/N − 1. Mas ocorre o seguinte: se a população é muito grande (infinita), a expressão
tende a se igualar a 1. O mesmo pode-se dizer no caso em que a população é finita, mas N >> n.
Por exemplo, se temos uma população de 10.000 alunos em uma universidade, e extraímos uma
amostra de tamanho n = 300, a expressão é calculada como
√
N − n
N − 1 =
√
10.000− 300
10.000− 1 =
√
9.700
9.999 =
√
0, 9700 = 0, 985
Este valor é muito próximo a 1,00. Daí, que não faz sentido adotar a correção para universos finitos,
nestes casos. Em outras situações, principalmente no caso de pequenas amostras e Universos
menores, estes fatores de correção devem ser utilizados.
2.2 Inferência das Proporções Populacionais
Seja uma população Ω , de tamanho N , em que a variável em que estamos trabalhando é qualitativa
(nominal) dicotômica, ou seja, podem ocorrer os eventos E e E (sucesso e não-sucesso, respectivamente).
Seja fr(E) = pi a frequência relativa, ou proporção de ocorrência do evento E nesta população, dada
por pi = f(E)/N .
Desta população, é retirada aleatoriamente uma amostra ω de tamanho n, e calculada a proporção p,
dada por p = f(E)/n. A proporção populacional pi deverá ser estimada a partir da proporção amostral
p.
• Caso a população seja infinita e a amostra tenha um tamanho n ≥ 30, tal que np ≥ 5, podemos
utilizar a distribuição normal de probabilidades, e estimar pi pela expressão:
p− zcrit
√√√√p(1− p)
n
≤ pi ≤ p+ zcrit
√√√√p(1− p)
n
(2.7)
onde os valores dos zcrit são os mesmos dados pela Tabela 2.1.
• Caso a população seja finita e a amostra tenha um tamanho n ≥ 30, tal que np ≥ 5, podemos
também utilizar a distribuição normal de probabilidades, e estimar pi pela expressão:
p−zcrit
√√√√p(1− p)
n
√√√√N − n
N − 1 ≤ pi ≤ p+zcrit
√√√√p(1− p)
n
√√√√N − n
N − 1 (2.8)
40 A. F. Beraldo
2.2 Inferência das Proporções Populacionais
Exemplo 2.4. Seja uma população de uma cidade, com cerca de 50 mil habitantes. Queremos saber a
proporção pi de pessoas com ensino superior completo. Extraímos uma amostra aleatória de 400 elementos,
e verificamos que a proporção de pessoas com ensino superior completo na amostra é 15% (p = 0, 15).
Qual será o valor de pi?
A. F. Beraldo 41
2. Inferência estatística
Supondo um NC de 95%, pi é dado por
p− εp ≤ pi ≤ p+ εp
onde:
εp =zc
√
P (1− p)
n
εp =1, 96
√
(0, 15)× (0, 85)
400
εp =0, 035
0, 15− 0, 035 ≤ pi ≤ 0, 15 + 0, 035
0, 115 ≤ pi ≤ 0, 185
Figura 2.6: Intervalo de confiança
42 A. F. Beraldo
2.2 Inferência das Proporções Populacionais
Exemplo 2.5. Seja a mesma situação do exemplo anterior, porém com a amostra extraída de uma
população finita, com N = 1.000.
A expressão de cálculo da margem de erro deverá se multiplicada pelo fator de correção de populações
finitas, dado por:
√
1000− 400
1000− 1 = 0, 775
A nova margem de erro é
εp =(0, 035)(0, 775)
εp =0, 0271
E o valor de pi:
0, 123 ≤ pi ≤ 0, 177
Figura 2.7: Intervalo de confiança
A. F. Beraldo 43
2. Inferência estatística
2.3 Inferência da Variância Populacional
A variância populacional σ2 é estimada utilizando-se a distribuição do qui-quadrado4. A expressão
da inferência da variância é dada por
(n− 1)s2
χ2sup
≤ σ2 ≤ (n− 1)s
2
χ2inf
(2.9)
onde:n: tamanho da amostra
s2: variância amostral
σ2: variância populacional
χ2sup, χ2inf : valores da distribuição do qui-quadrado, para n − 1 graus de liberdade e um nível de
confiança NC.
Exemplo 2.6. Desejamos estimar a variância populacional dos salários dos empregados do comércio
na cidade. Extraímos uma amostra aleatória de 25 salários, na qual foi calculada uma variância de R$
12.000,00 (doze mil reais ao quadrado). Qual é a variância populacional?
s2 = 12.000, 00
n = 25
NC = 95%
ϕ (graus de liberdade) = n− 1 = 25− 1 = 24
Consultando a tabela, temos:
χ2inf = 12, 401
χ2sup = 39, 364
Aplicando na expressão de cálculo, temos
(25− 1)12000
39, 364 ≤ σ
2 ≤ (25− 1)1200012, 401
7.316, 33 ≤ σ2 ≤ 23.223, 93
O desvio-padrão é obtido extraindo-se a raiz quadrada dos limites do IC:
4Mais detalhes, ver apostila Estatística II - Cálculo de Probabilidades
44 A. F. Beraldo
2.3 Inferência da Variância Populacional
85, 54 ≤ σ2 ≤ 152, 39
Figura 2.8: Intervalo de confiança
A. F. Beraldo 45
2. Inferência estatística
2.4 Inferência da Diferença entre duas Médias
Sejam duas populações Ω1 e Ω2, independentes, com médias µ1 e µ2, das quais foram extraídas duas
amostras ω1 e ω2, de tamanhos n1 e n2 respectivamente. As amostras possuem médias X1 e X2, e
variâncias s21 e s22 se a distribuição da variável nas populações for normal, ou aproximadamente normal,
temos:
Para grandes amostras:
(X1 −X2)− zcrit
√
s21
n1
+ s
2
2
n2
≤ (µ1 − µ2) ≤ (X1 −X2) + zcrit
√
s21
n1
+ s
2
2
n2
(2.10)
Para pequenas amostras:
µ1 − µ2 = (X1 −X2)± tcrit
√
(n1 − 1)s21 + (n2 − 1)s22
n1 + n2 − 2 ×
(
1
n1
+ 1
n2
)
(2.11)
2.5 Inferência do Desvio Padrão e de outras
estatísticas.
De forma análoga à média e à proporção populacionais, outras estatísticas possuem suas margens de
erro. A expressão da inferência estatística é sempre a mesma:
Parâmetro = Estatística±Margem de erro da estatística
A seguir, você encontra as margens de erro para as estatísticas mais utilizadas (sempre que se admitir
que as distribuições amostrais das estatísticas for normal, o tamanho das amostras é grande, a população
é finita e a amostragem é feita com reposição, se a população for finita):
46 A. F. Beraldo
2.5 Inferência do Desvio Padrão e de outras estatísticas.
Médias
zc
s√
n
Proporções
zc
√
p(1− p)
n
Desvios Padrões
zcalc
s√
2n
Mediana
zcalc
1, 2533× s√
n
Primeiro e Terceiro Quartis
zcalc
1, 3626× s√
n
A. F. Beraldo 47
2. Inferência estatística
2.6 Cálculo do tamanho ótimo das amostras
Legenda:
n Tamanho da amostra
σ Desvio padrão da população
zcrit z-crítico, retirado da curva normal. Os valores são os seguintes:
zcrit = 1,645 para um nível de confiança NC = 90%
zcrit = 1,96 para um nível de confiança NC = 95% (mais comum)
zcrit = 2,58 para um nível de confiança NC = 99%
d Erro amostral, margem de erro da média amostral. Diferença máxima entre o
parâmetro µ e a estatística X
N Tamanho da população.
p̂ Proporção do evento (sucesso) na amostra, estimada ou calculada. Caso não
se tenha informação a priori, utilizar p̂ = 0, 5
q̂ Proporção do evento (não-sucesso) na amostra, estimada ou calculada. Caso
não se tenha informação a priori, utilizar q̂ = 0, 5
ε Margem de erro da proporção amostral
48 A. F. Beraldo
Parte II
Teoria da Decisão Estatística
A. F. Beraldo 49
3 Introdução
A Teoria da Decisão Estatística é uma das aplicações práticas da Estatística mais utilizadas, em
campos tão diversos quanto Marketing (avaliação da eficácia de uma campanha publicitária) quanto
Medicina (eficiência de cura de uma doença a partir da aplicação de dosagens diferentes de um
medicamento), passando pela Educação Física e pelas Ciências Sociais. Sempre que houver necessidade de
“avaliação”, conjugada com “comparação”, este recurso, a Teoria da Decisão Estatística, estará presente.
3.1 O que são Testes de Hipóteses
UmaHipótese estatística é uma afirmativa que se faz sobre um parâmetro, a partir de estatísticas
de amostras coletadas.
Por exemplo, pode-se fazer a hipótese de que a renda familiar média de um bairro da cidade seja
igual a R$ 560,00. Escreve-se:
H0 : µ = R$ 560, 00
H0 (a letra “H”, maiúscula, com a letra “o” subscrita1) é o símbolo da hipótese nula, que é a hipótese
básica sobre a renda familiar média do bairro2. Além da hipótese nula H0, podemos formular hipóteses
alternativas, como, por exemplo:
H1 : µ 6= R$560, 00, que é a hipótese oposta à H0
H2 : µ > R$560, 00
H3 : µ < R$560, 00
1Por analogia com a palavra “nulo”, muitos chamam de “h-zero”, o que é incorreto. A letra “o” vem
do inglês “original”, como adotado por Fisher (1935).
2Hipótese nula não quer dizer que a hipótese “não tem valor”.
A. F. Beraldo 51
3. Introdução
Hipóteses nulas ou alternativas são rejeitadas ou aceitas (melhor dizendo, não rejeitadas). Para
testar esta hipótese, coletamos uma amostra de tamanho n, de famílias deste bairro, e determinamos o in-
tervalo de confiança da média da variável “renda familiar”: No exemplo acima, quando formulamos a
hipótese nula dada por
H0 : µ = R$ 560, 00, estamos afirmando que o valor de R$ 560,00 pertence ao intervalo de confiança IC
da média populacional µ, estimada a partir da média amostral X, para determinado nível de significância
α (ou nível de confiança NC = 1− α).
Por exemplo: suponha que extraímos uma amostra de 400 domicílios deste bairro, e calculamos sua
média X = R$ 550, 00 e desvio padrão s = R$ 180, 00.
O IC da média populacional µ é dado por:
X − zcrit s√
n
≤ µ ≤ X + zcrit s√
n
(3.1)
Aplicando os valores, o IC da média µ, para um nível de significância α = 0, 05
(ou 5%), será:
550, 00− 1, 96180, 00√
400
≤ µ ≤ 550, 00 + 1, 96180, 00√
400
A margem de erro é dada por
±1, 96180, 00√
400
= ± R$ 17, 60
Veja a figura a seguir.
52 A. F. Beraldo
3.1 O que são Testes de Hipóteses
95%
R$ 560
532,4 550 567,6
Figura 3.1: IC da média
Na figura 3.1, acima, você pode notar que o valor de R$ 560,00 “cai” dentro da faixa R$ 532,40 a R$
567,60, que é o intervalo de confiança para a média populacional. Como foi visto no Capítulo 2, há uma
probabilidade de 95% de que a média populacional esteja contida neste intervalo — e uma probabilidade
de 5% de que esteja fora deste intervalo.
Assim, não rejeitamos a H0, ao nível de confiança de 95%. O que acabamos de fazer foi um
teste de hipótese, ou teste estatístico.
Testes Estatísticos são procedimentos que tem por objetivos:
a) Verificar se uma amostra foi retirada de determinada população;
b) Verificar se existe diferença significativa entre dois ou mais estados de uma variável, ou entre
estados de duas ou mais variáveis.
Antes de continuarmos com este capítulo, é necessário elucidar este conceito: diferença estatística
significativa. Em Matemática, as igualdades são exatas, isto é, podemos sempre dizer que 5 = 5, e
nunca que 5 = 6. Em Estatística, como já foi visto na parte de inferência estatística, a média µ de uma
população pode ser qualquer número pertencente ao intervalo de confiança deste parâmetro. Daí que, por
A. F. Beraldo 53
3. Introdução
exemplo, se o intervalo de confiança da média de um conjunto de medidas for de 20, 5±2, 3, os valores 20,
21 e 22 pertencem ao intervalo de confiança — qualquer um deles poderia ser a média real do conjunto.
Veja a figura 3.2.
20,5 22,818,2
25
Figura 3.2: Intervalo de Confiança e Diferença Estatística Significativa
Pertencendo ao mesmo intervalo de confiança, eles são estatisticamente iguais, ou, melhor, dizendo,
não existe diferença estatística significativa entre eles. Por outro lado, neste mesmo conjunto, o
valor 25 é estatisticamente diferente, ou, melhor dizendo, existe uma diferença estatística significativa
entre o valor 25 e o intervalode confiança da média — o valor 25 não pertence ao intervalo de confiança.
54 A. F. Beraldo
3.1 O que são Testes de Hipóteses
Podemos, então, fixar este conceito:
Não existe diferença estatística significativa entre dois valores de uma variável se estes pertencem ao
mesmo intervalo de confiança.
Veja os exemplos a seguir:
Se uma variável aleatória pode evoluir ao longo do tempo; podemos estar interessados se houve
diferença significativa entre os estados inicial e final da variável (ou seja, medidas desta variável
tomadas no instante inicial e no instante final do período de medição):
Exemplo 3.1. Uma droga, a repaglinida, foi testada no tratamento da diabetes. O nível glicêmico
pós-prandial de um indivíduo saudável é de cerca de 120 dg/ml. Supondo que 48 voluntários com esta
doença foram submetidos ao tratamento de diabetes utilizando a dosagem de 1 mg, diário, durante um
mês. Antes do tratamento, o nível glicêmico do grupo era de 163 ± 28 dg/ml. Após o tratamento, a
média baixou para 144 dg/ml. O tratamento foi eficaz?
Em outros casos, podemos estar interessados nas medidas desta variável, tomadas no mesmo instante
porém em locais diferentes:
Exemplo 3.2. A prefeitura está pesquisando as condições de moradia em dois bairros da cidade, bairro
A e bairro B. No bairro A, 74% dos domicílios tem saneamento básico, com água e esgoto. No bairro B,
são 85% dos domicílios. Existe diferença estatística nesta condição, para os domicílios dos dois bairros?
Em situações mais complexas, podemos estar interessados nas medidas da variável, tomadas em locais
e tempos diferentes:
Exemplo 3.3. Uma indústria metalúrgica tem duas plantas, em cidades distintas, A e B. Determinado
processo de fabricação foi desenvolvido em dois métodos diferentes, M1 e M2, e aplicado nas plantas A
e B. A unidade de medida é tempo (em minutos) e os resultados foram:
M1 M2
Planta A 12, 3± 4, 7 12, 8± 5, 4
Planta B 14, 2± 2, 5 9, 2± 3, 4
Supondo que os dois métodos foram eficazes, qual combinação Planta-Método é a mais eficiente?
Ainda em outro caso, podemos verificar se os valores de uma variável são iguais para amostras de
categorias diferentes:
Exemplo 3.4. O gerente de uma pizzaria deseja saber se há preferência pelo sabor de pizza, de acordo
com o sexo e a faixa etária dos clientes de seu estabelecimento. Fez um levantamento dos pedidos dos
últimos seis meses e verificou que:
A. F. Beraldo 55
3. Introdução
Pizza Homens MulheresJovem Adulto Jovem Adulto
Presunto / Queijo 28 22 12 23
Quatro queijos 34 30 24 10
Portuguesa 22 17 29 31
Será que existe esta vinculação entre o sabor da pizza e o atributo sexo/faixa etária dos clientes?
Em qualquer dos casos, existe uma série de rotinas estatísticas adequadas para estabelecer:
1o Se há diferença estatística significativa entre os estados.
2o Em caso de haver esta diferença, estabelecer a comparação entre os estados (em
termos de maior ou menor).
3.2 Teoria da Decisão Estatística
A Decisão Estatística decorre do que foi visto na seção anterior. Quando foi dito que duas estatísticas
de uma variável não são diferentes estatisticamente quando pertencerem ao mesmo intervalo de confiança,
temos que dizer que há uma probabilidade dos dois valores não serem diferentes. Esta
probabilidade é o nível de confiança (lembre-se que o nível de confiança é que determina o intervalo
de confiança). Vamos dar um exemplo de como é isso, na prática:
Exemplo 3.5. Foi feita uma pesquisa de intenção de voto para o candidato A, no mês de maio. Naquele
mês, a amostra foi de 400 eleitores e, para um nível de confiança de 95%, inferiu-se que a intenção de
voto no candidato A era de 38%. A margem de erro da pesquisa foi, portanto,
zc
√
p(1− p)
n
= 1, 96
√
(0, 38)(0, 62)
400 = (1, 96)(0, 024) = 0, 048 ou 4, 8%
Daí que a intenção de voto do candidato A deve estar, com uma probabilidade de 95%, entre 33,2% e
42,8%. Continuando este exemplo, imagine agora que, na mesma pesquisa, um outro candidato, B, obteve
34% das intenções de voto. Existe diferença entre estes dois candidatos? A resposta é que não existe
diferença, estatisticamente falando, uma vez que a votação do candidato B está dentro do intervalo de
confiança da intenção de voto do candidato A. A diferença matemática entre as intenções de A, 38%, e
do candidato B, 34%, não é estatisticamente significativa, sendo esta variação devida ao acaso3. Veja a
ilustração a seguir:
Comentários:
1. Você deve estar pensando em termos de certeza: não existe diferença entre os candidatos, e
pronto. Não é bem assim. Lembre-se que adotamos o nível de confiança de 95%, e isto quer
3Este é um outro conceito frequentemente adotado para o intervalo de confiança: uma região
(um intervalo) em que as diferenças das medidas em relação à média populacional (ou qualquer outro
parâmetro) são aleatórias, isto é, devidas unicamente ao acaso.
56 A. F. Beraldo
3.2 Teoria da Decisão Estatística
A
B
29,2% 34,0% 38,8%
33,2% 38% 42,8%
Empate Técnico
Figura 3.3: Empate técnico de intenções de voto
dizer que estamos 95% confiantes da inexistência de diferença entre os candidatos. E que existe
uma probabilidade de 5% de que nossas conclusões estejam erradas. Isto será discutido em breve,
nesta parte da Apostila.
2. A situação descrita acima (dois candidatos sem diferença estatística na intenção de voto) é dita de
empate técnico. Não se pode afirmar, neste momento, qual candidato está na frente da corrida
eleitoral.
A. F. Beraldo 57
3. Introdução
A Decisão Estatística é, basicamente, a decisão de rejeitar ou de não rejeitar as hipóteses formuladas
sobre medidas de dois ou mais conjuntos. Os procedimentos são:
1. Formula-se a Hipótese Nula H0, que é sempre uma afirmativa de igualdade. Se as medidas dos
conjuntos ω1 e ω2 são θ1 e θ2 (veja a figura a seguir), formulamos a hipótese nula H0 : θ1 = θ2.
Figura 3.4: Medidas dos conjuntos
2. Podemos formular, em seguida, hipóteses alternativas, como, por exemplo:
H1: θ1 > θ2
H2: θ1 < θ2
3. Estabelecemos o Nível de Confiança (NC) e o Nível de Significância (α) com que será realizado
o teste de hipóteses.
4. Verificamos se as variáveis dos conjuntos são ou não normalmente distribuídas. Caso sejam
normalmente distribuídas, utilizamos os testes paramétricos. Caso não sejam, utilizamos os
testes não-paramétricos.
Para saber se uma variável é ou não normalmente distribuída, utilizamos o teste de Kolmogorov-
Smirnov. Veja no Capítulo de Testes Não Paramétricos.
5. Verificamos se há independência ou não dos conjuntos. Por exemplo, se analisamos a evolução
das notas de uma turma ao longo do tempo (longitudinal), e são feitas 4 observações (4 provas), te-
mos que cada aluno i terá uma nota θit, em que
t = 1, 2, 3 e 4. Temos a seguinte matriz:
Aluno θi1 θi2 θi3 θi4
1 θ11 θ12 θ13 θ14
2 θ21 θ22 θ23 θ24
3 θ31 θ32 θ33 θ34
... ... ... ...
58 A. F. Beraldo
3.2 Teoria da Decisão Estatística
Neste caso, a hipótese formulada será H0 : θ1 = θ2 = θ3 = θ4, ou seja, as notas dos alunos são
iguais nos tempos 1, 2, 3 e 4. É o que se chama de amostras emparelhadas, ou pareadas, ou
dependentes.
No caso de avaliarmos 2 ou mais turmas de alunos, em que as observações são feitas em apenas
um instante (medida transversal), consideramos as amostras (ou grupo) independentes.
6. Calculamos a estatística de teste, θcalc. Cada medida (ou grupo de medidas) a ser testado tem
a sua estatística de teste, em geral, calculada por uma expressão matemática que considera a
tendência central e dispersão desta medida, e a distribuição de probabilidades mais adequada para
calcular o seu intervalo de confiança. Vejam o quadro seguinte:
Testes que envolvem... Utilizamos a distribuição...
médias Normal ou t de Student
proporções Normal
variâncias Qui-quadrado ou F de Snedecor
frequências Qui-quadrado
7. Comparamos a estatística de cálculo θcalccom um valor tabelado da distribuição de probabi-
lidades adotada. Este valor θtab, é tabelado em função do nível de confiança (ou do nível de
significância) adotado, e do tamanho da amostra.
8. Neste momento, tomamos a decisão estatística. Caso aconteça que:
−θtab ≤ θcalc ≤ θtab
a decisão estatística é de não rejeitar a hipótese de igualdade.
A. F. Beraldo 59
3. Introdução
Caso ocorra o contrário
θcalc < −θtab ou θcalc > θtab
rejeitamos a hipótese de igualdade.
No caso de estarmos realizando um teste unilateral, a H1 é rejeitada se
θcalc > θtab ou θcalc < −θtab
3.3 Erros Tipo I e Tipo II
Na seção anterior vimos que, estabelecendo o intervalo de confiança de um parâmetro, podemos
testar hipóteses formuladas sobre este parâmetro. Um teste de hipótese sempre leva a uma tomada
de decisão: rejeitar ou não rejeitar as hipótese formuladas, com uma probabilidade associada a esta
decisão.
No exemplo em que H0: µ = R$ 560, 00, tomaríamos a decisão de rejeitar a hipóteses nula se o valor
da média populacional fosse maior do que R$ 567,6 ou menor que R$ 532,40.
Então, caso isto ocorresse, rejeitaríamos a hipótese nula de igualdade e teríamos, forçosamente, que
adotar a hipótese alternativa, H1: µ 6= R$ 560, 00. Em outras palavras, pelos dados que dispomos, a
média populacional “cai” fora do intervalo de confiança.
Então, a Teoria da Decisão Estatística consiste no estabelecimento das hipóteses nulas e alternativas,
e no teste destas hipóteses, em determinado nível de confiança, com as seguintes considerações:
1o Se a estatística de teste θcalc pertence ao IC (zona de aceitação) não rejeitamos a H0 de igualdade.
2o Se a estatística de teste θcalc não pertencer ao IC, e sim às zonas de rejeição, rejeitamos a H0 de
igualdade.
• E se a decisão que tomamos estiver errada? Por exemplo, se rejeitamos a H0, e a média
populacional verdadeira (real) pertencer ao intervalo de confiança, a probabilidade de que esta
decisão esteja errada é dada pelo nível de significância α.
• E se não rejeitarmos a H0, e a média populacional verdadeira (real) não pertencer ao intervalo
de confiança? Estaremos incorrendo num erro “oposto”, cuja probabilidade é dada por β. Assim,
podemos incorrer em dois tipos de erro, os Erros Tipo I e Tipo II.
– Se uma hipótese for rejeitada quando deveria ter sido aceita, cometemos um erro chamado
Erro Tipo I.
– Se, ao contrário, não rejeitarmos uma hipótese que deveria ter sido rejeitada, cometemos
um Erro Tipo II.
60 A. F. Beraldo
3.3 Erros Tipo I e Tipo II
95%
Zona de Aceitação
Zona de
Rejeição
Zona de
Rejeição
550532,4 567,6
Figura 3.5: Critérios de decisão estatística
Para cada um destes erros é calculada uma probabilidade de ocorrência.
Esquematicamente, temos:
H0 Decisão Erro
H0 verdadeira H0 rejeitada Tipo I
H0 falsa H0 aceita Tipo II
A probabilidade de ocorrência do erro Tipo I, como vimos, é o nível de significância α, e a
probabilidade do erro Tipo II é chamada de β, e, de uma forma grosseira, dizemos que pode ser, no
máximo, igual ao nível de confiança.
O tratamento dos erros Tipo II é bem mais complexo. Formulamos várias hipóteses alternativas
para aquilo que supomos que seja o valor real da medida. A cada uma destas hipóteses calculamos
uma probabilidade, e, dado um conjunto de valores supostos, e suas probabilidades, traçamos uma
Curva Característica de Operação (CCO). Este procedimento, no entanto, escapa do conteúdo que foi
determinado para esta Apostila. Caso você queira saber mais sobre Erros Tipo I e II, consulte a Apostila
V – Tópicos Especiais em Estatística.
A. F. Beraldo 61
3. Introdução
3.4 O p-value
Nos últimos anos, disseminou-se na literatura científica, principalmente nas áreas da Psicologia e
das Ciências da Saúde, e nos pacotes estatísticos como o SPSS e o SAS, a utilização de uma estatística
chamada p, ou p-value. O p-value é uma probabilidade, ou uma área sob a curva da distribuição de
probabilidades que está sendo usada no teste de hipóteses. Por exemplo, seja a hipótese H0: µ = 108
, que estamos testando, com uma amostra de n = 144 elementos, com média X = 113 e desvio padrão
s = 22. Adotamos o nível de significância de 0,05, e a distribuição t de Student para o teste. Calculamos
o intervalo de confiança pela expressão
X − tcrit s√
n
≤ µ ≤ X + tcrit s√
n
113− 1, 98 22√
144
≤ µ ≤ 113 + 1, 98 22√
144
Portanto, o IC é [109,4 — 116,6], e a H0: µ = 108 é rejeitada.
Uma outra maneira de testar essa hipótese seria a de calcular uma estatística
tcalc =
X − µ
s√
n
e comparar o valor do tcalc com o valor do tcrit (tabelado). O novo critério de decisão será:
• Rejeitar a H0 de igualdade se o p-value < α.
• Não rejeitar a H0 de igualdade se o p-value > α.
Efetuando os cálculos temos:
tcalc =
X − µ
s√
n
= 113− 108
22√
144
= 2, 73
Na tabela 3.3, para o NC de 95%, o p-value para ϕ = 144 − 1 graus de liberdade, é 0,007. Assim,
rejeitamos H0 pois o p-value é menor do que α (igual a 5%). Veja a figura 3.6 a seguir:
62 A. F. Beraldo
3.4 O p-value
βmax
α/2 α/2
IC
p-value
Figura 3.6: Critérios da decisão estatística (testes bilaterais)
A. F. Beraldo 63
4 Testes de Hipóteses Paramétricos
4.1 Testes da Média
4.1.1 Média Amostral × Média Populacional
Objetivo
Verificar se uma média X calculada sobre uma amostra de tamanho n pertence a uma população de
média µ:
H0 : X = µ
Condições
• A População é normalmente, ou aproximadamente normalmente distribuída, com média µ e
variância desconhecida;
• A Amostra foi extraída de forma aleatória, e possui média X e o desvio padrão s.
Estatística de Teste
Amostra de qualquer tamanho, e a variância populacional desconhecida:
tcalc =
X − µ
s√
n
(4.1)
Onde:
X - média amostral
µ - média populacional
s - desvio padrão amostral
n - tamanho da amostra
Os valores de ttab são tabelados, em função do NC e do tamanho da amostra.
Atenção: A Tabela 2 está em função de graus de liberdade (ϕ). Para este processo, ϕ = n− 1.
Critério
A. F. Beraldo 65
4. Testes de Hipóteses Paramétricos
O teste é bilateral, e aceita-se H0 quando −ttab < tcalc < ttab
Exemplo 4.1. A média de locações de DVD’s em uma loja é de 6,7 locações/mês. Sorteamos uma
amostra de 15 clientes, e os valores obtidos foram: 7, 4 ± 2, 1 locações. Pode-se considerar esta amostra
como típica? (NC = 95%)
H0 : X = µ ou H0 : 7, 4 = 6, 7
µ = 6, 7, X = 7, 4, s = 2, 1 locações.
Calculamos tcalc = X−µs/√n
tcalc =
7, 4− 6, 7
2, 1√
15
= 0, 7
2, 1
3, 87
= 1, 29
NC = 95%, e o número de graus de liberdade, ϕ = n− 1 = 15− 1 = 14. Consultando a Tabela 3.2,
temos que ttab = ±2, 145. Como tcalc < ttab, concluímos que não há diferença estatística significativa
entre X e µ, e que não houve diferença estatística entre os valores da loja e da amostra de clientes. Veja
a figura 4.1.
95%
2,5%2,5%
-2,145 0 +2,145
tcalc = 1,29
Figura 4.1: Resultados do exemplo 1.1
66 A. F. Beraldo
4.1 Testes da Média
4.1.2 Duas médias, amostras independentes
Variância populacional conhecida
Objetivo
Verificar se existe diferença entre as médias populacionais µ1 e µ2 a partir das médias amostrais X1
e X2.
H0 : µ1 = µ2
ou
H0 : 1 = 2
Condições
• As Populações são independentes, e normalmente, ou aproximadamente normalmente distribuí-
das; e possuem variâncias σ21 e σ22 conhecidas, e estatisticamente iguais (homocedasticidade);
• A Amostra foi extraída de forma aleatória, e tem tamanho n > 30.
Estatística de Teste
zcalc =
X1 −X2√
σ21/n1 + σ22/n2
(4.2)
X1 - média da amostra 1
X2 - média da amostra 2
σ21 - variância da amostra 1
σ2 - variância da amostra 2
n1 - tamanho da amostra 1
n2 - tamanho da amostra 2
Critério
O teste é bilateral; e aceita-se H0 quando −ztab ≤ zcalc ≤ +ztab, onde o valor de zcrit é dado pelo
nível de confiança adotado.

Outros materiais