Buscar

INFERÊNCIA ESTATÍSTICA - ESTATÍSTICA 2 - 2017/1 - PROF. RICARDO TAVARES

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE FEDERAL DE OURO PRETO
Noções de Inferência Estatística
Professor: Ricardo Tavares
1. Introdução
A Estatística envolve métodos para o planejamento e condução de um estudo, descrição 
dos dados coletados e para tomada de decisões, predições ou inferências sobre os fenômenos 
representados pelos dados. Os métodos estatísticos para análise de dados podem ser classificados 
como métodos descritivos - Estatística Descritiva - já vistos no início do curso e métodos 
inferenciais - Inferência Estatística.
A Inferência Estatística consiste de procedimentos para fazer generalizações sobre as 
características de uma população a partir da informação contida na amostra. Em linhas gerais, a 
inferência estatística objetiva estudar a população através de evidências fornecidas pela amostra.
Abaixo aparecem alguns trechos ilustrados por Magalhães & Lima (2004) ao iniciar o 
seu capítulo de Inferência Estatística.
“Considere que é de interesse estudar a proporção de alunos, em uma escola do ensino 
médio, que pretendem fazer vestibular. Para tanto, selecionamos uma amostra de alunos e 
perguntamos a eles sobre suas intenções futuras de estudo. Com o intuito de obter alguma indicação 
do valor da proporção na escola como um todo, podemos usar a proporção dos que pretendem 
prosseguir os estudos no grupo selecionado. Suponha que a escola tenha 1000 alunos e escolhemos 
20 para a amostra. Essa escolha pode ser em uma mesma classe ou espalhada entre os alunos das 
três séries ou, ainda, realizada de tal modo a garantir igual presença de meninos e meninos no 
grupo, independentemente da série cursada. Uma forma simples de escolher é associar um número a 
cada um dos 1000 alunos, colocar todos esses números numa lista e sortear 20 deles. Os alunos 
correspondentes aos números sorteados formariam a amostra. Suponha que você realize o sorteio 
dessa forma e um amigo seu, desconhecendo sua iniciativa, repita o mesmo procedimento. Você 
acha que as amostras sorteadas por você e por seu amigo serão a mesma? Parece intuitivo assumir 
que não. Queremos enfatizar que, se realizarmos várias vezes a amostragem descrita, 
provavelmente obteremos amostras compostas por alunos diferentes. Uma questão que surge agora 
é: apesar de diferentes, podemos ter respostas próximas ou iguais nas diversas amostras? A resposta 
é afirmativa e estará subjacente às idéias que serão apresentadas em Inferência Estatística.”
“Resumindo, devido à natureza aleatória, geralmente envolvida no procedimento 
amostral, não podemos garantir que repetições de amostras produzam sempre resultados idênticos. 
Assim, ao coletarmos uma amostra, não podemos prever antecipadamente seu resultado.”
“Em outras palavras, todas as quantidades associadas à amostra terão caráter aleatório e, 
portanto, devem receber tratamento probabilístico.”
“Se a população inteira entrar na amostra, temos na prática, toda a informação possível e 
não há surpresas na amostragem, ou seja, não há aleatoriedade envolvida. Por exemplo, se os 1000 
alunos da escola mencionada acima forem entrevistados, teremos o valor exato da proporção dos 
que desejam continuar os estudos na universidade. Nesse caso, toda a população faz parte da 
amostra e o resultado obtido irá ser sempre o mesmo, não importando quantas vezes repetimos a 
coleta da amostra. É claro que estamos supondo que os alunos não trocam de opinião entre as 
coletas e, portanto, como todos os alunos sempre entram na amostra, a proporção obtida se 
mantém.”
1
Um ponto crucial em Inferência é a estimação, que é responsável por estudar 
combinações dos valores de amostras aleatórias, com a finalidade de obter informações a respeito 
de características de interesse na população. Alguns conceitos e situações nesse ramo serão 
apresentadas na próxima seção.
2. Estimação
Nesta seção, estaremos interessados em estimar uma quantidade (desconhecida) em uma 
população, a partir da informação fornecida por uma amostra. Por exemplo: a proporção p de 
elementos em uma população, apresentando certa característica de interesse. Ou em outras palavras, 
a proporção de brasileiros que aprovam o Governo Federal.
Definição 1: Uma população se refere a todas as observações as quais o pesquisador 
quer fazer inferências ou estimativas. 
Definição 2: Uma amostra é um subconjunto de observações selecionadas a partir de 
uma população.
Definição 3: Seja X uma variável populacional que se deseja estudar. Uma amostra 
aleatória de X é um conjunto de n variáveis aleatórias (X1, X2, ..., Xn), se, para i=1,2, ..., n:
(a) Os Xi’s forem variáveis aleatórias independentes;
(b) Cada Xi tiver a mesma distribuição de probabilidade.
Através de amostras aleatórias, escolhemos uma forma para a distribuição dos dados: o 
modelo estatístico. Obtemos então aproximações para os valores que caracterizam esse modelo (os 
parâmetros).
Definição 4: Os parâmetros são as quantidades da população (números fixos), em geral 
desconhecidas, sobre as quais temos interesse em estudar. Os parâmetros, geralmente, são 
representados por letras gregas tais como θλσµ e,, , entre outras. Exemplo: O peso médio (θ ) 
dos alunos da UFOP.
Definição 5: Dada uma amostra aleatória (X1, X2, ..., Xn), estimador ou estatística é 
qualquer combinação dos elementos amostrais, construída com o objetivo de representar, ou 
estimar, um parâmetro de interesse na população. Em geral, denotamos os estimadores por símbolos 
com o acento circunflexo: θλσµ ˆ,ˆ,ˆ,ˆ , etc. Por exemplo, nxxxxf
n
i
in 


== ∑
= 1
21 ),,,(ˆ θ é um 
estimador de θ . Como o estimador é função das variáveis aleatórias constituintes da amostra, então 
ele também é uma variável aleatória e desta forma poderemos pensar numa distribuição de 
probabilidade para estudar o comportamento dele (próximas seções).
Observe que a definição 5 é muito ampla, permitindo que qualquer combinação da 
amostra aleatória seja um estimador. Em particular, as medidas de posição, dispersão e forma são 
exemplos de estimadores. Por exemplo, se estamos interessados na média das alturas de jovens com 
idade entre 15 e 18 anos, nascidos na região sudeste do país. Vamos coletar uma amostra e usá-la 
para tirar conclusões. Lembrando que a população é composta por todos os jovens com idade entre 
15 e 18 anos, nascidos na região sudeste. O parâmetro de interesse é a altura média desses jovens, 
representada por µ . A amostra (X1, X2, ..., X10) será obtida de forma aleatória e, com base nela, 
2
vamos dizer algo a respeito de µ . O que precisamos resolver é que função dos valores amostrais 
utilizaremos para essa tarefa (estimação de µ ), ou seja, qual será o estimador. Existem diversas 
opções, como por exemplo:
2
)()...,,,(ˆ 102111
máximomínimoxxxf +==µ (a média aritmética dos valores mínimo e 
máximo da amostra)
1102122 )...,,,(ˆ xxxxf ==µ (o primeiro valor sorteado na amostra)
10
...)...,,,(ˆ 1021102133
xxxxxxf +++==µ (a média dos valores da amostra)
Suponha que uma amostra aleatória foi selecionada e os valores de altura (em metros) 
observados nesta amostra foram: 1,65 1,57 1,72 1,66 1,71 1,74 1,81 1,68, 1,60 e 1,77. 
Então, as estimativas dos três estimadores apresentados são: 
69,1
2
)81,157,1(ˆ1 =
+
=µ
65,1ˆ2 =µ
69,1
10
91,16
10
77,1...57,165,1ˆ3 ==
+++
=µ
Apesar desses números, calculados para uma amostra particular, não serem muito 
distintos uns dos outros, não devemos escolher o estimador olhando apenas, se a estimativa 
correspondente é razoável. Como decidir qual deles usar? Esta questão será respondida mais adiante 
quando estudarmos as propriedadesdos diversos estimadores. É sempre bom lembrar que nenhum 
de nós sabe o verdadeiro valor da média na população, pois se ele fosse conhecido, que sentido teria 
coletar a amostra? [ Magalhães & Lima (2004) ]. 
Definição 6: Estimativa é o valor numérico que o estimador assume. Exemplo: 
Kg68ˆ =θ .
Uma estimativa pode ser pontual ou intervalar.
A) Estimativa Pontual: Quando procuramos encontrar uma estimativa única que esteja 
satisfatoriamente próxima do verdadeiro valor do parâmetro. Exemplo: Kg68ˆ =θ .
B) Estimativa Intervalar: Quando procuramos determinar intervalos que abranjam o 
valor do parâmetro populacional, com uma margem de segurança ou confiança pré-fixada. 
Exemplo: IC[θ , 95%] = [ 55 ; 81 ].
Como foi visto, mais de uma função da amostra pode ser proposta para estimar o 
parâmetro de interesse. Para facilitar a escolha entre tais estimadores, torna-se importante verificar 
se possuem algumas propriedades que serão definidas a seguir:
Definição 7: Vício – um estimador θˆ é não viciado ou não viesado para um parâmetro 
θ se θθ =)ˆ(E . Em outras palavras, um estimador é não viciado se o seu valor esperado coincide 
com o parâmetro de interesse.
3
Definição 8: Consistência – um estimador θˆ é consistente, se, à medida que o tamanho 
da amostra aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância 
converge para zero. Ou seja, θˆ é consistente se as duas condições seguintes são satisfeitas: 
i) θθ =
∞→
)ˆ(lim E
n
;
ii) .0)ˆ(lim =
∞→
θVar
n
Definição 9: Eficiência – Dados dois estimadores 1ˆθ e 2ˆθ , não viciados para um 
parâmetro θ , dizemos que 1ˆθ é mais eficiente do que 2ˆθ se ( ) ( )21 ˆˆ θθ VarVar < .
Fazer um exemplo em sala de aula.
Como a disciplina MTM602 – Estatística II tem um caráter mais superficial, então não 
serão abordados aprofundamentos com tais propriedades (definições 7, 8 e 9). Na disciplina de 
Inferência Estatística tal conteúdo será formalmente explorado. No momento, a escolha do 
estimador não levará em conta as suas propriedades e acontecerá da seguinte maneira:
(a) a média amostral é um estimador para a média populacional;
(b) a variância amostral é um estimador para a variância populacional;
(c) o desvio-padrão amostral é um estimador para o desvio-padrão populacional;
(d) a freqüência relativa de um evento na amostra é um estimador para a proporção, ou 
probabilidade do evento na população;
(e) a soma (ou diferença) entre duas médias amostrais é um estimador para a soma (ou 
diferença) entre duas médias populacionais;
(f) a soma (ou diferença) entre duas freqüências relativas amostrais é um estimador para a 
soma (ou diferença) entre duas proporções populacionais;
(g) o quociente entre duas variâncias amostrais é um estimador para o quociente entre duas 
variâncias populacionais.
E assim por diante.
3. Distribuições Amostrais
A distribuição de probabilidade de uma estatística (estimador) é chamada de uma 
distribuição amostral. Vimos que estimadores são funções de variáveis aleatórias e, portanto, eles 
também são variáveis aleatórias. Nesta etapa do curso vamos estudar a distribuição de probabilidade 
de dois estimadores mais utilizados (média amostral e proporção amostral).
3.1. Distribuição da Média Amostral
Considere uma população de 100 alunos cuja variável aleatória medida em cada um 
deles seja o peso. A média e o desvio padrão do peso desta população são: µ = 75,4 Kg e σ = 19,7 
Kg. Observe que diferentes amostras de tamanho n podem ser retiradas desta população. A seguir, 
têm-se as médias e os desvios-padrão correspondentes a 15 amostras de tamanho n=10, 20, 30, 50 
selecionadas desta população.
Tabela: Medidas de resumo para o peso médio dos alunos em 15 amostras.
Tamanho das Amostras Média ( X ) Desvio Padrão ( X )
n=10 71,14 23,56
n=20 72,75 21,23
n=30 73,20 17,87
4
n=50 74,95 15,64
Observe que para todos os tamanhos da amostra, a distribuição da média amostral se 
concentra em torno da média populacional µ = 75,4 Kg e que a dispersão em torno da média 
diminui à medida que aumentamos o tamanho da amostra. Isto acontece, porque quando 
aumentamos o tamanho da amostra estamos utilizando mais informações e, portanto temos mais 
precisão ao estimarmos µ. A média e o desvio padrão amostral, X e s, são variáveis aleatórias. 
Interessa-nos conhecer a distribuição de probabilidade de X para uma amostra de tamanho n.
Definição: Considere uma população Normal e a amostra aleatória (X1, X2, ... , Xn) cujos elementos 
são independentes e identicamente distribuídos, com densidade Normal de média µ e desvio padrão 
σ,
a) Xi ~ Normal(µ ; σ), i= 1, ..., n;
b) Xi é independente de Xj, para todo i diferente de j.
Então, a média amostral ( X ) também terá distribuição Normal com média µ e desvio padrão 
n/σ .
Na prática muitas vezes, não temos informações a respeito da distribuição das variáveis 
constituintes da amostra, o que nos impede de utilizar o resultado apresentado acima. Felizmente, é 
possível mostrar que, para um tamanho de amostra suficientemente grande, a distribuição da média 
amostral pode ser aproximada por uma distribuição Normal. Este é um dos teoremas mais 
importante da estatística: Teorema Central do Limite.
Teorema Central do Limite
Suponha uma amostra aleatória simples de tamanho n retirada de uma população com média µ e 
desvio padrão σ (note que o modelo da v.a. não é especificado).
Representando tal amostra por variáveis aleatórias independentes e, denotando sua média por X , 
temos:
N(0,1)ãodistribuiçmenteaproximada tem
/
,
n
XcrescenQuando
σ
µ−
.
A distribuição da média amostral X é aproximadamente Normal com média µ e desvio padrão 
n/σ .
O teorema garante que para grandes amostras, a distribuição da média amostral, devidamente 
padronizada, se comporta segundo um modelo Normal com média 0 e desvio padrão 1. 
Em situações práticas em que não se conhece a distribuição dos dados, e que o interesse esteja em 
estudar a média amostral, o teorema permite que se utilize a distribuição Normal para estudar 
probabilisticamente a média.
5
Quando não se conhece o desvio padrão populacional (σ ), usa-se a estimativa amostral (s). A 
nova variável aleatória 
ns
XT
/
µ−
= , quando X é uma variável aleatória Normal ( µ , σ2 ), tem 
distribuição t de Student com n-1 graus de liberdade.
Quando X não segue uma Normal, T não terá distribuição t de Student. Mas para grandes amostras, 
o TCL assegura (quando n > 30) uma aproximação para a distribuição N(0,1).
3.2. Distribuição da Proporção Amostral
Uma aplicação importante do Teorema Central do Limite relaciona-se com a 
distribuição da proporção amostral. Define-se a proporção amostral como a fração dos indivíduos 
com uma dada característica em uma amostra de tamanho n, isto é,
n
interesse de ticacaracterís certa uma com amostra na indivíduos de nº ˆ =p
Se construirmos para o i-ésimo indivíduo uma variável aleatória Yi, tal que Yi =1, se o 
indivíduo apresenta a característica; e 0 caso contrário; podemos reescrever a proporção amostral 
como:
Yp =+++=
n
Y...YY ˆ n21
Como pˆ é uma média, a distribuição aproximada de pˆ é dada pelo Teorema Central do Limite. 
Assumindo que os Yi são independentes e que cada Yi tem distribuição binomial.com média µ = p e 
o desvio padrão de Yi é )1( pp −=σ .
Então, pelo Teorema Central do Limite:
N(0,1) ãodistribuiç aprox. uma tem
)1(
ˆ
n
pp
pp
−
−
4. Estimação por Intervalos
Diferentes amostras aleatórias podem ser retiradas de uma mesma população, e amostras diferentes 
podem resultar em estimativas diferentes. Ou seja, um estimador é uma variável aleatória e pode 
assumirvalores diferentes (variar) para cada amostra.
Então, ao invés de estimar o parâmetro de interesse por um único valor, é muito mais informativo 
estimá-lo por um intervalo de valores que considere a variação presente na amostra e que contenha 
o seu verdadeiro valor com determinada confiança. Este intervalo é chamado de intervalo de 
confiança.
6
A idéia é construir intervalos de confiança que incorporem à estimativa pontual informações a 
respeito de sua variabilidade. Os intervalos de confiança são obtidos por meio da distribuição 
amostral do estimador pontual.
O intervalo de confiança está associado a um grau de confiança que é uma medida de nossa certeza 
de que o intervalo contém o parâmetro populacional. É a probabilidade 1-α.
A construção do intervalo para μ é baseada na distribuição amostral da média amostral e no grau de 
confiança. 
Não é necessário que a suposição de normalidade para os dados seja adequada.
A variância pode ou não ser conhecida. Para cada caso, usam-se diferentes distribuições.
i) Estimativa Intervalar para variância conhecida;
ii) Para variância desconhecida.
A margem de erro E é a diferença máxima provável (com probabilidade 1-α) entre a média 
observada (a média amostral) e a verdadeira média (média populacional). A margem de erro é dada 
por 
n
zE σα 2/= e desta forma temos o intervalo de confiança como EXEX +≤≤− µ .
 Devemos ser cuidadosos para interpretar corretamente os intervalos de confiança. Considere 
como ilustração o intervalo para 95% de confiança dado por 0,476 ≤ μ ≤ 0,544.
Interpretação Correta: “Estamos 95% confiantes de que o intervalo de 0,476 a 0,544 realmente 
contém o verdadeiro valor de μ”.
Interpretação Errada: “Há uma chance de 95% de que o verdadeiro valor de μ estará entre 0,476 e 
0,544” ou “95% de todos os valores amostrais estão entre 0,476 e 0,544”.
Justificativa: μ é uma constante fixa (embora desconhecida), não uma variável aleatória. E o 
intervalo de confiança não descreve o comportamento de médias amostrais individuais.
Intervalos de confiança de 95% para uma média
Na seção anterior vimos que para uma amostra suficientemente grande a distribuição das médias 
amostrais em torno da média populacional é Normal com desvio padrão 
n
σ
.
Definição 10: Erro Padrão – É o desvio padrão de um estimador, e geralmente é 
denotado por EP (em português) e SE (em inglês).
Desta forma, 
n
σ
 é o erro padrão (SE) da média, uma vez que quanto menor seu valor tanto 
mais próximas estarão às médias amostrais da média populacional µ (ou seja, tanto menor será o 
erro).
7
Isto significa que 68.3% de todas as médias amostrais cairão dentro de SE1± da média 
populacional µ . Similarmente 95% de todas as médias amostrais cairão dentro de 
SE96.1± de µ .
Então intervalos da forma 


+−
n
X
n
X σσ 96.1;96.1 conterão a verdadeira média 
populacional µ 95% das vezes. 
Outra forma: 
Sabe-se que: )1,0(~
/
N
n
X
σ
µ−
Usando a notação anterior, temos: α
σ
µ
αα −=


+<
−
<− 1
/ 2/2/
z
n
XzP 
ou seja, a expressão nos dá o intervalo de confiança para a media µ:



+<<−
n
zX
n
zX σµσ αα 2/2/ ou ainda 



+−=−
n
zX
n
zXIC σσαµ αα 2/2/ ;])%1(100;[
Exemplo: As medidas dos pesos de uma amostra aleatória de 100 caminhões que foram medidos 
pela Polícia Rodoviária têm média de 3,2 toneladas e desvio padrão de 0,8 toneladas. Qual o 
intervalo de confiança para um grau de confiança de 95%? E se fosse 90% de confiança?
Como E = 1,96 . (0,8/10) = 0,157 , então 3,2 – 0,157 ≤ μ ≤ 3,2 + 0,157
Intervalo: 3,043 ≤ μ ≤ 3,357, ou ainda, IC[μ, 95%]=[3,043 ; 3,357]. Interpretação: Estamos 95% 
confiantes que o verdadeiro peso médio dos caminhões que trafegam nesta jurisdição está entre 
3,043 e 3,357.
Um problema com a construção de tais intervalos é que não sabemos o verdadeiro desvio padrão 
populacional σ . Para grandes tamanhos amostrais, contudo, o desvio padrão amostral s será uma 
boa estimativa de σ . Portanto, podemos substituir σ por s de modo que podemos calcular o 
erro padrão como 
n
sSE = .
E um intervalo de confiança de aproximadamente 95% para µ é: 
8



+−
n
sX
n
sX 96.1;96.1
Este tipo de intervalo de confiança para a média pode ser usado para grandes amostras, 
independentemente da distribuição da variável original.
Quando o desvio padrão é desconhecido e amostra não é grande, usamos a distribuição t de Student 
e o intervalo passa a ser este 
n
stX
n
stX nn 1;2/1;2/ −− +<<− αα µ . O termo 1;2/ −ntα é o fator da 
tabela t-Student com n-1 graus de liberdade e que deixa 100(1-alfa)% de confiança entre 1;2/ −− ntα e 
1;2/ −ntα . O número de graus de liberdade para uma coleção de dados amostrais é o número de 
valores amostrais que podem variar depois que certas restrições tiverem sido impostas aos dados 
amostrais.
Intervalos de confiança para uma proporção
Similarmente, podemos mostrar que o intervalo de confiança de aproximadamente 95% para uma 
proporção é dado por 
)96.1ˆ;96.1ˆ( SEpSEp +−
em que 
n
ppSE )
ˆ1(ˆ −
= .
Exemplo:
Um ensaio clínico foi realizado para determinar a preferência entre dois analgésicos, A e B, contra 
dor de cabeça. 100 pacientes que sofrem de dor de cabeça crônica receberam em dois tempos 
diferentes o analgésico A e o analgésico B.
A ordem na qual os pacientes receberam os analgésicos foi determinada ao acaso. Os pacientes 
desconheciam esta ordem.
Ao final do estudo foi perguntado a cada paciente qual analgésico lhe proporcionou maior alívio: o 
primeiro ou o segundo. Dos 100 pacientes, 45 preferiram A e 55 preferiram B.
Baseado nestas informações podemos dizer que há preferência por algum dos analgésicos? 
Dizemos que não há preferência por um dos analgésicos quando a proporção dos que preferem A (
Ap ), é igual a proporção dos que preferem B ( Bp ). Como temos dois resultados possíveis, Ap e 
Bp são iguais quando Ap = Bp =0.5.
Um intervalo de 95% de confiança para a verdadeira proporção de pacientes que preferem o 
analgésico A é: 
9
)55,0;35,0(
100
)45,01(45,0.96,145,0 =



−±
Então, com 95% de confiança, a verdadeira proporção de pacientes que preferem o analgésico A 
está entre 0,35 e 0,55. Observe que este intervalo contém o valor 0,5 então concluímos que não 
existem evidências amostrais de preferência por um dos analgésicos.
Cálculo do Tamanho da Amostra:
População: uma coleção de todos os possíveis elementos, objetos ou medidas de interesse.
Amostra: Uma porção ou parte de uma população de interesse.
Amostragem: É o processo de escolha de uma amostra da população.
Amostra probabilística: É uma amostra em que todos os elementos da população tiverem 
probabilidade conhecida e não nula de pertencer a ela.
Numa amostragem aleatória simples, todos os elementos da população têm a mesma chance de ser 
selecionado para a amostra. Neste caso, o número de amostras possíveis de tamanho n que pode ser 
selecionadas de uma população de tamanho N é dado por:
i) com reposição: nN
Exemplo: Quantas amostras de tamanho 2, com reposição, podem ser retiradas de uma população 
de tamanho 4, por exemplo, uma população formada pelos elementos A, B, C, D.
Resposta: 42 = 16 amostras possíveis. São elas: 
DDDCDBDA
CDCCCBCA
BDBCBBBA
ADACABAA
.
ii) sem reposição: nNC ,
Exemplo: Quantas amostras de tamanho 2, sem reposição, podem ser retiradas de uma população de 
tamanho 4, por exemplo, uma população formada pelos elementos A, B, C, D.
Resposta: 6)!24(!2
!4
2,4 =
−
=C amostras possíveis. São elas: 
××××××××
××××××
××××
××DDDCDBDA
CCCBCA
BBBA
AA
CD
BDBC
ADACAB
.
Desta forma, a probabilidade da amostra {AB} ser selecionada é 1/16 se a amostragem for realizada 
com reposição e 1/6 se for extraída sem reposição.
10
A razão 
N
nf = é chamada de fração amostral.
Na prática, a amostragem com reposição não é atrativa, pois não desejamos intervir os mesmos 
indivíduos mais que uma vez. Mas, em termos matemáticos ela se torna mais simples de relacionar-
se com a população. A amostragem sem reposição fornece duas vantagens adicionais: 
(i) os elementos não são repetidos; 
(ii) a estimação da variância é menor que a gerada pela amostragem com reposição, para o 
mesmo tamanho de amostra.
Conforme já discutido, a média amostral é não viciada para estimar a média populacional, ou seja, 
µ=)(XE . Em termos de variância da média amostral, temos dois casos:
i) com reposição: 
n
XVar
2
)( σ= ;
ii) sem reposição: 


−
−
=
1
)(
2
N
nN
n
XVar σ , e quando N é muito grande, diminuir de 1 não 
faz diferença e teríamos 

 −
=
N
nN
n
XVar
2
)( σ , ou seja, )1()(
2
f
n
XVar −= σ . O termo 
(1 – f) é chamado de fator de correção para população finita.
Agora, vamos analisar a margem de erro do intervalo de confiança para a média de uma população 
normal com variância conhecida. Ela é dada por 
n
zE σα 2/= . Para o cálculo do tamanho da 
amostral basta isolar a incógnita n e temos que: 
2
2/ . 


=
E
zn σα .
Exemplo: De uma população normal com variância 25 extrai-se uma amostra aleatória simples de 
tamanho n com o objetivo de se estimar a média populacional μ com um nível de confiança de 90% 
e margem de erro de 2. Qual deve ser o tamanho da amostra?
No caso da amostragem ser realizada sem reposição, temos algo similar, porém corrigido pelo fator 
de população finita:



−
−
=
12/ N
nN
n
zE σα , e consequentemente, 22
2/
2
22
2/
)1(
..
σ
σ
α
α
ZEN
ZNn
+−
= .
Exemplo: Um prefeito de certa cidade turística deseja estimar a média de gastos para os turistas que 
visitam a cidade. Com este propósito, deseja-se selecionar uma amostra aleatória de uma listagem 
que contabiliza um universo de 1850 turistas presentes na cidade no período da pesquisa. Com base 
em pesquisas anteriores, sabe-se que em média eles gastam em torno de 800 u.m.(unidades de 
medidas) com desvio padrão de 200 u.m. Calcule o tamanho de amostra necessários para que o erro 
máximo admitido seja de 20 u.m. e um grau de confiança de 95%.
11
Testes de Hipóteses
Em geral, intervalos de confiança é a forma mais informativa de apresentar os achados mais 
relevantes de um estudo. Contudo, algumas vezes, existe um particular interesse em decidir sobre a 
verdade ou não de uma hipótese específica (se dois grupos têm a mesma média ou não, ou se o 
parâmetro populacional tem um valor em particular ou não).
Os Testes de hipóteses fornecem-nos uma estrutura para que façamos isto. Intervalos de confiança 
e testes de hipóteses estão intimamente relacionados. 
Exemplo (Profa. Edna, UFMG): A ProCare Industries LTDA lançou, certa vez, um produto 
chamado “Gender Choice” que, de acordo com a propaganda, permitia que os casais aumentassem 
em
• 85% a chance de terem um filho
• 80% a chance de terem uma menina.
Sabe-se que a probabilidade “natural” de ter uma menina é igual a 50%.
Em um experimento para verificar a eficácia do “Gender Choice”, suponha que 100 casais que 
querem uma menina façam uso da embalagem rosa.
Número de meninas esperadas, caso os casais não usassem nenhum método: 50 meninas.
Utilizando somente o bom senso, o que deveríamos pensar se, das 100 crianças nascidas,
a) 52 fossem meninas?
b) 97 fossem meninas?
Discussão: 
a) O número de 52 meninas é muito próximo daquele que esperamos sem o uso de nenhum método 
(50) e poderia ter ocorrido por mero acaso.
Aqui, não há evidências suficientes para concluir que o “Gender Choice” tenha eficácia.
b) A ocorrência de 97 meninas em 100 nascimentos é muito pouco provável e poderia ser explicada 
de duas maneiras :
i) ocorreu um evento extremamente raro;
ii) o “Gender Choice” é realmente eficaz.
Diante da probabilidade extremamente baixa de ocorrer 97 meninas em 100 nascimentos de 
maneira “natural”, a explicação mais sensata é a de que o produto é eficaz.
12
Hipótese Estatística é uma afirmação sobre os parâmetros de uma ou mais características da 
população. Por exemplo, sobre a média de uma variável na população (μ) ou sobre uma proporção 
populacional (p).
Teste de Hipóteses é o processo de decisão entre duas hipóteses sobre um parâmetro da população.
- Hipótese Alternativa (HA): hipótese do pesquisador
- Hipótese Nula (H0): negação da hipótese do pesquisador (expressa que não há mudança)
Utilizando as informações sobre o parâmetro contidas na amostra, testa-se H0 versus HA.
Exemplo 1:
p = proporção de nascimento de meninas com o uso do Gender Choice.
- Hipótese do pesquisador: o método funciona (p > 0.5)
- Hipótese nula: o método não funciona (p = 0.5)
Para realizar-se um teste de uma hipótese estatística retira-se uma amostra da população em estudo 
e com base na observação dos resultados dessa amostra toma-se a decisão de aceitar H0 ou de 
rejeitar H0.
Usando as informações da amostra de 100 casais que usaram o método (e, destes, quantos tiveram 
menina), decide-se entre H0: p =0.5 e HA: p >0.5.
Erros associados a Testes de Hipóteses
Decisão baseada no teste Situação real (desconhecida)H0 é verdadeira H0 é falsa
Rejeitar H0
Decisão Incorreta
(Erro Tipo I) Decisão Correta
Não rejeitar H0 Decisão Correta
Decisão Incorreta
(Erro Tipo II)
Erro tipo I: Rejeitar H0 quando H0 é verdadeira.
Erro tipo II: Não rejeitar H0 quando H0 é falsa.
O Erro Tipo I é o mais grave. Assim pretende-se “controlá-lo”, pré-fixando sua probabilidade de 
ocorrência em um valor pequeno α :
P(Erro tipo I) = P(Rejeitar H0 quando H0 é verdadeira) = α .
Este valor pré-fixado para a probabilidade do Erro Tipo I é chamado nível de significância do 
teste. 
Usualmente tem-se: α = 0.10 ou α = 0.05 ou α = 0.01. Se for fixado o valor de α = 0.05, diz-se 
que “é um teste de hipóteses ao nível de significância de 5%”.
O ideal seria minimizar tanto o erro do tipo I quanto o do tipo II. Mas, infelizmente, para qualquer 
tamanho de amostra dado, não é possível minimizar ambos os erros simultaneamente. A abordagem 
clássica deste problema considera que o erro tipo I é provavelmente mais grave que o erro tipo II. 
Tenta-se manter a probabilidade de cometer erro tipo I em um nível razoavelmente baixo, como 
0,01, 0,05 ou 0,10 e em seguida minimizar o máximo possível a probabilidade do erro tipo II.
Mais adiante definiremos a função poder e um comparativo com alguns tamanhos de amostrais.
13
P(Erro tipo II) = P(Não Rejeitar H0 quando H0 é falsa) = β .
O poder de um teste de hipóteses é a probabilidade de rejeitar H0 quando H0 é falsa.
Poder = P(Rejeitar H0|H0 falsa) = 1 - P(Não rejeitar H0|H0 falsa) = 1 - β .
O poder de um teste de hipóteses pode ser interpretado como a probabilidade de rejeitar de maneira 
correta uma hipótese nula falsa, o que representa a decisão correta. Em muitos casos, dois diferentes 
testes de hipóteses são comparados por meio de comparação do poder de cada um deles.
Componentes de um Teste de Hipóteses
Hipótese nula: é a afirmação sobre o valor de um parâmetro populacional (média ou proporção, 
denotados por μ e p).
Usualmente, H0 expressa a condição de igualdade.
H0: μ = μ0 , H0: μ ≥ μ0 ou H0: μ ≤ μ0.
Hipótese alternativa: é a afirmação verdadeira para o caso de a hipótese nula ser falsa. Comporta-se 
basicamente de três formas:
HA: μ ≠ μ0 , HA:μ > μ0 ou HA: μ < μ0.
Nível de significância do teste: Probabilidade máxima tolerada para o Erro Tipo I (rejeitar H0 se ela 
é verdadeira).
A variável aleatória cujo valor é utilizado para determinação da decisão a ser tomada em um teste 
de hipóteses é denominada estatística de teste. Ou seja, é o valor baseado nos dados amostrais do 
qual tomaremos a decisão sobre a rejeição ou não da hipótese nula.
De acordo com o tipo de teste de hipóteses feito, uma distribuição de probabilidade é associada a 
esta estatística.
Região crítica: conjunto de valores da estatística de teste que levam à rejeição de H0.
Valor crítico: é o valor ou os valores que separam a região crítica dos demais valores possíveis da 
estatística de teste.
Métodos para Testar Hipóteses:
I) Método Tradicional
1) Definir o parâmetro (média, proporção, variância, etc) sobre o qual é feito o teste.
2) Definir a hipótese do pesquisador.
3) Definir a hipótese nula (H0) e hipótese alternativa (HA).
4) Escolher um valor α para o nível de significância do teste.
Nível de significância = valor máximo para P(Erro Tipo I)
P(Erro Tipo I) = P(rejeitar H0 | H0 é verdadeira)
Temos 0 < α < 1, usualmente valores pequenos como 1% ou 5%.
5) Definir a estatística de teste.
6) Definir a região de rejeição de H0.
7) Calcular o valor observado da estatística de teste na amostra supondo a hipótese nula verdadeira.
Verificar se este valor observado pertence à região de rejeição:
14
• Se pertencer : a conclusão do teste é que a amostra contém evidências para rejeitar a 
afirmação sobre o parâmetro feita na hipótese nula (ficando com a afirmação feita na 
hipótese alternativa);
• Se não pertencer : a conclusão do teste é que a amostra não contém evidências para rejeitar a 
afirmação sobre o parâmetro feita na hipótese nula (ficando com a afirmação feita na 
hipótese nula).
8) Estabelecer as conclusões e interpretações dos resultados para o problema.
Exemplo: Sabe-se que o tempo cura até a cura de certo tipo de micose dos pés quando tratada por 
uma determinada pomada aplicada uma vez ao dia é de 10 dias, em média. Um dermatologista 
deseja verificar se a aplicação da mesma pomada duas vezes ao dia reduz o tempo médio até a cura. 
Para isso, selecionou 36 de seus pacientes atacados pela micose e prescreveu o tratamento com 
aplicação da pomada duas vezes ao dia. O tempo médio até a cura nos pacientes da amostra foi de 
8.5 dias, com um desvio padrão de 1.5 dias. Os dados mostram evidências de que aplicar a pomada 
duas vezes ao dia acelera a cura da micose?
Parâmetro: μ = tempo médio até a cura com aplicação da pomada duas vezes ao dia.
H0: μ =10
HA: μ <10
Estatística de teste: 
Região de Rejeição (α = 0.01):
Ao n.s. de 1%, rejeita-se H0 se: Zobs < -Z0.01 = -2.33
Como Zobs = -6 < -2.33, rejeita-se H0 ao nível de significância de 1%.
Conclusão: Ao nível de significância de 1%, conclui-se que a amostra fornece evidências 
estatísticas para dizer que aplicar a pomada duas vezes ao dia reduz o tempo médio até a cura.
Exemplo (continuação do Gender Choice):
Parâmetro: p = proporção de nascimentos de meninas com o uso do método (em todos os 
nascimentos da população)
H0: p = 0.50 (o método não funciona)
HA: p > 0.50 (o método funciona)
Estatística de teste:
Região de Rejeição (α = 0.05):
Ao n.s. de 5%, rejeita-se H0 se: Zobs > Z0.05 = 1.64
Situação 1: amostra de n =100 nascimentos com 52 meninas
Proporção amostral: pˆ = 52 /100 = 0.52
15
Como Zobs = 0.4 < 1.64 , não se rejeita H0 ao n.s. de 5%.
Conclusão: Ao nível de significância de 5%, conclui-se que a amostra não fornece evidências 
estatísticas para dizer o que método funciona.
Situação 2: amostra de n =100 nascimentos com 97 meninas 
Proporção amostral: pˆ = 97 /100 = 0.97
Como Zobs = 9.4 > 1.64, rejeita-se H0 ao n.s. de 5%.
Conclusão: Ao nível de significância de 5%, conclui-se que a amostra fornece evidências 
estatísticas para dizer o que método funciona.
O Valor P de um Teste de Hipóteses
Em um teste de hipóteses, lembre-se de que controlamos o Erro Tipo I (Rejeitar H0 quando H0 é 
verdadeira) fixando um valor máximo α para a probabilidade de cometê-lo:
α = P[Erro Tipo I] = P[Rejeitar H0 quando H0 é verdadeira].
Este valor máximo pré-fixado para a probabilidade de Erro Tipo I é chamado nível de significância 
(α ) do teste. 
De posse dos dados amostrais, podemos nos perguntar: Qual é a probabilidade de errarmos ao 
rejeitar H0 com estes dados amostrais? Esta probabilidade é chamada Probabilidade de 
Significância ou valor p do teste.
Valor p: probabilidade do Erro Tipo I observada na amostra. Quanto menor o valor p, menor será a 
probabilidade de estarmos tomando uma decisão incorreta ao rejeitar H0 com base nos dados 
observados. Ou seja, maior será a evidência estatística contra H0. Desse modo, a decisão do teste 
pode ser baseada no seguinte critério:
II) Método do Valor p
• Se valor p < α , então se rejeita H0 ao nível de significância α .
Se o valor p é “pequeno”, a probabilidade de cometermos um erro ao rejeitarmos H0 é pequena.
Então, devemos rejeitar H0.
• Se valor p ≥ α , então não se rejeita H0 ao nível de significância α .
Se o valor p é “grande”, a probabilidade de cometermos um erro ao rejeitarmos H0 é grande.
Então, não devemos rejeitar H0.
O valor p ou p-value é a probabilidade de observar dados tão extremos quanto os obtidos caso a 
hipótese nula seja verdadeira. Note as seguintes interpretações:
Valor p ≥ 0,10 Não existe evidência contra H0
Valor p < 0,10 Fraca evidência contra H0
Valor p < 0,05 Evidência significativa ...
Valor p < 0,01 Evidência altamente significativa ...
Valor p < 0,001 Evidência muito altamente significativa ...
16
Esteja ciente da diferença entre significância estatística e significância prática. 
Um efeito pode ser estatisticamente significante mas não ter qualquer importância prática e vice-
versa. 
Por exemplo, um estudo muito grande pode estimar a diferença entre a média de peso de plantas 
como sendo 0.0001 gramas e concluir que a diferença é estatísticamente significativa (p<0,05). 
Contudo, na prática, esta diferença é negligível e provavelmente de pouca importância prática. 
Como calcular o valor p?
O cálculo do valor p depende do sinal de igualdade na HA (<, > ou ≠ ) e pode ser feito usando-se a 
seguinte definição:
Valor p: probabilidade de que a estatística de teste assuma valores “mais extremos” do que o valor 
observado na amostra, supondo H0 verdadeira. Nota: “Mais extremos” --> na direção indicada por 
HA.
Cálculo do Valor p:
Teste: Região de rejeição de H0: Valor p:
Unilateral Inferior (HA: < ) Obs < - Tab F (Obs)
Unilateral Superior (HA: > ) Obs > Tab 1 - F (Obs)
Bilateral (HA: ≠ ) Obs < - Tab ou Obs > Tab 2 . [1 - F (|Obs|)]
Notas: (i) Obs significa estatística de teste observada na amostra; (ii) Tab significa o valor tabelado 
na distribuição de probabilidade da Estatística de teste; (iii) F representa a função de distribuição 
acumulada da variável aleatória da Estatística de teste (por exemplo: Normal, t-Student, etc).
Exemplo: Gender Choice (Cálculo do Valor P)
Parâmetro: p = proporção de nascimentos de meninas com o uso do método (em todos os 
nascimentos da população).
H0: p = 0.50 (o método não funciona)
HA: p > 0.50 (o método funciona)
Situação 1: n =100 e pˆ = 0.52 e Zobs = 0.4
Valor P = P(Z > Zobs) = P(Z > 0.4)
Valor P = 0.344578
Se α = 0.05, então Valor P > α e, portanto, não se rejeita H0 ao nível de significância de 5%.
Se α = 0.01, então Valor P > α e, portanto, não se rejeita H0 ao nível de significância de 1%.
Situação 2: n =100 e pˆ = 0.97 e Zobs = 9.4
Valor P = P(Z > Zobs) = P(Z > 9.4)
Valor P << 0.0000968
Se α = 0.05, então Valor P < αe, portanto, rejeita-se H0 ao nível de significância de 5%.
Se α = 0.01, então Valor P < α e, portanto, rejeita-se H0 ao nível de significância de 1%.
17
III) Método do Intervalo de Confiança
Calcula-se o intervalo de confiança para o parâmetro e verifica se ele contém o valor da hipótese 
nula: 
(i) Se o IC contém o valor de H0: Não se rejeita H0 ao nível de significância α ;
(ii) Se o IC não contém o valor de H0: Rejeita-se H0 ao nível de significância α .
Veja os exemplos discutidos em sala de aula.
Exemplo Extra (Livro do Magalhães): Para estudar o efeito de certa substância em seres vivos, um 
experimento é desenvolvido com cobaias que são inoculadas com a substância e submetidas a um 
estímulo elétrico e têm seus tempos de reação (em segundos) anotados. Obtivemos os valores: 9,1; 
9,3; 7,2; 7,5; 13,3; 10,9; 7,2; 9,9; 8,0; 10,4. Admite-se que o tempo de reação segue o modelo 
Normal com média 8 e desvio padrão 2=σ segundos. O pesquisador desconfia que o tempo médio 
sofre alteração por influência da substância. Faça o que se pede:
a) Para um erro tipo I de 6%, encontre a região crítica;
b) Calcule o erro tipo II para um valor de igual a 9,0.
c) Calcule o nível descritivo (valor p ou nível de significância observado) e tome suas 
decisões para um nível de significância de 6%.
Resolução:
Neste caso, as hipóteses de interesse são:
H0: as cobaias apresentam tempo de reação padrão;
HA: as cobaias apresentam tempo de reação alterado.
Em termos estatísticos, tais hipóteses envolvem o parâmetro µ e podem ser escritas como:
H0: 0,8=µ
HA: 0,8≠µ
Uma vez que o teste envolve a média populacional, consideramos a média amostral para construir a 
estatística de teste e usamos que )
10
4,(~ µNX . Tendo em vista a especificação de HA, a região 
crítica será da forma }.:{ 21 cc xxouxxxRC ><ℜ∈=
Observação: Não faltem as aulas, ok.
A Função Poder
As características probabilísticas de um teste podem ser descritas através de uma função que associa 
a cada valor de µ a probabilidade )(µpi de rejeitar H0. A função )(µpi é chamada função de poder 
(ou potência) do teste. Assim, denotando por RC a região crítica, a função de poder é definida 
como, )|()( µµpi RCXP ∈= , para todo µ definido no espaço paramétrico. A função de poder é a 
ferramenta utilizada para verificar a adequação de um teste ou para comparar dois ou mais testes. É 
claro que uma função de poder ideal seria tal que )(µpi = 0 para µ satisfazendo H0 e )(µpi = 1 
para µ satisfazendo HA. Em um problema prático, no entanto, raramente existirá um teste com 
estas características.
18
Exemplo (Prof. Paulo, UFPR): Sejam X1, X2, ..., Xn uma amostra aleatória da distribuição 
),( 2σµN com 252 =σ e suponha que queremos testar 17:0 ≤µH . Suponha que a regra de 
decisão consiste em rejeitar H0 se somente se n
X σ+> 17 . Neste caso, para um dado 
valor de µ que torne a hipótese nula falsa, a função poder é dada por








−+
>=

 +>==
n
nZP
n
XPHrejeitarP
σ
µσ
µσµµpi
17
|17)|()( 0
Em que )1,0(~ NZ . Para n=5, 10, 20 e 50, calculando esta probabilidade para vários valores de µ 
podemos construir o gráfico da função poder representado na figura 01.
Figura 01: Função Poder para tamanhos de amostras iguais a 5, 10, 20 e 50.
O código R, do Prof. Paulo (UFPR), que faz este gráfico é apresentado abaixo:
> poder.f = function(n, t.min, t.max, add = FALSE, ...){
+ theta = seq(t.min, t.max, l=100)
+ q = (17 + (5/sqrt(n)) - theta)/(5/sqrt(n))
+ poder = 1 - pnorm(q)
+ if(add)
+ lines(theta, poder, ...)
+ else
+ plot(theta, poder, ty="l", xlab=expression(mu), ylab=expression(pi(mu)), ...)
+ }
> poder.f(5, 14, 24, col = "black",lty=1, lwd=1)
> poder.f(10, 14, 24, add = T, col = "black",lty = 2, lwd=1)
> poder.f(20, 14, 24, add = T, col = "black", lty=1, lwd=3)
> poder.f(50, 14, 24, add = T, col = "black", lty=2, lwd=3)
> legend(20, 0.3, c("n = 5","n = 10","n = 20","n = 50"), lty=c(1,2,1,2), 
+col=c("black","black","black","black"), lwd=c(1,1,3,3), bty="n")
Observação: O material em que será discutido a Inferência Estatística para duas populações ficará 
disponível na copiadora do ICEB.
19
BIBLIOGRAFIA
1 – MARTINS, Gilberto de A. (2006). Estatística Geral e Aplicada. 3ed. São Paulo: Atlas.
2 – FARIAS, A.A., SOARES, J.F. e CÉSAR, C.C. (2003). Introdução à Estatística. 2ed. Belo Horizonte: 
Guanabara.
3 – BUSSAB, W. e MORETTIN, P. (2002). Estatística Básica. Editora Saraiva.
4 – MAGALHÃES, M.M. e PEDROSO DE LIMA, A.C. (2004). Noções de Probabilidade e Estatística. São 
Paulo: Editora da Universidade de São Paulo (EDUSP).
5 – SPIEGEL, MURRAY R. (1993). Estatística. 3ed. São Paulo: Pearson Makron Books.
6 – Relatórios Técnicos de Ensino. Departamento de Estatística, UFMG.
20
	Intervalos de confiança de 95% para uma média
	Intervalos de confiança para uma proporção

Outros materiais