Buscar

Inferência Intervalo de confiança

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Análise Exploratória de Dados
1) Intervalo de Confiança para a Média
1.1) População Normal, σ conhecido
Seja X ~ N(µ , σ). 
Como já vimos, 
Padronizando a variável , temos que:
Vamos considerar o intervalo de valores de Z,
simétrico em torno da média, tal que a probabilidade
de Z assumir valor neste intervalo seja igual a (1 - ), 
isto é:
 .,~ 





n
NX 
 X
.10 ãodistribuiç tem ) , N(
n
XZ



    122 zZzP
 
 

 

0-Z Z


 
Análise Exploratória de Dados
Substituindo Z por em , temos:  22  zZzP 
n
X



















































1
1
2222
2222
n
zX
n
zXP
n
zX
n
zXP
n
zX
n
zPz
n
XzP
Reescrevendo as desigualdades entre parênteses, obtemos:




 





 122 n
zX
n
zXP
Análise Exploratória de Dados
A expressão é o intervalo de confiança para o
parâmetro µ, ao nível de confiança 1 – , quando  é conhecido. 
Isto é,
n
zX
n
zX   22 
n
z   2
O erro de estimação, , mede o quanto a média amostral dista do verdadeiro valor 
da média populacional, , para mais ou para menos.
O comprimento do intervalo será igual a dois . Quanto maior for o intervalo de 
confiança, mais confiantes estaremos de que o intervalo realmente contém o valor 
verdadeiro do parâmetro . Por outro lado, quanto maior for o intervalo, menos 
informação teremos a respeito do valor verdadeiro de , maior será o . 
O erro amostral (erro de estimação), , é definido por:
   SEzXSEzX
n
zX
n
zXIC 2222 ;;;1 

 






média da padrão erro SE
n

Análise Exploratória de Dados
Intervalo de confiança para , considerando os níveis de confiança iguais a 90%, 
95% e 99%, respectivamente.
  






n
X
n
XIC  64,1;64,1;90,0
Z-1,64 1,640
  






n
X
n
XIC  96,1;96,1;95,0
0-1,96 1,96 Z
_______________________________________________________________________________________________________________________________
_______________________________________________________________________________________________________________________________
  






n
X
n
XIC  58,2;58,2;99,0
Z-2,58 2,580
0,90
0,05 0,450,45 0,05
0,95
0,0250,025 0,475 0,475
0,99
0,0050,005 0,4950,495
Análise Exploratória de Dados
Exemplo 1: Considere a distribuição de níveis séricos de colesterol para todos os 
homens hipertensos e fumantes nos Estados Unidos. Essa distribuição é
aproximadamente normal com uma média  desconhecida e desvio padrão  = 46 
mg/100ml. Estamos interessados em estimar, com 95% de confiança, o nível médio 
sérico de colesterol dessa população.
Antes que selecionemos uma amostra aleatória, a probabilidade de que o intervalo
contenha a média  verdadeira da população é 0,95.
Suponha que extraímos uma amostra de tamanho 16 da população de homens 
hipertensos e fumantes e que esses homens tenham um nível médio sérico de 
colesterol de 217 mg/100ml. Com base nessa amostra, um intervalo de 95% de 
confiança para  é: 
Não se deve escrever P(194,46 <  < 239,54) = 0,95, porque a expressão entre 
parênteses não contém nenhuma variável aleatória, já que  é valor fixo, e, embora 
desconhecido, está, ou não, dentro do intervalo.
Podemos dizer com 95% de confiança que o nível médio sérico de colesterol para 
todos os homens hipertensos e fumantes nos Estados Unidos varia entre 194,46 e 
239,54 mg/100ml.







n
X
n
X  96,1;96,1
     54,239;46,19454,22217;54,22217
16
4696,1217;
16
4696,1217;95,0 





IC
Análise Exploratória de Dados
O erro de estimação , com 95% de confiança e para n = 16, foi de 22,54 mg/100ml. 
Isto é, o nível médio sérico de colesterol da amostra selecionada, de homens 
fumantes e hipertensos, difere (se afasta) do verdadeiro valor do nível médio sérico 
de colesterol da populacional de homens fumantes e hipertensos de mais ou menos 
22,54 mg/100ml, com 95% de confiança.
Dimensionamento da amostra
A partir do erro de estimação , o tamanho da amostra n é determinado 
por n
z   2
2
2 







zn
No exemplo, qual deve ser o tamanho da amostra de homens hipertensos e fumantes 
que teremos que sortear na população para que com 95% de confiança, o erro de 
estimação seja de no máximo 10 mg/100ml?
823,81
10
4696,1
2





 nn
Análise Exploratória de Dados
Para um nível de confiança de 99% e erro de estimação igual a 10mg/100ml, o 
tamanho da amostra será: 
1418,140
10
4658,2
2





 nn
Quanto maior o nível de confiança, mantendo-se o erro de estimação, maior deve 
ser o tamanho da amostra.
Exemplo 2 – Por analogia a estudos similares, o conteúdo de ácido ascórbico pode 
ser considerado como tendo distribuição Normal com desvio padrão igual a 1,3 
unidades de medida (a média é desconhecida). Uma folha de cada uma de 16 
plantas sorteadas da espécie X foi analisada e o conteúdo de ácido ascórbico 
existente na folha foi quantificado. Os resultados foram os seguintes (em unidades 
de medida): 9,35; 8,68; 8,65; 9,82; 11,68; 10,29; 12,77; 10,99; 8,81; 10,76; 9,52; 
10,55; 12,61; 10,43; 9,87 e 12,04. 
Obtenha o intervalo de 99% de confiança para o conteúdo médio de ácido 
ascórbico.
Média = 10,4263; IC[;0,99] = [9,5891;11,2634]
Podemos dizer com 99% de confiança que o conteúdo médio de ácido ascórbico em 
plantas da espécie X varia entre 9,5891 e 11,2634 unidades de medida.
1.2) População normal, variância populacional 2 desconhecida
Um problema com a construção de tais intervalos é que não sabemos o verdadeiro desvio
padrão populacional . 
Quando não conhecemos , usamos seu estimador S. 
   
11
22
2





 
n
xx
S
n
xx
S ii
A substituição de  por s em Z resulta em uma nova variável aleatória
Se X é uma amostra aleatória de uma distribuição Normal com média  e desvio padrão , a 
variável aleatória T acima possui distribuição t de Student com  n -1 graus de liberdade. A 
caracterização com n – 1 graus de liberdade é necessária porque para cada tamanho de 
amostra temos uma distribuição t de Student diferente.
n
s
XT 
Análise Exploratória de Dados
A figura abaixo ilustra a distribuição N(0 , 1) e a distribuição t de Student com  = 5 
graus de liberdade. 
A forma da distribuição t é muito próxima da forma de uma distribuição N(0 , 1). 
Ambas são simétricas em torno de zero.
A distribuição t tem caudas mais densas do que a distribuição normal, isto é, a t 
apresenta maior dispersão.
Análise Exploratória de Dados• valores extremos são mais prováveis de ocorrer com a distribuição t do que com a
normal padrão;
• a forma da distribuição t reflete a variabilidade extra introduzida pelo estimador S;
• para cada possível valor dos graus de liberdade, há uma diferente distribuição t;
• as distribuições com menores graus de liberdade, g.l., são mais espalhadas;
• conforme g.l. aumenta, a distribuição t se aproxima da distribuição normal padrão;
• conforme o tamanho da amostra aumenta, s se torna uma estimativa mais confiável 
de  ;
• se n é muito grande, conhecer o valor de s é quase equivalente a conhecer 
Análise Exploratória de Dados43210-1-2-3-4
Normal 0 1
T com 15 g.l
43210-1-2-3-4
Normal 0 1
T com 30 g.l.
Podemos observar nas figuras que, à medida 
que o tamanho da amostra, n, cresce, a 
distribuição t aproxima-se da distribuição N(0, 1), 
pois o desvio padrão amostral s aproxima-se do 
desvio padrão populacional . Quando o número 
de g. l. é igual a infinito, a distribuição t coincide 
com a distribuição N(0, 1).3210-1-2-3
Normal 0 1
T com infinitos g.l.
Análise Exploratória de Dados
Tabela da distribuição t de Student
A tabela que iremos usar fornece os valores da abscissa t0 (positivos) para os quais 
com  graus de liberdade (g.l), P(t > t0) = A. Como ilustra a figura.
Na primeira coluna da tabela estão os valores dos g.l., n1.
Da segunda à nona coluna estão os valores de A, A = P(t > t0).
A intersecção da linha com a coluna fornece o valor de t0. 0 tt0
A=P(t >t0)
Exemplos: Usando a tabela da distribuição t, obter o valor t0 tal que:
a) com  = 16 g. l. a P(t > t0) = 0,005  pela tabela t0 = 2,921, isto é, t16; 0,005 = 2,91
b) com  = 8 g. l. a P(t > t0) = 0,05  pela tabela t8; 0,05 = 1,860.
c) com   g.l. a P(t > t0) = 0,025  pela tabela t; 0,025 = 1,960.
Como a distribuição é simétrica em zero, P(t < -t0) = P(t > t0) = A.
A última linha da tabela t corresponde a graus de liberdade igual a infinito,  =  g.l.. 
Neste caso, os valores de t0 da distribuição t são iguais aos valores de Z da tabela da 
N(0, 1). 
Análise Exploratória de Dados
Para  maior do que 30, a tabela da distribuição t fornece valores de t0 para alguns 
valores de g.l. (e . Porém, quando o número de g.l., , é
maior do que 30, a aproximação da distribuição t pela distribuição N(0, 1) é
satisfatória. Então, nestes casos vamos utilizar a tabela da distribuição Normal.
O intervalo de confiança para a média
Considere uma amostra aleatória de tamanho n de uma variável aleatória de uma 
população Normal com média e desvio padrão  desconhecido. Vimos que
Tem distribuição t de Student com n – 1 g.l.. Um intervalo de confiança para  pode 
ser derivado a partir da variável aleatória T.
Da distribuição de probabilidade de T, temos que 
n
s
XT 
     12,12,1 nn tTtP
1 - 

T
tn -1, -tn -1, 
Análise Exploratória de Dados
Substituindo T por em , temos: 
n
s
X   2,12,1    nn tTtP














































1
1
1
2,12,1
2,12,1
2,12,12,12,1
n
stX
n
stXP
n
stX
n
stXP
n
stX
n
stPt
n
s
XtP
nn
nn
nnnn
Reescrevendo as desigualdades entre parênteses, obtemos:
  





  12,12,1 n
stX
n
stXP nn
Análise Exploratória de Dados
A expressão é o intervalo de confiança para 
o parâmetro µ, ao nível de confiança 1 – , quando  é desconhecido. 
Isto é,






  n
stX
n
stX nn 2,12,1  
   SEtXSEtX
n
stX
n
stXIC nnnn 2,12,12,12,1 ;;;1   






O erro amostral (erro de estimação), , é definido por:
n
stn 2,1 
Cálculo do tamanho da amostra: Fixamos o maior erro de estimação aceitável e o 
nível de confiança que queremos trabalhar. 
2
2,1 




  
stn n
Note que precisamos de uma estimativa preliminar de s para obter o tamanho da 
amostra. Usualmente esse problema, nos casos em que se desconhece por completo 
o valor de s, uma amostra piloto é usada para calcular s, que, será usado no cálculo 
do tamanho da amostra necessário.
média da padrão erro SE
n
s
Análise Exploratória de Dados
Exemplos.1) O tempo de reação de um novo medicamento, por analogia a produtos 
similares, pode ser considerado como tendo distribuição Normal. Vinte pacientes 
foram sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. 
Os resultados,em minutos, foram
Pede-se: Construir um intervalo de 95% de confiança para .
Solução: n = 20,  desconhecido, 1 –  = 0,95  ,  = 20 – 1 = 19 g.l, 
t19, 0,025 = 2,093
2,9 3,4 3,5 4,1 4,6 4,7 4,5 3,8 5,3 4,9
4,8 5,7 5,8 5,0 3,4 5,9 6,3 4,6 5,5 6,2
   
      996,0
19
745,42,6...745,44,3745,49,2
1201
745,4
20
2,6...4,39,2
20
222
20
1
2
1
2
20
11













s
xx
n
xx
s
x
n
x
X i
i
n
i
i
i
i
n
i
i
 
 
 211,5;279,4
20
996,0.093,2745,4;
20
996,0.093,2745,4
;;95,0 2,12,1













 
 
n
stX
n
stXIC nn 
Podemos dizer com 
95% de confiança 
que o tempo médio 
de reação do novo 
medicamento varia 
entre 4,279 e 5,211 
minutos
Análise Exploratória de Dados
2) Um pesquisador deseja estabelecer o peso médio dos jovens entre 14 e 20 anos. 
Apesar de desconhecer a média e o desvio padrão da população, sabe-se por 
literatura da área que a distribuição dos pesos é aproximadamente normal. Retira-se 
uma amostra de 10 jovens obtendo peso médio de 67kg e desvio padrão de 9kg. 
Estabeleça o intervalo de 98% de confiança para o peso médio da população.
Solução:
n = 10,  desconhecido, 1 –  = 0,98 , n = 10 – 1 = 9 g.l, t9, 0,01 = 2,821
967  sX 
 
 029,75;971,58
10
9.821,267;
10
9.821,267
;;98,0 2,12,1













 
 
n
stX
n
stXIC nn 
Com 98% de confiança o peso médio dos jovens entre 14 e 20 anos varia entre 
58,971 e 75,029 Kg. 
Análise Exploratória de Dados
Análise Exploratória de Dados
2) Intervalo de confiança para a proporção, grandes amostras
Seja X o número de elementos de uma amostra de tamanho n que apresentam a 
característica de interesse. Queremos estabelecer um intervalo de confiança para a 
proporção populacional p. 
Temos que:
Como já foi visto, pelo Teorema Central do Limite, o estimador segue uma
distribuição aproximadamente e
   
n
ppp
n
pppVar
n
Xp pp




1ˆ de padrão Desvio1)ˆ( e ˆ ˆ
2
ˆ 
pˆ
 
1) , N(0 menteaproximada ãodistribuiç uma tem 
n
pp
ppZ



1
ˆ
 







 
n
pppN 1; 
Análise Exploratória de Dados
Vamos considerar o intervalo de valores de Z, simétrico em torno da média zero, tal 
que a probabilidade de Z assumir valor neste intervalo seja igual a (1 - ), isto é:
    122 zZzP
 

 

 

-Z Z

Z
Substituindo Z por em , temos: 
 
 
n
pp
pp


1
ˆ     122 zZzP
 
   
       











 









 










 



















11ˆ1ˆ1ˆ1ˆ
11ˆ1
1
ˆ
2222
2222
n
ppzpp
n
ppzpP
n
ppzpp
n
ppzpP
n
ppzpp
n
ppzPz
n
pp
ppzP
Análise Exploratória de Dados
Reescrevendo as desigualdades entre parênteses, obtemos:
Fixando o nível de confiança (1-)100% tal que, 0 <  < 1, o intervalo de confiança para 
p, para amostras suficientemente grandes, é dado por:
Note que, neste caso, os limites do intervalo dependem do parâmetro que queremos 
estimar logo, o intervalo não pode ser calculado diretamente. Umapossível solução é
substituirmos por . Assim, o intervalo será: 
   
 





 


 11ˆ1ˆ 22 n
ppzpp
n
ppzpP
      




 



n
ppzp
n
ppzppIC 1ˆ;1ˆ1; 22  
 pp 1  pp ˆ1ˆ 
       1ˆ1ˆˆ;ˆ1ˆˆ1; 22 




 



n
ppzp
n
ppzppIC 
Análise Exploratória de Dados
Uma outra abordagem é baseada no fato que a expressão p(1-p) assume o valor máximo 
igual a 1/4 quando 0 ≤ p ≤ 1. Como mostra a figura abaixo.
Logo, o intervalo se reduz a:
Apresentamos duas alternativas para o cálculo do intervalo de confiança para p. A 
primeira, usada em (1), é usualmente denominada de abordagem otimista, pois parte da 
crença que o valor do estimador está suficientemente próximo do valor de .
  )2(
4
1ˆ;
4
1ˆ1; 22 






n
zp
n
zppIC 
pˆ p
A segunda, usada em (2), é conhecida na literatura como abordagem conservativa, pois 
preferimos substituir o valor de p(1-p) pelo valor máximo que ele pode atingir.
O comprimento do intervalo de confiança otimista é maior que o comprimento do 
intervalo conservativo.
O erro amostral (erro de estimação), , é definido por:
Dimensionamento da amostra
Supondo que p e (1-) são conhecidos, a partir de  tem –se que:
Mas, para utilizar a fórmula de (3) acima, é necessário um valor (estimativa) para p. Tal 
valor pode ser obtido utilizando-se pesquisas anteriores ou uma amostra piloto. Uma 
forma alternativa, consiste em utilizar o fato de que p(1-p) atinge o valor máximo igual a 
1/4 quando p = 0,5. 
Assim,
Neste caso, possivelmente a amostra estará super dimensionada e por isto a fórmula (4) 
é conhecida como método conservador de dimensionamento de amostra.
  
n
ppz  12
 
 3
1
2
2
2 
 


ppz
n


 4
4 2
2
2 
 


z
n 
Exemplos:
1) Na observação em uma amostra de 80 produtos alimentares em supermercado 
quanto ao prazo de validade, obteve-se o seguinte resultado: Normal: 54 e 
Vencido: 26.
Estimar a proporção de produtos com prazo de validade normal.
Construir um intervalo de 95% de confiança para a proporção de produtos com 
prazo de validade normal.
p = proporção populacional de produtos com prazo de validade normal
n = 80
X = Número de produtos com prazo de validade normal Número de sucessos na 
amostra = 54
 0,675 é a estimativa pontual de p. 
Logo, estima-se que a proporção de produtos com prazo de validade normal é de 
0,675.
675,0
80
54ˆ 
n
Xp
     
   7776,05724,095,0;
80
675,01675,096,10;
80
675,01675,096,1675,095,0;
 ; 
,675 






 



pIC
pIC
2) Um ensaio clínico foi realizado para determinar a preferência entre dois analgésicos, 
A e B, contra dor de cabeça. 100 pacientes que sofrem de dor de cabeça crônica 
receberam em dois tempos diferentes o analgésico A e o analgésico B. 
A ordem na qual os pacientes receberam os analgésicos foi determinada ao acaso. Os 
pacientes desconheciam esta ordem.
Ao final do estudo foi perguntado a cada paciente qual analgésico lhe proporcionou 
maior alívio: o primeiro ou o segundo. Dos 100 pacientes, 45 preferiram A e 55 
preferiram B.
Baseado nestas informações podemos dizer que há preferência por algum dos 
analgésicos?
Dizemos que não há preferência por um dos analgésicos quando a proporção dos que 
preferem A, pA, é igual a proporção dos que preferem B, pB. 
Como temos dois resultados possíveis, pA e pB são iguais quando pA = pB =0.5.
Um intervalo de 95% de confiança para a verdadeira proporção de pacientes que 
preferem o analgésico A é: (0,35 ; 0,55)
Então, com 95% de confiança, a verdadeira proporção de pacientes que preferem o 
analgésico A está entre 0,35 e 0,55. Observe que este intervalo contém o valor 0,5 
então concluímos que não existem evidências amostrais de preferência por um dos 
analgésicos.

Outros materiais

Outros materiais