Buscar

Aula intervalos de cofniaça TLM 19 05 18

Prévia do material em texto

Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán
Aula 5. Intervalos de Confiança
2
Duas Fases da Estatística
◼ Estatística Descritiva: descrever e estudar uma amostra
◼ Estatística Indutiva (inferencial): a partir de uma 
amostra inferir sobre as características de uma 
população
Fonte Diagrama: Projecto ALEA – Noçoes de Estatística
http://alea-estp.ine.pt/Html/nocoes/html/exemplo2_4_1_11.html
3
População vs. Amostra
População: colecção de unidades 
individuais (pessoas ou resultados 
experimentais) com uma ou mais 
características comuns, que se 
pretendem estudar. 
Amostra: Conjunto de dados ou 
observações, recolhidos a partir de 
um subconjunto da população, que 
se estuda com o objectivo de tirar 
conclusões para a população de 
onde foi recolhida 
Podemos inferir (deduzir) determinadas características de uma 
população se extraímos uma amostra representativa desta 
amostragem
Imagens extraídas da referência 2
4
Amostragem
◼ Amostragem Aleatória Simples: cada elemento da amostra é retirado 
aleatoriamente de toda a população (com ou sem reposição) 
 cada possível amostra tem a mesma probabilidade de ser recolhida
◼ Amostragem Estratificada: subdividir a população em, pelo menos, 
dois subgrupos distintos que partilham alguma característica e, em 
seguida, recolher uma amostra de cada um dos subgrupos (estratos)
◼ Amostragem por clusters: dividir a população em secções (clusters); 
seleccionar aleatoriamente alguns desses clusters; escolher todos os 
membros dos clusters seleccionados.
Processo pelo qual se extraem dados de uma população
Vamos usar apenas este tipoExistem vários tipos de amostragem:
5
Inferência Estatística
amostra
inferir certas características 
da população
distribuição conhecida/desconhecida
e/ou parâmetros desconhecidos
n indivíduos (ou objetos) da população
ex: sortear n pixels de uma imagem
(com ou sem reposição)
n realizações de uma v.a. X
ex: medir a reflectância de um objeto 
n vezes

a amostra constitui um conjunto de n v.a.
X1, X2, ..., Xn independentes e identicamente 
distribuídas com distribuição FX

Amostra Aleatória
acetato adaptado de referencia 3
6
Estimação de Parâmetros
População Amostra
Distribuição da População
Parâmetros
Distribuição Amostral
Estatísticas
(valor fixo)
estimar
(função da amostra)
pontual (estatísticas)
por intervalo (intervalos de confiança)
Estimação
OBS: estatística: é a v.a. que estima (pontualmente) um parâmetro (populacional)
as vezes é chamada simplesmente de estimador
estimativa: é o valor do estimador obtido para uma amostra específica
acetato adaptado de referencia 3
7
Intervalo de Confiança
Um intervalo de confiança para um parâmetro , 
a um grau de confiança 1-,
é um intervalo aleatório (Linf, Lsup) tal que:
P(Linf <  < Lsup) = 1- ,   (0,1)
onde  deve ser um valor muito reduzido por 
forma a temos confianças elevadas
Valores usuais para o grau de confiança: 95%, 99% e 90%
8
Intervalo de Confiança (IC)
I. IC para a média  com variância conhecida
◼ Caso 1: população Normal 
◼ Caso 2: população qualquer (n>>30) aproximada pela Normal
II. IC para a média  com variância desconhecida
◼ Caso 1: população Normal 
◼ Caso 2: população qualquer (n>>30) aproximada pela Normal 
III. IC para a diferença de médias de duas populações Normais
◼ Caso 1: duas amostras independentes, variâncias conhecidas
◼ Caso 2: duas amostras independentes, variâncias desconhecidas
◼ Caso 3: amostras emparelhadas, variâncias desconhecidas
IV. IC para uma proporção
9
IC para  com variância conhecida
Caso 1: População Normal
~ ?X
~ ?
X
n


−
(0,1)N
(Normal Padrão) ( ) 1P z Z z −   = −
( ) 1
X
P z z
n
 
−
−   = −
( ) 1P z X z
n n
  −  −  = −( ) 1P X z X z
n n
  −   + = −2~ ( , )X N   desconhecido, mas 2 conhecido
2
~ ( , )X N
n


IC para  a grau de confiança 1-






+−= −−−
n
zX
n
zXIC
  2121)1( ,)(
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
- +
0
(0,1)N
2

2

z /2 z1 - /2
quantil de ordem 1-/2quantil de ordem /2
Z
z-z
1 −
acetato adaptado de referencia 3
centrando e reduzindo:
Linf Lsup
10
Determinando o Quantil de Ordem 1-/2
Distribuição Normal Padronizada
Tabela 3.a. Normal Distribution Para nível de significância =0.05
 grau de confiança 95%
(z) = P(Z < z) = 1 - /2  z = z 1 - /2
quantil de ordem 1-/2
(z) = P(Z < z) = 1- (0.05/ 2) = 0.975 
buscar valor de z na tabela: 
(z) = 0.9750  z = 1.96
2

2

Grau de 
Confiança
Valor z
90% 1.65
95% 1.96
99% 2.58
90% grau de confiança – existem 10 possibilidades de 100 que o IC não contenha a média populacional
95% grau de confiança – existem 5 possibilidades de 100 que o IC não contenha a média populacional
99% grau de confiança – existe 1 possibilidade de 100 que o IC não contenha a média populacional
11
Interpretação do IC para 
Para uma amostra aleatória de tamanho 50 seguindo uma distribuição 
Normal com média  = 10 e variância 2 = 4 ,
determinamos o IC para  com 95% de grau confiança:
2 2
( 1,96 1,96 ) 95%
50 50
P X X−   + =
~ (10,4)X N→
( 0,5544 0,5544) 95%P X X−   + =( )5544.0,5544.0)(%95 +−= XXIC 
Interpretação: 95% dos possíveis ICs 
obtidos a partir de uma amostra de 
tamanho 50, conterão de facto o 
verdadeiro valor da média =10
=10
12
IC para  com variância conhecida
Caso 1: População Normal
Uma v.a. qualquer tem uma distribuição Normal com média  desconhecida 
e variância 2 = 16. Retira-se uma amostra de 25 valores e calcula-se a 
média amostral. Construa um IC de 95% para  supondo que 
12,7.X =
(11,132 14,268) 0,95P   =






+−= −−−
n
zX
n
zXIC
  2121)1( ,)( 





+−=
n
zX
n
zXIC
 9750.09750.0%95 ,)( 





+−=
25
4
96.17,12,
25
4
96,17,12
( )568,17,12 ,568,17,12 +−= ( )268.14 ,132.11)(%95 =IC
Exemplo:
2,5%
z0,9750=1,96
2,5%
0
12.7
95%
Java Applet em:
http://psych.colorado.edu/~mcclella/java/normal/normz.html
13
Como poderia obter intervalos de confiança mais estreitos,
ou seja, com limites mais próximos a média verdadeira?
Diminuindo o grau de confiança
IC & Grau de Confiança
Diminuindo o grau de confiança de 99% a 95%, aumentamos o risco de estar 
errados: de 1% de risco passamos a 5% de risco, ou seja temos mais 
possibilidades (5/100 em vez de 1/100) de que o IC não contenha a média 
populacional. Ao aumentar o risco, o intervalo deve ser mais preciso 
fi
g
u
ra
 e
x
tr
a
íd
a
 d
a
 r
e
fe
rê
n
c
ia
 2
14
IC & Dimensão da Amostra
Como poderia obter intervalos de confiança mais estreitos,
ou seja, com limites mais próximos a média verdadeira?
Aumentando a dimensão da amostra
Tabela extraída da referência 2
15
Teorema do Limite Central
◼O Teorema do Limite Central indica que a soma
(e por conseguinte a média) de n variáveis
independentes seguirá o modelo Normal,
independentemente da distribuição das
variáveis individuais.
◼A aproximação melhora na medida em que n
aumenta. Se as distribuições individuais não são
muito diferentes da Normal, basta n = 4 ou 5
para se obter uma boa aproximação.
◼Se as distribuições individuais forem
radicalmente diferentes da Normal, então será
necessário n = 20 ou mais.
16
Teorema do Limite Central
◼Na figura abaixopode ser visto um desenho 
esquemático do teorema do limite central.
n
n
17
Exemplo 5: A distribuição de probabilidade da variável
resultante do lançamento de um dado segue a
distribuição uniforme, ou seja, qualquer valor
(1,2,3,4,5,6) tem a mesma probabilidade (1/6) de ocorrer.
No entanto, se ao invés de lançar um dado, sejam
lançados dois dados e calculada a média, a média dos
dois dados seguirá uma distribuição aproximadamente
Normal.
Teorema do Limite Central
18
10 dado 20 dado Soma Média 10 dado 20 dado Soma Média
1 1 2 1,0 5 2 7 3,5
1 2 3 1,5 3 4 7 3,5
2 1 3 1,5 4 3 7 3,5
1 3 4 2,0 2 6 8 4,0
3 1 4 2,0 6 2 8 4,0
2 2 4 2,0 3 5 8 4,0
1 4 5 2,5 5 3 8 4,0
4 1 5 2,5 4 4 8 4,0
3 2 5 2,5 3 6 9 4,5
2 3 5 2,5 6 3 9 4,5
1 5 6 3,0 4 5 9 4,5
5 1 6 3,0 5 4 9 4,5
2 4 6 3,0 4 6 10 5,0
4 2 6 3,0 6 4 10 5,0
3 3 6 3,0 5 5 10 5,0
1 6 7 3,5 5 6 11 5,5
6 1 7 3,5 6 5 11 5,5
2 5 7 3,5 6 6 12 6,0
19
Teorema do Limite Central
◼Tabela de freqüência da média dos dois dados
Média de
dois dados
Freqüência
1,0 1
1,5 2
2,0 3
2,5 4
3,0 5
3,5 6
4,0 5
4,5 4
5,0 3
5,5 2
6,0 1
20
Teorema do Limite Central
◼Histograma da média dos dois dados
1,0 1,5 3,52,52,0 3,0 6,04,0 4,5 5,0 5,5
1/36
2/36
3/36
x
f(x)
4/36
5/36
6/36
21
Teorema do Limite Central
◼Conforme pode ser visto no histograma
anterior, o histograma da média dos dois dados
resulta aproximadamente Normal. Além disso,
observa-se que a aproximação da distribuição
Normal melhora na medida que se fizesse a
média do lançamento de mais dados.
22
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
- +
0
(0,1)N
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
- +
0
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
- +
0
(0,1)N
1 −
z-z
2

2

z1 - /2quantil de ordem 1-/2
z-z
2

2

2

2

z1 - /2quantil de ordem 1-/2 z1 - /2quantil de ordem 1-/2
IC para  com variância conhecida
Caso 2: População Genérica aproximada pela Normal
IC para  a grau de confiança 1-






+− −−−
n
zX
n
zXIC
  21211 ,)(
Se uma distribuição qualquer tiver média  (desconhecida) e 
variância 2 (conhecida) e se forem validas as condições do TLC 
(n>>30) podemos obter um IC aproximado para a média 
23
A expressão é chamada
erro padrão (standard error)
IC para  com variância conhecida
Resumo
IC para  a grau de confiança 1-
n
zXIC
  21)( −=
quanto maior n
 menor o erro padrão
 IC mais preciso
quanto maior z
 IC menos preciso
Se aumentarmos o grau de confiança
 a precisão diminui porque aumenta o valor z
se 90%  z = 1.65
se 95%  z = 1.96
se 99%  z = 2.58
 desconhecido, mas 2 conhecido n
zXIC
  21)( −
n
zX


n

24
IC para  com variância desconhecida
Se o valor de 2 é desconhecido  substituir por uma estimativa 

=
−==
n
i
i XX
n
S
1
2)(
1 
=
−
−
==
n
i
ic XX
n
S
1
2)(
1
1
Estimadores pontuais para o desvio padrão  :
desvio padrão amostral não-corrigido desvio padrão amostral corrigido
Se 2 desconhecida podemos distinguir dois casos:

−
= −1~),(~
2
n
c
t
nS
X
TNX

Caso1. população Normal  usar distr.t de Student (pequenas amostras)
Caso2. q.q. distribuição aproximada pela Normal, amostras grandes
 usar distribuição Normal padronizada

−
= )1,0(30 com q.q. ~ N
nS
X
ZnX
ac
 





+−= −−−−−
n
S
tX
n
S
tXIC cn
c
n 1211211 ,,,)(   





+− −−−
n
S
zX
n
S
zXIC cc 21211 ,)(  
25
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
- +
0
24t
t-t
2,5%2,5%
Distribuição t de Student com
24 graus de liberdade
95%
IC para  com variância desconhecida
Caso 1: População Normal
Uma v.a. qualquer tem uma distribuição Normal com média  e variância 2
desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a média amostral e 
variância amostral . Construa um IC de 95% para  supondo que e S2 = 16
?t0,9750, 24 = 2,06






+−= −−−−−
n
S
tX
n
S
tXIC nn 1,21121)1( ,,)(   





+−=
n
S
tX
n
S
tXIC 24,9750.024,9750.0%95 ,)( 





+−=
25
4
06,27,12 ,
25
4
06,27,12
( )648,17,12 ,648,17,12 +−= ( )648.13 ,052.11)(%95 =IC
12,7X =Exemplo:
26
Determinando t1-/2, n-1 - quantil de ordem 1-/2 de 
uma distribuição t-Student com n-1 graus de liberdade
Tabela 8. Student s t-Distribution
Por definição de quantil de ordem 1-/2:
z = z 1 - /2  F(z) = P(Z < z) =1 - /2
Para grau de confiança 95%  nível de significância =0.05 
F(z) = P(Z < z) = 1- (0.05/ 2) = 0.975  F(z) = 0.9750 
Para n=25  24 graus de liberdade
Determinar t0.9750, 24 usando Tabela 8:
t0.9750, 24 = 2.06
27
IC para  com variância desconhecida
Caso 1: População Normal
Uma amostra aleatória de 20 cigarros foi analisada para estimar a quantidade de 
nicotina por cigarro, observando-se a média de 1,2 mg e variância amostral corrigida 
de 0.4. Pressupondo que as observações têm distribuição Normal, determine um IC 
para o valor médio da quantidade de nicotina por cigarro, grau de confiança de 99%
Usando esta amostra determinamos um IC aproximado para  a 99%:
exercício 5, capítulo 4






+−= −−−−−
n
S
tX
n
S
tXIC cn
c
n 1,211,21)1( ,)(   





+−=
n
S
tX
n
S
tXIC CC 19,995,019,995,0%99 ,)(
( )044721,086,22,1 ,044721,086,22,1 +−= ( )3279.1 ,0721.1)(%99 =IC
Para grau de confiança 99%:
(1-) x 100% = 99%  (1-) =0.99  =0.01
Por definição de quantil de ordem 1-/2: 
F(z) = P(Z < z) = 1- (0.01/ 2) = 0,995  F(z) = 0.995
Para n=20  19 graus de liberdade
Determinar t0.995, 19 usando Tabela 8








+−=
20
04,0
86,22,1 ,
20
04,0
86,22,1)(%99 IC
t0.995, 19 = 2.86
Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán
PROBLEMA ?
Para se determinar o pH de uma solução tampão foram efectuadas 7 medições
que forneceram os seguintes resultados:
5,12 5,20 5,15 5,17 5,16 5,19 5,15
Calcule:
a) a média
b) o desvio padrão
c) o desvio padrão da média
d) o intervalo de confiança da média, a 95%
e) o intervalo de confiança da média, a 99%
Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán
PROBLEMA ?
A temperatura de fusão do nitrato de cálcio tetra-hidratado, Ca(NO3)2.4H2O, foi
medida 10 vezes, tendo-se obtido os seguintes resultados, considerando que eles
pertencem a uma distribuição Normal:
42,70 42,60 42,78 42,83 42,58 42,68 42,65 42,76 42,73 42,71
Calcule o valor médio da temperatura de fusão do composto e o respectivo
intervalo de confiança a 95%.
Histograma e análise de 
dados com o auxílio do Excel
30
IC para  com variância desconhecida
Exemplo: População qualquer, amostra grande
Origem Nº 
pessoas
amostra
Rendimento 
Médio
Desvio 
Padrão 
Amostral
cubanos 3895 $16 368 $3 069
mexicanos 5729 $13 342 $9 414
porto-
riquenhos
5908 $12 587 $8 647
Ingressos dos emigrantes hispânicos em EU segundo censo de 1980
IC para  a grau de confiança 95%






+−
n
S
X
n
S
XIC 96.1,96.1)(%95 
◼ cubanos:
◼ mexicanos:◼ porto-riq.:
17.49
3985
3069
padrão erro == 41.124
5729
9414
padrão erro == 5.112
5908
8647
padrão erro ==
17.4996.116368)(%95 IC
IC  ( 16272, 16464 )
41.12496.113342)(%95 IC
IC ( 13098, 13586 )
5.11296.112587)(%95 IC
IC  ( 12367, 12807 )
31
IC para  com variância desconhecida
Exemplo: População qualquer, amostra grande
Exemplo adaptado de referência 2
32
Inferência entre parâmetros
de duas populações
P1 P2
Mesmo não se conhecendo as médias 1 e 2, seria possível verificar se elas 
são iguais a partir de seus valores amostrais?
Se 1 e 2 são iguais, então 1 - 2 = 0.
acetato adaptado de referencia 3
nX mY
XXE =)( YYE =)(
Podemos a partir da diferença das médias amostrais inferir o valor 
da diferença das médias de duas populações
YX −
33
Intervalo de Confiança para 1 - 2
Duas populações Normais. Amostras independentes
Sejam X1,…, Xn e Y1, …, Ym duas amostras aleatórias constituídas por 
observações independentes e provenientes de duas populações Normais
N(X, X2) e N(Y, Y2), respectivamente 
Caso 1: variâncias conhecidas
Caso 2: variâncias desconhecidas mas iguais
IC para 1−2 a grau de confiança 1-
34
Intervalo de Confiança para 1 - 2
Populações Normais. Amostras emparelhadas
Sejam X1,…, Xn e Y1, …, Yn duas amostras provenientes de populações Normais
Amostras emparelhadas: se pares de observações (Xi, Yi) são
dependentes sendo todos os restantes pares (Xi, Yj), ij independentes
Consideram-se as diferenças:
✓ D = X- Y – diferença das médias populacionais
✓ D – desvio padrão das diferenças - desconhecido
mas pode ser estimado através das diferenças D1, …, Dn
 D1, D2, ...Dn – a.a. com população Normal e variância desconhecida
1
2 ~),(~ −
−
= n
c
D
D t
nS
D
TND
D
D









+−= −−−−−
n
S
tD
n
S
tDIC DD
C
n
c
nD 1211211 ,,,)(  
IC para D= X-Y a grau de confiança 1-
ScD – desvio padrão amostral 
corrigido das diferenças
),(~)( 2DDiii NYXD −=
35
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
- +
0
(0,1)N
2

2

z /2 z1 - /2
quantil de ordem 1-/2quantil de ordem /2
z-z
1 −
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
- +
0
(0,1)N
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
- +
0
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
- +
0
(0,1)N
2

2

z /2 z1 - /2
quantil de ordem 1-/2quantil de ordem /2
z-z
1 −
2

2

2

2

2

z /2 z1 - /2
quantil de ordem 1-/2quantil de ordem /2
z /2 z1 - /2
quantil de ordem 1-/2quantil de ordem /2
z-z
1 −
z-z
1 −1 −
Intervalo de Confiança para Proporção
n
X
p =ˆ
(n,p)X Binomial~ npp
p
n
X
npp
pp
)1()1(
ˆ
−
−
=
−
−
Se p- desconhecido, um estimador pontual para p é a proporção amostral:
(se n é grande, pelo TLC)
, Yi ~ Bernoulli sendo p = P(Xi = 1), 
a probabilidade de se seleccionar um bola vermelha

=
=
n
i
iYX
1
)
n
pp
pNp
a
)1(
,(ˆ ~
−
Considere que uma urna contêm bolas vermelhas e azúis e que n bolas são 
escolhidas ao acaso (com reposição), definindo-se
X como o número de bolas vermelhas entre as n seleccionadas
centrando e reduzindo:
Z
)1 ,0(~ N
a
( ) 1P z Z z −   = −
I.C. para Z com grau de confiança 1-
−=−+−− 1))ˆ1(ˆˆ,)ˆ1(ˆˆ( nppzpnppzpP
36
Intervalo de Confiança para Proporção







 −
+
−
− −−−
n
pp
zp
n
pp
zppIC
)ˆ1(ˆ
ˆ,
)ˆ1(ˆ
ˆ)( 2121)1( 
n
X
p =ˆ
Seja a proporção de indivíduos com uma certa característica de 
interesse numa amostra aleatória de dimensão n, e p a proporção de 
indivíduos com essa característica na população.
Um intervalo de confiança aproximado para p, a um grau de confiança 
1-, é dado por:
37
z0,9750=1,96
IC para uma proporção
Exemplo: Proporção de acessos a páginas de Internet nacionais
3.0
100
30
ˆ ===
n
X
p
Em 100 acessos a páginas de internet escolhidos ao acaso 30 são as páginas 
nacionais. Determine um IC a 95% para a proporção de acessos a páginas nacionais 
( )04582,096,13,0 ,04582,096,13,0)(%)95( +−pIC( )089818,03,0 ,089818,03,0 +−= ( ).38980 ,2102.0)(%95 pIC
04582,0
100
7,03,0)ˆ1(ˆ
=

=
−
=
n
pp
S p ( )
pp SzpSzppIC 9750.09750.0%)95( ˆ,ˆ)( +− ( )pp SpSppIC +− 96,1ˆ,96,1ˆ)(%)95(
)100Binomial(~ ,pX
X - número de acessos á páginas de internet nacionais
p – proporção de acessos a páginas nacionais (em geral) p – desconhecido
Usando esta amostra determinamos um IC aproximado para p a 95%:
exercício 8.7 pág 168
( )pp SzpSzppIC 2121)1( ˆ,ˆ)(  −−− +−n
pp
S p
)ˆ1(ˆ −
=
n
X
p =ˆ
com e
1º. Determinar z1- /2 para =0,05
3º. Substituir na fórmula:
2º. Determinar as estimativas p e Sp
^
38
Formulário
F
O
R
M
U
L
Á
R
I
O
39
Referências
Livro: Grande Maratona de Estatística no SPSS
Andreia Hall, Cláudia Neves e António Pereira
Capítulo 4.1 Intervalos de Confiança
Acetatos disponíveis on-line usados na elaboração destes acetatos:
◼ Estatística Inferencial e Intervalos de Confiança, Amostragem
Andreia Hall
URL: http://www2.mat.ua.pt/pessoais/AHall/me/files/acetatos.htm
http://www2.mat.ua.pt/pessoais/AHall/Bioestat%EDstica/Bioestat%EDstica.htm
◼ Chapter 11: Sampling and Sampling Distribution, Chapter 12: Estimation
Prof. J. Schwab , University of Texas at Austin
disciplina: Data Analysis I (spring 2004)
URL: www.utexas.edu/courses/schwab/sw318_spring_2004/TextbookLectureNotes
◼ Estimação
Camilo Daleles Rennó, Instituto Nacional de Pesquisas Espaciais, Brasil
disciplina:Estatística: Aplicação ao Sensoriamento Remoto (2008) 
URL: http://www.dpi.inpe.br/~camilo/estatistica/notas.html
◼ Estimação por Intervalos
Ana Pires, IST Lisboa
disciplina: Probabilidades e Estatística 
URL: : http://www.math.ist.utl.pt/~apires/materialpe.html

Continue navegando