Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inferência Estatística Distribuições Amostrais e Estimação Pontual Inferência Estatística – consiste em fazer afirmações sobre uma população a partir de uma amostra. População: Conjunto de indivíduos ou elementos que se deseja estudar por meio da observação de variáveis de interesse. Amostra: subconjunto de indivíduos ou elementos que são retirados da população de estudo e para os quais são observadas as variáveis de interesse. Estimação e testes de hipóteses – duas grandes áreas da inferência estatística. Estimação – consiste em estimar uma quantidade populacional (parâmetro) a partir da amostra. População Estatísticas Amostrais média populacional proporção populacional S - desvio padrão populacional Amostra Parâmetros populacionais µ - média populacional P – proporção populacional σ - desvio padrão populacional Estatística é uma função dos elementos da amostra. X pˆ Exemplo: Estimar a proporção de moradores de uma cidade favoráveis a um projeto do executivo municipal. População: opiniões dos eleitores da cidade Parâmetro populacional de interesse: p , a proporção de opiniões favoráveis ao projeto do executivo. Para conhecer o parâmetro de interesse podemos • observar toda a população (censo) (frequentemente impraticável) • observar uma amostra da população (amostragem) É natural estimarmos a proporção populacional p pela proporção amostral amostradatamanhon Xp amostra na presentes projeto ao favoráveis moradores de número ˆ == pˆ observado) (obs 20,0 400 80pˆobs === é chamado estimador do parâmetro p 400 moradores foram entrevistados, dos quais 80 são favoráveis ao projeto. Para esta amostra, o valor observado de pˆ é p de pontual estimativa de chamado é 20,0pˆobs = Estimador de um parâmetro é uma estatística amostral usada para estimá-lo. Estimativa de um parâmetro é o valor do estimador observado na amostra. Com a amostra de 400 moradores, a proporção de eleitores favoráveis ao projeto foi estimada em 0,2 (20% do moradores são favoráveis ao projeto) Quanto estaremos errando ao estimar a proporção populacional pela proporção amostral? Isto é, quão grande é o erro amostral ? • Diferentes amostras de 400 eleitores podem ser selecionadas. • Amostras diferentes frequentemente levam a estimativas pontuais diferentes. aleatória variáveluma é pˆ ⇓ ppˆ − Para responder a pergunta acima precisamos saber como se comporta esta variável aleatória, isto é qual a sua distribuição de probabilidade? ?S de ãodistribuiç a Qual . deestimador um é S ?pˆ de ãodistribuiç a Qual .p deestimador um é pˆ ?X de ãodistribuiç a Qual . deestimador um é X σ µ Amostra aleatória – As variáveis aleatórias X1, X2, ...., Xn consistem numa amostra aleatória de tamanho n se X1, X2, ....e Xn forem independentes, todos com a mesma distribuição de probabilidade. Xi é a variável aleatória que representa a resposta do i-ésimo elemento da amostra A distribuição de probabilidade de uma estatística amostral pode ser obtida considerando todas as possíveis amostras aleatórias de tamanho n, com reposição, que podem ser selecionada da população de interesse. Esta distribuição é chamada de distribuição amostral. Ilustração 55 65 50 60 70 Peso médio: µ = 60 Kg. Proporção de mulheres: p=0.40 População: N=5 Vamos considerar todas as possíveis amostras de tamanho 2 retiradas com reposição desta população Valores dos pesos médios amostrais para amostras de tamanho 2 obtidas com reposição da população x2 x1 50 55 60 65 70 50 50,0 52,5 55,0 57,5 60,0 55 52,5 55,0 57,5 60,0 62,5 60 55,0 57,5 60,0 62,5 65,0 65 57,5 60,0 62,5 65,0 67,5 70 60,0 62,5 65,0 67,5 70,0 x1 – peso do primeiro indivíduo selecionado para a amostra x2 – peso do primeiro indivíduo selecionado para a amostra 50x50x,50x 21 =⇒== 50 55 60 65 70 0 . 0 5 0 . 1 0 0 . 1 5 0 . 2 0 Distribuição amostral da média para amostras de tamnaho 2 da população: 50,55,60,65,70 média amostral p r o b a b i l i d a d e Valores da proporção amostral de mulheres para amostras de tamanho 2 obtidas com reposição da população x2 x1 F F M M M F 1 1 0,5 0,5 0,5 F 1 1 0,5 0,5 0,5 M 0,5 0,5 0 0 0 M 0,5 0,5 0 0 0 M 0,5 0,5 0 0 0 5,01/2pˆF)(M, amostra 12/2pˆ F)(F, amostra :Exemplo ==⇒= ==⇒= F= feminino, M = masculino 55 65 50 60 70 Peso médio: µ = 60 Kg População: N=5 Desvio-padrão: σσσσ = 7.07 Kg x )xX(P = 50 1/25 52,5 2/25 55 3/25 57,5 4/25 60 5/25 62,5 4/25 65 3/25 67,5 2/25 70 1/25 Total 1 2 )2 )2 )2 )(n(n(n(n XXXX dededede amostralamostralamostralamostral ãoãoãoãoDistribuiçDistribuiçDistribuiçDistribuiç = 50 :X de Variância 2 =σ ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 )X(VAR 2 5025 25 1 x6070 25 2 x605,67 25 3 x6065 25 4 x605,62 25 5 x6060 25 4 x605,57 25 3 x6055 25 2 x605,52 25 1 x6050)X(VAR 22 2222 222 ===−+−+ −+−+−+−+ −+−+−= )X(E60 25 2 x70 25 2 x5,67 25 3 x65 25 4 x5,62 25 5 x60 25 4 x5,57 25 3 x55 25 2 x5,52 25 1 x50)X(E == + + + + + + + + = Para amostras aleatórias de tamanho n de uma população de uma população com média µ e variância σ2 n )XDP( n )XVAR( e )X(E)X(E 2 σ = σ =µ== Para o exemplo foi fácil encontrar a distribuição amostral da média pois a amostra e a população são pequenas. Para casos gerais e “grandes amostras”, podemos usar o T. C. L Teorema Central do Limite Seja uma amostra aleatória , de uma variável aleatória com média µ e desvio padrão σ. À medida que n cresce, a distribuição de probabilidade de aproxima-se de uma Normal com média µ e desvio padrão . nσ 1 2, ,..., nX X X X X / XZ n µ σ − =Ou seja, aproxima-se de uma Normal (0 ;1). Corolário: para amostras aleatórias de uma população Normal, a distribuição amostral da média é exatamente Normal para qualquer tamanho de amostra n Ilustração do Teorema Central do Limite Para vários tamanhos de amostra n, vamos retirar um número grande de amostras da população, digamos, 10000 amostras de mesmo tamanho n. Para verificar a distribuição desses valores, construiremos um histograma. 1 2 3 Para cada amostra retirada, vamos calcular a média amostral, . Ao final da retirada das 10000 amostras, teremos 10000 valores de X X Importante: Em geral para n ≥ 30 a aproximação da distribuição amostral da média pela distribuição Normal é considerada satisfatória. Observação: veja os slides “simulação de variáveis aleatórias antes de prosseguir” tclnormal<-function(n,nsimul,mu,sigma) { media<-rep(0,nsimul) for(i in 1:nsimul) { x<-rnorm(n,mu,sigma) media[i] <- mean(x) } mmedia<-mean(media) # calcula a média das medias varmedia<-var(media) # calcula a variância das medias sdmedia<-sd(media) # calcula o desvio padrão das medias hist(media, xlim=c(mu-3.5*sigma/sqrt(5),mu+3.5*sigma/sqrt(5)), xlab=expression(bar(X)),main=paste("Histograma com n",n=deparse(substitute(n)),sep=" ")) resultado<-list(mmedia=mmedia,varmedia=varmedia,sdmedia=sdmedia) # mmedia é a media das médias amostrais # varmedia é a variância das médias amostrais # sdmedia é o desvio padrão das médias amostrais return(resultado) } par(mfrow=c(3,2))#divide a janela em 6 células (2 linhas e 3 colunas) curve(dnorm(x,40,8),15,65,main = "Distribuição Normal") tclnormal(5,10000,40,8) tclnormal(10,10000,40,8) tclnormal(20,10000,40,8) tclnormal(30,10000,40,8) tclnormal(50,10000,40,8) 20 30 40 50 60 0 . 0 0 0 . 0 3 Distribuição Normal x d n o r m ( x , 4 0 , 8 ) Histograma com n 5 X F r e q u e n c y 30 35 40 45 50 0 1 0 0 0 Histograma com n 10 X F r e q u e n c y 30 35 40 45 50 0 5 0 0 1 5 0 0 Histograma com n 20 X F r e q u e n c y 30 35 40 45 50 0 1 0 0 0 Histograma com n 30 X F r e q u e n c y 30 35 40 45 50 0 1 0 0 0 2 5 0 0 Histograma com n 50 X F r e q u e n c y 30 35 40 45 50 0 1 0 0 0 tclpois<-function(n,nsimul,lambda) { media<-rep(0,nsimul) for(i in 1:nsimul) { x<-rpois(n,lambda) media[i] <- mean(x) } mmedia<-mean(media) # calcula a média das medias varmedia<-var(media) # calcula a variância das medias sdmedia<-sd(media) # calcula o desvio padrão das medias hist(media, xlim=c(lambda-3.5*sqrt(lambda/5),lambda+3.5*sqrt(lambda/5)), xlab=expression(bar(X)),main=paste("Histograma com n",n=deparse(substitute(n)),sep=" ")) resultado<-list(mmedia=mmedia,varmedia=varmedia,sdmedia=sdmedia) # mmedia é a media das médias amostrais # varmedia é a variância das médias amostrais # sdmedia é o desvio padrão das médias amostrais return(resultado) } par(mfrow=c(3,2)) #divide a janela em 6 células (2 linhas e 3 colunas) plot(0:30,dpois(0:30,15),type="h" ,ylab="P(X = x) ",main = "Distribuição de Poisson") tclpois(5,1000,15) tclpois(10,1000,15) tclpois(20,1000,15) tclpois(30,1000,15) tclpois(50,1000,15) 0 5 10 15 20 25 30 0 . 0 0 0 . 0 6 Distribuição de Poisson 0:30 P ( X = x ) Histograma com n 5 X F r e q u e n c y 10 12 14 16 18 20 0 1 0 0 2 0 0 Histograma com n 10 X F r e q u e n c y 10 12 14 16 18 20 0 5 0 1 5 0 Histograma com n 20 X F r e q u e n c y 10 12 14 16 18 20 0 1 0 0 2 5 0 Histograma com n 30 X F r e q u e n c y 10 12 14 16 18 20 0 1 0 0 2 5 0 Histograma com n 50 X F r e q u e n c y 10 12 14 16 18 20 0 1 5 0 3 0 0 20 30 40 50 60 0 . 0 0 0 . 0 3 Distribuição Normal x d n o r m ( x , 4 0 , 8 ) Histograma com n 5 X F r e q u e n c y 30 35 40 45 50 0 1 0 0 0 Histograma com n 10 X F r e q u e n c y 30 35 40 45 50 0 5 0 0 1 5 0 0 Histograma com n 20 X F r e q u e n c y 30 35 40 45 50 0 1 0 0 0 Histograma com n 30 X F r e q u e n c y 30 35 40 45 50 0 1 0 0 0 2 5 0 0 Histograma com n 50 X F r e q u e n c y 30 35 40 45 50 0 1 0 0 0 tclexp<-function(n,nsimul,lambda) { media<-rep(0,nsimul) for(i in 1:nsimul) { x<-rexp(n,lambda) media[i] <- mean(x) } mu = 1/lambda mmedia<-mean(media) # calcula a média das medias varmedia<-var(media) # calcula a variância das medias sdmedia<-sd(media) # calcula o desvio padrão das medias hist(media, xlim=c(mu-3.5*mu/sqrt(5),mu+3.5*mu/sqrt(5)), xlab=expression(bar(X)),main=paste("Histograma com n",n=deparse(substitute(n)),sep=" ")) resultado<-list(mmedia=mmedia,varmedia=varmedia,sdmedia=sdmedia) # mmedia é a media das médias amostrais # varmedia é a variância das médias amostrais # sdmedia é o desvio padrão das médias amostrais return(resultado) } par(mfrow=c(3,2)) #divide a janela em 6 células (2 linhas e 3 colunas) curve(dexp(x,0.10),0,30,main = "Distribuição Exponencial") tclexp(5,1000,0.10) tclexp(10,1000,0.10) tclexp(20,1000,0.10) tclexp(30,1000,0.10) tclexp(50,1000,0.10) 0 5 10 15 20 25 30 0 . 0 2 0 . 0 8 Distribuição Exponencial x d e x p ( x , 0 . 1 ) Histograma com n 5 X F r e q u e n c y -5 0 5 10 15 20 25 0 2 0 0 4 0 0 Histograma com n 10 X F r e q u e n c y -5 0 5 10 15 20 25 0 1 0 0 2 5 0 Histograma com n 20 X F r e q u e n c y -5 0 5 10 15 20 25 0 1 0 0 Histograma com n 30 X F r e q u e n c y -5 0 5 10 15 20 25 0 1 0 0 2 0 0 Histograma com n 50 X F r e q u e n c y -5 0 5 10 15 20 25 0 1 0 0 2 5 0 Propriedades dos estimadores • Em média a média amostral é igual a média populacional. • A média amostral aproxima-se da média populacional quando n cresce. OBS: o desvio padrão da média amostral é chamado de erro padrão da média. Exemplo: Suponha que o tempo de vida de um dispositivo tem distribuição exponencial com média igual a 50 horas. Se uma amostra aleatória de 40 dispositivos é observada, qual a probabilidade do tempo média de duração dos dispositivos da amostra seja menor do que 60 horas? X – tempo de vida do dispositivo X ~ Exp(1/50) E(X) = DP(X) = 50 Como n = 40 ≥ 30 podemos usar o T.C.L 6,0)26,1Z(P 40 50 5060ZP 40 50 5060ZP)60X(P 40 5050,N ãodistribuiç menteaproximada temX =<= − <= − <=< amostral medía pela alpopulacion média a estimarmos ao errando estamos quanto o estimação, de amostral erro X µ− 6477,0)3792,0Z(P 40 50 03ZP)3-XP( horas? 3 a igualou menor ser estimação de amostral erro do adeprobabilid a Qual =<= −≤=≤µ σµ− σµ n ,0N menteaproximada é X n ,N menteaproximada é X Com probabilidade igual a 0,95, qual o erro amostral máximo de estimação em valor absoluto com uma amostra de tamanho 40? estimação? de erro oreduzir parafazer podemos que O 0,95. a igual adeprobabilid com horas 15,49 a igual é estimação de máximo erro o 40 a igual amostra de tamanhoCom 49,15 40 50 x 1,96E 40 50 0E n 0E96,1z 975,0)zZ(P 40 50 0EZP n 0EZP)EX(P 9725.0)EX(P e 025.0)EX(P Logo 95,0)EXE(P que talE valor o Qual 975,0 025,0 ==⇒ − = σ − == =<= − <= σ − <=<µ− =<µ−=−<µ− =<µ−<− Qual o valor de n tal que com probabilidade 0,95 o erro amostral de estimação seja no máximo igual a 5 horas? 40 50 x 1,96E = Vimos que com probabilidade 0,95 o erro amostral máximo com n = 40 é Para um tamanho de amostra n, temos n 50 x 1,96E = Fazendo E =5, temos 38516,384 5 05 x ,961 n 2 ≈= = Caso geral: Qual o valor de n tal que com probabilidade 1 - α o erro amostral de estimação seja de no máximo E? 2 2/ 2/ 2/ E x z nz n E )zZ(P n EZP 2/1)EX(P 1)EXE(P σ =⇒= σ <= σ <α−=<µ−⇒α−=<µ−<− α α α Distribuição amostral da proporção Considere uma amostra aleatória de tamanho n de variáveis aleatórias independentes Bernouli (x = 1 se sucesso, X = 0 se fracasso) com probabilidade de sucesso igual a p. Distribuição exata da proporção - Binomial Exemplo: Suponha que em certa população 10% das pessoas estão desempregadas. Se uma amostra aleatória de 200 pessoas é escolhida desta população, qual a probabilidade da proporção amostral de desempregado ser maior do que 12%? ( ) ( ) ( ) 1430,0 200 )10.01(10,0 0,10-0,1225ZP 200 5,012,0pˆP0,12pˆP decontinuida de correção Com 1729,00,9428)Z(P 200 )10.01(10,0 0,10-0,12ZP0,12pˆP 5)186p)-n(1 e 5 24 (np Normal pela oaproximaçã a Usando 0.1449)24X(P 0,10)p200,Binomial(n é X onde )24X(P)12,0 x 200X(P0,12pˆP Binomial modelo o Usando = − >= +>=> =>= − >≈> ≥=≥= => ==>=>=> Qual o tamanho amostral necessário para que com probabilidade ou igual 1 - α o erro amostral cometido ao estimar uma proporção p pela proporção amostral seja de no máximo E? resultado) este ostreM:Exercício( E )p1(pz n 2 2 2/ −≥ α Situação mais desfavorável: p =0,5 n depende de p. p é desconhecido O que fazer? 0.0 0.2 0.4 0.6 0.8 1.0 0 . 0 0 0 . 0 5 0 . 1 0 0 . 1 5 0 . 2 0 0 . 2 5 p p * ( 1 - p ) 2 2 2/ E4 z n α≥ 2S amostral variânciada amostral ãoDistribuiç Gama ãodistribuiç da particular caso :Quadrado-Qui ãoDistribuiç liberdade de graus 1-n com Quadrado-Qui ãodistribuiç tem S)1n( aleatóriaX variávela Então ).,Normal( ãodistribuiç um de aleatória amostra uma X,...,X,X Seja 2 2 2 n21 σ − = σµ ( ) 2k VAR(X)k E(X) liberdade de graus os sãok onde 0x seex (k;2)2 1f(x) :densidade fução 2/x1k/2k/2 == > Γ = −− ( ) deestimador um é 1n XX S 2 n 1i 2 i 2 σ − − = ∑ = 0 1 2 3 4 5 6 7 0 . 0 0 . 5 1 . 0 1 . 5 função densidade de probabilidade - Qui-quadrado com 1 graus de liberdade x f ( x ) 0 5 10 15 20 25 30 0 . 0 0 0 . 0 2 0 . 0 4 0 . 0 6 0 . 0 8 0 . 1 0 0 . 1 2 função densidade de probabilidade - Qui-quadrado com 7 graus de liberdade x f ( x ) 0 10 20 30 40 0 . 0 0 0 . 0 2 0 . 0 4 0 . 0 6 0 . 0 8 função densidade de probabilidade - Qui-quadrado com 12 graus de liberdade x f ( x ) 0 10 20 30 40 50 60 0 . 0 0 0 . 0 1 0 . 0 2 0 . 0 3 0 . 0 4 0 . 0 5 0 . 0 6 função densidade de probabilidade - Qui-quadrado com 20 graus de liberdade x f ( x ) Exemplo: Suponha que os preços de um produto praticados no mercado sigam um distribuição Normal com média 100 e desvio padrão igual a 20. a) Para uma amosta de tamanho 20 é observada, qual a probabilidade da variância amostral ser menor do que 430? ( ) )425,20X(P 400 304 x 19S)1n(P430SP 22 2 2 <= < σ − =< ( ) 95,0aSP 2 =< ( ) g.l 19 com quadrado-Qui ãodistribuiç da 0,95 ordem de percentil 400 a19 400 a x 19XP 400 a x 19a)1n(PaSP 22 2 = <= < σ − =< Usando o R: > pchisq(20.425,19)[1] 0.6305769 b) Encontre o valor da variância amostral ta que Usando o R > qchisq(0.95,19) [1] 30.14353 634.52 19 14,30 x 400 a14,30 400 a19 ==⇒=
Compartilhar