Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Inferência Estatística Até aqui, nós aprendemos a descrever uma amostra através das medidas de tendência central e de dispersão. Com a utilização da inferência estatística, desejamos inferir propriedades de uma população com base nos resultados obtidos em uma amostra. Frequentemente devemos tomar decisões sobre populações com base em informações obtidas em amostras das mesmas. Tais decisões chamam-se decisões estatísticas. Objetivo: tirar conclusões sobre uma população com base na informação de uma amostra. Amostras: Como visto, no início do semestre, uma amostra é qualquer subconjunto de elementos da população. Nas amostras aleatórias, todos os elementos da população têm probabilidade de serem sorteados. Definição: As variáveis aleatórias X1, X2, , Xn constituem uma amostra aleatória de tamanho n de uma população X ~ f(x,), onde f(x,) é a distribuição (função) de probabilidade e é um parâmetro qualquer, se: a) as Xi, i = 1, 2, , Xn são variáveis aleatórias independentes; b) todas as Xi têm a mesma distribuição de probabilidade, f(x,). A amostra deve ser representativa da população da qual ela é selecionada. Se não for, as conclusões extraídas sobre a população podem estar distorcidas ou viesadas. Parâmetro: quantidades desconhecidas da população e sobre as quais temos interesse. Ex: µ - média da população Estimador (Estatística): combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população. O estimador (estatística) é qualquer valor calculado com base nos elementos da amostra. Por exemplo, a média amostral, ou seja, a média dos elementos da amostra, é um estimador (estatística), X : média amostral, é o estimador de assim como o são a mediana amostral, a variância amostral, o desvio padrão amostral, etc. Estimativa pontual: valor numérico assumido pelo estimador. Ex : valor numérico que X assume Estudamos a distribuição teórica de probabilidade: por exemplo, a distribuição normal. Probabilidade os parâmetros da distribuição eram conhecidos calculamos probabilidades Inferência os valores desses parâmetros não são conhecidos. Estimadores são funções de variáveis aleatórias e, portanto, eles também são variáveis aleatórias. Conseqüentemente, tem uma distribuição de probabilidades, denominada distribuição amostral do estimador. Distribuição amostral da média Exemplo 1: Considere uma população de tamanho N = 3, em que a variável aleatória X assume um dos valores do conjunto {1, 2, 3}. A distribuição de probabilidade de X, considerando os possíveis valores de X equiprováveis, é dada por: X = x 1 2 3 P(X = x) = f(x) 1 / 3 1 / 3 1 / 3 A média da variável aleatória X, da população, é: 2 3 13 3 12 3 11)()( 1 N i ii xfxXE 2 e a variância é: N i N i iiii xfxxfxXEXEXVar 1 2222 2 1 2222 3 22 3 13 3 12 3 11)()()( Sorteando todas as amostras possíveis (com reposição) de tamanho n = 2 e calculando a média de cada amostra temos: Amostra (X1, X2) X (1,1) 1,0 (1,2) 1,5 (1,3) 2,0 (2,1) 1,5 (2,2) 2,0 (2,3) 2,5 (3,1) 2,0 (3,2) 2,5 (3,3) 3,0 A distribuição amostral de X será: xX 1,0 1,5 2,0 2,5 3,0 )(xfxXP 1 / 9 2 / 9 3 / 9 2 / 9 1 / 9 A média da variável aleatória X é: 2 9 13 9 25,2 9 32 9 25,1 9 11)()( 1 N i ii xfxXE e a variância é: 3 12 9 13 9 25,2 9 32 9 25,1 9 11 )()()( 222222 1 2 1 222 N i N i iiii xfxxfxXEXEXVar Então, para o exemplo, XEXE 2 e nn XVarXVar 2 3 1 , onde n é o tamanho da amostra, no exemplo, n = 2. Exemplo 2: Considere uma população em que uma variável X assume um dos valores do conjunto {1, 3, 5, 5, 7}. A distribuição de probabilidade de X, considerando os possíveis valores de X equiprováveis, é dada por: X 1 3 5 7 P(X = x) = f(x) 1 / 5 1 / 5 2 / 5 1 / 5 É fácil ver que a média da população, µX = E(X) = 4,2 pois, e a variância da população, σ2 = Var(X) = 4,16 2,4 5 1.7 5 2.5 5 1.3 5 1.1)()( xxfXE x 3 pois, Vamos relacionar todas as amostras possíveis de tamanho n = 2, selecionadas ao acaso e com reposição dessa população. Amostra (X1,X2) X Amostra (X1,X2) X Amostra (X1,X2) X Amostra (X1,X2) X Amostra (X1,X2) X (1,1) 1,0 (3,1) 2,0 (5,1) 3,0 (5,1) 3,0 (7,1) 4,0 (1,3) 2,0 (3,3) 3,0 (5,3) 4,0 (5,3) 4,0 (7,3) 5,0 (1,5) 3,0 (3,5) 4,0 (5,5) 5,0 (5,5) 5,0 (7,5) 6,0 (1,5) 3,0 (3,5) 4,0 (5,5) 5,0 (5,5) 5,0 (7,5) 6,0 (1,7) 4,0 (3,7) 5,0 (5,7) 6,0 (5,7) 6,0 (7,7) 7,0 A distribuição de probabilidade de X para n = 2 é: xX 1,0 2,0 3,0 4,0 5,0 6,0 7,0 )(xfxXP 1 / 25 2 / 25 5 / 25 6 / 25 6 / 25 4 / 25 1 / 25 Neste caso, 2,4XE e 2 16,408,2 2 n XVar Repetindo o mesmo procedimento, para amostras de tamanho n = 3, temos a seguinte distribuição de probabilidade de X . Estas relações são válidas sempre e não só para os exemplos vistos. Pois, como em uma amostra aleatória, sorteada de uma população X com média e variância 2, as variáveis X1, X2, , Xn são independentes e, cada uma delas tem a mesma distribuição de X, isto é, .,,2,1 , e , )(~ 2 niXVarXExfX iii A média ou valor esperado da variável aleatória X será: 16,42,4 5 17 5 25 5 13 5 11)( )()()()( 222222 222222 XVar xxfxfxXEXEXEXEXVar 3 39,1 )(r a V e 4,2 )E( caso, Neste 2 x x XX 4 n n n XEXEXE n n XXXE n X EXE n n n i i 11 21 211 A variância de X será: .1)()()(1 1 2 2 2 222 2212 212 211 nn n n XVarXVarXVar n XXXVar nn XXXVar n X VarXVar n n n n i i Portanto, se X é uma variável aleatória de uma população com média )(XE e variância 2)( XVar , a variável aleatória X terá: a) média igual a )()( XEXE b) variância igual a nn XVarXVar 2)()( c) desvio padrão igual a, .)()( 2 nnn XVarXVarX Forma da distribuição da média amostral, X : Seja X uma variável aleatória que tem distribuição normal com média e variância 2. Se desta distribuição seleciona-se amostras aleatórias de tamanho n, a média amostral, n XX i , também segue uma distribuição n N ; . Teorema Central do Limite Seja X uma população com média e variância 2. Para amostras aleatórias X1, X2, ..., Xn, independentes, retiradas ao acaso da população X, a distribuição de probabilidade da média amostral, X , quando o tamanho da amostra, n, é grande, aproxima-se de uma distribuição normal, com média e variância n 2 , ou seja, ),1;0(; N n xZ n NX quando n tende para infinito. Na prática, n 30 já é considerado grande. Histogramas correspondentes às distribuições X de para amostras de algumas populações 5 Esses gráficos sugerem que, quando n aumenta, independentemente da forma da distribuição de probabilidade da população X, a distribuição de probabilidade da média amostral, X , aproxima-se de uma distribuição normal. Se a distribuição da população X é normal, então X tem distribuição normal exata, para todo n. O desvio padrão n 2 é denominado erro padrão da média. Considere uma amostra aleatória de tamanho n de uma população X : N(10; 4). Como se comporta a distribuição de X em função de n? 6 Exemplos: 1) Feito em sala 2) (Feito em sala) Uma v.a. X tem média µ= 5,4 e variância σ2 = 4,44. Uma amostra com 40 observaçõesé sorteada com reposição. Qual a probabilidade da média amostral ser maior do que 5? Consideramos que n = 40 observações é uma amostra grande o suficiente para usar o Teorema Central do Assim, 2) Considere que a distribuição dos níveis séricos de colesterol para todos os homens de 20 a 74 anos é normal com média µ = 211 mg/100ml e o desvio padrão σ = 46 mg/100ml. Selecionamos amostras de tamanho 25 da população. Que proporção de amostras terá um valor médio maior do que 230mg/100ml? Solução: Somente 1,9% das amostras terão uma média maior do que 230 mg/100ml. Equivalentemente, se selecionamos uma amostra de tamanho 25 da população de homens de 20 a 74 anos, a probabilidade de que o nível sérico médio de colesterol para essa amostra seja maior do que 230 mg/100ml é de 0,019. Que valor médio de nível sérico de colesterol limita os 10% valores mais baixos da distribuição amostral? 40 44,4 ; ,45N~X é isto , n ; N~X 8849,03849,05,020,1 40 44,4 4,555X ZPZPP 25 46 ; 112N:X é isto , n ; N:X 211;46N :Xhomens os todospara colesterol de séricos níveis :X .0192,04808,05,007,2 25 46 211230302X ZPZPP .2,1992,9.28,121128,1 2,9 211 .1,0 25 46 2111,0X xx xZPxP 7 10% das amostras de tamanho 25 têm médias que são menores ou iguais a 199,2 mg/100ml. Calcular os limites superior e inferior que incluem 95% das médias das amostras de tamanho 25. Limites: 211-18 = 193,0 e 211+18 = 229,0 95% das médias das a.a. de tamanho 25 estão entre 193,0 mg/100ml e 229,0 mg/100ml. Suponha que selecionamos amostras de tamanho 10 da população. Limites: 211-28,5=182,5 e 211+28,5=239,5. 95% das médias das a.a. de tamanho 10 estão entre 182,5 mg/100ml e 239,5 mg/100ml. n n Intervalo contendo 95% das médias Comprimento do intervalo 1 46,0 2,3018,120 X 180,4 10 14,5 5,2395,182 X 57,0 25 9,2 0,2290,193 X 36,0 50 6,5 8,2232,198 X 25,6 100 4,6 0,2200,202 X 18,0 Conforme o tamanho das amostras aumenta, a variabilidade entre as médias da amostra (erro padrão) diminui os limites englobando 95% dessas médias se aproximam. Os intervalos que construímos foram simétricos ao redor da média da população de 211 mg/100ml. Existem outros intervalos que contém a proporção apropriada de médias da amostra. Suponha que desejamos construir um intervalo que contenha 95% das médias das amostras de tamanho 25, mas com 1% da área acima de x2 e 4% abaixo de x1. Podemos dizer que aproximadamente 95% das médias das amostras de tamanho 25 se encontram entre 194,9 mg/100ml e 232,3 mg/100ml. Em geral, é preferível construir um intervalo simétrico. Qual deve ser o tamanho das amostras para que 95% de suas médias se encontrem a ± 5 mg/100ml da média µ da população? Para responder isso, não é necessário conhecer o valor do parâmetro µ. Precisamos encontrar o tamanho da amostra n para o qual .03,182,9.96,196,1 2,9 95,0 2,92,9 95,0 2,9 211211 2,9 21121195,0- xxxZxP xZxPxXxP .100/5,14 10 46 n é X de padrão erro o caso, Nesse mlmg 9,2322,9.32,221132,2 2,9 211 9,1942,9.75,121175,1 2,9 211 95,0 2 2 1 1 21 xx xx xXxP .5,285,14.96,196,1 5,14 95,0xXx- xxP 8 Amostras de tamanho 326 seriam exigidas para que 95% das médias das amostra se encontrem a ± 5 mg/100ml da média da população. Ou, se selecionamos uma amostra de tamanho 326 da população e calculamos sua média, a probabilidade de que a média da amostra esteja a ± 5 mg/100ml da verdadeira média µ da população é 0,95. Distribuição amostral de uma proporção Considere uma amostra de tamanho n de uma população, representada por X1, X2, ..., Xn, onde fracasso ocorre se ,0 sucesso ocorre se ,1 iX Seja p a probabilidade de sucesso. Esta probabilidade é estimada pela proporção amostral de sucessos: n sucessos de númeroˆ p Como a variável aleatória iX assume somente 0 e 1, X n X p i ˆ . Logo, uma proporção amostral não é nada mais do que uma média amostral de uma variável que assume 0’s e 1’s. Ex.: Um pesquisador interessado em estimar a proporção de poços de petróleo produtivos, observou uma amostra de 200 poços, dos quais 30 eram produtivos. A proporção observada foi: .15,0 200 30 200 1300170 200 1100ˆ p Então, pˆ é a média, isto é, X n X p i ˆ , onde produtivo não poçofracasso ocorre se ,0 produtivo poçosucesso ocorre se ,1 iX Considere . 1 n i iXX Assumindo que os siX ' são independentes e que a probabilidade de sucesso é constante e igual a ,p temos que, )1()( e )( , ),(~ pnpXVarnpXEpnBX . .ˆ n X n X p i Como pˆ é uma estatística, ela pode variar de uma amostra para outra sendo, pois, uma variável aleatória. Sendo assim, podemos pensar na média, variância, desvio padrão e na distribuição de probabilidade de .pˆ Média ou valor esperado de pˆ .1)(1)ˆ( pnp n XE nn XEpE Variância de pˆ .2,325 5 46.96,12,9.96,1 46 5 95,0 46 5 46 595,05X5- nn n n Z n PP 9 .)1()1(1)(1)ˆ( 22 n pppnp n XVar nn XVarpVar Desvio padrão de pˆ .)1()ˆ(ˆ n pppVarp Distribuição amostral da proporção (distribuição de probabilidade de pˆ ) Como a proporção amostral, pˆ ,nada mais é do que a média de 0’s e 1’s, a distribuição aproximada de pˆ é dada pelo Teorema Central do Limite. Isto é, para n suficientemente grande, n +, )1 ; 0( )1( ˆ N n pp pp . Ex.: Suponha que a proporção de peças fora de especificação em um lote é de 40%. Tomada uma amostra de tamanho 30, a probabilidade desta amostra fornecer uma proporção de peças defeituosas menor que 0,5 pode ser calculada usando a distribuição Normal, como aproximação. Temos, como conseqüência do Teorema Central do Limite, que: 30 )40,01(40,0;40,0ˆ Np . Assim, .8686,03686,05,0)12,1(5,0)12,1( 30 40,0140,0 40,050,0)50,0ˆ( IZPZPpP
Compartilhar