Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise Estatística I Profa Fernanda 15 CAPITULO 3 – DISTRIBUIÇÕES AMOSTRAIS Cada estimador do parâmetro θ , é uma função dos valores amostrais, ou ( )nxxxg ,...,, 21=θ! . Logo cada estimador é uma função aleatória de variáveis aleatórias. A distribuição F (θˆ ) de ( )nxxxg ,...,, 21=θ! é a distribuição amostral de θˆ e f (θˆ ) é a função densidade de probabilidade amostral de θˆ . Isto é, cada estimador de um parâmetro θ pode ser calculado como uma estatística de uma amostra aleatória, assim o estimador de um parâmetro (uma estatística) é também uma v.a, cuja distribuição de probabilidades é denominada distribuição amostral. A distribuição amostral é função do tamanho da amostra n , e da distribuição da v.a. básica F (x). Isto é válido também para distribuições multivariadas. 3.1 Distribuição Amostral da Média ( X ) Teorema 1: Seja x uma população de média µ e variância σ² da qual se extrai uma amostra aleatória de n elementos (x1,x2,....,xn ). Designamos x a média amostral da amostra aleatória acima. x = ∑ xi/n Então: E ( x ) = µ Var ( x ) =σ²/n E quando n é grande, z = (x-µ) / (σ/ n ), terá aproximadamente distribuição N (0,1). Análise Estatística I Profa Fernanda 16 Demonstração : As duas primeiras propriedades decorrem imediatamente das propriedades do valor esperado (µ) e da variância (σ²). E ( x ) = E [1/n ∑ xi ] = 1/n ∑ E (xi) = 1/n ∑ µ = (1/n)n µ = µ Logo x é um estimador não tendencioso de µ. Var ( x ) = Var [1/n ∑ xi ] = 1/n² ∑ Var (xi) = 1/n² ∑ σ² = (1/n²)n σ² = σ² /n Logo x é um estimador consistente de µ , pois Var ( x ) ⇒ 0 quando n ⇒∞. A terceira conclusão é fundamentada no Teorema das Combinações Lineares e no Teorema do Limite Central. O Teorema das Combinações Lineares diz que: “uma v.a obtida pela combinação linear de v.a´s normais independentes tem também distribuição Normal”. Assim, se a distribuição da variável aleatória básica (população) for Normal, então a distribuição amostral de x também será Normal para qualquer tamanho de amostra n. A figura abaixo apresenta um caso geral, envolvendo a distribuição amostral de , no caso da população ser Normal. Análise Estatística I Profa Fernanda 17 Quanto maior o tamanho da amostra n, menor será a variância de x . Isto é, quando o tamanho n de uma amostra cresce a média varia cada vez menos. Por outro lado, se a distribuição da população não for Normal, mas a amostra for suficientemente grande, resultará, do Teorema do Limite Central (“sob condições bastante gerais uma v.a, resultante da soma de n v.a independentes, tem distribuição Normal, no limite de n tendendo a infinito”), que no caso de população infinita ou amostragem com reposição, a distribuição amostral de x será aproximadamente Normal. Sendo aproximada esta conclusão ela é também estendia para amostragem sem reposição de população finita, porém razoavelmente grande, na prática quanto mais simétrica for a distribuição da população ou quanto mais próxima da normalidade ela estiver melhor será. No caso de amostragem sem reposição e população finita, pode-se demonstrar que: Se X ~N(µ,σ), então: − − ≈ 1 , 2 N nN n Nx σµ onde N é o tamanho da população e n o tamanho da amostra. − − 1N nN é chamado fator de correção de população finita. Exemplos : 1) Seja x uma população constituída dos seguintes elementos: 2,3,4,5. Extrair todas as amostras de 2 elementos dessa população, com reposição, e determinar: Média e Variância da população de x; Análise Estatística I Profa Fernanda 18 Média e Variância da distribuição amostral das médias. Resolução: µ (x) = (2+3+4+5)/4 = 3.5 σ² (x) = (2-3.5) ² + (3-3.5) ² + (4-3.5)² + (5-3.5)² = 1.25 4 Amostras de 2 elementos 2 e 2 3 e 2 4 e 2 5 e 2 2 e 3 3 e 3 4 e 3 5 e 3 2 e 4 3 e 4 4 e 4 5 e 4 2 e 5 3 e 5 4 e 5 5 e 5 Médias dessas amostras 2.0 2.5 3.0 3.5 2.5 3.0 3.5 4.0 3.0 3.5 4.0 4.5 3.5 4.0 4.5 5.0 E ( x ) = 3.5 e E ( x ) = µ ( x ) = 3.5 Var ( x ) = 0.625 e Var ( x ) = σ² ( x ) /n = 0.625 ↑ ↑ calculado por definição 2) Quando n, o tamanho da amostra, é pequeno e as v.a x1,x2,....,xn , não são normais, x, a média amostral, não tem necessariamente distribuição normal, pois neste caso o teorema do limite central não é válido. Quando isto ocorrer, faz-se necessário investigar a Análise Estatística I Profa Fernanda 19 distribuição de x. Como por exemplo, suponhamos que a v.a amostrada x tem distribuição Bernoulli: ( ) ( ) ( )xx pp xp xp xp −−⇒ =− = = 11. 01 1, )( Como visto em cálculo das probabilidades I o valor esperado de x é : E[x] = p → E (x) = 0 × (1-p) + 1 × p = p e a variância de x é : σ²x = p (1-p) 22 )0)(1()1()( ppppXVar −−+−=→ então a distribuição de x , média amostral, definida como x = 1/n ∑x, pode ser determinada investigando a soma : y = ∑ xi como os xi são v.a. com distribuição Bernoulli e sabemos que a soma de n v.a. Bernoulli é uma v.a. Binomial , temos que y~Bi (n,p). Como x = y/n , podemos escrever a distribuição de x através de : ( ) ( ) ( )( ) n n nn xpp xn n nxpxp xnnxnYX ,...., 1 , 0 1.. =− == − Análise Estatística I Profa Fernanda 20 3.2 Distribuição Amostral da Variância (S2) Antes de entrarmos na distribuição amostral da variância, vamos abordar dois assuntos importantes para a compreensão da distribuição amostral da variância. 3.2.1 Graus de liberdade de uma estatística Sejam as estatísticas: n x x n i i∑ = = 1 ( ) n x n i i∑ = − = 1 2 2ˆ µ σ Diz-se que elas tem n graus de liberdade, e tal fato pode ser entendido como indicando haver n valores “livres” de xi que devem ser considerados para se poder calcular o valor da estatística, isto é, se qualquer dos valores de xi da amostra for desconhecido, o valor da estatística não pode ser determinado, pois todos os valores da amostra são livres e podem variar aleatoriamente. Por outro lado, a estatística S², ( ) n xx S n i i∑ = − = 1 2 2 Análise Estatística I Profa Ferna Por usar x em lugar de µ , a estatística S2 tem um grau de liberdade a menos (ou seja, tem n-1 g us de liberdade). Isto porque, o cálculo dessa estatística pressupõe que já se tenha cal amostra, novament amostra, o sua média Portantoσ Se em lug ( 12 = ∑ =S n i então S´2 graus de l 3.2.2 D Defini-se quadrado 1 2 ∑ = = φ φχ i Depende formas: ra nda 21 culado x anteriormente e para tal já usamos uma vez todos os valores da os quais estariam sendo usados pela 2ª vez para calcular S². Então ao usar e os valores da amostra para calcular S², dados qualquer (n-1) valores da valor restante estará perfeitamente determinado (pelo fato de já conhecermos a x ), não sendo, portanto, livre. 2ˆ , tem n graus de liberdade. A estatística , S² tem (n-1) graus de liberdade. ar da estatística S2, usarmos a estatística S´2, definida como: ) 1 2 − − n xxi terá também (n-1) graus de liberdade, pelo mesmo motivo de S2 ter (n-1) iberdade. istribuição Qui-Quadrado (χ²) uma variável aleatória χχχχ², com ΦΦΦΦ graus de liberdade, como sendo a soma do de ΦΦΦΦ variáveis normais padronizadase independentes, isto é : 2 1 2 ∑ = − = φ σ µ i i i x z ndo do número de graus de liberdade, a distribuição de χ² assume as seguintes f( 2φχ Análise Estatística I Profa Fernanda Propriedades mais importantes da distribuição Qui-Quadrado: 1) Para n ⇒ ∞ , a distribuição 2χ tende a Normal 2) Média : µ (χ²) = E (χ²) = Φ 3) Moda : Mo (χ²) = Φ - 2 4) Variância: Var (χ²) = 2Φ 5) Sejam duas v.a. independentes 2 1φχ e 2 2φχ . Pode-se provar que sua soma também será uma variável com distribuição χ² , com Φ1 + Φ2 graus de liberdade , isto é: 2 2 22 121 φφφφ χχχ +=+ Esta é chamada “propriedade da aditividade”, a qual pode ser generalizada para k variáveis χ² independentes 3.2.3 Distribuição da Variância amostral S² - Teorema de Fisher Seja x uma população normal de média µ e variância σ² . Se 2 φχ 22 Análise Estatística I Profa Fernanda 23 σ xx z ii − = é uma v.a normal padronizada, então a soma dos 2iz é uma variável aleatória Qui- quadrado com (n-1) graus de liberdade. ( ) 2 1 1 2 2 − = = −∑ nn i i xx χ σ Os valores de xi são conhecidos e σ² uma constante. Então: ( ) 2 12 1 2 . − = =−∑ nn i i xx χσ Partindo-se desta expressão, tem-se : ( ) 2 1 2 1 2 . 11 − = − = − −∑ nn i i nn xx χσ Como, ( ) 2 1 2 1 S n xxn i i = − −∑ = é a estatística que define o estimador não-tendencioso de 2σ , temos: 2 1 2 2 1 −− = nn S χσ ou seja, S², estimador não tendencioso de σ², tem distribuição χ², com (n-1) graus de liberdade. A partir deste resultado, pode-se calcular os parâmetros da distribuição amostral de S². Análise Estatística I Profa Fernanda 24 O valor esperado de S2 é: [ ] [ ] ( ) 222 122 122 1.111 σ σχσχσ =− − = − = − = −− n n E nn ESE nn Assim: E [S²] = σ² e portanto S² é um estimador não tendencioso (justo) de σ². A variância de S² é: [ ] ( ) [ ] ( ) ( ) ( )1 2 12 1 . 1 . 1 4 2 4 2 12 4 2 1 2 2 − =− − = − = − = −− n n n Var nn VarSVar nn σσχσχσ Assim: [ ] 1 2 42 − = n SVar σ e S² é um estimador assintoticamente consistente de σ² , pois Var [S²] = 0, quando n → ∞. Estes parâmetros , são os parâmetros da distribuição amostral de S² , quando S² é definido como: ( ) 1 12 − −∑ = n xx S n i i Isto é , S² é o estimador não tendencioso de σ² . Entretanto se tomarmos S² como: ( ) n xx S n i i∑ = − 12 que é o estimador tendencioso de σ² , teremos para qualquer distribuição de x: Análise Estatística I Profa Fernanda 25 ( ) 2 1 1 2 2 − = = −∑ nn i i xx χ σ ( ) 2 12 1 2 − = =−∑ nn i i xx χσ ( ) 2 1 2 1 2 − = = −∑ nn i i nn xx χσ Como: ( ) 2 1 2 S n xxn i i = −∑ = Logo : 2 1 2 2 − = nn S χσ Tomando o valor esperado de S² , temos: E [S²] = E [ 2 2 χσ n ] = n 2σ E [χ²] = n 2σ (n-1) = n n 1− σ²= σ² - σ²/n E a variância de S² , é : Var (S²) = (µ4−µ22) / n - 2( µ4−2µ22) / n² + (µ4−3µ22) / n3 Como µ22 = σ² , para n grande, temos : [ ] [ ] ( ) ( ) 4 22 4 2 12 4 2 1 2 2 1212 σ σχσχσ n n n n Var nn SVar nn − =−== = −− Análise Estatística I Profa Fernanda 26 3.3 Distribuição Amostral da Freqüência (f) Seja uma população finita, p a probabilidade de sucesso de um certo evento e q = (1-p) a insucesso . Suponha disponível uma amostra aleatória composta de n elementos desta população, se o evento sucesso tiver ocorrido z vezes. Então Z (freqüência absoluta), número de sucessos é uma v.a. Binomial com: E[Z] = n . p Var[Z] = n . p . q Z ~ Bi (np,npq) Logo a distribuição da freqüência relativa, f = z/n , será Binomial com : E[f] = E[z/n] = 1/n e[z] = (1/n) n . p = p Var[f] = Var [z/n] = (1/n²) Var (z) = (1/n²).n .p . q = p .q /n Se a amostra for suficientemente grande pode-se aproximar a Binomial por uma Normal de mesma média e mesma variância. Na prática uma amostra é grande suficiente quando n . p � 15 e n . p .q � 15 ou ainda para p próximo de 0,5 e se n > 30 e então : f ~ N [ p , p .q/n ] e Análise Estatística I Profa Fernanda 27 � n pq pf − ��→→→→� N(0,1) Se tivermos interessados na freqüência absoluta, Z, devemos lembrar que E[z] = np e Var[z] = npq e Z ~Bi(np, npq), porém para n suficientemente grande, Z poderá ser considerada também N(np, npq). Quando não conhecemos o valor de p , que é o parâmetro populacional, podemos substituir p por f, pois como vimos f é um estimador de p não tendencioso e consistente (recomenda-se nestes casos utilizar n > 30). 3.4 Distribuição Amostral da Mediana (Me) Consideramos aqui que a população da v.a. X é normal e o tamanho da amostra n é maior que 30 , o que nos conduzirá aos resultados que serão apresentados. Seja X uma v.a. normalmente distribuída, então a mediana (Me) de X (valor de probabilidade 0,5) terá distribuição amostral normal, com : E (Me) = µ (µ (µ (µ (x) Var (Me) = 1,5708 ( ) n x2σ µ (X) = média dos X (população) σ²(X) = variância dos X (população) Os valores µ (x) e σ²(x) podem ser estimados pelos valores amostrais. 3.5 Distribuição Amostral do Coeficiente de Variação (Cv) Análise Estatística I Profa Fernanda 28 Seja X uma população normal, então a distribuição amostral do coeficiente de variação também será normal com : E ( ^ CV ) = CV = σσσσ(x)/ µ ( µ ( µ ( µ (x) Var ( ^ CV ) = n CVCV 2 ])(21[)( 22 + Onde : ^ CV = coeficiente de variação amostral CV= coeficiente de variação populacional CV(x) = σσσσ(x)/ µ ( µ ( µ ( µ (x) 3.6 Distribuição Amostral da Diferença 3.6.1 Entre duas Médias Amostrais Suponhamos que : X1 ~ N (µµµµ1111 , σ , σ , σ , σ²1) e X2 ~ N (µµµµ2222 , σ , σ , σ , σ²2) Assim , dos resultados já vistos temos : ( )12111 /, nNX σµ≈ e ( )22222 /, nNX σµ≈ Temos que a distribuição amostral da diferença ou soma será também uma distribuição normal, com : Análise Estatística I Profa Fernanda 29 [ ] [ ] [ ] 212121 µµ ±=±=± XEXEXXE [ ] [ ] [ ] 2221212121 // nnXVarXVarXXVar σσ +=+=± Desta forma : ( ))/()/(; 2221212121 nnNXX σσµµ +±=± sendo a variável padrão Z , igual a : Z = 2 2 2 1 1 2 2121 )()( nn xx σσ µµ + ±−± Z ~N(0,1) 3.6.2 Entre duas Freqüências Seja f1 e f2 proporções amostrais: f1~N (p1 , p1q1/n1) e f2 ~ N (p2 , p2q2/n2) válidos quando n>30, então a distribuição amostral da soma ou diferença será aproximadamente normal com : E ( f1± f2 ) = E(f1) ± E(f2) = p1 ± p2 Var (f1 ± f2) = Var (f1) + Var (f2) = p1q1/n1 + p2q2/n2 Análise Estatística I Profa Fernanda 30 (f1± f2) ~ N [ p1 ± p2 ; p1q1/n1 + p2q2/n2 ] Quando não conhecemos os valores de p1 e p2, que são os parâmetros populacionais e n>30, substituímos p1 por f1 e p2 por f2 , logo : q1 = 1 – f1 e q2 = 1 – f2 e Z a v.a. padronizada será : Z = 2 22 1 11 2121 )()( n qp n qp ppff + ±−± CAPITULO 3 – DISTRIBUIÇÕES AMOSTRAIS
Compartilhar