Baixe o app para aproveitar ainda mais
Prévia do material em texto
Tópico 4: Inferência Estatística Universidade Federal de Pernambuco, Recife, PE Principais referências: Bussab e Morettin, Seções 10-12 Casella e Berger, Seções 5.1-5.2, 7, 8.1 Meyer, Seções 13-15 1 Amostras Aleatórias População é o conjunto de todos os elementos ou resultados sob investigação. Amostra é qualquer subconjunto da população. Seja X uma variável aleatória com fp ou fdp f(x) (ou X ∼ f(x)). Seja também X1, ...,Xn um conjunto de n variáveis aleatórias mutuamente independentes, cada uma com a mesma fp ou fdp marginal f(x) (ou seja um conjunto de variá- veis aleatórias independentes e identicamente distribuídas, ou iid). O conjunto X1, ...,Xn é definido como uma amostra aleatória de tamanho n de uma popu- lação X. Um parâmetro, θ, é uma medida usada para descrever uma característica de uma população, tal que X ∼ f(x∣θ). Uma estatística, T , é uma característica da amostra, uma função do vetor aleatório (X1, ...,Xn) que não depende de pa- râmetros desconhecidos (ou seja, uma função não-paramétrica). A distribuição amostral de T é a fdp ou fp g(t) da estatística T . Observação. Da definição de independência mútua, a fp ou fdp conjunta de X1, ...,Xn é dada por f(x1, ..., xn) = f(x1)f(x2)...f(xn) =∏ni=1 f(xi). Em par- ticular, se a fdp ou fp da população é paramétrica, então a fdp ou fp conjunta é f(x1, ..., xn∣θ) =∏ni=1 f(xi∣θ). O problema da inferência estatística consite em fazer uma afirmação sobre um parâmetro θ da população X, através do valor t de uma estatística T em uma ou mais amostras aleatórias. 1 Curso de Estatística Tópico 4 Figura 1: Esquema de inferência sobre θ. Três estatísticas que são frequentemente utilizadas e fornecem bons sumários da amostra são as seguintes: • A média amostral é a média aritmética dos valores de uma amostra alea- tória, denotada por X¯ = X1 + ... +Xn n = 1 n n∑ i=1Xi; • A variância amostral é a estatística definida por S2 = 1 n − 1 n∑i=1(Xi − X¯)2; • O desvio padrão amostral é a estatística definida por S = √S2. Teorema 1: Sejam X1, ...,Xn uma amostra aleatória de uma população com média µ e variância σ2 <∞. Então, • E(X¯) = µ, • Var(X¯) = σ2 n , • E(S2) = σ2. Demonstração. Seja E(Xi) = E(X) = µ e Var(Xi) = Var(X) = σ2. Das de- finições e teoremas estabelecidos para a média e a variância de uma variável aleatória, temos E(X¯) = E( 1 n n∑ i=1Xi) = 1n E( n∑i=1Xi) = 1n n∑i=1 E(Xi) = 1nnµ = µ; Var(X¯) = Var( 1 n n∑ i=1Xi) = 1n2 Var( n∑i=1Xi) = 1n2 n∑i=1 Var(Xi) = 1n2nσ2 = σ 2 n . 2 Curso de Estatística Tópico 4 Para provar a última relação, note que ∑ni=1X2i = ∑ni=1(Xi−X¯+X¯)2 = ∑ni=1(Xi− X¯)2−2∑ni=1(Xi−X¯)X¯+∑ni=1 X¯2 = ∑ni=1(Xi−X¯)2+∑ni=1 X¯2, pois o termo cruzado é 0. Logo ∑ni=1(Xi − X¯)2 = ∑ni=1X2i −∑ni=1 X¯2 e E(S2) = E [ 1 n − 1 n∑i=1 (Xi − X¯)2] = E [ 1n − 1 ( n∑i=1X2i − n∑i=1 X¯2)] = 1 n − 1 [ n∑i=1 E(X2i ) − n∑i=1 E(X¯2)] = 1 n − 1 { n∑i=1 [Var(Xi) + (E(Xi))2] − n∑i=1 [Var(X¯) + (E(X¯))2]} = 1 n − 1 [n(σ2 + µ2) − n(σ2n + µ2)] = σ2. 2 Estimação Pontual Um estimador pontual é qualquer função não-paramétrica de uma amostra. Isto é, qualquer estatística é um estimador pontual. Uma estimativa é o valor observado de um estimador em uma determinada amostra. 2.1 Propriedades de Estimadores O erro quadrático médio (EQM) de um estimador T de um parâmetro θ é a função de θ definida por E(T −θ)2 (ou seja, o EQM mede a diferença quadrática média entre o estimador T e o parâmetro θ). Segue que E(T − θ)2 = Var(T ) + [E(T ) − θ]2 = Var(T ) + [Vθ(T )]2, em que Vθ(T ) = E(T )− θ é definido como o viés de um estimador pontual T de um parâmetro θ (ou seja, Vθ é a diferença entre θ e o valor esperado de T ). Um estimador cujo viés, em θ, é identicamente igual a 0 é chamado de não viesado e satisfaz E(T ) = θ e E(T − θ)2 = Var(T ). Observação. As estatísticas X¯ e S2 são exemplos de estimadores não-viesados de µ e σ2, respectivamente. O uso de n− 1 na definição de S2 pode parecer não intuitivo. Mas se S2 for definido como a média usual dos desvios quadráticos com n no denominador, então E(S2) seria n−1 n σ2 e S2 não seria um estimador não viesado de σ2. 3 Curso de Estatística Tópico 4 Figura 2: Representação gráfica para o EQM. Uma sequência Tn de estimadores de um parâmetro θ é consistente se, para todo ε > 0, lim n→∞P (∣Tn − θ∣ < ε) = 1. Isto implica que, à medida que o tamanho da amostra se torna infinito, o estima- dor estará arbitrariamente próximo do parâmetro com elevada probabilidade. Teorema 2: Uma sequência de estimadores é consistente se lim n→∞E(Tn) = θ e limn→∞Var(Tn) = 0. Se T e T ′ são dois estimadores não viesados de um mesmo parâmetro θ, e ainda Var(T ) < Var(T ′), então T diz-se mais eficiente do que T ′. Este é um critério útil para comparação entre dois estimadores de um mesmo parâmetro. Um estimador T ∗ é um melhor estimador não viesado de θ se satisfaz E(T ∗) = θ e, para qualquer outro estimador T com E(T ) = θ, temos Var(T ∗) < Var(T ). 2.2 Métodos de Estimação Estimadores de Momentos Seja X1, ...,Xn uma amostra de uma popula- ção X com fdp ou fp f(x∣θ1, ..., θr). Seja o µ′k = E(Xk) o k-ésimo momento de X e mk = 1n ∑ni=1Xki o k-ésimo momento amostral. Dizemos que θˆ1, ..., θˆr são estimadores de θ1, ..., θr obtidos pelo método dos momentos se eles forem soluções das equações 4 Curso de Estatística Tópico 4 mk = µ′k, para k = 1,2, ..., r. Estimadores de Máxima Verossimilhança Seja X1, ...,Xn uma amostra iid de uma população X com fdp ou fp f(x∣θ) e x1, ..., xn os valores efetivamente observados desta amostra. A função de verossimilhança é a função de θ definida por L(θ∣x1, ..., xn) = n∏ i=1 f(xi∣θ). O estimador de máxima verossimilhança de θ é o valor θˆMV que maximiza L(θ∣x1, ..., xn). Ou seja, é o valor do parâmetro para o qual a amostra observada é a mais provável. Observação. Seja x = (x1, ..., xn)′ o vetor contendo a amostra. Se a função de verossimilhança for diferenciável em θ, um possível candidato para θˆMV é o valor θ que resolve ∂ ∂θ L(θ∣x) ou ∂ ∂θ l(θ∣x), em que l(θ∣x) = log[L(θ∣x)]. 3 Estimação Intervalar Uma estimativa intervalar de um parâmetro θ é qualquer par de funções L(⋅) e U(⋅) tal que, para toda amostra X1, ...,Xn = X, L(X) ≤ U(X). Se X = x for observado, a inferência L(x) ≤ θ ≤ U(x) é efetuada. O intervalo aleatório[L(X), U(X)] é chamado de estimador intervalar. O coeficiente de confiança γ do intervalo aleatório [L(X), U(X)] é o valor as- sociado à probabilidade de que [L(X), U(X)] abranja o parâmetro verdadeiro θ. Isto é, P (θ ∈ [L(X), U(X)]) = γ 3.1 Intervalos de Confiança Estimadores intervalares, em conjunto à um coeficiente de confiança, são co- nhecidos como intervalos de confiança. Para exemplificar a construção de um intervalo de confiança, suponha que queiramos estimar a média µ de uma po- pulação X, usando a média X¯ de uma amostra de tamanho n. Do TLC, e = (X¯ − µ) ∼ N (0, σ2 n ) , em que e é o erro amostral associado à X¯. Podemos daqui determinar qual a probabilidade de cometermos erros de determinadas magnitudes, ou 5 Curso de Estatística Tópico 4 P (∣e∣ < ε) = γ, O seguinte desenvolvimento é imediato: P (∣e∣ < ε) = P (∣X¯ − µ∣ < ε) = P (−ε < X¯ − µ < ε) = P ⎛⎝− εσ√ n < X¯ − µσ√ n < εσ√ n ⎞⎠= P (−z 1−γ 2 < Z < z 1−γ 2 ) = γ, em que Z ∼ N(0,1) e z 1−γ 2 é um valor tabelado da distribuição normal padrão.∗ Voltando alguns passos, temos P (−z 1−γ 2 < Z < z 1−γ 2 ) = P (µ − z 1−γ 2 σ√ n < X¯ < µ + z 1−γ 2 σ√ n ) . Logo, para uma dada amostra, o intervalo de confiança para µ com coeficiente de confiança γ e com σ2 conhecido será indicado por: IC(µ, γ) = [µ − z 1−γ 2 σ√ n , µ + z 1−γ 2 σ√ n ] . Figura 3: Significado de um IC para µ e γ, com σ2 conhecido. ∗De acordo com a notação adotada, a tabela utilizada deveindicar o valor z 1−γ 2 tal que P (z 1−γ 2 < Z) = 1−γ 2 . 6 Curso de Estatística Tópico 4 Observação. Convém notar que intervalos de confiança são construídos sobre parâmetros, não sobre variáveis aleatórias. Devemos assim interpretar um in- tervalo de confiança da seguinte maneira: se pudéssemos construir uma grande quantidade de intervalos (aleatórios) da forma [L(X), U(X)], 100 × γ% deles conteriam o parâmetro θ. 4 Testes de Hipóteses Uma hipótese é uma declaração sobre um parâmetro da população. As duas hipóteses complementares em um problema envolvendo um teste de hipóteses são chamadas hipótese nula e hipótese alternativa, denotadas por H0 e H1, res- pectivamente. Dado um parâmetro populacional θ, o formato geral da hipótese nula e da hi- pótese alternativa é H0 ∶ θ ∈ Θ0 e H1 ∶ θ ∈ ΘC0 , onde Θ0 é um algum subconjunto do espaço de parâmetros e ΘC0 é seu complemento. Por exemplo, suponha que a hipótese nula seja que o verdadeiro valor de θ é θ0. Assim, H0 ∶ θ = θ0. A hipótese alternativa, considerada aceitável caso H0 seja rejeitada, pode pode ter formas como H1 ∶ θ ≠ θ0, H1 ∶ θ < θ0 ou H1 ∶ θ > θ0, a depender das informações do problema. Um procedimento para testar uma hipótese, ou um teste de hipótese, é uma re- gra que especifica: (a) para quais valores amostrais a decisão aceita H0 como verdadeira; e (b) para quais valores amostrais H0 é rejeitada e H1 é aceita como verdadeira. O subconjunto do espaço amostral para o qual H0 será rejeitada é chamado de região de rejeição, ou região crítica. O complemento da região de rejeição é chamado de região de aceitação. Geralmente, um teste de hipóteses é especificado em termos de uma estatística de teste W (X1, ...,Xn) = W (X), uma função da amostra. Por exemplo, um teste pode especificar que H0 será rejeitada se X¯, a média amostral, for maior que θ0. Neste caso, W (X) = X¯ é a estatística de teste e a região de rejeição é{x ∶ x¯ > θ0}, em que x = x1, ..., xn é um ponto amostral. 4.1 Probabilidades de Erro e Função Poder Um teste de hipóteses pode resultar em um de dois tipos de erros, conhecidos como Erro do Tipo I e Erro do Tipo II. Se θ ∈ Θ0, mas o teste de hipóteses decide incorretamente rejeitar H0, então o teste cometeu um Erro do Tipo I. 7 Curso de Estatística Tópico 4 Se, por outro lado, θ ∈ ΘC0 , mas o teste decide aceitar H0, temos um Erro do Tipo II. Decisão Aceitação H0 Rejeição H0 Verdade H0 Decisão correta Erro do tipo I H1 Erro do tipo II Decisão correta Suponha que RC denote a região de rejeição para um teste. Então, para θ ∈ Θ0, o teste resultará em um erro se W (x) ∈ RC, de modo que a probabilidade de um Erro do Tipo I é dada por P (Erro do tipo I) = P (W (X) ∈ RC ∣θ ∈ Θ0) = P (Rejeitar H0|H0 é verdadeira)= α. Para θ ∈ ΘC0 , a probabilidade de um Erro do Tipo II é dada por P (Erro do tipo II) = P (W (X) ∉ RC ∣θ ∈ ΘC0 ) = P (Não rejeitar H0|H0 é falsa)= β. A probabilidade α é um valor arbitrário e recebe o nome de nível de significância do teste. Escolhas típicas para o valor de α são 0,01, 0,05 e 0,10. O valor 1−β usualmente é chamado de poder do teste, e corresponde à probabilidade de se rejeitar H0 quando esta é falsa. A probabilidade β é uma função dos valores atribuídos ao parâmetro θ, especificados ou não em H1. Figura 4: Ilustração dos erros tipo I e II e da RC para um teste tal que H0 = µA e H1 = µB , sendo µA > µB . 8 Curso de Estatística Tópico 4 4.2 Valores P Depois que um teste de hipóteses é realizado, as conclusões devem ser relata- das de algum modo estatisticamente significativo. Um método para relatar os resultados de um teste é expor o nível de significância α utilizado e a decisão de rejeitar ou aceitar H0. Se α for pequeno, a decisão de rejeitar H0 é bastante convincente, mas se α for grande, a decisão de rejeitar H0 não é muito convin- cente porque o teste tem uma grande probabilidade de levar, incorretamente, a esta decisão. Outro meio de relatar os resultados de um teste é expor o chamado p-valor do teste. O p-valor p(X) é uma estatística que satisfaz 0 < p(x) < 1 para cada ponto amostral x, e corresponde à probabilidade de ocorrer valores da estatística de teste W (X) mais extremos do que o observado para x, sob a hipótese de H0 ser verdadeira. Ou seja, p(x) = P (W (X) ≤W (x)∣θ ∈ Θ0). Rejeitaremos H0 para aqueles níveis de significância α maiores do que o p-valor encontrado. 4.3 Principais Exemplos Teste para a Média de uma População Testar a hipótese de que a média de uma população µ seja igual a um número fixado µ0, supondo-se a variância σ2 dessa população conhecida. Definimos, primeiro, as nossas hipóteses de interesse: H0 ∶ µ = µ0 H1 ∶ µ ≠ µ0 Em seguida, definimos a estatística a ser utilizada: X¯ ∼ N (µ, σ2 n ) Atribuímos então um nível de significância α = α0% ao teste e calculamos a região crítica: ±zα0 2 = √n(x¯c − µ0) σ ⇒ ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩ x¯c1 = µ0 − zα0 2 σ√ n x¯c2 = µ0 + zα0 2 σ√ n Aqui utilizamos valores tabelados da distribuiçao normal padrão para encontrar o valor zα0 2 tal que P (∣Z ∣ < zα0 2 ) = 1 − α0. Segue que: 9 Curso de Estatística Tópico 4 RC = {x¯ ∈ R∣x¯ ≤ x¯c1 ou x¯ ≥ x¯c2} Calculamos, por fim, a estatística de teste x¯0. Caso x¯0 pertença à RC, rejeitamos H0. Caso contrario, não rejeitamos H0. Figura 5: Região crítica para o teste H0 ∶ µ = µ0 vs H1 ∶ µ ≠ µ0. Observação. Caso o teste em questão seja unilateral (H1 ∶ µ > µ0 ou H1 ∶ µ < µ0), utilizamos valores tabelados da distribuiçao normal padrão para encontrar o valor zα0 tal que P (Z < zα0) = 1 − α0, caso H1 ∶ µ > µ0, ou P (Z > −zα0 2 ) = 1 − α0, caso H1 ∶ µ < µ0. Daí RC = {x¯ ∈ R∣x¯ ≥ x¯c} ou RC = {x¯ ∈ R∣x¯ ≤ x¯c}, respectivamente. Observação. Caso a variância da população σ2 não seja conhecida, a estatística a ser utilizada é t = √n(X¯−µ0) S ∼ t(n−1). Fixado o valor α0, utilizamos os valores tabelados da distribuiçao t de Student para encontrar o valor tα0 2 tal que P (∣t∣ < tα0 2 ) = 1 − α0. Testes para Proporção Testar a hipótese de que a proporção p de indivíduos portadores de certa característica seja igual a certo valor p0, contra a hipótese de esta proporção ser maior que p0. Definimos as hipóteses de interesse: H0 ∶ p = p0, H1 ∶ p > p0; a estatística utilizada (proporção amostral): pˆ ∼ N (p, p(1 − p) n ) ; 10 Curso de Estatística Tópico 4 e nível de significância α = α0%. Utilizando os valores tabelados da distribuição normal-padrão, calculamos a região crítica: zα0 = √n(pˆc − p0)σ ⇒ pˆc = p0 + zα0 σ√n, RC = {pˆ ∈ R∣pˆ ≤ pˆc}. Por fim, calculamos a estatística de teste pˆ0. Caso pˆ0 pertença à RC, rejeitamos H0. Caso contrario, não rejeitamos H0. Figura 6: Região crítica para o teste H0 ∶ p = p0 vs H1 ∶ p > p0. Teste para a Variância de uma População (com Distribuição Normal) Testar a hipótese de que a variância de uma população σ2 seja igual a um nú- mero fixado σ0. Definimos as hipóteses de interesse: H0 ∶ σ2 = σ20 , H1 ∶ σ ≠ σ20 ; a estatística utilizada: X 2 = (n − 1)S2 σ20 ∼ X 2(n−1); e o nível de significância α = α0%. Utilizamos os valores tabelados da distribui- çao qui-quadrado para encontrar os valores X 21 e X 22 tais que P (0 < X 2 < X 21 ouX 2 > X 22 ) = α0. Em seguida, observado o valor s20 da estatística S2, obteremos o valor X 20 = (n−1)s20σ20 . Se X 20 ∈ RC, rejeitamos H0. Caso contrário, aceitamos H0. 11 Curso de Estatística Tópico 4 Figura 7: Região crítica para o teste H0 ∶ σ2 = σ20 vs H1 ∶ σ ≠ σ20 . ∎ 12 Amostras Aleatórias Estimação Pontual Propriedades de Estimadores Métodos de Estimação Estimação Intervalar Intervalos de Confiança Testes de Hipóteses Probabilidades de Erro e Função Poder Valores P Principais Exemplos
Compartilhar