Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 2 – Estimação Pontual de Médias e Totais Populacionais 2.1 – Objetivo Geral da Estimação Dado um plano amostral probabilístico, digamos p, e um parâmetro-alvo θ, definir: 1) Estimador Pontual Não Viciado para θ 2) Variância (Teórica) do Estimador de θ 3) Estimador da Variância do Estimador de θ 2.2 - Distribuição Amostral A distribuição amostral de um estimador é a sua distribuição de probabilidade. Ela representa o comportamento dos valores assumidos pelo estimador, quando consideramos todas as amostras de tamanho n que poderiam ser selecionadas da população U. Exemplo 2.1 - considere a população do exemplo 1.1, repetida a seguir: U yi 1 4 2 5 3 3 4 3 Obtenha a distribuição amostral de , considerando uma AAS com n = 2. y Solução: O espaço amostral é S = {(1,2);(1,3);(1,4);(2,3);(2,4);(3,4)}. Estas amostras, suas probabilidades e os respectivos valores de são dados a seguir.y s p(s) (1,2) 1/6 4,5 (1,3) 1/6 3,5 (1,4) 1/6 3,5 (2,3) 1/6 4 (2,4) 1/6 4 (3,4) 1/6 3 y A distribuição amostral de é: y 3/1)4y(p)5,3y(p 6/1)5,4y(p)3y(p ==== ==== 2 Um estimador não viciado é aquele cujo valor esperado é igual ao parâmetro. Ou seja, um estimador é não viciado para um parâmetro θ se: θˆ .)ˆ(E θ=θ 2.3 - Estimador Não Viciado O vício de é dado por: Evidentemente, se um estimador é não viciado, seu vício é zero. .)ˆ(E)ˆ(B θ−θ=θ θˆ Do inglês: bias = vício. Exemplo 2.1 (cont.) - Calcule e verifique se é um estimador não viciado para . Solução: .75,35,4 6 14 3 15,3 3 13 6 1)y(E =+++= .75,3Y = O estimador é não viciado! ),y(E Y y 2.4 - Estimador Linear Um estimador linear é aquele que é dado por uma combinação linear das observações y na amostra, ou seja: Exemplos de estimadores lineares? .yˆ i si i∑ ∈ ω=θ A média amostral é um estimador linear, com pesos ωi = 1/n, ∀i ∈s. O total amostral t é um estimador linear, com pesos ωi = 1, ∀i ∈s. Intuitivamente, t parece um bom estimador para o total populacional Y? 2.5 - Estimadores de Horvitz-Thompson Dois pesquisadores (Horvitz e Thompson) desenvolveram, na década de 50, uma teoria que define estimadores lineares não viciados para total e média para qualquer plano amostral que seja probabilístico. Os estimadores resultantes são chamados estimadores de Horvitz-Thompson. 3 Demonstração do Estimador de HT para o Total Populacional: Seja o parâmetro total populacional: E um estimador linear genérico: ∑ ∈ = Ui iyY ∑ ∈ ω= si iiyYˆ Nosso problema é obter os pesos ωi tais que este estimador seja não viciado. Em princípio, isto poderia ser feito diretamente, resolvendo a equação: ∑ ∑ ∑∑ ∈ ∈ ∈∈ =ω =ω = si Ui iii Ui i si ii y)y(E y)y(E Y)Yˆ(E Problema: quanto vale E(yi)? Uma forma elegante de resolver este problema passa pela definição da seguinte variável binária: Esta variável, definida ∀ i∈U, é chamada variável indicadora de inclusão na amostra. s.i se 0, s;i se 1,δi ∉= ∈= δi é utilizada para escrever o estimador de forma equivalente, como um somatório na população: (a equivalência vem do fato de que, se i∉s, então δi = 0, e assim ωiyiδi = 0) .yyYˆ Ui iii si ii ∑∑ ∈∈ δω=ω= A vantagem desta nova representação é que yi não é mais variável aleatória (pois está associada a uma unidade populacional, fixa). A única variável aleatória no novo somatório é δi, assim: .)(Ey)Yˆ(E Ui iii∑ ∈ δω= pii, pois δi ~ Bernoulli(pii). Assim, para que seja não viciado, é necessário que: Yˆ .Ui ,11 yy Y)Yˆ(E i iii Ui ii Ui ii ∈∀ pi =ω⇔=piω =piω = ∑∑ ∈∈ pesos amostrais para o estimador de total. 4 Estimador de HT para o Total: Estimador de HT para a Média: ∑ ∈ = si i i HT y π 1Yˆ ∑ ∈ == si i i HT HT yNπ 1 N YˆYˆ no caso da média, os pesos amostrais são ωi = 1/Npii, ∀i∈s. Exemplo 2.2 - Considere os dados do ex. 1.1 e a amostra s = (2,3), obtida pelo plano amostral do ex. 1.3: p(1,2) = p(3,4) = 0; p(1,3) = ½; p(1,4) = p(2,3) = p(2,4) = 1/6. Estime sem vício a média e o total populacionais. Solução: .5,193* 2 35*3y 2 3y3y1y1Yˆ 323 3 2 2 HT =+=+= pi + pi = .875,4 4 5,19 N YˆYˆ HT === • Interpretação do Peso Amostral O peso ωi é o número de unidades populacionais que estão sendo representadas na amostra pela i-ésima unidade amostral. Isto ficará mais claro mais adiante. • Expansão da Amostra O processo de multiplicar os valores de y na amostra pelos respectivos pesos, para fins de cálculo de estimadores, chama-se expandir a amostra. A expansão da amostra é necessária para que os parâmetros populacionais sejam estimados sem vício. Perceba a importância dos resultados obtidos aqui: eles permitem estimar totais e médias sem vício, sob qualquer plano probabilístico, desde que tenhamos as probabilidades de inclusão (e já aprendemos como calculá-las). Os estimadores obtidos são os únicos não viciados, dentre os estimadores lineares. 5 3 - Estimação de Variâncias e Medidas de Precisão 3.1 - Objetivo Principal Estimar as variâncias dos estimadores derivados no módulo 2 sob cada plano, para, a partir delas, calcular medidas de variabilidade associadas às estimativas. Lembrem-se: estimativas pontuais sem medida de variabilidade não dizem nada. 3.2 - Comparando Estratégias Não Viciadas Cada plano amostral probabilístico gera um estimador não viciado diferente (módulo 2). O conjunto plano amostral + respectivo estimador não viciado para θ, é chamado estratégia de estimação não viciada para θ. Assim, podemos ter várias estratégias de estimação não viciadas para um parâmetro, e, portanto, precisamos saber compará-las. Esta comparação é feita a partir das variâncias teóricas das estratégias de estimação, ou seja, dos estimadores não viciados sob cada plano amostral. Ilustração - estratégia 1 melhor que a 2: θ-ε θ+εθ 11 p sob,ˆ de ãodistribuiç θ 22 p sob ,ˆ de ãodistribuiç θ Formalmente, a comparação é feita via Efeito do Plano Amostral, ou EPA (design effect), que nada mais é do que a razão das variâncias teóricas dos estimadores. • Efeito do Plano Amostral (EPA) O EPA (Efeito do Plano Amostral) é a razão entre as variâncias teóricas correspondentes a duas estratégias não viciadas de estimação, quando utilizadas para estimar um mesmo parâmetro-alvo. 6 EPA < 1 ⇒ Estratégia E1 mais eficiente. EPA > 1 ⇒ Estratégia E2 mais eficiente. . )θˆ(V )θˆ(V)E,EPA(E :por dado é elas entreEPA O 22P 11P 21 = ).θˆ;P(:E e )θˆ;P(:E : viciadas)(não sestratégia as Sejam 222111 Para calcular o EPA, precisamos de uma fórmula para obter as variâncias teóricas. 3.3 - Variâncias Teóricas dos Estimadores de HT As variâncias dos estimadores de Horvitz- Thompson dependem dos piis e das probabilidades de inclusão conjuntas ou de segunda ordem: piij = p[(i∈s)∩(j∈s)]. Começaremos apresentando a variância do estimador de total. A variância do estimador de média pode ser obtida a partir dele. Note que o estimador de total, escrito na forma de um somatório na população, fica: Por outro lado, a variância da combinação linear de v.a.`s apresentada acima é: .),(Covyy2)(Vy ji ji j j i i Ui i 2 i i ∑∑∑ <∈ δδ pi pi +δ pi . yYˆ Ui i i i∑ ∈ δ pi = Sendo δi ~ Bernoulli(pii), verifica-se que:Substituindo na fórmula do slide anterior, obtemos a expressão final da variância, apresentada no slide seguinte. V(δi) = pii(1-pii) e Cov(δi,δj) = piij-piipij. Variância do Estimador de Total: sendo piij = p[(i∈s)∩(j∈s)]. ∑∑∑ <∈ pipi−pi pi pi +pi−pi pi = ji jiij j j i i Ui ii 2 i i HT )(yy2)1(y )Yˆ(V 7 Para obter a variância do estimador da média, basta dividir por N2. Variância do Estimador da Média: pipi−pi pi pi +pi−pi pi == ∑∑∑ <∈ ji jiij j j i i Ui ii 2 i i 2 2 HT HT )(yy2)1(y N 1 N )Yˆ(V)Yˆ(V 3.4 – Estimação das Variâncias Na prática, o que fazemos é calcular as estimativas das variâncias, a partir das fórmulas dos próximos slides. Estimador da Variância do Estimador do Total: Este estimador é não viciado para ∑∑∑ <∈ pi pipi−pi pi pi +pi− pi == ji ij jiij j j i i si i 2 i i HTHT )(yy2)1(y )Yˆ(v)Yˆ(Vˆ ).Yˆ(V HT Estimador da Variância do Estimador da Média: pi pipi−pi pi pi +pi− pi == ∑∑∑ <∈ ji ij jiij j j i i si i 2 i i 2 2 HT HT )(yy2)1(y N 1 N )Yˆ(Vˆ)Yˆ(Vˆ Este estimador é não viciado para ).Yˆ(V HT Exemplo 3.1 - Considere novamente os dados do exemplo 1.1 e o plano amostral: p(1,2) = p(3,4) = 0; p(1,3) = ½; p(1,4) = p(2,3) = p(2,4) = 1/6. Baseado na amostra s = (2,3), obtenha as estimativas da variância dos estimadores de total e média populacionais, usando os estimadores não viciados apresentados. 8 Relembrando os dados do exemplo 1.1: U yi 1 4 2 5 3 3 4 3 Respostas - piij = 1/6 (que é a própria probabilidade da amostra s = (2,3)) e: .98,6 16 75,111 N )Yˆ(v)Yˆ(v .75,111)Yˆ(v 2 HT HT HT === = Obs - uma crítica aos estimadores de variância reportados é que, em situações não tão raras, podem gerar estimativas negativas. Um estimador alternativo, também não viciado, e que gera valores negativos com frequência menor, foi definido por Sen-Yates-Grundy: 2 j j i i si ji ij ijji HTSYG yy)()Yˆ(Vˆ pi − pipi pi−pipi =∑∑ ∈ < 3.5 - Medidas de Precisão A partir da variância, podemos obter importantes medidas de precisão associadas às estimativas, como: - erros padrão (desvios padrão dos estimadores – para que servem?) - coeficientes de variação (CV`s) • Erro Padrão O erro padrão de um estimador é o seu desvio padrão, isto é, a raiz quadrada da sua variância: )Yˆ(V)Yˆ(EP = )Yˆ(EP*N)Yˆ(V)Yˆ(EP == Na prática, o erro padrão teórico não é conhecido. Entretanto, dada uma amostra, podemos estimá-lo : )Yˆ(v)Yˆ(ep = )Yˆ(ep*N)Yˆ(v)Yˆ(ep == 9 • Coeficiente de Variação Outra medida usual é o coeficiente de variação (CV). O CV de um estimador é: )ˆ(E )ˆ(EP)ˆ(CV θ θ =θ = θ, se o estimador é não viciado. No caso específico da estimação sem vício (via HT) da média e do total populacionais, a fórmula do CV torna-se: Y )Yˆ(EP)Yˆ(CV = Y )Yˆ(EP)Yˆ(CV = são iguais, sempre! O CV expressa o erro padrão em relação ao parâmetro (proporção ou percentual dele), permitindo comparar a variabilidade de estimadores de diferentes magnitudes. Exemplo 3.2 - Suponha que estejamos interessados em estimar o salário médio em diferentes ramos de atividade, por exemplo, salários médios de gerentes e de office-boys. Suponha que o salário médio dos gerentes seja de R$ 5.000,00 e o dos office-boys seja de R$ 500,00. Um erro padrão igual a 100 indica variabilidade alta ou baixa? No caso dos office-boys, este erro padrão é 20% do salário médio, portanto é relativamente alto. CV = 0,2 = 20%. Por outro lado, no caso dos gerentes, este erro padrão representa 2% do salário médio, sendo relativamente baixo. CV = 0,02 = 2%. A dispersão relativa é bem menor! O coeficiente de variação estimado é: Yˆ )Yˆ(ep)Yˆ(cv = Yˆ )Yˆ(ep)Yˆ(cv = O coeficiente de variação estimado fornece uma medida do erro padrão em relação ao valor da estimativa. são iguais, sempre! Exemplo 3.3 - Na situação do exemplo 3.1, estime o erro padrão e o CV dos estimadores adotados. ).Yˆ(cv%15,54)Yˆ(cv )4/)Yˆ(ep ou( 64,2)Yˆ(v)Yˆ(ep .56,10)Yˆ(v)Yˆ(ep:R HTHT HTHTHT HTHT == == ==
Compartilhar