Baixe o app para aproveitar ainda mais
Prévia do material em texto
V - ESTIMAÇÃO Neste capítulo analizaremos mais detalhadamente o critério EQM (Erro Quadrático Médio comumente usado para comparar estimadores alternativos de um mesmo parâmetro populacional. Em seguida, enunciaremos o Teorema de Lehmann e Scheffé, o qual permite identificar estimadores não viesados de menor variância (MVU: Minimum Variance Unbiased). Na sequência, focalizaremos as propriedades assintóticas desejáveis dos estimadores, onde supõe-se que o tamanho da amostra pode crescer indefinidamente. Por último, focalizaremos dois métodos de estimação privilegiada: o método da Máxima Verossimilhança (MV) e o Método dos Momentos (MM). Todo ao longo deste capítulo consideraremos uma amostra simples X1,X2, . . . ,Xn de tamanho n sobre uma população X com suporte X, fdp fX. , dependente de um parâmetro desconhecido. Notaremos por n TX1,X2, . . . ,Xn o estimador amostral de . 1. ÊRRO QUADRÁTICO MÉDIO (EQM) Quando temos dois estimadores alternativos n e n para o parâmetro desconhecido e que ambos são não viesados ou seja, E n E n é natural que se dê preferência ao estimador que tiver a menor variância: a menor dispersão do estimador ao redor do parâmetro que ele pretende estimar indica que uma maior precisão é obtida com aquela estimação. A escolha fica todavia menos clara quando um dos estimadores é viesado mas possui variância menor que a do outro, que é não é viesado. Em que medida o viés é compensado pela menor variância ? Um critério natural a ser usado na comparação de estimadores obtidos em amostras finitas, é o critério do êrro quadrático médio (EQM): o melhor estimador será aquele que tem o menor EQM. Seja n o êrro amostral cometido com o estimador n para a estimação de . Observe que n n E n E n __________________________ Hugo Boff - Estatística II 2021 2 n 2 n E n2 E n 2 2E n n E n Tomando o valor esperado de ambos os lados da equação acima e levando em conta que E n E n 0 vem: E n 2 E n E n2 E n 2 Definindo EQM n E n 2 obtemos finalmente: EQM n V n E n 2 1 O segundo termo da soma à direita de 1 é o quadrado do viés, de modo que o erro quadrático médio se define como: EQM n Variância de n Quadrado do viés. Ou seja, no cômputo do EQM, variância e viés são levados em conta com o mesmo peso. Observe também que se n for não viesado, o seu EQM se reduz à sua variância. Exemplo 1: Estimação da variância em populações normais Vimos no Capítulo II dois estimadores alternativos para a variância 2 : Sn1 2 1 n 1 i1 n X i Xn2 o qual é não viesado e tem variância VSn12 2 4 n 1 . n 2 1n i1 n X i Xn2 o qual é viesado e tem variância menor: Vn 2 n 1n 2VSn1 2 . Qual dos dois é preferível pelo critério EQM ? O viés de n 2 n1n Sn1 2 é: En 2 2 n1n 2 2 1n 2 Então: EQMn2 2n 1 n2 4 1 n2 4 2n 1 n2 4 e EQMSn12 2 n 1 4 . __________________________ Hugo Boff - Estatística II 2021 3 De modo que: EQMn2 EQMSn12 2n 14/n2 24/n 1 2n 1n 1 2n2 1 3n 1 2n2 1. Ou seja, o viés de n 2 é compensado pela sua menor variância com relação à Sn1 2 , de modo que, pelo critério EQM, n 2 é preferível à Sn1 2 . Observe porém que a superioridade de n 2 se dissipa à medida que o tamanho da amostra aumenta. Assintóticamente, para n , os dois estimadores são equivalentes. Exemplo 2: Estimação do valor extremo em populações unformes Sendo X Unif0, consideramos dois estimadores amostrais alternativos para o extremo populacional : n Xn máximo amostral; n 2Xn duas vezes a média amostral. Sabemos que n é não viesado E2Xn 2 2 e que sua variância é: V n 4V Xn 4 2/12 n 2 3n . Assim, EQM n 2 3n . A densidade de n é f nx n xn1 n ; x 0, de modo que E n 0 xn x n1 n dx n n 1 . Assim, o viés é: n n 1 n 1 . Entretanto, n tem variância menor que V n 2 3n . Com efeito, E n 2 0 x2n x n1 n dx n n 2 2 , de modo que: V n E n 2 E2 n nn 2 2 n n 1 22 n n 2n 12 2 1 3n 2. Logo o êrro quadrático de n será: EQM n n n 2n 12 2 n 1 2 n n 2 1 2 n 12 2 n 1n 2 2 __________________________ Hugo Boff - Estatística II 2021 4 Então, EQM n EQM n 1 3n 2 2 n 1n 2 2 n 1n 2 6n 1 ; n 1,2 1 ; n 3,4, 5. . . Ou seja, o viés de n é compensado pela sua menor variância, de modo que ele é preferível ao estimador n. Diferentemente do exemplo anterior, a superioridade de n não se dissipa com o aumento no tamanho da amostra. Antes, ela aumenta com o aumento de n. 2. ESTIMADORES NÃO VIESADOS DE MENOR VARIÂNCIA (MVU) Nesta seção apresentamos primeiro a teoria que embasa a construção de estimadores não viesados de menor variância (MVU: Minimum Variance Unbiased). Em seguida, ilustramos como estes estimadores são obtidos através de exemplos. A teoria se resume em dois teoremas, o segundo dos quais requer a definição prévia de estatísticas completas. Como veremos, os estimadores MVU são funções de estatísticas suficientes, uma noção já introduzida no Capítulo II. 1. Teorema de Rao e Blackwell Seja SX1,X2, . . . ,Xn uma estatística suficiente para e TX1,X2, . . . ,Xn um estimador não viesado de , o qual não é função apenas de S. Então, ET S é um estimador não viesado de , melhor que T, pois V VT. Prova: Primeiro, observe que, sendo S suficiente, a densidade condicional de T, dado S s, não depende de . Logo, ET S é independente de de modo que ET S é bem um estimador (estatística). Por outro lado, sabemos que E EET S ET sfSsds tfTt sdtfSsds t fTt, s fSs dtfSsds t fTt, sdsdt tfTtdt ET . Assim, n é um estimador não viesado de . __________________________ Hugo Boff - Estatística II 2021 5 Lembremos agora da fórmula da variância: VT VET S EVT S 2 Ora, EVT S 0, pois este é o valor esperado de uma v.a. não negativa. Logo, VT VET S V . Ou seja, é um estimador melhor do que T. Como o estimador T do teorema é arbitrário, e como ET S é um estimador somente se S for uma estatística suficiente, o teorema de Rao e Blackwell nos garante que, na busca por estimadores não viesados de menor variância, devemos olhar para as estatísticas suficientes S. Ou seja, o estimador MVU deverá necessáriamente ser função de uma estatística suficiente. Entretanto, é preciso garantir que, se o estimador MVU existe, ele é único pois, do contrário, se houver mais de um, não saberemos qual deles escolher. A unicidade do estimador MVU será garantida (q.c. : quase certamente) se a fdp da estatística suficiente pertencer à uma família de distribuições completa. Famílias e Estatísticas Completas Uma familia de densidades (distribuições) é notada fx; ; . Ou seja, todas as densidades da familia tem a forma de f, mas diferem entre si por diferentes s. Por exemplo, N; 1; é a família das distribuições normais com variância unitária e média , parâmetro locacional. Há uma densidade para cada . Dizemos que a família fx; ; é completa se, para qualquer função u, a condição EuX 0, implica ux 0 q.c. . A condição q.c. significa aqui: o conjunto de pontos x para os quais ux 0, tem probabilidade 0. Genéricamente, dizemos em Estatística que uma determinada propriedadevale quase certamente q.c. se é improvável que ela seja inválida. Exemplo 3: A família das distribuições uniformes no intervalo 0, é completa. Com efeito suponha EuX 0 ux 1 dx 0, 0. Isto equivale dizer que 0 uxdx 0, 0 . Temos assim uma função de que é nula para todo . Assim sendo, sua derivada com relação à também deverá ser nula, ou seja: __________________________ Hugo Boff - Estatística II 2021 6 0 uxdx u 0, 0. Ora, isso implicará que u 0 q.c. Exemplo 4: A família das funções de probabilidade Poisson é completa. Com efeito suponha: EuX e 0 0! u0 e 1 1! u1 e 2 2! u2 e 3 3! u3 . . . . 0 0. Vale dizer: 0 0! u0 1 1! u1 2 2! u2 3 3! u3 . . . . 0 0. Temos acima o polinomio que deve se anular para todo 0. Isto só ocorrerá se todos os coeficientes do polinômio ui/i! forem nulos ou seja se: u0 u1 u2 u3 . . . . 0. Assim, vem que u 0 e a família Poisson é completa. A família das distribuições exponenciais é completa. Boa parte das distribuições mais usuais pertencem à famílias completas. Dizemos que uma estatística TX1,X2, . . . ,Xn é completa se sua função de probabilidade (ou densidade) pertence à uma família completa. 2. Teorema de Lehmann e Scheffé Seja SX1,X2, . . . ,Xn uma estatística amostral suficiente para . Suponha que a família fSs;; seja completa. Ou seja, suponha que S seja uma estatística suficiente e completa. Se existe uma função S que é um estimador não viesado de ou seja, tal que ES então S é o único estimador MVU de . Obs: A prova está baseada em Rao e Blackwell. A completude de S assegura a unicidade q.c. de S .Com efeito, seja S um outro estimador não viesado de . Então, ES ES ES ES 0 ES S 0. Sendo fSs; membro de uma família completa, a igualdade s sfSs;ds 0 implicará: s s 0 q.c. ou seja, os dois estimadores serão iguais, exceto sobre um conjunto de probabilidade nula. __________________________ Hugo Boff - Estatística II 2021 7 Exemplo 5: Consideremos a população X Unif0, do Exemplo 2 acima. Na busca de um estimador MVU, devemos olhar para as estatísticas amostrais suficientes (Rao e Blackwel). Já sabemos que Xn o máximo amostral é suficiente. Logo, por Lehmann e Scheffé, a função de Xn que produzir um estimador não viesado de este será o estimador MVU. Além disso, este estimador será único (q.c.) se Xn for uma estatística completa. Vimos acima que a familia uniforme é completa. Em geral, estimadores obtidos à partir de famílias de distribuições completas são completos. Vamos checar isto neste caso, mostrando diretamente que a densidade fXnx; n xn1 n ; 0 x pertence à uma família completa. Com efeito, a condição EuXn 0 uxn x n1 n dx 0 0 é equivalente à: 0 uxxn1dx 0 ; 0. Então teremos também (usando a fórmula de Leibnitz): 0 uxxn1dx un1 0 ; 0. Ora, isto implicará, u 0 q.c. para qualquer função u, e Xn é bem uma estatística completa. No Exemplo 2 mostramos que E Xn 0 xn x n1 n dx n n 1 . Sendo Xn uma estatística suficiente e completa, por Lehmann e Scheffé a função de Xn que produzir um estimador não viesado será o estimador MVU de (único q.c. ). É imediato concluir neste caso que : Xn n 1n Xn, de modo que o estimador buscado é: n Xn. Exemplo 6: Consideremos a população exponencial X Exp. Os dois primeiros momentos desta população são: EX 1 e que VX 1 2 . Pelo Teorema da Fatorização de Neyman sabemos que S X1 X2 . . .Xn é uma estatística amostral suficiente para . O estimador MVU de deverá ser uma função de S (Rao e Blackwell). Da Estatística I sabemos que S n, ou seja, S tem distribuição gama com parâmetros n e . __________________________ Hugo Boff - Estatística II 2021 8 A densidade de S é: fSs, n n sn1es ; s 0. Esta densidade pertence à família exponencial, a qual é uma família completa (isto é provado usando-se a Transformada de Laplace). Qual será então o estimador MVU de ? Ora, sabemos que ES n , de modo que o inverso da média amostral é um candidato n S 1 Xn . Calculemos E n S 0 ns1fSs;ds n n n 0 sn11esds. Fazendo a transformação u s teremos: E n S n n nn1 0 un11eudu n n n 1 n n 1 . Assim, o único (q.c) estimador MVU de será S n 1n n S ou seja: n n 1n 1 Xn . Obs.: Os estimadores MVU obtidos nos dois exemplos acima convergem rápidamente para os estimadores "naturais", de momentos , Xn e 1/Xn respectivamente, à medida que o tamanho da amostra aumenta (veja estimação MM abaixo, item 4). Isto mostra que, quando os estimadores de momentos estão baseados em estatísticas suficientes, o MVU apenas corrige para amostras finitas o viés destes estimadores. Em muitos casos isto é assim. 3. PROPRIEDADES ASSINTÓTICAS DOS ESTIMADORES Muitos estimadores possuem propriedades desejáveis como o não viés e a menor variância não no caso natural das amostras finitas, mas apenas em grandes amostras. Examinar duas propriedades desejáveis importantes para os estimadores em grandes amostras, quando n : o não viés assintótico e a consistência. Seja n um estimador de baseado em uma amostra de tamanho n. 1. Não viés assintótico Dizemos que o estimador n é assintóticamente não viesado se ele converge em média para , quando n : __________________________ Hugo Boff - Estatística II 2021 9 n lim E n 3 Exemplo 7: a) Vimos que o estimador amostral da variância de uma população normal n 2 1n i1 n X i Xn2 subestima 2, pois seu valor esperado é E n 2 n 1n 2. Todavia, ele é assintóticamente não viesado, pois: n lim En 2 n lim n 1n 2 2 ; b) Vimos que n Xn MaxX1,X2, . . . ,Xn o estimador amostral do valor maximal de uma população uniforme no intervalo 0, subestima , pois E n nn 1 . Todavia, ele é assintóticamente não viesado: n lim E n n lim n n 1 . 2. Consistência Dizemos que o estimador n é consistente se a sequência dos estimadores, 1, 2, . . . , n, . . . . , , um para cada n, converge em probabilidade para . Formalmente: 0, n lim P n 0 4 Notamos, neste caso: p lim n . Assim, o estimador n é consistente se a probabilidade que ele desvie do parâmetro por uma quantidade arbitráriamente pequena tende para 0 quando o tamanho da amostra tende para o infinito. Ou seja, se o estimador for consistente, é improvável que ele desvie do parâmetro que pretende estimar quando o tamanho da amostra aumenta indefinidamente. O equivalente da expressão 4 é: 0, n lim P n 1 4 A probabilidade que a sequência dos estimadores n não desvie de tende no limite de n para 1. Exemplo 8: Na sequência dos Exemplos 2, 5 e 7(b), vamos usar a definição 4 para mostrar que Xn é um estimador consistente de , que é o valor máximo assumido por aquela população uniforme de valores. __________________________ Hugo Boff - Estatística II 2021 10 Temos, para x 0, : FXnx 0 x n v n1 n dv x n;FXnx 0 para x 0 e FXnx 1 para x . Assim, para 0, P|Xn | P Xn FXn FXn 1 n ; 0 1 0 1; Ou seja, para todo 0 : n lim P|Xn | n lim 1 n 1 n lim n 1 0 1. Assim, p limXn e o máximo amostral (apesar de viesado em amostras finitas), é um estimador consistentedo máximo populacional. Exemplo 9: Suponha uma população exponencial truncada X ExpA, 12 . Um estimador natural para o mínimo populacional A é o mínimo amostral X1 minX1,X2, . . . ,Xn. Sabemos que X1 tem distribuição Exponencial truncada com parâmetros A, n2 . Com efeito, PX1 x PX1 x;X2 x;X3 x; . . .Xn x PX xn 1 FXxn 1 1 e 1 2 xAn e n 2 xA. Logo, X1 ExpA, n2 com EX1 A 2 n e VX1 2 n 2 4 n2 . Vemos que o mínimo amostral X1 superestima A em amostras finitas, mas que ele é assintóticamente não viesado. Usaremos agora 4 para mostrar que X1 é um estimador consistente de A. 0, P|X1 A| PX1 A PX1 A e n 2 0 e n 2 Logo, 0, n lim P|X1 A| n lim e n 2 0 ou seja: p limX1 A. Os dois exemplos anteriores usaram a distribuição de probabilidade do estimador __________________________ Hugo Boff - Estatística II 2021 11 para provar a consistência. Em muitas situações todavia, não conhecemos a distribuição exata do estimador, mas apenas os seus dois primeiros momentos: sua média e sua variância. Adiante, enunciaremos uma proposição estabelecendo condições suficientes sobre estes dois primeiros momentos, para que a consistência do estimador esteja assegurada. Estas condições baseiam-se na desigualdade de Chebyshev. Desigualdade de Chebyshev Se a v.a. X possui média e variância e se X então vale a desigualdade: 0 , P|X | 1 2 EX 2 5 Prova: Dado 0, defina a variável aleatória indicadora do evento A x X : |x | : 1AX 1 se X A 0 se X A . Então, E1AX 1.PA 0.PAc PA. Logo, P|X | E1AX PA X 1AxdFXx A 1dFXx |x |22 1dFXx |x |2 2 1 1dFXx A |x |2 2 dFXx 1 2 X x 2dFXx 1 2 EX 2 Uma aplicação notável desta desigualdade se dá quando X é um estimador n que possui média E n e variância V n. Neste caso E n 2 é o Erro Quadrático Médio EQM n de n. Ora, vimos em 1 que E n 2 V n E n 2 . Deste modo, a desigualdade de Chebyshev fica: __________________________ Hugo Boff - Estatística II 2021 12 0 , P n 1 2 V n E n 2 5 Proposição: Seja n um estimador de . Se as duas condições seguintes são atendidas: (i) n lim E n e (ii) n lim V n 0. Então, p lim n . Prova: Basta tomar o limite para n de ambos os lados da desigualdade 5 : 0 n lim P n 1 2 n lim V n E n 2 n lim V n n lim E n 2 0 02 0 Ou seja, para que um estimador seja consistente, basta que ele seja assintóticamente não viesado e que sua variância tenda à 0 quando n tende para infinito. Observe que as condições (i) e (ii) da Proposição são suficientes para garantir a consistência do estimador, mas não necessárias. Exemplo 10 a) Vimos no Exemplo 7(a) que n 2 1n i1 n X i Xn2 o estimador amostral da variância da população normal é um estimador assintóticamente não viesado de 2. Por outro lado, mostramos no Capítulo II que sua variância é Vn 2 2n 1 n2 4 a qual converge para 0 quando n . Assim, pelo proposição anterior temos p limn 2 2 ou seja, n 2 é um estimador consistente de 2. b) Considere o estimador MVU de na distribuição Exponencial do Exemplo 6: n n 1S onde S X1 X2 . . .Xn n,. Como ele é um estimador não viesado, em virtude da Proposição acima a consistente deste estimador é assegurada se sua variância for à 0 quando n . Temos: __________________________ Hugo Boff - Estatística II 2021 13 E n 2 n 12E 1 S2 n 12 n n 0 sn21esds n 122 n 0 n21ed onde para a última igualdade efetuamos a transformação s. Ora por definição, 0 n21ed n 2, de modo que, usando a propriedade recursiva da gama: n n 1n 1 n 1n 2n 2 obtemos: E n 2 n 1 n 2 2. Finalmente, V n E n 2 2 n 1 n 2 1 2 1 n 2 2 expressão esta que vai à 0 quando n vai à infinito. Temos então que n n 1S é um estimador consistente de . O exemplo construído abaixo mostra que de fato a convergência em média (não viés assintótico) sózinha não tem relação direta com a convergência em probabilidade (consistência). Uma não implica na outra. Exemplo 11: Para 0 1, considere o estimador n assim definido: n n com probabilidade n 0 com probabilidade 1 n Vemos que E n n n 01 n ou seja, temos um estimador não viesado de . Entretanto, a sequência dos n não converge para , mas para 0 : 0, P n P n n n n 0. Ou seja, p lim n 0. Para terminar esta seção, enunciamos sem demonstração um teorema de grande utilidade prática: Teorema: Suponha que n seja um estimador consistente de e que g : é uma função contínua no ponto . Então g n é um estimador consistente de g. __________________________ Hugo Boff - Estatística II 2021 14 Exemplo 12: a) Vimos no Exemplo 10(a) que n 2 1n i1 n X i Xn2 é um estimador consistente de 2 em populações normais.Então, em virtude do teorema acima podemos concluir que 1n i1 n X i Xn2 é um estimador consistente do desvio-padrão ; Sabemos que Sn2 1n1 i1 n X i Xn2 também é um estimador consistente de 2. Então, 2Sn22 n 1 é um estimador consistente da sua variância.... b) Vimos no Exemplo 10(a) que n 1 S é um estimador consistente de , em populações Exponenciais. Assim, como temos EX 1 vem que 1 n 1/S S n 1 é um estimador consistente da média populacional. Também, como VX 1 2 , S n 1 2 será um estimador consistente da variância populacional.... Enunciaremos agora um teorema que garante a convergência em probabilidade dos momentos amostrais de uma variável aleatória. Sua aplicação se dará adiante, na seção 5, quando trataremos do método dos momentos. Teorema (Lei fraca dos grandes números) Seja Xn uma sequência iid de variáveis aleatórias com Média e variância 2 finita. Então, a sequência Xn 1n i1 n X i converge em probabilidade para . Prova: Imediata. Basta usar a desigualdade de Chebyshev. 4. MÉTODOS DE ESTIMAÇÃO: MV e MM Nesta seção, apresentaremos dois métodos de estimação usuais em Estatística Paramétrica: O método da Máxima Verossimilhança (MV) e o Método dos Momentos (MM). __________________________ Hugo Boff - Estatística II 2021 15 O método MV é o método mais importante, de uso disseminado em Estatística e Econometria. É o que fornece, do ponto de vista informacional, a melhor justificativa teórica para a estimação, além de garantir propriedades assintóticas ótimas para os estimadores obtidos. Entretanto, sua implementação é às vezes complexa: em algumas situações o estimador obtido não é único. Em outras, ele pode até mesmo não existir, em razão de descontinuidades na função de verossimilhança. Já o método MM é um método intuitivo, de implementação mais simples, que produz estimadores consistentes para os parâmetros embora não garanta outras propriedades assintóticas notáveis como a eficiência e a normalidade. A) Máxima Verossimilhança Este método consiste na escolha dos parâmetros que maximizam a função de verossimilhança da amostra. O que é a função de verossimilhança ? É a densidade da amostra vista como função dos parâmetros, a qual será notada L ou seja: L : : L;x1,x2, . . . ,xn i1n fXx i; 6 Dizemos que a estatística n TX1,X2, . . . ,Xn é o estimador de Máxima Verossimilhança (MV) de se L n L;X1,X2, . . . ,Xn . Isto significa: dada a amostra X1,X2, . . . ,Xn, L assumeo maior valor quando n. Por que maximizar L, e não outra função? Qual a intuição estatística por trás desta escolha ? Para responder à estas perguntas, vamos interpretar o significado de L. Considere a probabilidade que a v.a. X esteja em um intervalo de comprimento 0 ao redor do ponto x observado, o seja, que X x 12 , x 1 2 . Esta probabilidde é: Px 12 X x 1 2 . Ora, fXx; FXx x 0 lim FXx 12 FXx 1 2 de modo que, para pequeno: fXx; FXx 12 FXx 1 2 Px 12 X x 1 2 . __________________________ Hugo Boff - Estatística II 2021 16 Assim, temos: L i1n fXx i; 1 n Px1 12 X x1 1 2 ; x2 1 2 X x2 1 2 ; . . . ;xn 1 2 X xn 1 2 Desta última expressão vemos que a verossimilhança L é um múltiplo da probabilidade que uma amostra aleatória X1,X2, . . . ,Xn extraída da população X, esteja muito próxima do ponto amostral observado x1,x2, . . . ,xn. Por isso, L;x1,x2, . . . ,xn é chamada verossimilhança da amostra. Ao maximizar L estamos escolhendo o valor de que torna a amostra mais verossímil possível, pois este valor será aquele que maximizará a probabilidade da população gerar efetivamente os dados observados. Se for um conjunto compacto (fechado e limitado) e L; . for contínua, então o estimador MV sempre existe (Teorema de Weierstrass). Quando a solução n for interior n int a solução é obtida igualando-se as derivadas primeiras à 0, e assegurando-se que a derivada segunda é negativa no ponto crítico. Como a verossimilhança em 6 é um produtório, o que torna complexa a derivação, costuma-se maximizar o logaritmo da verossimilhança (a qual será notada l)uma vez que a transformação crescente não altera o argumento do máximo: l;x1,x2, . . . ,xn lnL;x1,x2, . . . ,xn i1 n ln fXx i; 6 Exemplo 13: Estimadores MV da média e variância em populações Normais l,2;x1,x2, . . . ,xn n2 ln2 n 2 ln 2 1 22 n 1S12 nXn 2 Neste expressão, é imediato que l é maximizada tomando-se Xn. De todo modo, as condições de primeira ordem dão: l n 2 Xn 0 Xn. l 2 n 22 1 24 n 1S12 n22 1 1 2 n1n Sn1 2 0 2 n1n Sn1 2 __________________________ Hugo Boff - Estatística II 2021 17 Estas soluções correspondem à um máximo, como mostramos abaixo: Ou seja, , 2 Xn, 1n i1 n X i Xn2 são os estimadores MV de ,2. Observe que o estimador da variância é viesado, o que mostra que o método da MV não produz necessáriamente estimadores não viesados em amostras finitas. Todavia ele é assintóticamente não viesado e consistente como detalharemos adiante. A matriz Hessiana H das condições de 2a. ordem, avaliadas na solução , 2 são: 2l 2 22 n2 ; 2l 2 0 2l 2 e 2l 4 |22 1 24 . Ou seja, H n2 0 0 1 24 a qual é bem definida negativa: h11 0 e |H| 0, garantindo a condição de máximo para a solução. O exemplo seguinte ilustra uma situação em que o estimador MV é obtido em uma solução de canto. Exemplo 14: Estimador MV do máximo em populações Uniformes No Exemplo 5 vimos que o estimador MVU do máximo em uma população X Unif0, é n 1 n Xn. A verossimilhança da amostra é, neste caso: L;x1,x2, . . . ,xn 1 n ; se xn 0 ; se xn 7 Esta função é representada abaixo: __________________________ Hugo Boff - Estatística II 2021 18 Como se percebe, o estimador MV é Xn. Isto mostra que o estimador MV não é necessáriamente não viesado de variância mínima. Exemplo 15: Estimador MV da média e variância em populações Laplace A v.a. X tem distribuição Laplace com parâmetros , e suporte em se sua fdp é: fXx;, 12 e 1 |x | ; x 8 O gráfico abaixo representa esta densidade para 0 e 1/ 2 Variância 1, em vermelho (linha contínua). Em negrito (linha tracejada) aparece a densidade da normal-padrão N0,1 para efeitos de comparação. -5 -4 -3 -2 -1 0 1 2 3 4 5 0.2 0.4 0.6 X density of X Você poderá verificar que o valor esperado de X é , o desvio absoluto médio é: E|X | e a variância EX 2 22. __________________________ Hugo Boff - Estatística II 2021 19 Dada uma amostra de tamanho n extraída da população Laplace (também chamada exponencial dupla) , o logaritmo da verossimilhança é: l,;x1,x2, . . . ,xn n ln2 n ln 1 i1 n |x i | 9 Condição de Primeira Ordem: l 1 i1 n signx i 0 MEDX1,X2, . . . ,Xn mediana amostral. Isto ocorre porque signx |x|x 1 se x 0; 1 sex 0 e 0 se x 0. Deste modo,i1 n signx i 0 quando for igual à mediana do ponto amostral, pois neste caso haverá o mesmo número de sinais 1 que de sinais 1, e a assim a derivada se anula. Por outro lado, l n 1 2 i1 n |x i MED| 0 1n i1 n |x i MED| Ou seja, o estimador MV de é o desvio absoluto médio com relação à Mediana. Assim, o estimador MV de , é: MED, 1n i1 n |x i MED|. Duas propriedades importantes dos estimadores MV são dignas de nota: Propriedade 1: Se a amostra X1,X2, . . . ,Xn admite uma estatística suficiente S, e o estimador MV de for único, então ele será função de S. Prova : Pela fatorização de Neyman a densidade da amostra se escreve: i1 n fXx i; gs;.hx1,x2, . . . ,xn. Ora, vista como função de , esta não é outra que a função de verossimilhança definida em 6 : L;x1,x2, . . . ,xn gs;.hx1,x2, . . . ,xn 10 A expressão 10 mostra que se o estimador MV existe e for único, ele será função de S. Com efeito, supondo solução for interior, ao tomar o logaritmo de ambos os lados obtemos: l;x1,x2, . . . ,xn i1 n ln fXx i; lngs; lnhx1,x2, . . . ,xn 10 De modo que: __________________________ Hugo Boff - Estatística II 2021 20 l lngs; 1 gs, gs; 0 gs; 0 n S. Propriedade 2: Esta é uma propriedade que exibe a robustez dos estimadores MV. Se n é um estimador amostral MV de e se é uma reparametrização do modelo, então o estimador MV de é n. Obs: A propriedade é verdadeira mesmo que a função não seja bijetiva. Se a parametrização é bijetiva, então 1. Deste modo, maxL max L max L1. Como a maximização ocorre quando 1 n basta tomar então n. Se a parametrização não for bijetiva, para cada defina o conjunto das suas pré-imagens 1 : .Como o máximo ocorre em n, o qual pertence ao domínio de , n só poderá pertencer à uma das pré-imagens 1. Logo, para maximizar L, escolhe-se de modo a que 1 seja justamente a pré-imagem que contém n. Ou seja, aquela em que n. Exemplo 16: a) No Exemplo 15 anterior, em virtude da Proposição 2, o estimador MV da variância populacional 22 é 2 2 2 1n i1 n |x i MED|2; b) Na população Exponencial com média 1 do Exemplo 6, se fizermos a reparametrização 1 será fácil constatar que o estimador MV de é a média amostral: Xn . Então, o estimador MV de será 1 Xn (confronte este estimador MV com o estimador MVUE obtido no Exemplo 6). c) Em uma população Bernoullip,a variância é p1 p. Na estimação amostral da proporção p, será fácil verificar que o estimador MV é a proporção de sucessos na amostra: Xn. Logo, o estimador MV da variância é Xn1 Xn. Propriedades assintóticas dos estimadores MV Como mencionamos antes, a excelência do método MV se mostra mais claramente em grandes amostras, assintóticamente, quando as principais propriedades requeridas para um bom estimador são atendidas. Com efeito, se são atendidas algumas condições de regularidade relacionadas com a existência da função escore e de suas derivadas,a teoria estatística mostra que a __________________________ Hugo Boff - Estatística II 2021 21 sequência de estimadores MV n tem as seguintes propriedades assintóticas (sendo o o verdadeiro valor de : (i) n n o q.c. Ou seja, o conjunto de pontos nos quais a sequência dos estimadores não converge simplesmente para o tem probabilidade nula de ocorrer; (ii) Assintóticamente não viesados: n lim E n ; (iii) Consistentes: p lim n o; (iv) n n o converge em distribuição para uma v.a. Normal com média 0 e variância igual à 1/I1o, o inverso da quantidade de informação (Fisher) contida em X1. Isto significa que, assintóticamente, podemos usar a distribuição normal para fazer inferências sobre pois n N; I1...n1 onde I1...n1 é o inverso da quantidade de informação contida na amostra sobre , conceito este que vimos no Capítulo IV. Ou seja, os estimadores MV são assintoticamente eficientes: sua variância assintótica alcança o limite inferior de Rao e Cramér: n lim ef n 1. B) Método dos Momentos Este método consiste em estimar o valor dos parâmetros igualando os momentos populacionais com os momentos amostrais populacionais. Se temos 1 único parâmetro no modelo, usaremos o primeiro momento (a média) igualando: EX X. Se temos 2 parâmetros no modelo, usamos os dois primeiros momentos (média e variância: EX X e VX Sn1 2 , e assim sucessivamente. Observe que a Lei Fraca dos Grandes Números apresentada ao final da Seção 3, garante também, com adaptações, a convergência em probabilidade do momento amostral de ordem k 1n i1 n X ik ; k 2,3, . . . para o respectivo momento populacional EXk. Em virtude da LFGN, fica garantida uma propriedade assintótica importante para os estimadores de momentos (MM): a consistência. __________________________ Hugo Boff - Estatística II 2021 22 Em muitas situações, os estimadores MM coincidem com os estimadores MV, de modo que as propriedades assintóticas destes últimos serão compartilhadas pelos estimadores MM. Exemplo 17: Estimação MM em populações Exponenciais Seja X ExpA,. Esta é uma população que possui dois parâmetros: A e 0. Temos os dois primeiros momentos populacionais: EX A 1 ; VX 1 2 . E os dois primeiros momentos amostrais: Xn e Sn1 2 não viesado). Temos então a resolver o sistema com duas equações e duas incógnitas: A 1 Xn e 1 2 Sn1 2 . Esta última equação dá 1 Sn1 e a primeira: A Xn Sn1. Assim, os estimadores MM de A e são: A Xn Sn1 e 1 Sn1 . Exemplo 18: Estimação MM em populações Uniformes Seja X Unifa,b. Esta população também possui dois parâmetros: a b. Temos os dois primeiros momentos populacionais: EX a b 2 ; VX b a2 12 . Igualando estes momentos aos momentos amostrais respectivos ( Xn e Sn1 2 teremos a resolver: a b 2 Xn e b a2 12 Sn1 2 . A primeira equação dá: a b 2Xn e a segunda: b a 2 3 Sn1.Somando à esquerda e direita estas duas equações vem: 2b 2Xn 2 3 Sn1. Deste modo, os estimadores de momentos são: a Xn 3 Sn1 e b Xn 3 Sn1 Estes estimadores são viesados em amostras finitas, mas serão consistentes. __________________________ Hugo Boff - Estatística II 2021
Compartilhar