Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Notas de aula para o curso de Econometria I Nota 11: propriedades assintóticas do MCRL e estimação por máxima verossimilhança (parte IV) Thiago Fonseca Morello fonseca.morello@ufabc.edu.br sala 301, Bloco Delta, SBC 1 Propriedades assintóticas do MCRL 1.1 Introdução Há três propriedades do MCRL bastante úteis na prática, sendo as duas primeiras a de ausência de viés e a de eficiência, esta última estabelecida pelo teorema de Gauss- Markov. A terceira propriedade diz respeito a funções de distribuição de probabilidades (FDs) das estatísticas empregadas nos testes de hipóteses para significância individual, para significância conjunta e para restrições lineares. Nisso também deve ser incluída a estatística tomada por base para a construção de intervalos de confiança. A terceira propriedade é a de que todas as estatísticas mencionadas têm FDs conhecidas, t de Student e F de Snedecor. Uma quarta propriedade ainda não estudada é a de consistência que diz respeito ao comportamento do valor esperado do estimador de MQO em uma amostra de tamanho arbitrariamente grande, infinito. É desejável que a incorporação de tal conteúdo informacional se traduza em maior precisão do estimador. Mais do que isso, na atualidade, em pesquisa empírica com econometria, predomina a avaliação de que inconsistência é sinônimo de imprecisão excessiva e a recomendação é a de que estimadores inconsistentes sejam descartados. Este tema é tratado na segunda subseção deste tópico. Uma segunda razão para o interesse nas propriedades assintóticas dos estimadores de MQO, i.e., propriedades em amostras de tamanho ilimitado, infinito, diz respeito à validade da terceira propriedade supramencionada. Esta depende da hipótese de que a FD das perturbações é normal (hipótese MCRL7), o que pode não ser condizente com os dados. Basta examinar histogramas para os resíduos e realizar testes para a hipótese nula de normalidade. Caso atestada a violação de MCRL7, os testes de hipóteses e a estimação por intervalo estariam se apoiando em estatísticas que não tem FDs t de Student ou F de Snedecor, mas sim outras FDs desconhecidas. Resultados equivocados seriam gerados ao serem tomadas por base as FDs tradicionais. Este último problema pode ser mitigado, ainda que não corrigido plenamente, com base no resultado de que as estatísticas comumente utilizadas têm FDs que, em uma amostra 2 de tamanho infinito, diferem de maneira desprezível das FDs tradicionais. É o que é brevemente discutido na terceira subseção deste tópico. 1.2 Consistência (convergência em probabilidade) O conceito de consistência se apoia na definição de convergência em probabilidade. Esta, por sua vez, se refere a uma estatística cujo valor varia com o tamanho da amostra, tal como é o caso, por exemplo, da média amostral, da variância amostral e do estimador de MQO para os parâmetros da FRP, β୕. A estatística genérica pode ser denotada por ߠே, em que N é o tamanho da amostra e cabe recordar que toda estatística, sendo uma função de variáveis aleatórias (dados) é também uma variável aleatória (VA). Definição: convergência em probabilidade Uma sequencia de VAs ߠଵ,ߠଶ, … ,ߠே converge em probabilidade para o valor θL se, qualquer que seja ε > 0, ݈݅݉ே→ஶ ܲ(|ߠே – ߠ| > ߝ) = 0. É preciso interpretar a definição. Ela está dizendo que, com o aumento irrestrito do tamanho da amostra, o valor da estatística se torna de tal maneira próximo do valor- limite, ߠ, que a diferença entre ambas chega a ser desprezível. A medida desta diferença é probabilística, trata-se da probabilidade de que ela seja relevante, superior a um valor ε qualquer, não nulo. Dizer que é nula a probabilidade de que a diferença entre ߠே e ߠ seja relevante é uma maneira de expressar, com rigor estatístico, a afirmação de que a diferença em questão é desprezível, irrelevante. Antes de passar à definição de consistência, cabe apresentar um enunciado geral para a lei fraca dos grandes números, atribuído ao matemático Alexandr Khinchin (Teorema D5, Greene). Lei fraca dos grandes números de Khinchin Seja X1,...,XN uma amostra aleatória de tamanho N de uma variável X, tal que E[Xi]<∞, finita, e E[Xi]=E[Xj], i,j=1,...,N. ݈݅݉ ே→ஶ ܲ ൭อ 1ܰ ܺ ே ୀଵ − ܧ[ ܺ]อ > ߝ൱ = 0 Ou seja, para uma amostra arbitrariamente grande, a média amostral converge em probabilidade para a expectativa. Uma diferença relevante entre as duas ocorre com probabilidade zero assim que o tamanho da amostra aumenta de maneira irrestrita. Após a lei fraca de Khinchin, a definição de consistência a seguir se torna mais clara. 3 Consistência O estimador de MQO, ߚመெொை,ே, é consistente quando converge em probabilidade para o valor populacional do vetor de parâmetros da FPR. Formalmente: ݈݅݉ ே→ஶ ܲ൫หߚመெொை ,ே − ߚห > ߝ൯ = 0 O estimador de MQO é consistente, pois, quando seu valor se torna arbitrariamente próximo do valor populacional do vetor de parâmetros, com a expansão ilimitada do tamanho do conteúdo informacional incorporado. A demonstração de que o estimador de MQO é consistente está fora do escopo do curso. Basta assinalar dois princípios fundamentais. Em primeiro lugar, ߚመெொை é consistente se e somente se as hipóteses MCRL1-MCRL4 são verificadas. Em segundo lugar, um corolário da primeira afirmação que merece ser assinalado é o de que a violação da hipótese de exogeneidade (E[ui|X]=0, i=1,...,N) implica na perda da propriedade de consistência. 1.3 Convergência em distribuição Mesmo que o comportamento dos resíduos refute a hipótese de normalidade das perturbações, os teoremas a seguir garantem que em amostras suficientemente grandes, as estatísticas utilizadas na inferência do MCRL têm FDs desprezivelmente distintas das tradicionalmente tomadas por base. Teorema 1: sob as hipóteses MCRL1-MCRL6, ݐ = ቀఉಾೂೀೖିఉೖቁ ටቀఉಾೂೀೖቁ → ݐேି(ାଵ) (ver Wooldridge, teorema 5.2 e equação 5.8) Teorema 2: sob as hipóteses MCRL1-MCRL6, ܨ = ൫ோೃమ ିோೃమ൯/௦(ଵିோೃమ ) ൫ேି(ାଵ)൯ൗ → ܨ௦,ேି(ାଵ) O símbolo “D” indica a convergência da função de distribuição da estatística do lado esquerdo para a função de distribuição do lado direito, convergência essa que ocorre com o aumento ilimitado do tamanho da amostra. É preciso assinalar que o teorema 2 engloba a estatística do teste de significância global como caso particular. As demonstrações de ambos os teoremas fogem ao escopo de um curso de graduação. Cabe, pois, estabelecer que em ambos os casos o ponto de partida é o Teorema Central do Limite, enunciado a seguir, o qual estabelece a convergência em termos da função de distribuição de probabilidades – ou, simplesmente, “convergência em distribuição” - para uma soma de variáveis aleatórias. 4 Teorema Central do Limite1 Seja X1,X2,...,XN uma amostra aleatória de tamanho N em que E[Xi] = E[Xj], i, j = 1,...,N, V[Xi] = σ2 < ∞. É sabido que V(∑ ܺேୀଵ ) = σ√ܰ. Então: ∑ ܺ ே ୀଵ − ܰܧ[ ܺ] ߪ√ܰ → ܰ(0,1) Em que N(0,1) é a FD normal padrão. 2 Método de estimação de máxima verossimilhança 2.1 Função objetivo A função-objetivo do problema de otimização que dá fundamento ao método de máxima verossimilhança é denominada por função de verossimilhança. Trata-se nada mais do que a probabilidade de ocorrência da amostra observada, escrita esta como função dos parâmetros da função de distribuição de probabilidades (FD) assumida como o processo gerador dos dados. A priori, não é preciso especificar a FD geradora, basta explicitar seus parâmetros, o que será feito com o uso do símbolo “θ”, representando um vetor com todos os parâmetros. As amostras utilizadas para estimar uma regressão múltipla consistem em valores para dois conjuntos de variáveis, a variável dependente, Y, e as variáveis explicativas, subsumidasao vetor X. Tais valores variam, potencialmente, ao longo das observações, de modo que yi e xi denotem valores particulares referentes à i-ésima observação (xi é um vetor com k explicativas). Deste modo, a amostra, A, pode ser representada como a seguinte sequencia de valores: A ≡ {X1 = x1 ∩ Y1 = y1 ∩ X2 = x2 ∩ Y2 = Y2 ∩ ... ∩ XN = XN ∩ YN = YN} A probabilidade de ocorrência da amostra é, pois: P(A|θ) ≡ P(X1 = x1 ∩ Y1 = y1 ∩ X2 = x2 ∩ Y2 = Y2 ∩ ... ∩ XN = XN ∩ YN = YN|θ) (1) Deve-se notar à ênfase ao vetor de parâmetros, θ. A função de verossimilhança apesar ser equivalente à P(A|θ) deve ser denotada de maneira distinta, segundo a convenção da teoria estatística. Será utilizada a notação L(θ|X,Y) para a função de verossimilhança, a qual enfatiza que os valores observados de X e Y estão dados, restando ao analista a tarefa de com base neles estimar valores adequados, segundo o critério de máxima verossimilhança, para os parâmetros. De qualquer maneira, L(θ|X,Y) = P(A|θ). Da maneira como definida em (1), a função de verossimilhança não é tratável. É preciso a simplificar a partir dos três passos a seguir. 1 Transcrito de Magalhães, M.N., Probabilidade e Variáveis Aleatórias, 2006, Edusp. 5 Passo 1, amostra aleatória Sendo a amostra disponível aleatória (ver nota de aula 2), as observações i=1,...,N que a compõem possuem duas propriedades: (i) são estatisticamente independentes e (ii) possuem a mesma FD. Assumindo uma amostra aleatória e utilizando, por hora, apenas a propriedade de independência, tem-se: L(θ|X,Y) = P(X1 = x1 ∩ Y1 = y1|θ) P(X2 = x2 ∩ Y2 = Y2|θ) ... P(XN = XN ∩ YN = YN|θ) (2) Ou, de maneira sintética: L(θ|X, Y) = ෑ P(X = x ∩ Y = y|θ)ே ୀଵ (2′) Passo 2, decomposição da probabilidade conjunta Sempre é possível decompor a probabilidade de ocorrência simultânea de dois eventos, A e B, dada por P(A∩B), da seguinte maneira: P(A∩B) = P(A)P(B|A). Deste modo, pois, P(Xi=xi ∩ Yi = yi|θ) = P(Xi=xi|θ) P(Yi=yi|Xi = xi;θ) (3). Passo 3, introdução da notação de funções de distribuição de probabilidades As probabilidades condicionais e marginais podem ser representadas a partir das funções de distribuição de probabilidades marginal e conjunta, da seguinte maneira: P(Xi=xi|θ) ≡ fi(xi|θ) (4.a) P(Yi=yi|Xi = xi;θ) ≡ fi(yi|xi;θ) (4.b) Neste ponto cabe fazer uso da segunda propriedade da amostra aleatória que é a de que as observações são identicamente distribuídas, o que é equivalente a afirmar que fi(xi|θ) = fj(xi|θ) = f(xi|θ) (4.a.’), para i≠j e fi(yi|xi;θ) = fj(yi|xi;θ) = f(yi|xi;θ), para i≠j (4.b.’). Combinando as equações (2) e (3) que decorrem dos passos 1 e 2 resulta a seguinte especificação simplificada para a função de verossimilhança. L(θ|X, Y) = ෑ P(X = x |θ)P(Y = y |X = x ; θ)ே ୀଵ (2ᇱᇱ) Agora, incorporando a notação do passo 3 e as equações (4.a’) e (4.b’): L(θ|X, Y) = ෑ f(x|θ)f(y| x;θ)ே ୀଵ (2ᇱᇱ′) Geralmente se toma o logaritmo da função de verossimilhança, o que permite simplificar os cálculos necessários à solução do problema de otimização. Como se verá 6 a frente, tal problema requer que a função de verossimilhança seja maximizada, o que é equivalente a maximizar o logaritmo da função de verossimilhança2. A função de “log-verossimilhança” é, pois, de acordo com 2’’’: log L(θ|X, Y) = log൭ෑ f(x|θ)f(y| x; θ)ே ୀଵ ൱ = log൫f(x|θ)f(y| x;θ)൯ே ୀଵ (2௩) Esta passagem utiliza a propriedade de que log(ZW) = log(Z) + log(W), quaisquer que sejam as variáveis Z e W. Tal propriedade pode ser empregada novamente para obter: log L(θ|X, Y) = log ൫f(x|θ)൯ே ୀଵ + log൫f(y| x;θ)൯ே ୀଵ (2௩) Seguindo a discussão de Greene (2003, seção 17.4.7) a análise pode focar apenas a segunda parcela à direita, a qual corresponde ao somatório das probabilidades condicionais de Y. Conforme argumenta o autor, não há perda alguma ao concentrar a atenção apenas nas probabilidades condicionais, deixando fora da análise a parcela da função de log-verossimilhança que diz respeito ao processo gerador de X. Trata-se de assumir que o conhecimento acerca do processo gerador das explicativas não é necessário para o conhecimento do modelo de interesse, o qual diz respeito ao processo gerador de Y, condicional à X. Neste ponto, é necessário, pois, deixar claro qual é modelo de interesse. Trata-se do modelo de regressão linear especificado a partir da Função de Regressão Populacional (FRP), tal como segue: E[Yi|X] = f(X) ≈ xi’β (5.a) Yi = E[Yi|X] + ui ≈ xi’β + ui (5.b) Os parâmetros a serem estimados correspondem, portanto, ao vetor β. Tomando apenas a parcela da função de verossimilhança que interessa para a análise de regressão linear, tem-se: log L(β|X, Y)௬| = log൫f(y| X;β)൯ே ୀଵ (6) A função (6) recebe o nome de “função de log-verossimilhança condicional”3. É da maximização dela que são obtidos os estimadores de máxima verossimilhança para os parâmetros da FRP. 2 Isso é correto pois o logaritmo é uma transformação monotônica, i.e., no caso, uma função sempre crescente da variável a qual é aplicado. 3 Ver Wooldridge, J.M., Econometric analysis of cross-section and panel data,2002, MIT, seção 13.3. 7 2.2 O problema de máxima verossimilhança para a regressão linear A estimação dos parâmetros da FRP por máxima verossimilhança é perseguida a partir da resolução do problema a seguir: ݉áݔఉ൛log L(β|X, Y)௬|ൟ = ݉áݔఉ ൝ log൫f(y| x;β)൯ே ୀଵ ൡ É preciso introduzir algumas hipóteses de maneira a tornar o problema solúvel. Uma delas é a de que as perturbações da FRP possuem FD condicional normal com média zero e variância σ2. Trata-se, pois, de assumir três hipóteses do MCRL, as de perturbações homocedásticas (MCRL5), não-autocorrelacionadas (MCRL6) e normalmente distribuídas (MCRL7). Assim procedendo, ui|X ~ N(0, σ2). Do que decorre que yi|X ~ N(xi’β, σ2), pois E[yi|X] = xi’β (vide 5.a acima). E, portanto: f(y| X;β) = 1 √2ߨߪଶ ݁ݔ − 12ቆݕ − ݔ′βߪ ቇଶ൩ Pois a forma geral da FD normal padrão é f(z) = ଵ√ଶగఙమ ݁ݔ ቈ− ଵଶ ൬௭ିா[௭]ඥ[௭] ൰ଶ. Assim sendo, a função de log-verossimilhança condicional passa a: log L(β|X, Y)௬| = log൭ 1 √2ߨߪଶ ݁ݔ − 12ቆݕ − ݔ′βߪ ቇଶ൩൱ே ୀଵ Manipulando um pouco, pode-se fatorar esta função como segue: log L(β|X, Y)௬| = ݈݃൭ 1 √2ߨߪଶ ݁ݔ − 12ቆݕ − ݔ′βߪ ቇଶ൩൱ே ୀଵ= log൬ 1 √2ߨߪଶ൰ − 12ቆݕ − ݔ′βߪ ቇଶ൩ே ୀଵ= ܰ log ൬ 1 √2ߨߪଶ൰ + − 12ቆݕ − ݔ′βߪ ቇଶ൩ →ே ୀଵ log L(β|X, Y)௬| = ܣ − 12ߪିଶ(ݕ − ݔ′β)ଶே ୀଵ (6ᇱ) Em que A0 = ܰ log ቀ ଵ√ଶగఙమቁ é uma constante. À luz de (6’) o problema de máxima verossimilhança pode ser reescrito: 8 ݉áݔఉ൛log L(β|X, Y)௬|ൟ = ݉áݔఉ ൝ܣ − 12ߪିଶ(ݕ − ݔ′β)ଶே ୀଵ ൡ ↔ ݉áݔఉ ൝−(ݕ − ݔ′β)ଶே ୀଵ ൡ A última passagem segue do fato de que maximizar a soma de uma constante e de uma função é equivalente a maximizar a função. Também é correto estabelecer que o valor de −∑ (ݕ − ݔ′β)ଶேୀଵ é tão maior quanto menor for o valor de ∑ (ݕ − ݔ′β)ଶேୀଵ , e, por isso: ݉áݔఉ ൝−(ݕ − ݔ′β)ଶே ୀଵ ൡ ↔ ݉݅݊ఉ ൝(ݕ − ݔ′β)ଶே ୀଵ ൡ Finalmente, pois: ݉áݔఉ൛log L(β|X, Y)௬|ൟ ↔ ݉݅݊ఉ ൝(ݕ − ݔ′β)ଶே ୀଵ ൡ ↔ ݉݅݊ఉ ൝ 1ܰ (ݕ − ݔ′β)ଶே ୀଵ ൡ A última passagem decorre do fato de que minimizar o produto de uma função-objetivo por uma constante (1/N) é equivalente a minimizar a função-objetivo. O último problema de otimização do lado direito é equivalente ao problema de minimização que dá base ao estimador de mínimos quadrados ordinários, basta observar que a média amostral é a contrapartida, na amostra, da expectativa. Isto é: 1ܰ (ݕ − ݔ′β)ଶே ୀଵ ~ܧ[(ݕ − ݔ′β)ଶ] O símbolo “~P” indica que o termo da esquerda temcomo contrapartida populacional o termo à direita. Em suma: ݉áݔఉ൛log L(β|X, Y)௬|ൟ ↔ ݉݅݊ఉ ൝ 1ܰ (ݕ − ݔ′β)ଶே ୀଵ ൡ ↔ ݉݅݊ఉ {ܧ[(ݕ − ݔ′β)ଶ]} De tal sorte, o problema de minimização a que se pôde chegar é equivalente ao problema que dá base ao método de mínimos quadrados. Pode-se concluir, pois, que como o problema de estimação por máxima verossimilhança (MV) é equivalente ao problema de estimação por MQO, os estimadores para os parâmetros da FRP fornecidos pelos dois métodos são equivalentes (Wooldridge, p.533, Gujarati, apêndice 7A, seção 7A.4). Formalmente, pois, βெொை = βெ . Deve-se assinalar, contudo, que este resultado apenas é verificado quando todas as hipóteses do 9 MCRL são válidas. A violação de qualquer uma delas implica na não equivalência entre os dois estimadores. A quebra da equivalência é uma maneira alternativa de interpretar a perda de qualidade do estimador de MQO imposta pela violação das hipóteses do MCRL. Basta ter em conta que o estimador de MV possui menor variância entre todos os estimadores consistentes (ver seção 2.4 a frente). Sua maior precisão, portanto, não se restringe à categoria de estimadores lineares não viesados, a qual é uma sub-categoria da categoria mais abrangente de estimadores consistentes. 2.3 Hipóteses do método de máxima verossimilhança aplicado à regressão linear Rigorosamente, o problema de máxima verossimilhança nem sempre tem solução. Ou, colocando de outra maneira, para alguns conjuntos de dados pode não ser possível obter os estimadores de máxima verossimilhança (MV). De fato, apenas para os conjuntos de dados que satisfazem todas as hipóteses a seguir é possível obter os estimadores de MV. (MV1 ou MCRL2) A amostra disponível é aleatória, i.e., todas as unidades da população têm a mesma probabilidade de serem selecionadas para participar da amostra. É equivalente a afirmar que não há um mecanismo particular que determina quais observações são selecionadas. (MV2) O conhecimento acerca do processo gerador de X não é necessário para o conhecimento acerca do processo gerador de Y condicional à X. (MV3, condições de regularidade) As derivadas de primeira, segunda a terceira ordem da função de verossimilhança condicional existem e tal função tem valor máximo4. (MV4 ou MCRL 3) Não há dependência linear perfeita entre as variáveis explicativas, o que garante que a matriz E[xixi’] seja invertível. É equivalente afirmar que X tem posto completo, entendendo-se por posto o número de colunas linearmente independentes de X (K +1 colunas, no caso). (MV5 ou MCRL5 e MCRL6) Os termos de perturbação são esféricos, i.e., homocedásticos e não-autocorrelacionados. (MV6 ou MCRL 7) A função de distribuição de probabilidades (FD) condicional do termo de perturbação é normal, com média zero e variância σ2 (hipótese de Gauss- Makov), i.e, ui|X~ N(0, σ2), i=1,...,N. 2.4 Propriedades dos estimadores de máxima verossimilhança Sob a validade das hipóteses MV1-MV6, o estimador de máxima verossimilhança tem todas as propriedades que o estimador de MQO tem sob MCRL1-MCRL6. São elas: 4 Esta maneira de expressar as condições de regularidade das quais depende o método de MV é não apenas grosseiramente sucinta como omite detalhes importantes. Ver a definição 17.3 de Greene, Econometric Analysis. 10 ausência de viés, eficiência e consistência. A segunda propriedade decorre do teorema de Gauss-Markov que também se aplica a βெ sob MV1-MV6. De fato, no que tange à estimação dos parâmetros de uma FRP linear, o método de MV nada acrescenta ao método de MQO. Não há vantagem alguma em utilizar o primeiro, comparativamente ao que o segundo proporciona em termos de qualidade das estimativas pontuais. O fato de o estimador de MV não superar o estimador de MQO atesta o poder e generalidade do segundo estimador. Enquanto não há vantagem comparativa do método de MV no âmbito particular de estimação de modelos lineares (nos parâmetros), há claras vantagens em outro âmbito particular que é o de estimação de modelos não-lineares. De fato, o método de MQO não se aplica a esta segunda classe de modelos a qual inclui, por exemplo, modelos em que a variável dependente é binária, tratando-se de uma característica dicotômica como estar ou não empregado, estar ou não acometido por desnutrição, participar ou não do mercado internacional, etc. Esta classe de modelos é estudada em econometria II com recurso ao método de MV. O diferencial do método de MV que tem se mostrado seu principal atrativo em pesquisa empírica está em sua eficiência, segundo estabelece a propriedade a seguir. Eficiência assintótica: a matriz de variância-covariância do estimador de MV converge, com o tamanho da amostra tendendo ao infinito, para o valor mínimo das matrizes de variância-covariância dos estimadores consistentes. Este nível mínimo é denominado por limite inferior de Crámer-Rao5. 5 Ver Greene, econometric analysis, teorema 17.4, capítulo 17.
Compartilhar