Buscar

Nota_de_aula_11

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

1 
 
Notas de aula para o curso de Econometria I 
Nota 11: propriedades assintóticas do MCRL e estimação por máxima 
verossimilhança (parte IV) 
Thiago Fonseca Morello 
fonseca.morello@ufabc.edu.br 
sala 301, Bloco Delta, SBC 
 
1 Propriedades assintóticas do MCRL 
1.1 Introdução 
Há três propriedades do MCRL bastante úteis na prática, sendo as duas primeiras a de 
ausência de viés e a de eficiência, esta última estabelecida pelo teorema de Gauss-
Markov. A terceira propriedade diz respeito a funções de distribuição de probabilidades 
(FDs) das estatísticas empregadas nos testes de hipóteses para significância individual, 
para significância conjunta e para restrições lineares. Nisso também deve ser incluída a 
estatística tomada por base para a construção de intervalos de confiança. A terceira 
propriedade é a de que todas as estatísticas mencionadas têm FDs conhecidas, t de 
Student e F de Snedecor. 
Uma quarta propriedade ainda não estudada é a de consistência que diz respeito ao 
comportamento do valor esperado do estimador de MQO em uma amostra de tamanho 
arbitrariamente grande, infinito. É desejável que a incorporação de tal conteúdo 
informacional se traduza em maior precisão do estimador. Mais do que isso, na 
atualidade, em pesquisa empírica com econometria, predomina a avaliação de que 
inconsistência é sinônimo de imprecisão excessiva e a recomendação é a de que 
estimadores inconsistentes sejam descartados. Este tema é tratado na segunda subseção 
deste tópico. 
Uma segunda razão para o interesse nas propriedades assintóticas dos estimadores de 
MQO, i.e., propriedades em amostras de tamanho ilimitado, infinito, diz respeito à 
validade da terceira propriedade supramencionada. Esta depende da hipótese de que a 
FD das perturbações é normal (hipótese MCRL7), o que pode não ser condizente com 
os dados. Basta examinar histogramas para os resíduos e realizar testes para a hipótese 
nula de normalidade. Caso atestada a violação de MCRL7, os testes de hipóteses e a 
estimação por intervalo estariam se apoiando em estatísticas que não tem FDs t de 
Student ou F de Snedecor, mas sim outras FDs desconhecidas. Resultados equivocados 
seriam gerados ao serem tomadas por base as FDs tradicionais. 
Este último problema pode ser mitigado, ainda que não corrigido plenamente, com base 
no resultado de que as estatísticas comumente utilizadas têm FDs que, em uma amostra 
2 
 
de tamanho infinito, diferem de maneira desprezível das FDs tradicionais. É o que é 
brevemente discutido na terceira subseção deste tópico. 
1.2 Consistência (convergência em probabilidade) 
O conceito de consistência se apoia na definição de convergência em probabilidade. 
Esta, por sua vez, se refere a uma estatística cujo valor varia com o tamanho da amostra, 
tal como é o caso, por exemplo, da média amostral, da variância amostral e do 
estimador de MQO para os parâmetros da FRP,	β෠୑୕୓. A estatística genérica pode ser 
denotada por ߠ෠ே, em que N é o tamanho da amostra e cabe recordar que toda estatística, 
sendo uma função de variáveis aleatórias (dados) é também uma variável aleatória 
(VA). 
Definição: convergência em probabilidade 
Uma sequencia de VAs ߠ෠ଵ,ߠ෠ଶ, … ,ߠ෠ே converge em probabilidade para o valor θL se, 
qualquer que seja ε > 0, ݈݅݉ே→ஶ ܲ(|ߠ෠ே 	– 	ߠ௅| 	> 	ߝ) = 0. 
É preciso interpretar a definição. Ela está dizendo que, com o aumento irrestrito do 
tamanho da amostra, o valor da estatística se torna de tal maneira próximo do valor-
limite, ߠ௅, que a diferença entre ambas chega a ser desprezível. A medida desta 
diferença é probabilística, trata-se da probabilidade de que ela seja relevante, superior a 
um valor ε qualquer, não nulo. Dizer que é nula a probabilidade de que a diferença entre 
ߠ෠ே e ߠ௅ seja relevante é uma maneira de expressar, com rigor estatístico, a afirmação de 
que a diferença em questão é desprezível, irrelevante. 
Antes de passar à definição de consistência, cabe apresentar um enunciado geral para a 
lei fraca dos grandes números, atribuído ao matemático Alexandr Khinchin (Teorema 
D5, Greene). 
Lei fraca dos grandes números de Khinchin 
Seja X1,...,XN uma amostra aleatória de tamanho N de uma variável X, tal que E[Xi]<∞, 
finita, e E[Xi]=E[Xj], i,j=1,...,N. 
݈݅݉
ே→ஶ
ܲ ൭อ
1ܰ
෍ ௜ܺ
ே
௜ୀଵ
− ܧ[ ௜ܺ]อ > ߝ൱ = 0 
Ou seja, para uma amostra arbitrariamente grande, a média amostral converge em 
probabilidade para a expectativa. Uma diferença relevante entre as duas ocorre com 
probabilidade zero assim que o tamanho da amostra aumenta de maneira irrestrita. 
Após a lei fraca de Khinchin, a definição de consistência a seguir se torna mais clara. 
 
 
3 
 
Consistência 
O estimador de MQO, ߚመெொை,ே, é consistente quando converge em probabilidade para o 
valor populacional do vetor de parâmetros da FPR. Formalmente: 
݈݅݉
ே→ஶ
ܲ൫หߚመெொை ,ே − ߚห > ߝ൯ = 0 
O estimador de MQO é consistente, pois, quando seu valor se torna arbitrariamente 
próximo do valor populacional do vetor de parâmetros, com a expansão ilimitada do 
tamanho do conteúdo informacional incorporado. 
A demonstração de que o estimador de MQO é consistente está fora do escopo do curso. 
Basta assinalar dois princípios fundamentais. Em primeiro lugar, ߚመெொை é consistente se 
e somente se as hipóteses MCRL1-MCRL4 são verificadas. Em segundo lugar, um 
corolário da primeira afirmação que merece ser assinalado é o de que a violação da 
hipótese de exogeneidade (E[ui|X]=0, i=1,...,N) implica na perda da propriedade de 
consistência. 
1.3 Convergência em distribuição 
Mesmo que o comportamento dos resíduos refute a hipótese de normalidade das 
perturbações, os teoremas a seguir garantem que em amostras suficientemente grandes, 
as estatísticas utilizadas na inferência do MCRL têm FDs desprezivelmente distintas das 
tradicionalmente tomadas por base. 
Teorema 1: sob as hipóteses MCRL1-MCRL6, ݐ = ቀఉ෡ಾೂೀೖିఉೖቁ
ට௏ቀఉ෡ಾೂೀೖቁ
෣
→஽ ݐேି(௄ାଵ)	 (ver 
Wooldridge, teorema 5.2 e equação 5.8) 
Teorema 2: sob as hipóteses MCRL1-MCRL6, ܨ෠ = ൫ோ಺ೃమ ିோೃమ൯/௦(ଵିோ಺ೃమ ) ൫ேି(௄ାଵ)൯ൗ →஽ ܨ௦,ேି(௄ାଵ)	 
O símbolo “D” indica a convergência da função de distribuição da estatística do lado 
esquerdo para a função de distribuição do lado direito, convergência essa que ocorre 
com o aumento ilimitado do tamanho da amostra. 
É preciso assinalar que o teorema 2 engloba a estatística do teste de significância global 
como caso particular. 
As demonstrações de ambos os teoremas fogem ao escopo de um curso de graduação. 
Cabe, pois, estabelecer que em ambos os casos o ponto de partida é o Teorema Central 
do Limite, enunciado a seguir, o qual estabelece a convergência em termos da função de 
distribuição de probabilidades – ou, simplesmente, “convergência em 
distribuição” - para uma soma de variáveis aleatórias. 
4 
 
Teorema Central do Limite1 
Seja X1,X2,...,XN uma amostra aleatória de tamanho N em que E[Xi] = E[Xj], i, j = 
1,...,N, V[Xi] = σ2 < ∞. É sabido que V(∑ ௜ܺே௜ୀଵ ) = σ√ܰ. Então: 
∑ ௜ܺ
ே
௜ୀଵ − ܰܧ[ ௜ܺ]
ߪ√ܰ
→஽ ܰ(0,1) 
Em que N(0,1) é a FD normal padrão. 
2 Método de estimação de máxima verossimilhança 
2.1 Função objetivo 
A função-objetivo do problema de otimização que dá fundamento ao método de máxima 
verossimilhança é denominada por função de verossimilhança. Trata-se nada mais do 
que a probabilidade de ocorrência da amostra observada, escrita esta como função dos 
parâmetros da função de distribuição de probabilidades (FD) assumida como o processo 
gerador dos dados. A priori, não é preciso especificar a FD geradora, basta explicitar 
seus parâmetros, o que será feito com o uso do símbolo “θ”, representando um vetor 
com todos os parâmetros. 
As amostras utilizadas para estimar uma regressão múltipla consistem em valores para 
dois conjuntos de variáveis, a variável dependente, Y, e as variáveis explicativas, 
subsumidasao vetor X. Tais valores variam, potencialmente, ao longo das observações, 
de modo que yi e xi denotem valores particulares referentes à i-ésima observação (xi é 
um vetor com k explicativas). Deste modo, a amostra, A, pode ser representada como a 
seguinte sequencia de valores: 
A ≡ {X1 = x1 ∩ Y1 = y1 ∩ X2 = x2 ∩ Y2 = Y2 ∩ ... ∩ XN = XN ∩ YN = YN} 
A probabilidade de ocorrência da amostra é, pois: 
P(A|θ) ≡ P(X1 = x1 ∩ Y1 = y1 ∩ X2 = x2 ∩ Y2 = Y2 ∩ ... ∩ XN = XN ∩ YN = YN|θ) (1) 
Deve-se notar à ênfase ao vetor de parâmetros, θ. 
A função de verossimilhança apesar ser equivalente à P(A|θ) deve ser denotada de 
maneira distinta, segundo a convenção da teoria estatística. Será utilizada a notação 
L(θ|X,Y) para a função de verossimilhança, a qual enfatiza que os valores observados 
de X e Y estão dados, restando ao analista a tarefa de com base neles estimar valores 
adequados, segundo o critério de máxima verossimilhança, para os parâmetros. De 
qualquer maneira, L(θ|X,Y) = P(A|θ). 
Da maneira como definida em (1), a função de verossimilhança não é tratável. É preciso 
a simplificar a partir dos três passos a seguir. 
 
1 Transcrito de Magalhães, M.N., Probabilidade e Variáveis Aleatórias, 2006, Edusp. 
5 
 
Passo 1, amostra aleatória 
Sendo a amostra disponível aleatória (ver nota de aula 2), as observações i=1,...,N que a 
compõem possuem duas propriedades: (i) são estatisticamente independentes e (ii) 
possuem a mesma FD. Assumindo uma amostra aleatória e utilizando, por hora, apenas 
a propriedade de independência, tem-se: 
L(θ|X,Y) = P(X1 = x1 ∩ Y1 = y1|θ) P(X2 = x2 ∩ Y2 = Y2|θ) ... P(XN = XN ∩ YN = YN|θ) 
(2) 
Ou, de maneira sintética: 
L(θ|X, Y) 	= 	ෑ P(X௜ 	= 	x௜ 	∩ 	Y௜ 	= 	y௜|θ)ே
௜ୀଵ
(2′) 
Passo 2, decomposição da probabilidade conjunta 
Sempre é possível decompor a probabilidade de ocorrência simultânea de dois eventos, 
A e B, dada por P(A∩B), da seguinte maneira: P(A∩B) = P(A)P(B|A). Deste modo, 
pois, P(Xi=xi ∩ Yi = yi|θ) = P(Xi=xi|θ) P(Yi=yi|Xi = xi;θ) (3). 
Passo 3, introdução da notação de funções de distribuição de probabilidades 
As probabilidades condicionais e marginais podem ser representadas a partir das 
funções de distribuição de probabilidades marginal e conjunta, da seguinte maneira: 
P(Xi=xi|θ) ≡ fi(xi|θ) (4.a) 
P(Yi=yi|Xi = xi;θ) ≡ fi(yi|xi;θ) (4.b) 
Neste ponto cabe fazer uso da segunda propriedade da amostra aleatória que é a de que 
as observações são identicamente distribuídas, o que é equivalente a afirmar que fi(xi|θ) 
= fj(xi|θ) = f(xi|θ) (4.a.’), para i≠j e fi(yi|xi;θ) = fj(yi|xi;θ) = f(yi|xi;θ), para i≠j (4.b.’). 
Combinando as equações (2) e (3) que decorrem dos passos 1 e 2 resulta a seguinte 
especificação simplificada para a função de verossimilhança. 
L(θ|X, Y) 	= 	ෑ P(X௜ 	= 	x௜ 	|θ)P(Y௜ 	= 	y௜	|X௜ 	= 	x௜ 	; θ)ே
௜ୀଵ
(2ᇱᇱ) 
Agora, incorporando a notação do passo 3 e as equações (4.a’) e (4.b’): 
L(θ|X, Y) 	= 	ෑ f(x௜|θ)f(y௜|	x௜;θ)ே
௜ୀଵ
(2ᇱᇱ′) 
Geralmente se toma o logaritmo da função de verossimilhança, o que permite 
simplificar os cálculos necessários à solução do problema de otimização. Como se verá 
6 
 
a frente, tal problema requer que a função de verossimilhança seja maximizada, o que é 
equivalente a maximizar o logaritmo da função de verossimilhança2. 
A função de “log-verossimilhança” é, pois, de acordo com 2’’’: 
log L(θ|X, Y) = log൭ෑ f(x௜|θ)f(y௜|	x௜; θ)ே
௜ୀଵ
൱ = ෍ log൫f(x௜|θ)f(y௜|	x௜;θ)൯ே
௜ୀଵ
(2௜௩) 
Esta passagem utiliza a propriedade de que log(ZW) = log(Z) + log(W), quaisquer que 
sejam as variáveis Z e W. Tal propriedade pode ser empregada novamente para obter: 
log L(θ|X, Y) = ෍ log	൫f(x௜|θ)൯ே
௜ୀଵ
+ ෍ log൫f(y௜|	x௜;θ)൯ே
௜ୀଵ
(2௩) 
Seguindo a discussão de Greene (2003, seção 17.4.7) a análise pode focar apenas a 
segunda parcela à direita, a qual corresponde ao somatório das probabilidades 
condicionais de Y. Conforme argumenta o autor, não há perda alguma ao concentrar a 
atenção apenas nas probabilidades condicionais, deixando fora da análise a parcela da 
função de log-verossimilhança que diz respeito ao processo gerador de X. Trata-se de 
assumir que o conhecimento acerca do processo gerador das explicativas não é 
necessário para o conhecimento do modelo de interesse, o qual diz respeito ao processo 
gerador de Y, condicional à X. 
Neste ponto, é necessário, pois, deixar claro qual é modelo de interesse. Trata-se do 
modelo de regressão linear especificado a partir da Função de Regressão Populacional 
(FRP), tal como segue: 
E[Yi|X] = f(X) ≈ xi’β (5.a) 
Yi = E[Yi|X] + ui ≈ xi’β + ui (5.b) 
Os parâmetros a serem estimados correspondem, portanto, ao vetor β. Tomando apenas 
a parcela da função de verossimilhança que interessa para a análise de regressão linear, 
tem-se: 
log L(β|X, Y)௬|௑ = ෍ log൫f(y௜|	X;β)൯ே
௜ୀଵ
(6) 
A função (6) recebe o nome de “função de log-verossimilhança condicional”3. É da 
maximização dela que são obtidos os estimadores de máxima verossimilhança para os 
parâmetros da FRP. 
 
 
2 Isso é correto pois o logaritmo é uma transformação monotônica, i.e., no caso, uma função sempre 
crescente da variável a qual é aplicado. 
3 Ver Wooldridge, J.M., Econometric analysis of cross-section and panel data,2002, MIT, seção 13.3. 
7 
 
2.2 O problema de máxima verossimilhança para a regressão linear 
A estimação dos parâmetros da FRP por máxima verossimilhança é perseguida a partir 
da resolução do problema a seguir: 
݉áݔఉ൛log L(β|X, Y)௬|௑ൟ = ݉áݔఉ ൝෍ log൫f(y௜|	x௜;β)൯ே
௜ୀଵ
ൡ 
É preciso introduzir algumas hipóteses de maneira a tornar o problema solúvel. Uma 
delas é a de que as perturbações da FRP possuem FD condicional normal com média 
zero e variância σ2. Trata-se, pois, de assumir três hipóteses do MCRL, as de 
perturbações homocedásticas (MCRL5), não-autocorrelacionadas (MCRL6) e 
normalmente distribuídas (MCRL7). 
Assim procedendo, ui|X ~ N(0, σ2). Do que decorre que yi|X ~ N(xi’β, σ2), pois E[yi|X] 
= xi’β (vide 5.a acima). E, portanto: 
f(y௜|	X;β) = 1
√2ߨߪଶ ݁ݔ݌ ൥− 12ቆݕ௜ − ݔ௜′βߪ ቇଶ൩ 
Pois a forma geral da FD normal padrão é f(z௜) = ଵ√ଶగఙమ ݁ݔ݌ ቈ− ଵଶ ൬௭೔ିா[௭೔]ඥ௏[௭೔] ൰ଶ቉. 
Assim sendo, a função de log-verossimilhança condicional passa a: 
log L(β|X, Y)௬|௑ = ෍ log൭ 1
√2ߨߪଶ ݁ݔ݌ ൥− 12ቆݕ௜ − ݔ௜′βߪ ቇଶ൩൱ே
௜ୀଵ
 
Manipulando um pouco, pode-se fatorar esta função como segue: 
log L(β|X, Y)௬|௑ = ෍݈݋݃൭ 1
√2ߨߪଶ ݁ݔ݌ ൥− 12ቆݕ௜ − ݔ௜′βߪ ቇଶ൩൱ே
௜ୀଵ= ෍൥log൬ 1
√2ߨߪଶ൰ − 12ቆݕ௜ − ݔ௜′βߪ ቇଶ൩ே
௜ୀଵ= ܰ log ൬ 1
√2ߨߪଶ൰ + ෍൥− 12ቆݕ௜ − ݔ௜′βߪ ቇଶ൩ →ே
௜ୀଵ
 
log L(β|X, Y)௬|௑ = ܣ଴ − 12ߪିଶ෍(ݕ௜ − ݔ௜′β)ଶே
௜ୀଵ
(6ᇱ) 
Em que A0 = ܰ log ቀ ଵ√ଶగఙమቁ é uma constante. 
À luz de (6’) o problema de máxima verossimilhança pode ser reescrito: 
8 
 
݉áݔఉ൛log L(β|X, Y)௬|௑ൟ = ݉áݔఉ ൝ܣ଴ − 12ߪିଶ෍(ݕ௜ − ݔ௜′β)ଶே
௜ୀଵ
ൡ
↔ ݉áݔఉ ൝−෍(ݕ௜ − ݔ௜′β)ଶே
௜ୀଵ
ൡ 
A última passagem segue do fato de que maximizar a soma de uma constante e de uma 
função é equivalente a maximizar a função. Também é correto estabelecer que o valor 
de −∑ (ݕ௜ − ݔ௜′β)ଶே௜ୀଵ é tão maior quanto menor for o valor de ∑ (ݕ௜ − ݔ௜′β)ଶே௜ୀଵ , e, por 
isso: 
݉áݔఉ ൝−෍(ݕ௜ − ݔ௜′β)ଶே
௜ୀଵ
ൡ ↔ ݉݅݊ఉ ൝෍(ݕ௜ − ݔ௜′β)ଶே
௜ୀଵ
ൡ 
Finalmente, pois: 
݉áݔఉ൛log L(β|X, Y)௬|௑ൟ ↔ ݉݅݊ఉ ൝෍(ݕ௜ − ݔ௜′β)ଶே
௜ୀଵ
ൡ ↔ ݉݅݊ఉ ൝
1ܰ
෍(ݕ௜ − ݔ௜′β)ଶே
௜ୀଵ
ൡ 
A última passagem decorre do fato de que minimizar o produto de uma função-objetivo 
por uma constante (1/N) é equivalente a minimizar a função-objetivo. O último 
problema de otimização do lado direito é equivalente ao problema de minimização que 
dá base ao estimador de mínimos quadrados ordinários, basta observar que a média 
amostral é a contrapartida, na amostra, da expectativa. Isto é: 1ܰ
෍(ݕ௜ − ݔ௜′β)ଶே
௜ୀଵ
~௉ܧ[(ݕ௜ − ݔ௜′β)ଶ] 
O símbolo “~P” indica que o termo da esquerda temcomo contrapartida populacional o 
termo à direita. 
Em suma: 
݉áݔఉ൛log L(β|X, Y)௬|௑ൟ ↔ ݉݅݊ఉ ൝ 1ܰ ෍(ݕ௜ − ݔ௜′β)ଶே
௜ୀଵ
ൡ ↔ ݉݅݊ఉ 	{ܧ[(ݕ௜ − ݔ௜′β)ଶ]} 
De tal sorte, o problema de minimização a que se pôde chegar é equivalente ao 
problema que dá base ao método de mínimos quadrados. 
Pode-se concluir, pois, que como o problema de estimação por máxima verossimilhança 
(MV) é equivalente ao problema de estimação por MQO, os estimadores para os 
parâmetros da FRP fornecidos pelos dois métodos são equivalentes (Wooldridge, p.533, 
Gujarati, apêndice 7A, seção 7A.4). Formalmente, pois, β෠ெொை = 	 β෠ெ௏ . Deve-se 
assinalar, contudo, que este resultado apenas é verificado quando todas as hipóteses do 
9 
 
MCRL são válidas. A violação de qualquer uma delas implica na não equivalência entre 
os dois estimadores. 
A quebra da equivalência é uma maneira alternativa de interpretar a perda de qualidade 
do estimador de MQO imposta pela violação das hipóteses do MCRL. Basta ter em 
conta que o estimador de MV possui menor variância entre todos os estimadores 
consistentes (ver seção 2.4 a frente). Sua maior precisão, portanto, não se restringe à 
categoria de estimadores lineares não viesados, a qual é uma sub-categoria da categoria 
mais abrangente de estimadores consistentes. 
2.3 Hipóteses do método de máxima verossimilhança aplicado à regressão 
linear 
Rigorosamente, o problema de máxima verossimilhança nem sempre tem solução. Ou, 
colocando de outra maneira, para alguns conjuntos de dados pode não ser possível obter 
os estimadores de máxima verossimilhança (MV). De fato, apenas para os conjuntos de 
dados que satisfazem todas as hipóteses a seguir é possível obter os estimadores de MV. 
(MV1 ou MCRL2) A amostra disponível é aleatória, i.e., todas as unidades da 
população têm a mesma probabilidade de serem selecionadas para participar da 
amostra. É equivalente a afirmar que não há um mecanismo particular que determina 
quais observações são selecionadas. 
(MV2) O conhecimento acerca do processo gerador de X não é necessário para o 
conhecimento acerca do processo gerador de Y condicional à X. 
(MV3, condições de regularidade) As derivadas de primeira, segunda a terceira ordem 
da função de verossimilhança condicional existem e tal função tem valor máximo4. 
(MV4 ou MCRL 3) Não há dependência linear perfeita entre as variáveis explicativas, o 
que garante que a matriz E[xixi’] seja invertível. É equivalente afirmar que X tem posto 
completo, entendendo-se por posto o número de colunas linearmente independentes de 
X (K +1 colunas, no caso). 
(MV5 ou MCRL5 e MCRL6) Os termos de perturbação são esféricos, i.e., 
homocedásticos e não-autocorrelacionados. 
(MV6 ou MCRL 7) A função de distribuição de probabilidades (FD) condicional do 
termo de perturbação é normal, com média zero e variância σ2 (hipótese de Gauss-
Makov), i.e, ui|X~ N(0, σ2), i=1,...,N. 
2.4 Propriedades dos estimadores de máxima verossimilhança 
Sob a validade das hipóteses MV1-MV6, o estimador de máxima verossimilhança tem 
todas as propriedades que o estimador de MQO tem sob MCRL1-MCRL6. São elas: 
 
4 Esta maneira de expressar as condições de regularidade das quais depende o método de MV é não 
apenas grosseiramente sucinta como omite detalhes importantes. Ver a definição 17.3 de Greene, 
Econometric Analysis. 
10 
 
ausência de viés, eficiência e consistência. A segunda propriedade decorre do teorema 
de Gauss-Markov que também se aplica a β෠ெ௏ sob MV1-MV6. 
De fato, no que tange à estimação dos parâmetros de uma FRP linear, o método de MV 
nada acrescenta ao método de MQO. Não há vantagem alguma em utilizar o primeiro, 
comparativamente ao que o segundo proporciona em termos de qualidade das 
estimativas pontuais. O fato de o estimador de MV não superar o estimador de MQO 
atesta o poder e generalidade do segundo estimador. 
Enquanto não há vantagem comparativa do método de MV no âmbito particular de 
estimação de modelos lineares (nos parâmetros), há claras vantagens em outro âmbito 
particular que é o de estimação de modelos não-lineares. De fato, o método de MQO 
não se aplica a esta segunda classe de modelos a qual inclui, por exemplo, modelos em 
que a variável dependente é binária, tratando-se de uma característica dicotômica como 
estar ou não empregado, estar ou não acometido por desnutrição, participar ou não do 
mercado internacional, etc. Esta classe de modelos é estudada em econometria II com 
recurso ao método de MV. 
O diferencial do método de MV que tem se mostrado seu principal atrativo em pesquisa 
empírica está em sua eficiência, segundo estabelece a propriedade a seguir. 
Eficiência assintótica: a matriz de variância-covariância do estimador de MV 
converge, com o tamanho da amostra tendendo ao infinito, para o valor mínimo das 
matrizes de variância-covariância dos estimadores consistentes. Este nível mínimo é 
denominado por limite inferior de Crámer-Rao5. 
 
 
5 Ver Greene, econometric analysis, teorema 17.4, capítulo 17.

Outros materiais