Nota de aula de econometria 1

Econometria

•
UFABC

Victor Mariotto
18/04/2016
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Nota_de_aula_3.pdf
1 
 
Notas de aula para o curso de Econometria I 
Nota 3: Estimação por intervalo e testes de hipóteses 
Thiago Fonseca Morello 
fonseca.morello@ufabc.edu.br 
sala 301, Bloco Delta, SBC 
1 Estimação por intervalo 
Para estimar um parâmetro populacional pode-se tomar por base um único valor, a 
estimativa pontual. Mas é também possível obter um intervalo de valores que contenha 
o valor procurado. 
O termo “intervalo” deve ser, desde início, interpretado corretamente. Trata-se de dois 
limites que contêm, com probabilidade suficientemente alta, o parâmetro populacional. 
Por exemplo, pode-se construir um intervalo que contenha com 95% de probabilidade o 
valor efetivo da média populacional, μ. Ou seja, trata-se de tomar I1 e I2 de modo que 
P(I1 < μ <I2) = 0,95. Este tipo de intervalo é denominado por “intervalo de confiança” 
com 95% de probabilidade. 
Um equívoco comum de interpretação da expressão P(I1 < μ <I2) = 0,95 está em 
entender que 95% é a probabilidade do valor populacional da média, μ, pertencer ao 
intervalo I1 e I2. Porém μ não é uma variável aleatória, mas uma constante e, portanto, o 
conceito de probabilidade não pode ser aplicado a ela. A interpretação correta parte da 
percepção de que o intervalo {I1, I2} é aleatório, de modo que 95% corresponde à 
probabilidade deste intervalo conter o valor fixo da média populacional. 
Seja assumido que a amostra disponível, X1, X2,...,XN é aleatória de modo que todas as 
observações têm média μ e variância σ2, i.e., E[Xi] = μ e V[Xi]= σ2, i=1,...,N. Além 
disso, todas as observações se distribuem normalmente, i.e., Xi ~ N(μ, σ2), i=1,...,N. 
Nesta condições, deseja-se obter o intervalo que contém, com 95% de probabilidade, a 
média populacional, μ. 
Como limites do intervalo, i.e., I1 e I2, toma-se geralmente a estimativa pontual 
descontada ou acrescentada por uma margem de erro fixa, ∈, i.e., I1= θ෠ை−	∈ e I2 = 
θ෠ை+	∈, em que θ෠ை é o valor observado do estimador θ෠ ou estimativa pontual. 
 
 
 
 
 
2 
 
É sabido que θ෠ = Xഥ é um estimador não viesado, consistente e eficiente para μ. Além 
disso, é possível demonstrar que E[Xഥ] = μ, V[Xഥ] = σ2/N e que Xഥ ~ N(μ, σ2/N). Isso quer 
dizer que, para estimar a média μ, pode-se tomar o intervalo [Xഥை−	∈; Xഥை+	∈], em que Xഥை é a estimativa pontual, i.e., a média obtida para a amostra. A questão agora está em 
saber qual deve ser o valor de ∊. Uma vez que se deseja especificar, a priori, a 
probabilidade ߙ com que o intervalo contém μ, o valor de ∊ pode ser escolhido de 
maneira a que P(Xഥ−	∈ < μ < Xഥ+	∈) = ߙ. 
Este critério para selecionar ∊ pode ser visualizado a partir do gráfico da FD N(μ, σ2/N), 
que segue abaixo. Por mero fim de clareza, será assumido que α = 95%. 
Figura 4 Intervalo de confiança para estimação da média populacional 
 
Conforme a figura acima indica, o intervalo que se deseja construir é aquele que 
corresponde à área hachurada sob a curva normal com massa de probabilidade 
equivalente a 95%. O valor de ∊, portanto, tem de ser compatível com este objetivo. 
A dificuldade fundamental está em que, para conhecer o valor de ∊ adequado, é 
necessário conhecer a FD de Xഥ, pois apenas assim pode-se saber quais valores de Xഥ 
contêm entre si uma massa de probabilidade de 95%. O que requer o conhecimento de 
μ. Chega-se, pois, a uma circularidade aparentemente intransponível: para calcular o 
intervalo que contém μ com 95% de probabilidade é preciso conhecer μ. 
3 
 
Há, contudo, uma saída. Existe uma variante da FD normal, denominada FD normal 
padrão, que se caracteriza por ter média (μ) igual a zero e desvio padrão igual à unidade. 
Sempre é possível, portanto, determinar o intervalo em torno da média da normal 
padrão (zero, no caso) que corresponde a uma massa de probabilidade desejada. E isso 
pois a média desta distribuição é sempre zero. 
Porém, a FD normal em questão não necessariamente é a normal padrão, representada 
por N(0,1), mas sim a FD N(μ, σ2/N). Na verdade, não se sabe, a priori, quais são os 
valores de seus parâmetros. A média, por exemplo, pode ser positiva, i.e., μ > 0. 
Mesmo assim, sempre há, felizmente, uma conexão fundamental entre uma distribuição 
normal padrão genérica, N(μ, σ2/N), no caso, e a distribuição normal padrão, N(0,1). 
Esta conexão consiste no fato de que subtraindo Xഥ o valor de sua média populacional, μ, 
e dividindo o resultado pelo valor populacional do desvio padrão de Xഥ, ඥσଶ ܰ⁄ , gera-se 
uma VA transformada que tem FD normal padrão, quaisquer que sejam os valores de μ 
e de σଶ ܰ⁄ , i.e., ଡ଼
ഥିஜ
ඥ஢మ ே⁄
~ܰ(0,1). Desta maneira, pois: 
P ቆ Xഥ − μ
ඥσଶ ܰ⁄
≤ γቇ = P(Z ≤ γ) = ߜఊ 
Em que γ é um valor genérico, Z é uma VA com FD N(0,1) e δγ é a massa de 
probabilidade acumulada até ele. O que implica em: 
P ቆ−γ ≤ Xഥ − μ
σ/√N ≤ γቇ = P(−γ ≤ Z ≤ γ) = 1 − 2δఊ	(݅) 
É preciso considerar mais um fato para resolver o problema, o qual decorre da 
manipulação a seguir da expressão P(Xഥ−	∈ < μ < Xഥ+	∈). 
(1) Subtraindo Xഥ dos dois lados das duas desigualdades: P(Xഥ−	∈	< 		μ	 < 	Xഥ+	∈) = P(−	∈	< 		μ − Xഥ 	<	∈) = P(−	∈	< 		Xഥ − μ	 <	∈) 
(2) Dividindo os dois lados das duas desigualdades obtidas por σ/√N: 
P(−	∈	< 		Xഥ − μ	 <	∈) = P ቆ−	 ∈
σ/√N 	< 		Xഥ − μ	σ/√N < 	 ∈σ/√Nቇ	 
Finalmente, pois, pode-se afirmar que Pቀ−	 ∈
஢/√୒ 	< 		 ଡ଼ഥିஜ	஢/√୒ < 	 ∈஢/√୒ቁ = ߙ	(݅݅). 
Comparando (i) e (ii), tem-se: 
Pቆ−γ ≤ Xഥ − μ
σ/√N ≤ γቇ = P(−γ ≤ Z ≤ γ) = 1 − 2δఊ(݅) 
4 
 
Pቆ−	 ∈
σ/√N 	< 		Xഥ − μ	σ/√N < 	 ∈σ/√Nቇ = P(Xഥ−	∈	< 		μ	 < 	Xഥ+	∈) = ߙ	(݅݅) 
Se ߛ for tomado de maneira a que 1 − 2δఊ = ߙ, o intervalo [-ߛ; ߛ] torna-se equivalente 
ao intervalo [-∈/(σ/√N); ∈/(σ/√N)]. Sendo ߛα tal que P(−γఈ ≤ Z ≤ γఈ) = ߙ	, resulta 
que ∈/(σ/√N) = ߛߙ, i.e., ∈ = ߛߙ(σ/√N). E aí temos nosso valor para a margem fixa de 
erro, ∈. 
Vale a pena assinalar que ߛߙ é o valor de Z que corresponde ao intervalo simétrico em 
torno da média (zero) cuja probabilidade associada é ߙ, 95%, por exemplo, ou 99%, a 
depender da escolha do pesquisador. De qualquer maneira, ߙ é denominado nível de 
confiança e o intervalo [ തܺ − 	γఈ ஢√୒ ; തܺ + 	γఈ ஢√୒], intervalo de confiança. 
Outro fato relevante a ser assinalado é o de que o intervalo de confiança tem limites 
aleatórios, sendo, em si, aleatório. Por isso, ele pode conter ou não o valor populacional 
da média de X, denotada por μ. O que o nível de confiança garante é que, com 95% de 
probabilidade, o intervalo aleatório contém a média populacional. Mas não há certeza 
quanto a isso, trata-se de um fato probabilístico. 
2 Testes de hipóteses 
2.1 Conceito básico: um teste intuitivo rudimentar 
O objetivo central de um teste de hipóteses é utilizar a evidência contida na amostra 
disponível para fazer uma afirmação quanto ao valor populacional de um parâmetro1. 
Trata-se, pois, de um procedimento de inferência uma vez que, com base no conteúdo 
informacional da amostra, se retira uma conclusão acerca da população. 
Um teste de hipóteses é sempre composto por um par de hipóteses, a principal delas é 
denominada hipótese nula e geralmente especifica um valor pontual para o parâmetro 
sob investigação. A hipótese alternativa especifica o intervalo de valores (mais 
provável) ao qual o parâmetro deve pertencer na situação hipotética em que a hipótese 
nula não é válida. 
A hipótese nula canônica (mais comum) é a de que o valor populacional de um dado 
parâmetro, θ, é zero. O que é escrito geralmente como H0: θ = 0. 
A hipótese alternativa mais geral possível é, claramente, a possibilidade complementar à 
que define a hipótese nula, i.e., H1: θ ≠ 0. Ou, de maneira equivalente, H1: θ < 0 ou θ > 
0. 
Quando se pode dizer que a amostra contém evidências que permitam tomar uma 
decisão acerca da plausibilidade da hipótese nula?
Uma possível resposta é encontrada 
em um critério grosseiro, porém esclarecedor. 
 
1 Ver Casella & Berger, “Statistical Inference”, 1990, Duxbury Press, cap.8. 
5 
 
Seja assumido que se tem por objetivo gerar uma estimativa pontual para o valor 
populacional θ. A estimativa obtida dos dados disponíveis é denotada por θ෠ை. 
Um critério suficientemente “grosseiro” é o seguinte: se for observado um valor para a 
estimativa pontual muito distante de zero, será afirmado que a hipótese nula é falsa. 
Porque este critério faz sentido? A resposta é intuitiva (ou pelo menos deveria ser). A 
hipótese nula afirma que o valor populacional do parâmetro é zero, i.e, θ = 0. Para a 
julgar, temos apenas uma amostra disponível, a qual nos permite obter apenas uma 
estimativa, θ෠ை. Caso este valor seja próximo de zero, a evidência disponível é favorável 
à hipótese nula. De maneira inversa, pois, quanto mais distante de zero for o valor 
estimado, menos favorável à hipótese é a evidência. 
Um exemplo pode tornar mais claro o critério grosseiro. Um dos problemas mais 
famosos em economia do trabalho é o de mensuração da contribuição da educação para 
a remuneração obtida no mercado de trabalho. O que pode ser exprimido em duas 
perguntas. Será que trabalhadores com maior nível educacional são melhor 
remunerados? Em que medida isso é verdade? 
Com nos dados da Pesquisa Nacional por Amostra de Domicílios (PNAD) é possível 
responder as duas perguntas. Uma maneira de fazer isso é empregar o estimador de 
mínimos quadrados ordinários e obter uma estimativa para o efeito educação-
remuneração, ou retorno (econômico) da educação, a qual será denotada por ߚመை. O 
parâmetro-alvo, portanto, aquilo que os economistas do trabalho desejam conhecer, não 
é o valor específico do retorno da educação na amostra da PNAD, ߚመை, mas sim o valor 
populacional deste efeito, β. 
O teste de hipóteses relevante é composto pela hipótese nula H0: β = 0 e pela alternativa 
H1: β ≠ 0. 
Caso seja obtida uma estimativa pontual muito grande, por exemplo, os resultados 
indiquem que um ano a mais de educação aumenta a remuneração mensal do 
trabalhador em 100% (duplicação), a hipótese nula deve ser rejeitada. Isso pois 100% é 
um valor consideravelmente superior a zero - ao menos aparentemente, para fins deste 
exemplo de aplicação do critério grosseiro. Por outro lado, se os resultados indicarem 
que um ano a mais de educação aumenta o salário mínimo em 0,1%, seria precária a 
base em que o pesquisador se apoiaria ao procurar argumentar que a educação tem 
efeito relevante sobre a remuneração. E isso porque 0,1% – aparentemente, mais uma 
vez – é um valor próximo de zero. 
O critério grosseiro é o fundamento do teste de hipóteses: todo e qualquer teste de 
hipóteses se assenta sobre ele e, “forçando” o argumento (por motivos didáticos), é 
possível afirmar que os testes de hipóteses diferem sobretudo em função da medida que 
propõem para a distância entre o valor do parâmetro especificado pela hipótese nula 
(zero, geralmente) e a estimativa pontual. 
6 
 
O salto do critério grosseiro para um critério mais preciso é dado a partir da resposta a 
seguinte pergunta: como é possível afirmar que um valor, assumido pela estimativa 
pontual, é grande o bastante para se rejeitar a hipótese nula? Ou que ele é 
suficientemente próximo de zero para que a decisão correta seja a de não rejeitar a 
hipótese nula? 
No exemplo de economia do trabalho, um aumento do rendimento de 100% parece 
suficientemente grande e um aumento de 0,1% suficientemente pequeno. Mas, porém, 
estes são valores fictícios, empregados para fins didáticos. Segundo os resultados 
obtidos por Teixeira e Menezes-Filho2 a partir das PNADs de 1997 a 2007, um ano 
adicional de educação proporciona, em média, um aumento de 5,5% na remuneração 
mensal, com desvio padrão de 0,8%. Será que 5,5% é suficientemente grande? A 
resposta agora não é tão evidente. É preciso apelar para um critério objetivo. A 
possibilidade mais comum está em olhar para a FD do estimador que prevaleceria caso a 
hipótese nula para o retorno da educação fosse verdadeira. Assumindo que o desvio 
padrão da distribuição populacional é equivalente a 0,8%, a FD do retorno estimado da 
educação é tal como ilustrada na figura a seguir. 
 
A mera distância entre a estimativa pontual e zero não é uma medida precisa para o grau 
em que a evidência é favorável à hipótese nula. Uma melhor medida é a probabilidade 
de ocorrência da estimativa pontual. 
 
2 Está sendo considerada a estimativa pontual gerada pelo modelo IV, conforme consta na tabela 4 de 
Teixeira, W. M., Menezes-filho, N.A. "Estimando o retorno à educação do Brasil considerando a 
legislação educacional brasileira como um instrumento". Revista de Economia Política, vol. 32, nº 3 
(128), pp. 479-496, julho-setembro/2012. Disponível em http://www.scielo.br/pdf/rep/v32n3/08.pdf 
7 
 
Se for observada uma estimativa pontual cuja probabilidade de ocorrência, calculada 
sob a validade hipótese nula, é baixíssima, há algo de errado neste resultado. A razão 
para isso está em que o que ocorre com baixíssima probabilidade não deveria ocorrer. 
Especialmente quando o número de ocorrências observadas é pequeno; unitário, na 
realidade, uma vez que há apenas uma amostra e, pois, apenas uma estimativa pontual. 
Se é baixíssima a probabilidade do retorno de um ano adicional de educação ser de 
5,5%, este não deveria ser o valor obtido como resultado. 
Há apenas duas possibilidades, ou a evidência está errada ou a hipótese nula é 
equivocada. Em pesquisa científica, não há sentido algum em tentar salvar uma teoria 
que não corresponde à realidade, afirmando que é a realidade que está errada. 
Exatamente por isso, a discrepância entre uma hipótese, geralmente proveniente da 
teoria, e uma evidência, é tomada como indicação de incoerência da hipótese. 
De fato, a probabilidade de ocorrência de um retorno percentual de 5,5% é muito baixa, 
de 1 x 10-11, segundo a figura acima. Isso indica que o verdadeiro valor médio 
populacional do retorno é superior a zero. I.e., que a verdadeira distribuição normal está 
“deslocada” para a direita, conforme a figura abaixo. E isso pois, quanto menor a 
distância entre a estimativa pontual e o verdadeiro valor populacional da média, maior é 
a probabilidade de ocorrência da primeira. 
 
 
2.2 Duas abordagens para os testes de hipóteses 
O recurso à probabilidade de ocorrência da estimativa pontual não resolve 
completamente o problema de obtenção de uma medida objetiva para o grau em que a 
8 
 
evidência disponível é desfavorável à hipótese nula. E isso pois como saber se um dado 
valor para a probabilidade é suficientemente pequeno? É preciso tomar por base uma 
definição para o termo “suficientemente pequeno” consensualmente aceita pela 
comunidade científica. 
Para isso, é necessário que se tenha por claro que há dois erros que podem ser 
cometidos na tomada de decisão acerca do resultado do teste3. Em primeiro lugar, pode-
se decidir por rejeitar uma hipótese que é verdadeira, equívoco este denominado por 
“erro do tipo I”. Em segundo lugar, é possível não rejeitar uma hipótese falsa, este o 
“erro do tipo II”. A tabela descreve os dois erros. 
Tabela X Dois tipos de erros em um teste de hipóteses 
Hipótese 
verdadeira / 
Decisão 
Rejeitar H0 Não rejeitar H0 
H0 Erro tipo 1 Decisão correta 
H1 Decisão correta Erro tipo 2 
Fonte: Casella & Berger, p.359. 
A probabilidade de ocorrência de cada um dos erros pode ser reduzida a um nível 
aceitável a partir da maneira como o teste é construído, i.e., de acordo com o critério de 
tomada de decisão adotado. Uma
maneira de fazer isso está em tomar um valor 
suficientemente baixo para a probabilidade de ocorrência do erro do tipo I. A convenção 
em voga é a de que 5% é um valor suficientemente baixo. 
Há uma relação crucial entre a probabilidade de cometer um erro do tipo I e uma 
medida do grau em que a evidência é favorável à hipótese nula. Retomando a ideia do 
teste grosseiro, H0 deve ser rejeitada sempre que a estimativa pontual se mostrar 
consideravelmente distante dela. É o que se tem quando a probabilidade de ocorrência 
de um valor da estimativa pontual mais extremo do que o observado é não superior a 
5%, o que pode ser atestado de duas maneiras alternativas. Antes de passar a elas, cabe 
expressar as condições de um problema de teste de hipóteses de maneira mais geral. 
Seja assumido que a amostra disponível, X1, X2,...,XN é aleatória de modo que ela 
ocorre com probabilidade f(x1,...,xN|θ) = ∏ f(x௜|θ)ே௜ୀଵ = f(xN|θ)...f(xN|θ), em que f(x|θ) é 
a FD das observações, a qual se define exclusivamente em função do parâmetro 
populacional θ. O objetivo da análise consiste em realizar o teste de hipóteses H0: θ = 0 
vs. H1: θ ≠ 0. 
Trata-se de um teste “bicaudal”, pois a hipótese alternativa aponta para dois intervalos, 
θ < 0 e H1: θ > 0. O teste seria “unicaudal” caso a hipótese apontasse para apenas um 
intervalo. 
 
3 Cabe assinalar que, por mais que tal decisão esteja fundamentada em um procedimento estatístico em 
número ela nunca é livre de erros. 
9 
 
Seja θ෠ um estimador não-viesado para θ, i.e., E[θ෠] = θ. Este estimador recebe o nome de 
estatística do teste para o teste genérico que se acaba de definir. A FDA do estimador 
será denotada por P(θ෠ ≤ 	θ෠ை |θ) = F஘෡൫θ෠ை|θ൯. Será assumido que F஘෡൫−θ෠ை|θ൯ = 1 −F஘෡൫θ෠ை|θ൯, i.e., que a FDA é simétrica em torno da média populacional θ (como é o caso 
das FDs Normal e t de Student). 
Primeira abordagem: valores críticos e região crítica do teste. 
Assumindo a hipótese nula como válida, i.e., tomando θ = 0, pode-se obter os valores γ1 
e γ2 do estimador tais que P(γ1 ≤ θ෠ ≤ γ2|θ=0)4 = 95%. É necessário assinalar que esta 
probabilidade é obtida a partir da FDA de θ෠ para θ = 0. É desta maneira que se coloca 
em confronto a hipótese nula, a qual, pois, aparece como uma hipótese acerca da FD da 
estatística, e a evidência, esta última, no caso, a estimativa pontual. 
Os valores γ1 e γ2 são denominados por “valores críticos”. Se a estimativa pontual 
assumir um valor mais extremo do que um dos valores críticos, deve-se rejeitar a 
hipótese nula. A figura abaixo ilustra esta abordagem, retomando o exemplo de 
estimação do retorno da educação. Assume-se que a estatística do teste segue um FD 
normal com média zero, segundo a hipótese nula, e com desvio padrão 0,8%. 
 
Os valores críticos, indicados com linhas verticais pontilhadas de cor cinza, 
correspondem a γ1 = -1.645 e γ2 = 1.645. O valor da estimativa pontual, 5,55%, é mais 
extremo do que o valor crítico positivo. 
 
4 Para uma distribuição simétrica em torno da média populacional, esta probabilidade é equivalente a 1 − 2F஘෡൫θ෠ை|θ൯. 
10 
 
O invervalo [γ1 ;γ2] é denominado “região de aceitação” ou “região crítica” do teste, 
enquanto que a união dos dois intervalos complementares, [-∞;γ1], [γ2; ∞] é denominada 
por “região de rejeição”. A região crítica pode ser, genericamente, indicada por 
RC(α,θ), em que α é o nível de significância do teste ou a probabilidade de cometer um 
erro do tipo I, geralmente fixada em 5% (de modo que a probabilidade de uma decisão 
correta seja de 95%). 
Segunda abordagem: p-valor do teste de hipóteses. 
A hipótese nula pode ser rejeitada sempre que a probabilidade de obter um valor mais 
extremo do que o observado para a estimativa pontual for inferior a 5%, de acordo com 
a FDA de θ෠ para θ = 0. A “probabilidade de um valor mais extremo” é denominada p-
valor, conceito ilustrado na figura abaixo para o exemplo de retorno da educação. O p-
valor corresponde à área entre as duas linhas verticais pontilhadas em cinza na figura 
abaixo. Esta, mais uma vez, considera o exemplo de retorno da educação, assumindo 
que a estatística do teste segue um FD normal com média zero, segundo a hipótese nula, 
e com desvio padrão 0,8%. 
 
A área correspondente ao p-valor pode ser melhor visualizada no gráfico abaixo, o qual 
traz um zoom do gráfico anterior no segmento [5,4;6,5] do eixo horizontal. 
 
 
 
11 
 
 
 
2.3 Testes de hipóteses mais utilizados em econometria 
2.3.1 Teste t 
O teste para a média populacional de uma variável aleatória com distribuição normal 
padrão foi apresentado no exemplo acima (retorno da educação). Este teste é pouco 
utilizado em econometria dado que pressupõe o conhecimento da variância 
populacional, o que não é realista. Nenhum parâmetro das funções de distribuição de 
probabilidade relevantes para os estudos econométricos é conhecido a priori; todos eles 
têm de ser estimados. 
Seja mantida a hipótese simplificadora de que há apenas uma característica de interesse, 
X. A amostra disponível, aleatória, é dada por {X1,...,XN}. De acordo com a teoria 
estatística convencional, a probabilidade de ocorrência da amostra é dada por uma 
função de distribuição de probabilidades conjunta, ܨ௑భ,…,௑ಿ(ݔଵ, … , ݔே ;ߠ). Será assumida 
que esta função é uma normal multivariada, o que, em conjunto com a hipótese de 
distribuição aleatória, garante que a distribuição populacional da média da característica 
seja normal com média μ e variância σ2/N5. Porém, como a variância não é conhecida, o 
mais adequado é tomar a estatística abaixo como estatística do teste. E isso pois a FD 
dela é conhecida. 
ܶ = Xഥ − ߤ଴
ඥܸ(Xഥ) ~ݐேିଵ 
 
5 Vide Casella & Berger, exemplo 5.2.1, p.209. 
12 
 
Esta estatística tem uma distribuição t de Student com N – 1 graus de liberdade, em que 
N é o tamanho da amostra. A grandeza ߤ଴ é o valor do parâmetro populacional 
especificado pela hipótese nula e V( തܺ) é a variância da média. 
Todos os componentes da estatística podem ser calculados a partir da amostra e ߤ଴ é 
definido pelo próprio pesquisador, sendo geralmente zero. 
O procedimento do teste para ߤ଴ = 0 consiste nos passos abaixo. 
1. Calcular o valor da estatística do teste, ෠ܶ; 
2. Abordagem da região crítica: 
a. Obter os valores críticos, i.e., os valores da distribuição t que ocorrem com 
5% de probabilidade, {-tc, tc} 
b. Se ෠ܶ > 0, rejeitar H0 se ෠ܶ >	tc; 
c. Se ෠ܶ < 0, rejeitar H0 se ෠ܶ < −	tc; 
3. Abordagem do p-valor: 
a. Se ෠ܶ > 0, o p-valor é dado por ݌̂ = P(t > ෠ܶ). Obtê-lo; 
b. Se ෠ܶ < 0, o p-valor é dado por ݌̂ = P(t < ෠ܶ). Obtê-lo; 
c. rejeitar H0 se ݌̂ ≤ 5%. 
 
Retomando o exemplo de estimação do retorno da educação, a estatística do teste é dada 
por: 
ܶ = β෠ − ߚ଴
ටܸ(β෠) ~ݐேି௄ 
Há uma particularidade nesta estatística, o número de graus de liberdade dela é N-K e 
não N-1. A razão disso está em que não se trata de um teste para a média, mas sim para 
um parâmetro que capta a relação entre duas variáveis. Por hora, não é preciso se 
preocupar em entender este detalhe, ele será esclarecido na parte III do curso. Basta 
saber que K é o número de variáveis explicativas que compõem o modelo de regressão 
linear a partir do qual se estima a relação entre nível educacional e remuneração. 
Segundo os resultados obtidos pelos autores, β෠ = 5,5%, ටܸ(β෠) = 0,8% e β0 = 0, pois a 
hipótese em vista é a de que a educação tem contribuição nula para a remuneração. O 
valor observado da estatística é, pois, de ෠ܶ = 6.875. O número de graus de liberdade é 
N - K = 1.248.998 – 50 = 1.248.948.
Os valores críticos para um nível de significância 
bicaudal de 5% e para os graus de liberdade são {-1,645; 1,645}. Uma vez que ෠ܶ >
	1,96, a hipótese nula é rejeitada. O p-valor é de 2 x 10-11 < 5%, o que também aponta 
para a rejeição da hipótese nula. 
 
13 
 
2.3.2 Teste qui-quadrado 
Para testar hipóteses referentes ao valor da variância populacional, a estatística 
apropriada é a variância amostral, como segue. 
߯ = 1ܰ ෍( ௜ܺ − Xഥ)ଶே
௜ୀଵ
~߯ே 
A função de distribuição é uma qui-quadrado com N graus de liberdade. A única 
diferença em relação aos testes já vistos tem origem em que a distribuição qui-quadrado 
é assimétrica e está definida apenas para valores positivos. Desta maneira, portanto, 
evidências desfavoráveis à hipótese nula apenas podem ocorrer para valores muito 
grandes. O teste é sempre uni-lateral e seu procedimento é descrito no que segue. 
1. Calcular o valor da estatística do teste, ߯̂; 
2. Abordagem da região crítica: 
a. Obter o valor crítico, i.e., χc tal P(χ > χc) = 0,05; 
b. Rejeitar H0 se ߯̂ >	χc; 
3. Abordagem do p-valor: 
a. Obter o p-valor dado por ݌̂ = P(χ > χො); 
b. rejeitar H0 se ݌̂ ≤ 5%. 
O gráfico abaixo ilustra o p-valor de uma VA com distribuição qui-quadrado com 10 
graus de liberdade. 
 
 
14 
 
2.3.3 Teste F 
Seja Y a variável que o modelo de regressão linear procura explicar. A razão entre a 
porção da variação amostral de Y explicada pela regressão, SQE, e a porção não 
explicada, SQR, denominada por coeficiente de determinação, é r2 = SQE / SQR. A FD 
desta estatística é a F de Snedecor com graus de liberdade K-1 e N-K, ou seja: 
ݎଶ = ܵܳܧ/ܭ − 1
ܴܵܳ/ܰ − ܭ~ܨ௄ିଵ,ேି௄ 
Seja R2 o valor populacional de ݎଶ . O teste de hipóteses H0: R2 = 0 vs. H1: R2 > 0 (ݎଶ é 
sempre positivo) pode ser realizado como segue. 
1. Calcular o valor da estatística do teste, ܨ෠; 
2. Abordagem da região crítica: 
a. Obter o valor crítico, i.e., Fc tal P(χ > Fc) = 0,05; 
b. Rejeitar H0 se ܨ෠ >	Fc; 
3. Abordagem do p-valor: 
a. Obter o p-valor dado por ݌̂ = P(F > F෠); 
b. rejeitar H0 se ݌̂ ≤ 5%. 
O gráfico abaixo indica o valor crítico para o teste com nível de significância de 5% 
para uma VA com distribuição F com 10 e 10 graus de liberdade. 
 
 
15 
 
2.4 Poder de um teste 
A probabilidade de não ocorrência de um erro tipo II é denominada poder de um teste, 
ou seja, trata-se da probabilidade de rejeitar uma hipótese falsa. Esta probabilidade pode 
ser representada como: P(T ∈ RC(ߙ; θ)| θ ≠ θ0), i.e., a probabilidade da estimativa 
pertencer à região crítica quando a hipótese nula é equivocada. Esta probabilidade 
depende do valor verdadeiro de θ. É intuitivo que, quanto mais distante estiver este 
valor do especificado pela hipótese nula, maior será a probabilidade de rejeitar a 
hipótese nula, i.e., maior o poder do teste. 
Quanto mais próximo estiver θ de θ0, mais próximo estará o poder do teste de ߙ. De 
fato, para θ = θ0, o poder do teste é equivalente ao nível de significância, i.e., P(T ∈ 
RC(ߙ; θ)| θ = θ0) = ߙ. 
O gráfico abaixo descreve como o poder de um teste, representado por π(θ) varia como 
o valor de θ. 
Figura X Poder de um teste 
 
 
 
 
Nota_de_aula_4_corr_17_10.pdf
1 
 
Notas de aula para o curso de Econometria I 
Nota 4: Estruturas de dados e regressão simples: motivação, FRP, FRA, estimação 
e propriedades algébricas 
Thiago Fonseca Morello 
fonseca.morello@ufabc.edu.br 
sala 301, Bloco Delta, SBC 
1 A natureza dos dados econômicos1 
1.1 Abrangência espacial e temporal 
A pesquisa empírica em economia emprega um amplo espectro de dados. Em termos 
gerais, por “dados” se entende um conjunto de valores observados para algumas 
variáveis, em um determinado horizonte espaço-temporal e em uma determinada escala 
observacional. 
A abrangência ou horizonte espaço-temporal diz respeito ao período de tempo em que 
os dados foram coletados e à região que a informação neles contida representa. Por 
exemplo, o Censo Demográfico 2010, produzido pelo IBGE, se refere ao ano de 2010 e 
abrange todo o Brasil. As pesquisas de intenção de voto, das empresas IBOPE e 
Datafolha captam períodos específicos (de três dias, geralmente) e uma amostra do 
eleitorado brasileiro, mas, o que talvez não seja tão óbvio, representam todos os 
eleitores do País, tendo, pois, abrangência nacional. A Pesquisa de Orçamentos 
Familiares (POF), realizada pela Fundação Instituto de Pesquisa Econômicas, bem 
como a Pesquisa Origem-Destino (POD) do Metrô de São Paulo, têm como região de 
cobertura, respectivamente, a cidade de São Paulo e a região metropolitana do Estado de 
São Paulo. 
1.2 Escala 
A escala ou nível observacional diz respeito à perspectiva captada pelos dados, ou, mais 
precisamente, à entidade portadora das características medidas pelas variáveis. No 
Censo de 2010, há pelo menos duas escalas observacionais ou entidades, pessoas e 
domicílios. Deste modo, pois, foram coletadas informações acerca de características 
individuais, tais como idade, nível educacional, renda mensal, etc., e também 
informações que correspondem a características de domicílios, como o número de 
cômodos, o acesso a saneamento básico, o material empregado na construção da 
habitação, etc. Estas duas entidades também aparecem na POF do IBGE, além de uma 
unidade adicional, denominada por “Unidade de Consumo”, a qual consiste em um 
conjunto de moradores de uma mesma residência que compartilham alimentos. 
Geralmente, mas nem sempre, trata-se de uma família. 
 
1 É recomendada a leitura do capítulo 1 de Wooldridge. 
2 
 
Nas pesquisas de intenção de votos e na POD a escala observacional de coleta de dados 
é a pessoa, uma vez que intenção de voto e trajetos percorridos diariamente via 
transporte público são características de pessoas. Porém, os dados não são divulgados 
neste nível observacional, estando disponíveis para exame apenas indicadores no nível 
nacional e da região metropolitana, respectivamente. 
Há conjuntos de dados na escala de setores censitários, municípios, unidades da 
federação e países. Por exemplo, o Censo Agropecuário, do IBGE2, é oriundo de um 
levantamento junto a estabelecimentos agropecuários (fazendas), sendo, porém, 
divulgado no nível municipal. Uma base de dados muito popular entre 
macroeconomistas é a Penn World Table3, da Universidade da Pensilvânia, com 
informações referentes a Países, como, por exemplo, PIB, contagem da população, gasto 
público, formação bruta de capital fixo, taxa de câmbio, etc. 
Levando em conta os parágrafos anteriores, é possível classificar os dados econômicos 
em três categorias de acordo com a escala observacional em que estão disponíveis: 
1. Microdados se referem à escala em que os dados foram efetivamente coletados, a 
partir de entrevistas. Geralmente se trata da escala dos tomadores de decisão da 
teoria microeconômica, por exemplo, pessoas, famílias, domicílios, empresas, etc; 
2. Dados regionais compreendem informações na escala de setores censitários, bairros, 
distritos, municípios, microrregiões, macrorregiões, unidades mínimas comparáveis 
e unidades da federação; 
3. Macrodados correspondem aos agregados macroeconômicos, e, portanto, à escala de 
Países. 
1.3 Estruturas de dados 
Há três principais estruturas em que os dados econômicos podem estar disponíveis. 
A estrutura de dados denotada por “dados transversais” ou “cross-section” capta um 
conjunto amplo de unidades em um único período de tempo, conforme ilustrado nas 
duas figuras a seguir. 
 
 
 
 
 
 
 
2 http://www.ibge.gov.br/home/estatistica/economia/agropecuaria/censoagro/
3 https://pwt.sas.upenn.edu/ 
3 
 
Figura 1 Macrodados transversais, América Latina, ano de 2010 
 
Figura 2 Microdados transversais, POF IBGE, escala de pessoas, 2009 
 
 
A estrutura de dados conhecida como séries temporais é descrita por uma tabela tal 
como a que segue. 
 
 
 
U
ni
da
de
s
Variáveis
País pib_pc pop câmbio %_cons %_gov %_inv
Argentina 14512,1 41343,2 3,8963 0,68056 0,05377 0,23312
Bolivia 4432,78 9947,42 7,02 0,74673 0,07075 0,11734
Brazil 9754,69 201103 1,75923 0,68999 0,10269 0,21732
Chile 15960,8 16746,5 510,249 0,6031 0,03781 0,28748
Colombia 8975,41 44205,3 1898,57 0,71892 0,0658 0,2372
Ecuador 7345,69 14790,6 1 0,74147 0,06011 0,2597
Guyana 5067,81 748,486 200,5 0,82108 0,17259 0,27278
Paraguay 4851,18 6375,83 4743,08 0,84822 0,05515 0,13546
Peru 9009,56 28948 2,82513 0,6343 0,04728 0,28402
Suriname 12044,1 486,618 2,74542 0,18632 0,07322 0,67069
Uruguay 13671,2 3301,08 20,0593 0,71805 0,04517 0,22865
Venezuela 11778 27223,2 2,58563 0,62252 0,04853 0,21344
Código Altura Peso Idade Anos de estudo
2.11.1.9.1.1.1 173 85,7 53 5
2.11.1.9.1.1.2 157 60,7 49 8
2.11.1.9.1.1.3 175,3 75,6 22 11
2.11.1.9.1.1.4 165,7 47,6 19 11
2.11.1.9.1.1.5 127 21,6 6 0
2.11.1.9.10.1.1 167,5 69,4 27 6
2.11.1.9.10.1.2 142 30,7 10 1
2.11.1.9.10.1.3 108 19,1 4 0
2.11.1.9.11.1.1 158 68 33 6
2.11.1.9.11.1.2 155,5 63,3 30 11
2.11.1.9.11.1.3 143 33,7 11 2
2.11.1.9.11.1.4 130,5 30,3 9 2
2.11.1.9.12.1.1 147,2 58,9 66 4
2.11.1.9.12.1.2 161,4 89,8 34 15
2.11.1.9.12.1.3 151,1 56,8 28 15
2.11.1.9.12.1.4 146,2 50,9 62 3
2.11.1.9.3.1.1 171,3 78 55 15
2.11.1.9.3.1.2 155 46,3 56 15
2.11.1.9.3.1.3 165,2 53 30 15
2.11.1.9.4.1.1 164 77,6 52 4
U
ni
da
de
s
Variáveis
4 
 
Figura 3 Macrodados em séries temporais, Brasil, 1990 a 2010 
 
Têm-se, portanto, a mesma unidade (no caso, um País, o Brasil) observada em 
diferentes momentos de tempo, de maneira a que as observações coincidam com 
períodos de tempo e, para cada um deles, estejam registrados os valores assumidos por 
cada uma das variáveis. 
É possível expandir um conjunto de dados transversais repetindo a coleta de informação 
para as mesmas variáveis em períodos subsequentes. Com isso obtém-se uma estrutura 
de dados híbrida, a qual combina elementos de cross-section e de séries temporais. A 
estrutura de dados em painel, ou longitudinal, é um exemplo de estrutura híbrida. Ela 
captura o mesmo conjunto de unidades em mais de um período de tempo, conforme 
ilustrado na figura abaixo. 
 
 
 
 
 
 
 
 
 
 
Instantes de 
tempo
Variáveis
Ordem Ano
População 
(em mil 
pessoas)
Taxa de 
câmbio 
nominal
PIB per capita 
(PPP)
% consumo 
no PIB
% governo 
no PIB
% 
investimento 
bruto no PIB
1 1990 151.170,06 0,0000 4.531,3341 0,6720 0,1133 0,1968 
2 1991 153.583,96 0,0002 4.664,0342 0,6681 0,1172 0,2064 
3 1992 156.032,06 0,0020 4.709,1480 0,6687 0,1170 0,1898 
4 1993 158.512,05 0,0383 4.884,5276 0,6704 0,1176 0,1974 
5 1994 161.017,06 0,6647 5.196,4431 0,6750 0,1119 0,2085 
6 1995 163.544,28 0,9177 5.581,1692 0,6787 0,1046 0,2318 
7 1996 166.085,86 1,0051 5.727,6474 0,6787 0,0999 0,2392 
8 1997 168.638,74 1,0780 5.929,1672 0,6752 0,1002 0,2464 
9 1998 171.201,16 1,1605 5.843,1274 0,6805 0,1033 0,2360 
10 1999 173.763,87 1,8139 5.737,1928 0,6949 0,1077 0,2114 
11 2000 176.319,62 1,8294 6.025,1128 0,6893 0,1020 0,2263 
12 2001 178.869,66 2,3496 6.122,0764 0,6931 0,1037 0,2164 
13 2002 181.417,59 2,9204 6.294,4270 0,6894 0,1069 0,1884 
14 2003 183.959,92 3,0775 6.408,5833 0,6847 0,1077 0,1783 
15 2004 186.488,60 2,9251 6.910,6665 0,6659 0,1049 0,1902 
16 2005 188.993,08 2,4344 7.234,0497 0,6766 0,1055 0,1815 
17 2006 191.469,01 2,1753 7.736,6177 0,6740 0,1038 0,1930 
18 2007 193.918,58 1,9471 8.397,1364 0,6703 0,1041 0,2103 
19 2008 196.342,59 1,8338 9.112,7871 0,6680 0,1009 0,2291 
20 2009 198.739,27 1,9994 9.028,8484 0,7005 0,1075 0,1926 
21 2010 201.103,33 1,7592 9.754,6919 0,6900 0,1027 0,2173 
5 
 
Figura 4 Macrodados em painel, América Latina, 2008 e 2010 
 
Este curso de Econometria I focará na estrutura de dados transversais ou cross-section. 
As séries temporais são objeto do curso de econometria III, enquanto os dados em 
painel são tratados no curso de econometria II. 
2 Regressão simples 
2.1 Motivação 
A busca dos determinantes de uma característica de interesse é um exercício recorrente 
na prática científica. Particularmente, em economia, parte-se da teoria para identificar as 
variáveis de fundo, ou seja, aquelas em função das quais é possível explicar o 
comportamento de uma determinada característica socioeconômica tal como situação do 
indivíduo perante o mercado de trabalho (estar ou não empregado), investimento de 
uma empresa em inovação tecnológica e taxa de crescimento do PIB de uma nação, etc. 
Em outras palavras, seja Y a variável cujo comportamento deseja-se explicar, a teoria 
postula que existe pelo menos uma variável, X, a qual, a depender do valor por ela 
assumido, exerce influência sobre o valor assumido por Y. 
Um exemplo de particular interesse para o Brasil e para os países não desenvolvidos em 
geral é o a da relação entre desnutrição infantil e renda familiar. Economistas como Ana 
Lúcia Kassouf, Rodolfo Hoffman e Antônio Carlos Campino, se dedicaram à 
investigação desta relação tomando por base, para isso, dados coletados a partir de 
entrevistas a domicílios brasileiros. O pesquisador Mark Agee, dos Estados Unidos, fez 
o mesmo, mas, porém, para o caso da Nigéria4. 
 
4 Seguem as referências para os estudos originais dos autores mencionados. Kassouf, A. L. A demanda de 
saúde infantil no Brasil por região e setor. Pesquisa e Planejamento Econômico, v. 24, n. 2, p. 235-260, 
ago. Disponível em http://www.memoria.nemesis.org.br/index.php/ppe/article/view/806/745. Hoffman, 
pop câmbio pib_pc %_cons %_gov %_inv pop câmbio pib_pc %_cons %_gov %_inv
Argentina 40482 3,14417 13270,1 0,678 0,04924 0,23507 41343,2 3,8963 14512,1 0,68056 0,05377 0,23312
Bolivia 9601,26 7,23832 4160,3 0,75028 0,07021 0,11432 9947,42 7,02 4432,78 0,74673 0,07075 0,11734
Brazil 196343 1,83377 9112,79 0,66804 0,1009 0,22915 201103 1,75923 9754,69 0,68999 0,10269 0,21732
Chile 16454,1 522,461 14082,9 0,61593 0,03736 0,31055 16746,5 510,249 15960,8 0,6031 0,03781 0,28748
Colombia 43141,1 1967,71 8486,3 0,726 0,06212 0,23456 44205,3 1898,57 8975,41 0,71892 0,0658 0,2372
Ecuador 14354,5 1 7063,65 0,67072 0,05349 0,27507 14790,6 1 7345,69 0,74147 0,06011 0,2597
Guyana 758,059 203,633 4556,04 0,88689 0,17143 0,2554 748,486 200,5 5067,81 0,82108 0,17259 0,27278
Paraguay 6203,2 4363,24 4356,41 0,84113 0,04516 0,16524 6375,83 4743,08 4851,18 0,84822 0,05515 0,13546
Peru 28347,9 2,92441 7970,65 0,6571 0,04178 0,29033 28948 2,82513 9009,56 0,6343 0,04728 0,28402
Suriname 475,996 2,745 12119,6 0,19308 0,07438 0,7241 486,618 2,74542 12044,1 0,18632 0,07322 0,67069
Uruguay 3286,37 20,9493 11690,8 0,73046 0,0481 0,26687 3301,08 20,0593 13671,2 0,71805 0,04517 0,22865
Venezuela 26414,8 2,147 12680,5 0,61121 0,04258 0,25048 27223,2
2,58563 11778 0,62252 0,04853 0,21344
País / Ano 2008 2010
Variáveis
Períodos
U
ni
da
de
s
6 
 
A teoria5 postula, considerando uma sociedade cuja produção e distribuição de 
alimentos são geridas por mercados, uma relação negativa entre grau de desnutrição 
infantil, esta a variável a ser explicada, Y, e renda familiar, a qual assumirá a posição de 
X. A intuição está em que famílias com maior poder de compra têm mais acesso a 
alimentos e, pois, maior capacidade de manter suas crianças adequadamente nutridas. 
O objetivo da análise econométrica não é verificar a consistência lógica ou teórica da 
relação entre variável explicada, Y, e variável explicativa, X, mas sim sua consistência 
empírica, entendida esta como a adequação às evidências reveladas pelos dados 
disponíveis. Ou seja, a partir do momento em que o pesquisador decide qual é a relação 
relevante, cabe à análise econométrica procurar indícios de que tal relação se manifesta 
ou não nos dados. 
Um primeiro passo neste sentido pode ser dado com a elaboração de um gráfico de 
dispersão, a partir de um conjunto de dados que contenha informações para X e Y. Para 
o Brasil, a fonte de dados é a Pesquisa de Orçamentos Familiares de 2008/2009 (POF). 
O exame destes dados será postergado. Por enquanto é mais esclarecedor ocupar-se de 
algumas das possibilidades que os dados podem vir a revelar. O painel a seguir indica 
três possibilidades. Nenhuma delas contém dados verídicos, mas sim valores gerados 
artificialmente com uma planilha Excel ®. A medida de grau de desnutrição infantil 
considerada é a de prevalência, ou seja, porcentagem de crianças de zero a cinco anos 
com altura consideravelmente inferior ao nível saudável para a idade, de acordo com a 
Organização Mundial de Saúde (OMS)6. 
A unidade observacional dos gráficos é o setor censitário, uma região geográfica 
submunicipal definida pelo IBGE por fins estatísticos7. Desta maneira, são observadas, 
nos gráficos, a renda média dos setores censitários brasileiros e a prevalência de 
desnutrição em cada um deles. São considerados apenas 100 setores censitários. 
 
 
 
R. Pobreza, insegurança alimentar e desnutrição no Brasil. Estudos Avançados vol.9 no.24 São Paulo 
Maio/Agosto 1995. Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-
40141995000200007.Campino, A. C. C., Aspectos sócio-econômicos da desnutrição no Brasil. Revista de 
Saúde Pública, São Paulo, 20(1):83-101, 1986. Disponível em http://www.scielo.br/pdf/rsp/v20n1/07.pdf. 
Agee, M. Reducing child malnutrition in Nigeria: Combined effects of income growth and provision of 
information about mothers’ access to health care services. Social Science & Medicine 71 (2010) 
1973-1980. Disponível em http://www.sciencedirect.com/science/article/pii/S0277953610006696. 
5 Esta afirmação encontra fundamentação mais clara na abordagem das dotações (entitlement approach) 
empregada por Amartya Sen em um dos principais estudos de fenômenos de inanição e fome em massa, a 
obra “Poverty and Famines: an essay on entitlement and deprivation”, tal como se pode comprovar na 
seção 10.1 do livro. 
6 Esta medida foi detalhada na primeira aula de laboratório, consultar o arquivo “script_lab_1”. 
7 A definição de setor censitário, conforme consta na metodologia do censo demográfico de 2000 é “(...) 
unidade de controle cadastral formada por área contínua, situada em um único quadro urbano ou rural, 
com dimensão e número de domicílios ou de estabelecimentos que permitam levantamento das 
informações por um único Agente Credenciado, segundo cronograma estabelecido (vide página 227 de 
http://www.ibge.gov.br/home/estatistica/populacao/censo2000/metodologia/metodologiacenso2000.pdf).” 
7 
 
 
Painel 1 Três possibilidades para o gráfico de dispersão 
(A) (B) 
 
 
(C) 
 
Caso o gráfico de dispersão gerado a partir dos dados coincida com (A), há razão para 
desconfiar da relação sugerida pela teoria. E isso pois não é possível reconhecer um 
padrão ou tendência clara. Na verdade, neste caso, os setores censitários se distribuem 
de maneira praticamente equitativa entre quatro grupos, quais sejam: 
1. Grupo (AA): Níveis relativamente altos de renda familiar e níveis relativamente 
altos de prevalência de desnutrição infantil; 
2. Grupo (AB): Níveis relativamente altos de renda familiar e níveis relativamente 
baixos de prevalência de desnutrição infantil; 
3. Grupo (BA): Níveis relativamente baixos de renda familiar e níveis relativamente 
altos de prevalência de desnutrição infantil; 
4. Grupo (BB): Níveis relativamente baixos de renda familiar e níveis relativamente 
baixos de prevalência de desnutrição infantil. 
Estes quatro grupos correspondem aos quatro quadrantes em que o gráfico de dispersão 
pode ser dividido, tomando-se como referência as médias amostrais das variáveis. A 
tabela abaixo apresenta a contagem dos setores censitários em cada um dos quatro 
grupos possíveis definidos acima para cada uma das três possibilidades de gráficos do 
painel 1. 
 
0
5
10
15
20
25
30
35
40
45
50
0 1000 2000 3000 4000 5000 6000 7000 8000
Pr
ev
al
ên
ci
a 
de
 d
es
nu
tr
iç
ão
Renda mensal per capita
0
5
10
15
20
25
30
35
40
0 1000 2000 3000 4000 5000 6000 7000 8000
Pr
ev
al
ên
ci
a 
de
 d
es
nu
tr
iç
ão
Renda mensal per capita
0
10
20
30
40
50
60
0 1000 2000 3000 4000 5000 6000 7000 8000
Pr
ev
al
ên
ci
a 
de
 d
es
nu
tr
iç
ão
Renda mensal per capita
8 
 
 
Tabela 1 Número de setores censitários em cada grupo para cada uma das três 
possibilidade de diagramas de dispersão 
Grupo/ 
Gráfico 
A B C 
AA 26 9 47 
AB 24 41 3 
BA 24 44 11 
BB 26 6 39 
 
Efetivamente, os quatro grupos têm participação praticamente equivalente para o caso 
ilustrado pelo gráfico (A), i.e., nenhum grupo predomina. Porém, nos gráficos (B) e (C), 
tal como a observação deles sugere, há uma tendência à concentração da amostra de 
setores censitários em grupos específicos. No caso do gráfico (B), setores censitários do 
grupo AB e do grupo BA predominam (juntos, respondem por 85% da amostra), o que 
está de acordo com a tendência positiva revelada pelo gráfico (B). Já, no caso (C), são 
os setores censitários dos grupos AA e BB que se mostram mais recorrentes (88% da 
amostra): um nível de renda relativamente alto tende a vir acompanhado de uma 
prevalência relativamente baixa de desnutrição infantil. Tal como a tendência negativa 
observada no gráfico indica. 
As duas formas de evidência consideradas, o diagrama de dispersão e a classificação das 
unidades observacionais, os setores censitários, em grupos de acordo com os valores das 
duas variáveis, podem bastar para o pesquisador. I.e., ele pode acreditar que os padrões 
revelados por estas duas ferramentas são claros o bastante para concluir quanto à 
validade ou invalidade empírica da relação teórica. 
Há, contudo, pelo menos duas razões pelas quais uma abordagem mais precisa se 
mostra desejável: 
1. Dados reais dificilmente seguem tendências claras, conforme o gráfico abaixo 
(figura 5) indica. O gráfico de dispersão e a classificação em grupos podem não 
revelar claramente uma tendência e nem a total falta de tendência. I.e., os dois 
instrumentos podem levar a evidências insuficientemente claras, inconclusivas;
2. O pesquisador pode estar interessado em medir a relação quantitativa entre as 
variáveis X e Y, i.e., determinar em qual magnitude o aumento da renda familiar, 
via, por exemplo, transferências governamentais de renda, se reverte em redução do 
grau de desnutrição infantil; 
 
 
 
9 
 
Figura 5 Gráfico de dispersão para a relação entre renda mensal per capita e 
prevalência de desnutrição, setores censitários brasileiros* 
 
*apenas setores censitários com coeficiente de variação (desvio padrão/média) para a renda mensal per 
capita inferior à unidade são considerados. 
A econometria procura assentar a relação empírica entre X e Y em uma base mais 
precisa. De fato, a disciplina tem por objetivo fundamental mensurar a relação 
quantitativa entre duas variáveis X e Y. Para que fique mais claro o termo “relação 
quantitativa”, cabe atentar para os exemplos de perguntas feitas por estudos 
econométricos recentes listados a seguir. 
1. Em quanto o PIB per capita de um País seria aumentado caso fosse possível reduzir 
consideravelmente o nível de desigualdade de renda (Barro, 2008)8? 
2. Qual é o aumento de salário que um trabalhador poderia obter caso seu nível de 
qualificação fosse ampliado em um ano adicional de estudo (Teixeira e Menezes-
Filho, 2012)9? 
3. Em quanto aumentaria a renda de uma família caso a oferta de microcrédito fosse 
ampliada (Banerjee et al, 201410)? 
4. A área de floresta Amazônica desmatada por um produtor agropecuário seria 
consideravelmente maior caso ele tivesse acesso a mais crédito bancário (Assunção, 
201311)? 
 
8 Barro, R.J., Inequality and growth revisited. Working paper series on regional economic integration. 
Asian Development Bank. Disponível em 
http://aric.adb.org/pdf/workingpaper/WP11_%20Inequality_and_Growth_Revisited.pdf 
9 Teixeira, W. M., Menezes-filho, N.A. "Estimando o retorno à educação do Brasil considerando a 
legislação educacional brasileira como um instrumento". Revista de Economia Política, vol. 32, nº 3 
(128), pp. 479-496, julho-setembro/2012. Disponível em http://www.scielo.br/pdf/rep/v32n3/08.pdf 
10 Banerjee, A., Duflo, E, Glennester, R., Kinnan, C. “The miracle of microfinance? Evidence from a 
randomized evaluation.” Working paper, http://economics.mit.edu/files/5993 
11 ASSUNÇÃO, J., GANDOUR, C., ROCHA, R., ROCHA, R. 2013. Does credit affect deforestation? 
Evidence from a rural credit policy in the Brazilian Amazon. Climate Policy Initiative. Disponível em: 
10 
 
2.2 Função de expectativa condicional 
Como apreender a relação quantitativa entre duas variáveis? É possível avançar em tal 
sentido introduzindo uma pequena sofisticação no gráfico de dispersão. Agora com base 
nos dados reais da POF 2008/2009, pode-se calcular a média para a prevalência de 
desnutrição dentro de faixas para a renda familiar, como ilustrado pelos quadrados 
vermelhos do gráfico abaixo. Os pontos na direção vertical correspondem aos valores 
que a variável Y assume para as observações cuja renda familiar pertence a uma dada 
faixa. 
Figura 6 Média condicional para a prevalência de desnutrição (quadrados 
vermelhos) e níveis de prevalência observados na amostra (círculos pretos)*, SM = 
salário mínimo 
 
*apenas setores censitários com coeficiente de variação (desvio padrão/média) para a renda mensal per 
capita inferior à unidade são considerados. 
O gráfico indica que a média de Y, calculada “dentro” de grupos de observações 
definidos em função de valores de X, exibe uma tendência aparentemente negativa, 
ainda que isso não seja muito claro, o que é comum para dados reais. De qualquer 
maneira, neste estágio do argumento, a atenção deve ser voltada à compreensão do 
significado das médias representadas pelos quadrados vermelhos. Para isso, é 
esclarecedor coletar algumas informações do gráfico, tal como segue. 
1. Nos setores censitários em que a renda mensal per capita é inferior a ¼ do salário 
mínimo, a prevalência de desnutrição é superior a 10%; 
2. Esta taxa é inferior a 10% nos setores censitários com renda mensal per capita entre 
dois e cinco salários mínimos. 
A leitura dos dados sugerida pelos “fatos” acima é um pouco mais clara do que o 
permitido por gráficos e tabelas. E isso pois, dado um determinado nível da variável X, 
 
http://climatepolicyinitiative.org/wp-content/uploads/2012/03/Deforestation-Prices-or-Policies-Working-
Paper.pdf 
11 
 
renda familiar, pode-se identificar um único valor correspondente à variável Y, sua 
média, no caso. Clareza está que resulta do emprego da média para resumir a dispersão 
da variável Y para cada uma das faixas de X. 
De fato, a média amostral de Y para grupos definidos em função de X é análoga ao 
conceito populacional de expectativa condicional visto em estatística e representado por 
E[Y|X]. Este conceito propõe que a informação quanto ao valor de X é relevante para 
determinar qual valor de Y é mais provável, i.e., têm maior probabilidade de ocorrência. 
O que é o mesmo que dizer que a distribuição probabilística de Y, i.e., a relação que nos 
diz quais valores de Y são mais prováveis e quais são menos prováveis, varia em função 
de X. Desta maneira, ao invés de conceber a distribuição probabilística de Y como dada 
por uma única função de distribuição de probabilidades (FD), é possível pensar que, 
para cada valor de X, existe uma distribuição probabilística potencialmente distinta para 
Y. É isso que o gráfico abaixo sugere, tomando como Y o logaritmo do salário semanal 
e como X os anos de escolaridade, isso para um conjunto de dados referente a uma 
amostra de trabalhadores. 
Gráfico X Distribuição condicional de Y em relação a X (cinza) e Expectativa 
condicional de Y em relação a X (linha preta) 
 
Fonte: gráfico reproduzido de Angrist, J.D., Pischke, J-S., 2009. Mostly harmless econometrics, an 
empiricist’s companion. Princeton University Press, New Jersey, US. 
Da mesma maneira que existe, para cada valor de X, uma distribuição probabilística 
potencialmente distinta, existem parâmetros potencialmente distintos que regem tal 
distribuição. Por exemplo, as distribuições condicionais referentes a valores diferentes 
de X, podem diferir em função da média populacional, μ. É exatamente esta 
possibilidade que a notação E[Y|X] indica, uma vez que ela se refere à média 
populacional de Y para um dado valor de X. 
2.3 Função de regressão populacional 
Qual é o formato exato de E[Y|X]? Ou seja, como a média populacional de Y varia em 
função de X? A priori, não é possível saber, uma vez que, como geralmente se parte de 
12 
 
dados amostrais, é impossível determinar os valores populacionais dos parâmetros. 
Porém, é sempre possível afirmar que existe uma relação funcional entre E[Y|X] e X, 
i.e., E[Y|X] = f(X). Esta relação funcional é denominada por função de expectativa 
condicional (FEC) ou por função de regressão populacional (FRP). 
A função f(X) não necessariamente é linear, ela pode ser quadrática ou exibir qualquer 
outro comportamento não linear. Porém, é sempre possível tomar uma aproximação 
linear à f(X), o que pode ser visto, seguindo Gujarati, como uma hipótese de partida, 
uma primeira aproximação do problema. Ou seja, E[Y|X] ≈ β0 + β1X (1). 
O segundo passo crucial para avançar na representação da relação entre X e Y está no 
fato, demonstrado pela teoria estatística, de que sempre é possível decompor uma 
variável aleatória em dois elementos12. O primeiro deles é a porção da informação 
contida na variável que é “explicada” por outra variável, o que pode ser representado
a 
partir da expectativa condicional. Tomando Y como a variável “explicada” e X como 
variável “explicativa”, o primeiro elemento em que Y se decompõe é E[Y|X]. O 
segundo elemento corresponde à porção de Y não “explicada” por X, ou, de maneira 
mais precisa, não correlacionada com X, porção esta que será denotada por “u”. Desta 
maneira, pode-se escrever Y = E[Y|X] + u (2). 
Combinando os resultados (1) e (2) pode-se chegar à função linear abaixo. 
Y = E[Y|X] + u ≈ β0 + β1X + u 
Ou, de maneira sintética: 
Y ≈ β0 + β1X + u 
O símbolo indicando aproximação linear pode ser substituído, em nome da simplicidade 
notacional, pelo símbolo de igualdade desde que se tenha em mente que a reta acima é 
uma aproximação linear para a FRP. Ela também é denominada por reta de regressão 
linear populacional. 
É preciso assinalar a natureza populacional do modelo acima: os coeficientes β0 e β1 são 
parâmetros populacionais, desconhecidos a priori, assim como é o caso da média μ para 
uma variável aleatória normalmente distribuída. 
Outro detalhe fundamental diz respeito à natureza do termo “u”. Adotando a 
nomenclatura de Wooldridge, u será denominado por “termo de perturbação” ou “termo 
de erro”. Ele é equivalente a Y - β0 - β1X, tratando-se, portanto, da porção da variação 
de Y, ao longo das observações, que permanece não explicada mesmo após a 
incorporação da informação quanto ao comportamento de X. Gujarati apresenta 
algumas interpretações para o termo de perturbação. As mais relevantes são 
reproduzidas no que segue. 
 
12 Este parágrafo segue a interpretação de Angrist & Pischke (2009, p.25-26) para a propriedade de 
decomposição da função de expectativa condicional. 
13 
 
1. O termo de perturbação capta variáveis que explicam Y, mas são omitidas do 
modelo pois: 
a. Não são mencionadas pela teoria; 
b. São mencionadas pela teoria, mas não há dados disponíveis para elas; 
2. O termo de perturbação capta erros de medida decorrentes do emprego de variáveis 
proxy. É o que se tem quando as variáveis, tais como definidas pela teoria, não estão 
disponíveis nos dados, mas há outras variáveis disponíveis, correlacionadas com as 
primeiras, i.e, que se comportam de maneira parecida. Por exemplo, segundo a 
teoria do q de Tobin, uma das principais variáveis que explicam o investimento em 
capital fixo por parte de uma empresa é retorno marginal do capital fixo (medida 
esta que corresponde ao q de Tobin em si), porém, grandezas marginais dificilmente 
podem ser calculadas a partir de dados concretos. É praxe utilizar o retorno médio 
do capital fixo, dado pela razão entre o valor de mercado de uma empresa (retorno 
medido pelo mercado de ações) e o valor de seu estoque de capital. A diferença 
entre a medida proposta pela teoria e a medida factível é captada pelo termo de 
perturbação. Outro exemplo: no artigo “Desigualdade de renda nos Estados Unidos, 
1913-1998”13, os economistas Thomas Piketty e Emmanuel Saez utilizaram 
declarações de impostos de renda como proxy para a renda individual. Se esta 
medida fosse utilizada como variável explicativa em uma FRP para a poupança 
individual, por exemplo, o termo de perturbação captaria a diferença entre a renda 
efetiva, esta a medida mencionada pela teoria, e a renda declarada no imposto de 
renda, esta a medida factível incorporada à FRP; 
3. O termo de perturbação capta erros de especificação da relação entre X e Y. Muitas 
vezes a teoria não é precisa o bastante para estabelecer a forma funcional da relação 
em questão. A aproximação linear pode falhar em captar não-linearidades em tal 
relação, erro este o que acaba compondo o termo de perturbação. 
2.4 Inferência e função de regressão amostral 
Os valores populacionais de parâmetros de interesse são geralmente desconhecidos, 
sendo preciso estimá-los a partir das amostras de dados disponíveis. Não é diferente 
para o caso da análise de regressão linear, i.e., para os parâmetros β0 e β1. 
Para atingir o objetivo da análise empírica em economia, o qual é sempre caracterizar a 
relação entre Y e X, geralmente dispõe-se apenas de uma amostra de valores para as 
duas variáveis. Por exemplo, para determinar em qual medida a renda familiar explica, 
no Brasil, o grau de desnutrição infantil, os dados disponíveis mais atualizados 
correspondem à POF 2008/2009, uma amostra de 55.412 famílias de um total de 57 
milhões de famílias brasileiras (apenas 0,1% das famílias foram entrevistadas). 
O salto de inferência se mostra inevitável e com base nele se acaba por obter não a FRP, 
a qual nunca é observada, mas um elemento análogo, cujo conteúdo informacional se 
resume à amostra, a função de regressão amostral, FRA, representada como segue. 
 
 
13 Disponível em http://piketty.pse.ens.fr/fichiers/public/PikettySaez2003.pdf. 
14 
 
Y෡ = β෠଴ + β෠ଵX 
Em que β෠଴ e β෠ଵsão estimadores para β0 e β1. 
2.5 Estimação 
A mera definição da FRA não sugere um caminho para obtê-la. Como é possível chegar 
a estimativas pontuais para o intercepto e o coeficiente da FRP? Há pelo menos três 
métodos de estimação que solucionam o problema, por hora basta se ocupar do mais 
famoso. 
Um estimador é, antes de tudo, uma estatística. Estatísticas são usadas com o objetivo 
de resumir os dados. A média e a variância, por exemplo, resumem a distribuição 
individual de uma variável. Os estimadores para os parâmetros da FPR também têm de 
resumir informação, mas, porém, não quanto à distribuição individual de X e Y, mas 
sim quanto à relação quantitativa entre X e Y. 
O formato da FRP sugere uma saída para resumir a relação entre X e Y: tomar uma 
aproximação linear do padrão descrito pelo gráfico de dispersão14. Mas, um detalhe 
crucial, muitas vezes perdido de vista, deve ser assinalado. O gráfico de dispersão em 
questão não é o construído a partir da amostra, mas sim a partir da população. A razão 
para isso é de grande importância: o objetivo da análise econométrica não é resumir a 
relação de X e Y tal como ela se manifesta na amostra, mas sim na população. 
Por exemplo, a formulação de uma política nacional de combate à desnutrição infantil 
deve ser alicerçada na relação que esta variável tem com a renda familiar considerando-
se todas as famílias brasileiras. Se for tomado por base apenas um subgrupo de famílias, 
uma medida de política pública, tal como a transferência de renda, poderá não render o 
resultado esperado para famílias que não pertencem ao subgrupo considerado. 
Deve-se ressaltar, pois, que a imagem de um gráfico de dispersão para a população é 
puramente uma abstração, pois geralmente não está disponível toda a informação 
necessária para construí-lo para toda a população-alvo de um estudo econométrico. 
Colocada esta ressalva, tomemos, para fins de compreensão, o gráfico abaixo, o qual 
representa toda a população. 
 
14 Infelizmente, calcular a média para Y dentro de faixas de X não permite obter uma função que descreva 
completamente o comportamento da relação entre as variáveis dentro da amostra. 
15 
 
 
As duas retas observadas no gráfico se mostram pouco adequadas para descrever a 
relação entre X e Y, dado que se afastam da tendência dominante. O erro cometido ao 
tentar-se reproduzir, com base nelas, o padrão descrito pelos pontos amostrais, é muito 
grande. Isso decorre do fato de que elas estão próximas de parte minoritária dos pontos 
amostrais. 
O ideal seria, portanto, que a reta estivesse suficientemente perto de todos os pontos. 
Com isso, os erros cometidos por toma-la como base seriam desprezíveis. Obviamente, 
não é possível traçar uma reta que atenda a esta condição. Mas é possível
traçar uma 
reta que esteja próxima do maior número possível de pontos. O que é equivalente a 
procurar uma reta que cometa menos e menores erros de aproximação entre todas as 
retas possíveis. 
Para operacionalizar este desiderato é preciso tomar por base uma medida para o total 
de erros cometidos. Uma possibilidade é tomar a expectativa do valor absoluto do erro 
de aproximação linear. A intuição desta medida está em que a expectativa é uma média, 
e, portanto, contém a soma dos erros. Além disso, como a análise tem por objetivo 
inferir a distribuição populacional de Y (condicional à X), a atenção, pois, está voltada 
para a população. Daí porque se toma a expectativa15. 
A medida para os erros de aproximação, portanto, é: 
ܧൣหܻ − ෨ܻ௜ห൧ (1) 
Em que ෨ܻ é o valor de Y que a reta associa a i-ésima observação. 
Uma vez que o operador matemático valor absoluto (“| |”) não é de fácil manipulação 
algébrica, toma-se o quadrado dos erros de aproximação linear, ou seja: 
ܧ ቂ൫ ௜ܻ − ෨ܻ௜൯
ଶ
ቃ (1ᇱ) 
 
15 Esta abordagem para obter os estimadores de MQO é uma adaptação da seção 3.1.1 e 3.1.2 de Angrist, 
J.D., Pischke, J-S., 2009. Mostly harmless econometrics, an empiricist’s companion. Princeton University 
Press, New Jersey, US. 
-20
-10
0
10
20
30
40
50
60
70
0 1000 2000 3000 4000 5000 6000 7000 8000
Pr
ev
al
ên
ci
a 
de
 d
es
nu
tr
iç
ão
Renda mensal per capita
16 
 
Ambos operadores, o valor absoluto e o quadrado desempenham a mesma função que é 
a de eliminar o sinal dos erros. 
O próximo passo consiste em retomar a definição da aproximação linear à FRP, Y෩ = β଴ + βଵX e a incorporar a (1’). 
ܧ[( ௜ܻ − β଴ − βଵ ௜ܺ)ଶ] 
A reta que corresponde à melhor aproximação linear à FRP é obtida escolhendo-se os 
valores de β0 e β1 que minimizam o quadrado dos erros de aproximação. É o que 
propõe o método de mínimos quadrados ordinários (MQO). Formalmente, o problema 
de minimização pode ser escrito como: 
݉݅݊{ఉబ,ఉభ}ܧ[( ௜ܻ − β଴ − βଵ ௜ܺ)ଶ] 
A resolução deste problema requer o emprego de cálculo diferencial. O que se resume a 
tomar as derivadas parciais da expressão entre colchetes e igualar as expressões 
resultantes a zero. Assim fazendo, são obtidas as duas condições de primeira ordem, 
quais sejam: 
ܧ[( ௜ܻ − β଴ − βଵ ௜ܺ)] = 0 (1) 
ܧ[ ௜ܺ( ௜ܻ − β଴ − βଵ ௜ܺ)] = 0 (2) 
Ou, alternativamente 
ܧ[ ௜ܻ − β଴ − βଵ ௜ܺ] = 0 (1) 
ܧൣܺ௜ ௜ܻ − ௜ܺβ଴ − βଵܺ௜
ଶ൧ = 0 (2) 
Os estimadores para os parâmetros não podem ser obtidos diretamente destas equações, 
uma vez que elas contêm o operador expectativa, o qual apenas pode ser empregado na 
população. 
O passo final consiste em aplicar o assim-chamado “princípio da analogia”, que 
estabelece que os estimadores podem ser obtidos substituindo-se momentos 
populacionais por momentos amostrais análogos16. O operador análogo à expectativa, 
da população, é a média, na amostra. Substituindo expectativas por médias nas equações 
acima, chega-se a: 1ܰ
෍൫ݕ௜ − ߚመ଴ − ߚመଵݔ௜൯ = 0ே
௜ୀଵ
 (1′) 
1ܰ
෍ ݔ௜൫ݕ௜ − ߚመ଴ − ߚመଵݔ௜൯ = 0 (2′)ே
௜ୀଵ
 
 
16 A palavra “momento” denota expectativas ou médias de potências de variáveis, o que abrange tanto a 
média aritmética como a média do quadrado de uma variável. 
17 
 
Este sistema de duas equações pode ser manipulado de maneira a obterem-se as 
soluções: 
ߚመ଴ = ݕത − ߚመଵ̅ݔ (3) 
ߚመଵ = ∑ (ݕ௜ − ݕത)(ݔ௜ − ̅ݔ)ே௜ୀଵ∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵ (4) 
Eis a fórmula dos estimadores de MQO para os parâmetros da FRP. 
Deve-se notar que o estimador para o coeficiente angular tem em seu numerador a 
covariância amostral entre Y e X, e, em seu denominador, a variância amostral de X, 
i.e.: 
ߚመଵ = ܥ݋ݒ(ݔ௜, ݕ௜)ܸ(ݔ௜) (4′) 
 
2.6 Critério alternativo para obter o estimador de MQO: método dos 
momentos (Woodridge, seção 2.2) 
O método de mínimos quadrados ordinários é apenas um dos métodos a partir do qual é 
possível obter os estimadores para os parâmetros da FRP. Há dois outros métodos que 
também permitem chegar a eles, o método de máxima verossimilhança e o método dos 
momentos. Por hora, será focado o último, uma vez que ele é a base da derivação 
apresentada por Wooldridge na seção 2.2 de seu livro17. 
O método dos momentos não parte de uma condição de otimização, mas sim de uma 
hipótese, denominada condição de ortogonalidade. Esta, tal como é o caso do critério de 
minimização do erro quadrático médio, consiste em uma afirmação que vale para a 
população. Trata-se de exigir que a covariância entre o termo de perturbação e a 
variável independente seja nula. Formalmente: 
cov[xi,ui] = 0 (MM1), i=1,...,N 
Além disso, assume-se que a expectativa do termo de perturbação é nula. 
E[ui] = 0 (MM2), i=1,...,N 
Da definição de covariância, tem-se cov[xi, ui] = E[(xi-E[xi]) (ui-E[ui])] = E[xi ui] + E[xi]E[ui] – E[xi]E[ui] + E[xi]E[ui] = E[xi ui]  cov[xi, ui] = E[xi ui] (*); a última 
passagem decorre diretamente de MM2. Levando o resultado (*) a MM1, tem-se: 
E[xi ui] = 0 (MM1’), i=1,...,N 
As condições MM1’ e MM2 são equivalentes às condições de primeira ordem do 
problema de minimização do erro quadrático médio, este o critério de obtenção de 
 
17 Segunda edição em inglês. 
18 
 
estimadores fornecido pelo método de mínimos quadrados. O primeiro passo para 
perceber isso consiste em reescrever MM1’ e MM2, explorando a definição do termo de 
perturbação, tal como segue. 
E[xi (yi - β0 - β1xi)] = 0 (MM1’), i=1,...,N 
E[yi - β0 - β1xi] = 0 (MM2), i=1,...,N 
Como segundo passo, recorre-se ao “princípio da analogia”, substituindo os momentos 
populacionais, E[xi(yi - β0 - β1xi)] e E[ui], por suas contrapartidas amostrais, 
∑ ݔ௜൫ݕ௜ − ߚመଵ − ߚመଵݔ௜൯
ே
௜ୀଵ e ∑ ൫ݕ௜ − ߚመଵ − ߚመଵݔ௜൯ே௜ୀଵ , de modo a chegar em: 
∑ ݔ௜൫ݕ௜ − ߚመ଴ − ߚመଵݔ௜൯
ே
௜ୀଵ = 0 (MM1’’) 
∑ ൫ݕ௜ − ߚመ଴ − ߚመଵݔ௜൯
ே
௜ୀଵ = 0 (MM2’) 
Tem-se, pois, as equações equivalentes às que o método de MQO conduz. 
 
2.7 Valores previstos e resíduos 
Uma vez obtidas as estimativas pontuais para os parâmetros, intercepto, ߚመ଴ e 
coeficiente, ߚመଵ, é possível, com base neles, obter os valores previstos, pela regressão, 
para a variável dependente. Basta tomar ݕො௜ = ߚመ଴ − ߚመଵݔ௜, i=1,...,N. 
A diferença entre os valores previstos e os valores observados é uma medida para os 
equívocos cometidos pela regressão. Na maioria dos casos, a reta de regressão (FRA) 
erra para um número não desprezível de observações. 
Isso ocorre por dois motivos. Em primeiro lugar, há o erro de aproximação linear da 
FRP, uma vez que se toma uma forma linear para essa, mesmo sendo que isso não 
necessariamente é verdade. Em segundo lugar, há o erro de inferência, oriundo do 
emprego da informação disponível na amostra para inferir a FRP. Este segundo erro, 
portanto, diz respeito à discrepância entre a FRA e a FRP e à “qualidade” do salto de 
inferência. 
Uma medida para o tamanho dos erros pode ser calculada como segue: 
ݑො௜ = ݕ௜ − ݕො௜ = ݕ௜ − ߚመ଴ − ߚመଵݔ௜ (A) 
Trata-se do geralmente se denomina por resíduos da regressão. 
Um detalhe crucial está na diferença conceitual entre os termos de perturbação da FPR e 
os resíduos18. Os primeiros nunca são observados, exatamente porque representam todas 
 
18 Gujarati comete um ato de imprecisão (ou de incorreção) ao afirmar, na p.49, que o termo de 
perturbação é conceitualmente análogo aos resíduos. Wooldridge, corretamente, assinala que se trata de 
elementos conceitualmente distintos em pelo menos três momentos do capítulo 2 de seu livro. Na p. 56 há 
uma explicação suficientemente
clara, a qual é reproduzida no texto. 
19 
 
as variáveis explicativas que influenciam a variável dependente mas que não são 
observadas. Já os resíduos são sempre observados e é sempre possível os calcular a 
partir dos dados disponíveis. 
A razão apresentada no parágrafo anterior é plenamente suficiente para explicar a 
diferença conceitual entre erros e resíduos. Mas, para deixar mais claro que se trata de 
elementos distintos, pode-se recorrer à diferença algébrica, seguindo Wooldridge (p. 
56). Aplicando a definição da FRP na equação (A) acima, chega-se a: 
ݑො௜ = ߚ଴ + ߚଵݔ௜ + ݑ௜ − ߚመ଴ − ߚመଵݔ௜(ܣ′) 
Após a fatoração, tem-se: 
ݑො௜ = ݑ௜ + ൫ߚ଴ − ߚመ଴൯ + ൫ߚଵ − ߚመଵ൯ݔ௜(ܣ′′) 
Ou, de maneira mais clara: 
ݑො௜ − ݑ௜ = ൫ߚ଴ − ߚመ଴൯ + ൫ߚଵ − ߚመଵ൯ݔ௜(ܣ′′′) 
Como o termo do lado direito não é zero, pois os valores estimados para os parâmetros 
geralmente não são exatamente equivalentes aos valores populacionais19, fica 
demonstrando que erros e resíduos são algebricamente distintos. 
 
2.8 Propriedades algébricas 
Há três propriedades algébricas essenciais do estimador de MQO. Tais propriedades 
dizem respeito à estrutura matemática do estimador, sendo, portanto, sempre válidas, 
sem que seja necessário assumir qualquer hipótese que as garanta. 
(A) A soma dos resíduos da regressão é nula. A primeira condição de primeira 
ordem a partir da qual se obtém o estimador de MQO é equivalente a ∑ ൫ݕ௜ − ߚመଵ −ே௜ୀଵ
 ߚመଶݔ௜൯ = 0, ou, alternativamente, ∑ (ݕ௜ − ݕො௜)ே௜ୀଵ = ∑ ݑො௜ே௜ୀଵ = 0; 
Há um corolário fundamental da propriedade (A) que é a de que, na média, o modelo de 
regressão acerta. Para ver isso, basta tomar a última passagem, em que se afirma que 
∑ (ݕ௜ − ݕො௜)ே௜ୀଵ = 0, e, pois, ∑ ݕ௜ே௜ୀଵ = ∑ ݕො௜ே௜ୀଵ . Este corolário é importante, pois ele nos 
diz que, obrigatoriamente, se a regressão superestima alguns valores, ela 
obrigatoriamente tem de subestimar os demais, pois apenas assim os erros podem se 
cancelar quando somados. 
(B) A covariância amostral entre a variável independente e o resíduo é nula. Esta 
propriedade também decorre das condições de primeira ordem, mas, neste caso, da 
segunda delas. Esta é tal que ∑ ݔ௜൫ݕ௜ − ߚመଵ − ߚመଶݔ௜൯ ே௜ୀଵ = 0. O que é igual a 
∑ ݔ௜ݑො௜ = 0 ே௜ୀଵ . 
 
19 Isso é verdade mesmo quando, em média, os valores estimados são equivalentes aos valores 
populacionais, i.e., quando os estimadores são não-viesados. 
20 
 
(C) O ponto do plano cartesiano que corresponde aos valores médios para Y e X, (̅ݔ, 
ݕത) é parte da reta de regressão. A demonstração é simples, basta notar que (i) ݕത =
ܰିଵ ∑ ݕ௜
ே
௜ୀଵ ݁ (݅݅) ∑ ݕ௜ே௜ୀଵ = ∑ ݕො௜ே௜ୀଵ . Do que decorre: 
ܰିଵ ∑ ൫ߚመଵ + ߚመଶݔ௜ + ݑො௜൯ே௜ୀଵ = ߚመଵ + ܰିଵߚመଶ ∑ ݔ௜ே௜ୀଵ + ܰିଵ ∑ ݑො௜ே௜ୀଵ → ݕത = ߚመଵ + ߚመଶ̅ݔ. 
 
 
 
 
nota_de_aula_5.pdf
1 
 
Notas de aula para o curso de Econometria I 
Nota 5: coeficiente de determinação, não-linearidade e propriedades estatísticas 
Thiago Fonseca Morello 
fonseca.morello@ufabc.edu.br 
sala 301, Bloco Delta, SBC 
1 Coeficiente de determinação e ANOVA 
Uma razão pela qual os resíduos podem assumir valores consideráveis repousa no fato 
de que a variável explicativa X não explica completamente a variação de Y na amostra. 
Existe, porém, uma diferença entre explicar uma proporção muito baixa da variação de 
Y, praticamente desprezível, e uma proporção relevante, mesmo que inferior a 100%. 
Daí porque é relevante saber qual é, exatamente, a proporção de Y explicada pelo 
modelo estimado. 
O coeficiente de determinação, ou r2 é uma medida para a qualidade do ajuste aos dados 
do modelo estimado. Ele equivale à razão entre a variação amostral de Y explicada pelo 
modelo (numerador) pela variação total de Y na amostra (denominador). 
Como medida para a variação explicada pelo modelo, é tomada a soma dos quadrados 
da diferença entre o valor de Y previsto pelo modelo e a média (amostral) de Y. O que é 
denominado por soma dos quadrados explicada (SQE). E isso pois, sem recorrer à 
regressão linear, a maneira mais simples de prever o valor de Y para cada observação é 
tomando a média de Y. Esta previsão “primitiva” é uma base a partir da qual o conteúdo 
informacional trazido pela regressão linear tem de ser julgado: se tal técnica não explica 
uma proporção da variação de Y consideravelmente superior à explicada pela média, 
não vale a pena recorrer a ela. 
De modo coerente, a variação total a ser explicada é medida pela soma dos desvios de Y 
em torno de sua média, ou soma dos quadrados total (SQT), uma medida quase 
equivalente à variância de Y. 
Formalmente, tem-se: 
ݎଶ = ܵܳܧ
ܵܳܶ
= ∑ (ݕො௜ − ݕത)ଶே௜ୀଵ
∑ (ݕ௜ − ݕത)ଶே௜ୀଵ = 1 − ∑ ݑො௜ଶே௜ୀଵ∑ (ݕ௜ − ݕത)ଶே௜ୀଵ 
Em que ∑ ݑො௜
ଶே
௜ୀଵ é a soma dos quadrados dos resíduos (SQR), medida para a proporção 
da variação que permanece não explicada. 
Estimado o modelo a partir dos dados disponíveis, as somas dos quadrados podem ser 
dispostas em uma tabela de Análise de Variância (ANOVA, na sigla em inglês), cujo 
formato geral, para a regressão simples, é apresentado na tabela 1 abaixo. 
 
2 
 
Tabela 1 Tabela ANOVA 
Fonte de variação Soma dos quadrados 
Graus de 
liberdade 
Soma dos 
quadrados média 
Devido à regressão SQE 1 SQEM =SQE/1 
Devido aos 
resíduos SQR N – 2 
SQRM =SQR/(N-2) 
Total SQT N – 1 SQTM= SQT/(N-1) 
 
A terceira coluna compreende as contagens de graus de liberdade, isto é, de partículas 
informacionais contidas na amostra cujo valor não é fixado pelas estatísticas. Uma 
explicação mais detalhada pode ser encontrada na nota de aula suplementar 1. Por hora, 
basta compreender a contagem para cada uma das linhas da tabela. O cálculo da SQT 
depende do cálculo prévio da média de Y, o que elimina uma partícula de informação 
livre. Sobram, portanto, N – 1 partículas livres e este é o conteúdo informacional com 
base no qual a SQT é calculada. O cálculo da SQR, por sua vez, pressupõe a obtenção 
de duas estimativas pontuais, para o intercepto e para o coeficiente, duas estatísticas, de 
modo que restam, N – 2 partículas informacionais livres para, com base nelas, obter a 
SQR. A contagem para a SQE é feito de maneira diferente. Leva-se em conta o fato de 
que SQE = SQT – SQR, ou seja, a SQE pode ser calculada diretamente a partir desta 
diferença. Os graus de liberdade associados correspondem, analogamente, à diferença 
dos graus de liberdade correspondentes à SQT e à SQR, i.e., N – 1 – (N – 2) = 1. 
Uma interpretação visual do coeficiente de determinação é provida pela figura abaixo. 
 
 
 
 
 
 
 
 
 
 
 
 
3 
 
Figura 1 Visualizando o coeficiente de determinação: reta de regressão 
amostral para X e Y (linha vermelha), média de Y (linha pontilha horizontal) e 
duas observações (pontos A e B) 
 
A distância vertical entre o ponto A e a linha de regressão, em vermelho, corresponde à 
o que a SQR capta, i.e., à porção da variação de Y não explicada pelo modelo. Já a 
distância vertical entre a linha vermelha e a média de Y, indicada pela linha pontilhada, 
corresponde à porção explicada da variação, medida pela SQE. É nestas duas parcelas 
que se desdobra o desvio em Y em relação à sua média, incorporada à SQT, equivalente 
à distância entre a coordenada vertical do ponto A e a média de Y. O gráfico abaixo 
deixa mais claro esta repartição da variação total. 
 
 
 
4 
 
Figura 2 Visualizando a repartição da SQT em SQR e SQE 
 
 
2 Incorporando não-linearidade na variável independente 
Não necessariamente a relação entre Y e X é linear. Por exemplo, a teoria 
microeconômica sugere que a relação entre quantidade e custo total médio é quadrática, 
de modo