Nota_de_aula_4_corr_17_10

Econometria

•
UNIFESP

Julio Cezar
22.12.2014
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Econometria

6.216 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
1 
 
Notas de aula para o curso de Econometria I 
Nota 4: Estruturas de dados e regressão simples: motivação, FRP, FRA, estimação 
e propriedades algébricas 
Thiago Fonseca Morello 
fonseca.morello@ufabc.edu.br 
sala 301, Bloco Delta, SBC 
1 A natureza dos dados econômicos1 
1.1 Abrangência espacial e temporal 
A pesquisa empírica em economia emprega um amplo espectro de dados. Em termos 
gerais, por “dados” se entende um conjunto de valores observados para algumas 
variáveis, em um determinado horizonte espaço-temporal e em uma determinada escala 
observacional. 
A abrangência ou horizonte espaço-temporal diz respeito ao período de tempo em que 
os dados foram coletados e à região que a informação neles contida representa. Por 
exemplo, o Censo Demográfico 2010, produzido pelo IBGE, se refere ao ano de 2010 e 
abrange todo o Brasil. As pesquisas de intenção de voto, das empresas IBOPE e 
Datafolha captam períodos específicos (de três dias, geralmente) e uma amostra do 
eleitorado brasileiro, mas, o que talvez não seja tão óbvio, representam todos os 
eleitores do País, tendo, pois, abrangência nacional. A Pesquisa de Orçamentos 
Familiares (POF), realizada pela Fundação Instituto de Pesquisa Econômicas, bem 
como a Pesquisa Origem-Destino (POD) do Metrô de São Paulo, têm como região de 
cobertura, respectivamente, a cidade de São Paulo e a região metropolitana do Estado de 
São Paulo. 
1.2 Escala 
A escala ou nível observacional diz respeito à perspectiva captada pelos dados, ou, mais 
precisamente, à entidade portadora das características medidas pelas variáveis. No 
Censo de 2010, há pelo menos duas escalas observacionais ou entidades, pessoas e 
domicílios. Deste modo, pois, foram coletadas informações acerca de características 
individuais, tais como idade, nível educacional, renda mensal, etc., e também 
informações que correspondem a características de domicílios, como o número de 
cômodos, o acesso a saneamento básico, o material empregado na construção da 
habitação, etc. Estas duas entidades também aparecem na POF do IBGE, além de uma 
unidade adicional, denominada por “Unidade de Consumo”, a qual consiste em um 
conjunto de moradores de uma mesma residência que compartilham alimentos. 
Geralmente, mas nem sempre, trata-se de uma família. 
 
1 É recomendada a leitura do capítulo 1 de Wooldridge. 
2 
 
Nas pesquisas de intenção de votos e na POD a escala observacional de coleta de dados 
é a pessoa, uma vez que intenção de voto e trajetos percorridos diariamente via 
transporte público são características de pessoas. Porém, os dados não são divulgados 
neste nível observacional, estando disponíveis para exame apenas indicadores no nível 
nacional e da região metropolitana, respectivamente. 
Há conjuntos de dados na escala de setores censitários, municípios, unidades da 
federação e países. Por exemplo, o Censo Agropecuário, do IBGE2, é oriundo de um 
levantamento junto a estabelecimentos agropecuários (fazendas), sendo, porém, 
divulgado no nível municipal. Uma base de dados muito popular entre 
macroeconomistas é a Penn World Table3, da Universidade da Pensilvânia, com 
informações referentes a Países, como, por exemplo, PIB, contagem da população, gasto 
público, formação bruta de capital fixo, taxa de câmbio, etc. 
Levando em conta os parágrafos anteriores, é possível classificar os dados econômicos 
em três categorias de acordo com a escala observacional em que estão disponíveis: 
1. Microdados se referem à escala em que os dados foram efetivamente coletados, a 
partir de entrevistas. Geralmente se trata da escala dos tomadores de decisão da 
teoria microeconômica, por exemplo, pessoas, famílias, domicílios, empresas, etc; 
2. Dados regionais compreendem informações na escala de setores censitários, bairros, 
distritos, municípios, microrregiões, macrorregiões, unidades mínimas comparáveis 
e unidades da federação; 
3. Macrodados correspondem aos agregados macroeconômicos, e, portanto, à escala de 
Países. 
1.3 Estruturas de dados 
Há três principais estruturas em que os dados econômicos podem estar disponíveis. 
A estrutura de dados denotada por “dados transversais” ou “cross-section” capta um 
conjunto amplo de unidades em um único período de tempo, conforme ilustrado nas 
duas figuras a seguir. 
 
 
 
 
 
 
 
2 http://www.ibge.gov.br/home/estatistica/economia/agropecuaria/censoagro/ 
3 https://pwt.sas.upenn.edu/ 
3 
 
Figura 1 Macrodados transversais, América Latina, ano de 2010 
 
Figura 2 Microdados transversais, POF IBGE, escala de pessoas, 2009 
 
 
A estrutura de dados conhecida como séries temporais é descrita por uma tabela tal 
como a que segue. 
 
 
 
U
ni
da
de
s
Variáveis
País pib_pc pop câmbio %_cons %_gov %_inv
Argentina 14512,1 41343,2 3,8963 0,68056 0,05377 0,23312
Bolivia 4432,78 9947,42 7,02 0,74673 0,07075 0,11734
Brazil 9754,69 201103 1,75923 0,68999 0,10269 0,21732
Chile 15960,8 16746,5 510,249 0,6031 0,03781 0,28748
Colombia 8975,41 44205,3 1898,57 0,71892 0,0658 0,2372
Ecuador 7345,69 14790,6 1 0,74147 0,06011 0,2597
Guyana 5067,81 748,486 200,5 0,82108 0,17259 0,27278
Paraguay 4851,18 6375,83 4743,08 0,84822 0,05515 0,13546
Peru 9009,56 28948 2,82513 0,6343 0,04728 0,28402
Suriname 12044,1 486,618 2,74542 0,18632 0,07322 0,67069
Uruguay 13671,2 3301,08 20,0593 0,71805 0,04517 0,22865
Venezuela 11778 27223,2 2,58563 0,62252 0,04853 0,21344
Código Altura Peso Idade Anos de estudo
2.11.1.9.1.1.1 173 85,7 53 5
2.11.1.9.1.1.2 157 60,7 49 8
2.11.1.9.1.1.3 175,3 75,6 22 11
2.11.1.9.1.1.4 165,7 47,6 19 11
2.11.1.9.1.1.5 127 21,6 6 0
2.11.1.9.10.1.1 167,5 69,4 27 6
2.11.1.9.10.1.2 142 30,7 10 1
2.11.1.9.10.1.3 108 19,1 4 0
2.11.1.9.11.1.1 158 68 33 6
2.11.1.9.11.1.2 155,5 63,3 30 11
2.11.1.9.11.1.3 143 33,7 11 2
2.11.1.9.11.1.4 130,5 30,3 9 2
2.11.1.9.12.1.1 147,2 58,9 66 4
2.11.1.9.12.1.2 161,4 89,8 34 15
2.11.1.9.12.1.3 151,1 56,8 28 15
2.11.1.9.12.1.4 146,2 50,9 62 3
2.11.1.9.3.1.1 171,3 78 55 15
2.11.1.9.3.1.2 155 46,3 56 15
2.11.1.9.3.1.3 165,2 53 30 15
2.11.1.9.4.1.1 164 77,6 52 4
U
ni
da
de
s
Variáveis
4 
 
Figura 3 Macrodados em séries temporais, Brasil, 1990 a 2010 
 
Têm-se, portanto, a mesma unidade (no caso, um País, o Brasil) observada em 
diferentes momentos de tempo, de maneira a que as observações coincidam com 
períodos de tempo e, para cada um deles, estejam registrados os valores assumidos por 
cada uma das variáveis. 
É possível expandir um conjunto de dados transversais repetindo a coleta de informação 
para as mesmas variáveis em períodos subsequentes. Com isso obtém-se uma estrutura 
de dados híbrida, a qual combina elementos de cross-section e de séries temporais. A 
estrutura de dados em painel, ou longitudinal, é um exemplo de estrutura híbrida. Ela 
captura o mesmo conjunto de unidades em mais de um período de tempo, conforme 
ilustrado na figura abaixo. 
 
 
 
 
 
 
 
 
 
 
Instantes de 
tempo
Variáveis
Ordem Ano
População 
(em mil 
pessoas)
Taxa de 
câmbio 
nominal
PIB per capita 
(PPP)
% consumo 
no PIB
% governo 
no PIB
% 
investimento 
bruto no PIB
1 1990 151.170,06 0,0000 4.531,3341 0,6720 0,1133 0,1968 
2 1991 153.583,96 0,0002 4.664,0342 0,6681 0,1172 0,2064 
3 1992 156.032,06 0,0020 4.709,1480 0,6687 0,1170 0,1898 
4 1993 158.512,05 0,0383 4.884,5276 0,6704 0,1176 0,1974 
5 1994 161.017,06 0,6647 5.196,4431 0,6750 0,1119 0,2085 
6 1995 163.544,28 0,9177 5.581,1692 0,6787 0,1046 0,2318 
7 1996 166.085,86 1,0051 5.727,64740,6787 0,0999 0,2392 
8 1997 168.638,74 1,0780 5.929,1672 0,6752 0,1002 0,2464 
9 1998 171.201,16 1,1605 5.843,1274 0,6805 0,1033 0,2360 
10 1999 173.763,87 1,8139 5.737,1928 0,6949 0,1077 0,2114 
11 2000 176.319,62 1,8294 6.025,1128 0,6893 0,1020 0,2263 
12 2001 178.869,66 2,3496 6.122,0764 0,6931 0,1037 0,2164 
13 2002 181.417,59 2,9204 6.294,4270 0,6894 0,1069 0,1884 
14 2003 183.959,92 3,0775 6.408,5833 0,6847 0,1077 0,1783 
15 2004 186.488,60 2,9251 6.910,6665 0,6659 0,1049 0,1902 
16 2005 188.993,08 2,4344 7.234,0497 0,6766 0,1055 0,1815 
17 2006 191.469,01 2,1753 7.736,6177 0,6740 0,1038 0,1930 
18 2007 193.918,58 1,9471 8.397,1364 0,6703 0,1041 0,2103 
19 2008 196.342,59 1,8338 9.112,7871 0,6680 0,1009 0,2291 
20 2009 198.739,27 1,9994 9.028,8484 0,7005 0,1075 0,1926 
21 2010 201.103,33 1,7592 9.754,6919 0,6900 0,1027 0,2173 
5 
 
Figura 4 Macrodados em painel, América Latina, 2008 e 2010 
 
Este curso de Econometria I focará na estrutura de dados transversais ou cross-section. 
As séries temporais são objeto do curso de econometria III, enquanto os dados em 
painel são tratados no curso de econometria II. 
2 Regressão simples 
2.1 Motivação 
A busca dos determinantes de uma característica de interesse é um exercício recorrente 
na prática científica. Particularmente, em economia, parte-se da teoria para identificar as 
variáveis de fundo, ou seja, aquelas em função das quais é possível explicar o 
comportamento de uma determinada característica socioeconômica tal como situação do 
indivíduo perante o mercado de trabalho (estar ou não empregado), investimento de 
uma empresa em inovação tecnológica e taxa de crescimento do PIB de uma nação, etc. 
Em outras palavras, seja Y a variável cujo comportamento deseja-se explicar, a teoria 
postula que existe pelo menos uma variável, X, a qual, a depender do valor por ela 
assumido, exerce influência sobre o valor assumido por Y. 
Um exemplo de particular interesse para o Brasil e para os países não desenvolvidos em 
geral é o a da relação entre desnutrição infantil e renda familiar. Economistas como Ana 
Lúcia Kassouf, Rodolfo Hoffman e Antônio Carlos Campino, se dedicaram à 
investigação desta relação tomando por base, para isso, dados coletados a partir de 
entrevistas a domicílios brasileiros. O pesquisador Mark Agee, dos Estados Unidos, fez 
o mesmo, mas, porém, para o caso da Nigéria4. 
 
4 Seguem as referências para os estudos originais dos autores mencionados. Kassouf, A. L. A demanda de 
saúde infantil no Brasil por região e setor. Pesquisa e Planejamento Econômico, v. 24, n. 2, p. 235-260, 
ago. Disponível em http://www.memoria.nemesis.org.br/index.php/ppe/article/view/806/745. Hoffman, 
pop câmbio pib_pc %_cons %_gov %_inv pop câmbio pib_pc %_cons %_gov %_inv
Argentina 40482 3,14417 13270,1 0,678 0,04924 0,23507 41343,2 3,8963 14512,1 0,68056 0,05377 0,23312
Bolivia 9601,26 7,23832 4160,3 0,75028 0,07021 0,11432 9947,42 7,02 4432,78 0,74673 0,07075 0,11734
Brazil 196343 1,83377 9112,79 0,66804 0,1009 0,22915 201103 1,75923 9754,69 0,68999 0,10269 0,21732
Chile 16454,1 522,461 14082,9 0,61593 0,03736 0,31055 16746,5 510,249 15960,8 0,6031 0,03781 0,28748
Colombia 43141,1 1967,71 8486,3 0,726 0,06212 0,23456 44205,3 1898,57 8975,41 0,71892 0,0658 0,2372
Ecuador 14354,5 1 7063,65 0,67072 0,05349 0,27507 14790,6 1 7345,69 0,74147 0,06011 0,2597
Guyana 758,059 203,633 4556,04 0,88689 0,17143 0,2554 748,486 200,5 5067,81 0,82108 0,17259 0,27278
Paraguay 6203,2 4363,24 4356,41 0,84113 0,04516 0,16524 6375,83 4743,08 4851,18 0,84822 0,05515 0,13546
Peru 28347,9 2,92441 7970,65 0,6571 0,04178 0,29033 28948 2,82513 9009,56 0,6343 0,04728 0,28402
Suriname 475,996 2,745 12119,6 0,19308 0,07438 0,7241 486,618 2,74542 12044,1 0,18632 0,07322 0,67069
Uruguay 3286,37 20,9493 11690,8 0,73046 0,0481 0,26687 3301,08 20,0593 13671,2 0,71805 0,04517 0,22865
Venezuela 26414,8 2,147 12680,5 0,61121 0,04258 0,25048 27223,2 2,58563 11778 0,62252 0,04853 0,21344
País / Ano 2008 2010
Variáveis
Períodos
U
ni
da
de
s
6 
 
A teoria5 postula, considerando uma sociedade cuja produção e distribuição de 
alimentos são geridas por mercados, uma relação negativa entre grau de desnutrição 
infantil, esta a variável a ser explicada, Y, e renda familiar, a qual assumirá a posição de 
X. A intuição está em que famílias com maior poder de compra têm mais acesso a 
alimentos e, pois, maior capacidade de manter suas crianças adequadamente nutridas. 
O objetivo da análise econométrica não é verificar a consistência lógica ou teórica da 
relação entre variável explicada, Y, e variável explicativa, X, mas sim sua consistência 
empírica, entendida esta como a adequação às evidências reveladas pelos dados 
disponíveis. Ou seja, a partir do momento em que o pesquisador decide qual é a relação 
relevante, cabe à análise econométrica procurar indícios de que tal relação se manifesta 
ou não nos dados. 
Um primeiro passo neste sentido pode ser dado com a elaboração de um gráfico de 
dispersão, a partir de um conjunto de dados que contenha informações para X e Y. Para 
o Brasil, a fonte de dados é a Pesquisa de Orçamentos Familiares de 2008/2009 (POF). 
O exame destes dados será postergado. Por enquanto é mais esclarecedor ocupar-se de 
algumas das possibilidades que os dados podem vir a revelar. O painel a seguir indica 
três possibilidades. Nenhuma delas contém dados verídicos, mas sim valores gerados 
artificialmente com uma planilha Excel ®. A medida de grau de desnutrição infantil 
considerada é a de prevalência, ou seja, porcentagem de crianças de zero a cinco anos 
com altura consideravelmente inferior ao nível saudável para a idade, de acordo com a 
Organização Mundial de Saúde (OMS)6. 
A unidade observacional dos gráficos é o setor censitário, uma região geográfica 
submunicipal definida pelo IBGE por fins estatísticos7. Desta maneira, são observadas, 
nos gráficos, a renda média dos setores censitários brasileiros e a prevalência de 
desnutrição em cada um deles. São considerados apenas 100 setores censitários. 
 
 
 
R. Pobreza, insegurança alimentar e desnutrição no Brasil. Estudos Avançados vol.9 no.24 São Paulo 
Maio/Agosto 1995. Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-
40141995000200007.Campino, A. C. C., Aspectos sócio-econômicos da desnutrição no Brasil. Revista de 
Saúde Pública, São Paulo, 20(1):83-101, 1986. Disponível em http://www.scielo.br/pdf/rsp/v20n1/07.pdf. 
Agee, M. Reducing child malnutrition in Nigeria: Combined effects of income growth and provision of 
information about mothers’ access to health care services. Social Science & Medicine 71 (2010) 
1973-1980. Disponível em http://www.sciencedirect.com/science/article/pii/S0277953610006696. 
5 Esta afirmação encontra fundamentação mais clara na abordagem das dotações (entitlement approach) 
empregada por Amartya Sen em um dos principais estudos de fenômenos de inanição e fome em massa, a 
obra “Poverty and Famines: an essay on entitlement and deprivation”, tal como se pode comprovar na 
seção 10.1 do livro. 
6 Esta medida foi detalhada na primeira aula de laboratório, consultar o arquivo “script_lab_1”. 
7 A definição de setor censitário, conforme consta na metodologia do censo demográfico de 2000 é “(...)unidade de controle cadastral formada por área contínua, situada em um único quadro urbano ou rural, 
com dimensão e número de domicílios ou de estabelecimentos que permitam levantamento das 
informações por um único Agente Credenciado, segundo cronograma estabelecido (vide página 227 de 
http://www.ibge.gov.br/home/estatistica/populacao/censo2000/metodologia/metodologiacenso2000.pdf).” 
7 
 
 
Painel 1 Três possibilidades para o gráfico de dispersão 
(A) (B) 
 
 
(C) 
 
Caso o gráfico de dispersão gerado a partir dos dados coincida com (A), há razão para 
desconfiar da relação sugerida pela teoria. E isso pois não é possível reconhecer um 
padrão ou tendência clara. Na verdade, neste caso, os setores censitários se distribuem 
de maneira praticamente equitativa entre quatro grupos, quais sejam: 
1. Grupo (AA): Níveis relativamente altos de renda familiar e níveis relativamente 
altos de prevalência de desnutrição infantil; 
2. Grupo (AB): Níveis relativamente altos de renda familiar e níveis relativamente 
baixos de prevalência de desnutrição infantil; 
3. Grupo (BA): Níveis relativamente baixos de renda familiar e níveis relativamente 
altos de prevalência de desnutrição infantil; 
4. Grupo (BB): Níveis relativamente baixos de renda familiar e níveis relativamente 
baixos de prevalência de desnutrição infantil. 
Estes quatro grupos correspondem aos quatro quadrantes em que o gráfico de dispersão 
pode ser dividido, tomando-se como referência as médias amostrais das variáveis. A 
tabela abaixo apresenta a contagem dos setores censitários em cada um dos quatro 
grupos possíveis definidos acima para cada uma das três possibilidades de gráficos do 
painel 1. 
 
0
5
10
15
20
25
30
35
40
45
50
0 1000 2000 3000 4000 5000 6000 7000 8000
Pr
ev
al
ên
ci
a 
de
 d
es
nu
tr
iç
ão
Renda mensal per capita
0
5
10
15
20
25
30
35
40
0 1000 2000 3000 4000 5000 6000 7000 8000
Pr
ev
al
ên
ci
a 
de
 d
es
nu
tr
iç
ão
Renda mensal per capita
0
10
20
30
40
50
60
0 1000 2000 3000 4000 5000 6000 7000 8000
Pr
ev
al
ên
ci
a 
de
 d
es
nu
tr
iç
ão
Renda mensal per capita
8 
 
 
Tabela 1 Número de setores censitários em cada grupo para cada uma das três 
possibilidade de diagramas de dispersão 
Grupo/ 
Gráfico 
A B C 
AA 26 9 47 
AB 24 41 3 
BA 24 44 11 
BB 26 6 39 
 
Efetivamente, os quatro grupos têm participação praticamente equivalente para o caso 
ilustrado pelo gráfico (A), i.e., nenhum grupo predomina. Porém, nos gráficos (B) e (C), 
tal como a observação deles sugere, há uma tendência à concentração da amostra de 
setores censitários em grupos específicos. No caso do gráfico (B), setores censitários do 
grupo AB e do grupo BA predominam (juntos, respondem por 85% da amostra), o que 
está de acordo com a tendência positiva revelada pelo gráfico (B). Já, no caso (C), são 
os setores censitários dos grupos AA e BB que se mostram mais recorrentes (88% da 
amostra): um nível de renda relativamente alto tende a vir acompanhado de uma 
prevalência relativamente baixa de desnutrição infantil. Tal como a tendência negativa 
observada no gráfico indica. 
As duas formas de evidência consideradas, o diagrama de dispersão e a classificação das 
unidades observacionais, os setores censitários, em grupos de acordo com os valores das 
duas variáveis, podem bastar para o pesquisador. I.e., ele pode acreditar que os padrões 
revelados por estas duas ferramentas são claros o bastante para concluir quanto à 
validade ou invalidade empírica da relação teórica. 
Há, contudo, pelo menos duas razões pelas quais uma abordagem mais precisa se 
mostra desejável: 
1. Dados reais dificilmente seguem tendências claras, conforme o gráfico abaixo 
(figura 5) indica. O gráfico de dispersão e a classificação em grupos podem não 
revelar claramente uma tendência e nem a total falta de tendência. I.e., os dois 
instrumentos podem levar a evidências insuficientemente claras, inconclusivas; 
2. O pesquisador pode estar interessado em medir a relação quantitativa entre as 
variáveis X e Y, i.e., determinar em qual magnitude o aumento da renda familiar, 
via, por exemplo, transferências governamentais de renda, se reverte em redução do 
grau de desnutrição infantil; 
 
 
 
9 
 
Figura 5 Gráfico de dispersão para a relação entre renda mensal per capita e 
prevalência de desnutrição, setores censitários brasileiros* 
 
*apenas setores censitários com coeficiente de variação (desvio padrão/média) para a renda mensal per 
capita inferior à unidade são considerados. 
A econometria procura assentar a relação empírica entre X e Y em uma base mais 
precisa. De fato, a disciplina tem por objetivo fundamental mensurar a relação 
quantitativa entre duas variáveis X e Y. Para que fique mais claro o termo “relação 
quantitativa”, cabe atentar para os exemplos de perguntas feitas por estudos 
econométricos recentes listados a seguir. 
1. Em quanto o PIB per capita de um País seria aumentado caso fosse possível reduzir 
consideravelmente o nível de desigualdade de renda (Barro, 2008)8? 
2. Qual é o aumento de salário que um trabalhador poderia obter caso seu nível de 
qualificação fosse ampliado em um ano adicional de estudo (Teixeira e Menezes-
Filho, 2012)9? 
3. Em quanto aumentaria a renda de uma família caso a oferta de microcrédito fosse 
ampliada (Banerjee et al, 201410)? 
4. A área de floresta Amazônica desmatada por um produtor agropecuário seria 
consideravelmente maior caso ele tivesse acesso a mais crédito bancário (Assunção, 
201311)? 
 
8 Barro, R.J., Inequality and growth revisited. Working paper series on regional economic integration. 
Asian Development Bank. Disponível em 
http://aric.adb.org/pdf/workingpaper/WP11_%20Inequality_and_Growth_Revisited.pdf 
9 Teixeira, W. M., Menezes-filho, N.A. "Estimando o retorno à educação do Brasil considerando a 
legislação educacional brasileira como um instrumento". Revista de Economia Política, vol. 32, nº 3 
(128), pp. 479-496, julho-setembro/2012. Disponível em http://www.scielo.br/pdf/rep/v32n3/08.pdf 
10 Banerjee, A., Duflo, E, Glennester, R., Kinnan, C. “The miracle of microfinance? Evidence from a 
randomized evaluation.” Working paper, http://economics.mit.edu/files/5993 
11 ASSUNÇÃO, J., GANDOUR, C., ROCHA, R., ROCHA, R. 2013. Does credit affect deforestation? 
Evidence from a rural credit policy in the Brazilian Amazon. Climate Policy Initiative. Disponível em: 
10 
 
2.2 Função de expectativa condicional 
Como apreender a relação quantitativa entre duas variáveis? É possível avançar em tal 
sentido introduzindo uma pequena sofisticação no gráfico de dispersão. Agora com base 
nos dados reais da POF 2008/2009, pode-se calcular a média para a prevalência de 
desnutrição dentro de faixas para a renda familiar, como ilustrado pelos quadrados 
vermelhos do gráfico abaixo. Os pontos na direção vertical correspondem aos valores 
que a variável Y assume para as observações cuja renda familiar pertence a uma dada 
faixa. 
Figura 6 Média condicional para a prevalência de desnutrição (quadrados 
vermelhos) e níveis de prevalência observados na amostra (círculos pretos)*, SM = 
salário mínimo 
 
*apenas setores censitários com coeficiente de variação (desvio padrão/média) para a renda mensal per 
capita inferior à unidade são considerados. 
O gráfico indica que a média de Y, calculada “dentro” de grupos de observações 
definidos em função de valores de X, exibe uma tendência aparentemente negativa, 
ainda que isso não seja muito claro, o que é comum para dados reais. De qualquer 
maneira, neste estágiodo argumento, a atenção deve ser voltada à compreensão do 
significado das médias representadas pelos quadrados vermelhos. Para isso, é 
esclarecedor coletar algumas informações do gráfico, tal como segue. 
1. Nos setores censitários em que a renda mensal per capita é inferior a ¼ do salário 
mínimo, a prevalência de desnutrição é superior a 10%; 
2. Esta taxa é inferior a 10% nos setores censitários com renda mensal per capita entre 
dois e cinco salários mínimos. 
A leitura dos dados sugerida pelos “fatos” acima é um pouco mais clara do que o 
permitido por gráficos e tabelas. E isso pois, dado um determinado nível da variável X, 
 
http://climatepolicyinitiative.org/wp-content/uploads/2012/03/Deforestation-Prices-or-Policies-Working-
Paper.pdf 
11 
 
renda familiar, pode-se identificar um único valor correspondente à variável Y, sua 
média, no caso. Clareza está que resulta do emprego da média para resumir a dispersão 
da variável Y para cada uma das faixas de X. 
De fato, a média amostral de Y para grupos definidos em função de X é análoga ao 
conceito populacional de expectativa condicional visto em estatística e representado por 
E[Y|X]. Este conceito propõe que a informação quanto ao valor de X é relevante para 
determinar qual valor de Y é mais provável, i.e., têm maior probabilidade de ocorrência. 
O que é o mesmo que dizer que a distribuição probabilística de Y, i.e., a relação que nos 
diz quais valores de Y são mais prováveis e quais são menos prováveis, varia em função 
de X. Desta maneira, ao invés de conceber a distribuição probabilística de Y como dada 
por uma única função de distribuição de probabilidades (FD), é possível pensar que, 
para cada valor de X, existe uma distribuição probabilística potencialmente distinta para 
Y. É isso que o gráfico abaixo sugere, tomando como Y o logaritmo do salário semanal 
e como X os anos de escolaridade, isso para um conjunto de dados referente a uma 
amostra de trabalhadores. 
Gráfico X Distribuição condicional de Y em relação a X (cinza) e Expectativa 
condicional de Y em relação a X (linha preta) 
 
Fonte: gráfico reproduzido de Angrist, J.D., Pischke, J-S., 2009. Mostly harmless econometrics, an 
empiricist’s companion. Princeton University Press, New Jersey, US. 
Da mesma maneira que existe, para cada valor de X, uma distribuição probabilística 
potencialmente distinta, existem parâmetros potencialmente distintos que regem tal 
distribuição. Por exemplo, as distribuições condicionais referentes a valores diferentes 
de X, podem diferir em função da média populacional, μ. É exatamente esta 
possibilidade que a notação E[Y|X] indica, uma vez que ela se refere à média 
populacional de Y para um dado valor de X. 
2.3 Função de regressão populacional 
Qual é o formato exato de E[Y|X]? Ou seja, como a média populacional de Y varia em 
função de X? A priori, não é possível saber, uma vez que, como geralmente se parte de 
12 
 
dados amostrais, é impossível determinar os valores populacionais dos parâmetros. 
Porém, é sempre possível afirmar que existe uma relação funcional entre E[Y|X] e X, 
i.e., E[Y|X] = f(X). Esta relação funcional é denominada por função de expectativa 
condicional (FEC) ou por função de regressão populacional (FRP). 
A função f(X) não necessariamente é linear, ela pode ser quadrática ou exibir qualquer 
outro comportamento não linear. Porém, é sempre possível tomar uma aproximação 
linear à f(X), o que pode ser visto, seguindo Gujarati, como uma hipótese de partida, 
uma primeira aproximação do problema. Ou seja, E[Y|X] ≈ β0 + β1X (1). 
O segundo passo crucial para avançar na representação da relação entre X e Y está no 
fato, demonstrado pela teoria estatística, de que sempre é possível decompor uma 
variável aleatória em dois elementos12. O primeiro deles é a porção da informação 
contida na variável que é “explicada” por outra variável, o que pode ser representado a 
partir da expectativa condicional. Tomando Y como a variável “explicada” e X como 
variável “explicativa”, o primeiro elemento em que Y se decompõe é E[Y|X]. O 
segundo elemento corresponde à porção de Y não “explicada” por X, ou, de maneira 
mais precisa, não correlacionada com X, porção esta que será denotada por “u”. Desta 
maneira, pode-se escrever Y = E[Y|X] + u (2). 
Combinando os resultados (1) e (2) pode-se chegar à função linear abaixo. 
Y = E[Y|X] + u ≈ β0 + β1X + u 
Ou, de maneira sintética: 
Y ≈ β0 + β1X + u 
O símbolo indicando aproximação linear pode ser substituído, em nome da simplicidade 
notacional, pelo símbolo de igualdade desde que se tenha em mente que a reta acima é 
uma aproximação linear para a FRP. Ela também é denominada por reta de regressão 
linear populacional. 
É preciso assinalar a natureza populacional do modelo acima: os coeficientes β0 e β1 são 
parâmetros populacionais, desconhecidos a priori, assim como é o caso da média μ para 
uma variável aleatória normalmente distribuída. 
Outro detalhe fundamental diz respeito à natureza do termo “u”. Adotando a 
nomenclatura de Wooldridge, u será denominado por “termo de perturbação” ou “termo 
de erro”. Ele é equivalente a Y - β0 - β1X, tratando-se, portanto, da porção da variação 
de Y, ao longo das observações, que permanece não explicada mesmo após a 
incorporação da informação quanto ao comportamento de X. Gujarati apresenta 
algumas interpretações para o termo de perturbação. As mais relevantes são 
reproduzidas no que segue. 
 
12 Este parágrafo segue a interpretação de Angrist & Pischke (2009, p.25-26) para a propriedade de 
decomposição da função de expectativa condicional. 
13 
 
1. O termo de perturbação capta variáveis que explicam Y, mas são omitidas do 
modelo pois: 
a. Não são mencionadas pela teoria; 
b. São mencionadas pela teoria, mas não há dados disponíveis para elas; 
2. O termo de perturbação capta erros de medida decorrentes do emprego de variáveis 
proxy. É o que se tem quando as variáveis, tais como definidas pela teoria, não estão 
disponíveis nos dados, mas há outras variáveis disponíveis, correlacionadas com as 
primeiras, i.e, que se comportam de maneira parecida. Por exemplo, segundo a 
teoria do q de Tobin, uma das principais variáveis que explicam o investimento em 
capital fixo por parte de uma empresa é retorno marginal do capital fixo (medida 
esta que corresponde ao q de Tobin em si), porém, grandezas marginais dificilmente 
podem ser calculadas a partir de dados concretos. É praxe utilizar o retorno médio 
do capital fixo, dado pela razão entre o valor de mercado de uma empresa (retorno 
medido pelo mercado de ações) e o valor de seu estoque de capital. A diferença 
entre a medida proposta pela teoria e a medida factível é captada pelo termo de 
perturbação. Outro exemplo: no artigo “Desigualdade de renda nos Estados Unidos, 
1913-1998”13, os economistas Thomas Piketty e Emmanuel Saez utilizaram 
declarações de impostos de renda como proxy para a renda individual. Se esta 
medida fosse utilizada como variável explicativa em uma FRP para a poupança 
individual, por exemplo, o termo de perturbação captaria a diferença entre a renda 
efetiva, esta a medida mencionada pela teoria, e a renda declarada no imposto de 
renda, esta a medida factível incorporada à FRP; 
3. O termo de perturbação capta erros de especificação da relação entre X e Y. Muitas 
vezes a teoria não é precisa o bastante para estabelecer a forma funcional da relação 
em questão. A aproximação linear pode falhar em captar não-linearidades em tal 
relação, erro este o que acaba compondo o termo de perturbação. 
2.4 Inferência e função de regressão amostral 
Os valores populacionais deparâmetros de interesse são geralmente desconhecidos, 
sendo preciso estimá-los a partir das amostras de dados disponíveis. Não é diferente 
para o caso da análise de regressão linear, i.e., para os parâmetros β0 e β1. 
Para atingir o objetivo da análise empírica em economia, o qual é sempre caracterizar a 
relação entre Y e X, geralmente dispõe-se apenas de uma amostra de valores para as 
duas variáveis. Por exemplo, para determinar em qual medida a renda familiar explica, 
no Brasil, o grau de desnutrição infantil, os dados disponíveis mais atualizados 
correspondem à POF 2008/2009, uma amostra de 55.412 famílias de um total de 57 
milhões de famílias brasileiras (apenas 0,1% das famílias foram entrevistadas). 
O salto de inferência se mostra inevitável e com base nele se acaba por obter não a FRP, 
a qual nunca é observada, mas um elemento análogo, cujo conteúdo informacional se 
resume à amostra, a função de regressão amostral, FRA, representada como segue. 
 
 
13 Disponível em http://piketty.pse.ens.fr/fichiers/public/PikettySaez2003.pdf. 
14 
 
Y෡ = β෠଴ + β෠ଵX 
Em que β෠଴ e β෠ଵsão estimadores para β0 e β1. 
2.5 Estimação 
A mera definição da FRA não sugere um caminho para obtê-la. Como é possível chegar 
a estimativas pontuais para o intercepto e o coeficiente da FRP? Há pelo menos três 
métodos de estimação que solucionam o problema, por hora basta se ocupar do mais 
famoso. 
Um estimador é, antes de tudo, uma estatística. Estatísticas são usadas com o objetivo 
de resumir os dados. A média e a variância, por exemplo, resumem a distribuição 
individual de uma variável. Os estimadores para os parâmetros da FPR também têm de 
resumir informação, mas, porém, não quanto à distribuição individual de X e Y, mas 
sim quanto à relação quantitativa entre X e Y. 
O formato da FRP sugere uma saída para resumir a relação entre X e Y: tomar uma 
aproximação linear do padrão descrito pelo gráfico de dispersão14. Mas, um detalhe 
crucial, muitas vezes perdido de vista, deve ser assinalado. O gráfico de dispersão em 
questão não é o construído a partir da amostra, mas sim a partir da população. A razão 
para isso é de grande importância: o objetivo da análise econométrica não é resumir a 
relação de X e Y tal como ela se manifesta na amostra, mas sim na população. 
Por exemplo, a formulação de uma política nacional de combate à desnutrição infantil 
deve ser alicerçada na relação que esta variável tem com a renda familiar considerando-
se todas as famílias brasileiras. Se for tomado por base apenas um subgrupo de famílias, 
uma medida de política pública, tal como a transferência de renda, poderá não render o 
resultado esperado para famílias que não pertencem ao subgrupo considerado. 
Deve-se ressaltar, pois, que a imagem de um gráfico de dispersão para a população é 
puramente uma abstração, pois geralmente não está disponível toda a informação 
necessária para construí-lo para toda a população-alvo de um estudo econométrico. 
Colocada esta ressalva, tomemos, para fins de compreensão, o gráfico abaixo, o qual 
representa toda a população. 
 
14 Infelizmente, calcular a média para Y dentro de faixas de X não permite obter uma função que descreva 
completamente o comportamento da relação entre as variáveis dentro da amostra. 
15 
 
 
As duas retas observadas no gráfico se mostram pouco adequadas para descrever a 
relação entre X e Y, dado que se afastam da tendência dominante. O erro cometido ao 
tentar-se reproduzir, com base nelas, o padrão descrito pelos pontos amostrais, é muito 
grande. Isso decorre do fato de que elas estão próximas de parte minoritária dos pontos 
amostrais. 
O ideal seria, portanto, que a reta estivesse suficientemente perto de todos os pontos. 
Com isso, os erros cometidos por toma-la como base seriam desprezíveis. Obviamente, 
não é possível traçar uma reta que atenda a esta condição. Mas é possível traçar uma 
reta que esteja próxima do maior número possível de pontos. O que é equivalente a 
procurar uma reta que cometa menos e menores erros de aproximação entre todas as 
retas possíveis. 
Para operacionalizar este desiderato é preciso tomar por base uma medida para o total 
de erros cometidos. Uma possibilidade é tomar a expectativa do valor absoluto do erro 
de aproximação linear. A intuição desta medida está em que a expectativa é uma média, 
e, portanto, contém a soma dos erros. Além disso, como a análise tem por objetivo 
inferir a distribuição populacional de Y (condicional à X), a atenção, pois, está voltada 
para a população. Daí porque se toma a expectativa15. 
A medida para os erros de aproximação, portanto, é: 
ܧൣหܻ − ෨ܻ௜ห൧ (1) 
Em que ෨ܻ é o valor de Y que a reta associa a i-ésima observação. 
Uma vez que o operador matemático valor absoluto (“| |”) não é de fácil manipulação 
algébrica, toma-se o quadrado dos erros de aproximação linear, ou seja: 
ܧ ቂ൫ ௜ܻ − ෨ܻ௜൯
ଶ
ቃ (1ᇱ) 
 
15 Esta abordagem para obter os estimadores de MQO é uma adaptação da seção 3.1.1 e 3.1.2 de Angrist, 
J.D., Pischke, J-S., 2009. Mostly harmless econometrics, an empiricist’s companion. Princeton University 
Press, New Jersey, US. 
-20
-10
0
10
20
30
40
50
60
70
0 1000 2000 3000 4000 5000 6000 7000 8000
Pr
ev
al
ên
ci
a 
de
 d
es
nu
tr
iç
ão
Renda mensal per capita
16 
 
Ambos operadores, o valor absoluto e o quadrado desempenham a mesma função que é 
a de eliminar o sinal dos erros. 
O próximo passo consiste em retomar a definição da aproximação linear à FRP, Y෩ = β଴ + βଵX e a incorporar a (1’). 
ܧ[( ௜ܻ − β଴ − βଵ ௜ܺ)ଶ] 
A reta que corresponde à melhor aproximação linear à FRP é obtida escolhendo-se os 
valores de β0 e β1 que minimizam o quadrado dos erros de aproximação. É o que 
propõe o método de mínimos quadrados ordinários (MQO). Formalmente, o problema 
de minimização pode ser escrito como: 
݉݅݊{ఉబ,ఉభ}ܧ[( ௜ܻ − β଴ − βଵ ௜ܺ)ଶ] 
A resolução deste problema requer o emprego de cálculo diferencial. O que se resume a 
tomar as derivadas parciais da expressão entre colchetes e igualar as expressões 
resultantes a zero. Assim fazendo, são obtidas as duas condições de primeira ordem, 
quais sejam: 
ܧ[( ௜ܻ − β଴ − βଵ ௜ܺ)] = 0 (1) 
ܧ[ ௜ܺ( ௜ܻ − β଴ − βଵ ௜ܺ)] = 0 (2) 
Ou, alternativamente 
ܧ[ ௜ܻ − β଴ − βଵ ௜ܺ] = 0 (1) 
ܧൣܺ௜ ௜ܻ − ௜ܺβ଴ − βଵܺ௜
ଶ൧ = 0 (2) 
Os estimadores para os parâmetros não podem ser obtidos diretamente destas equações, 
uma vez que elas contêm o operador expectativa, o qual apenas pode ser empregado na 
população. 
O passo final consiste em aplicar o assim-chamado “princípio da analogia”, que 
estabelece que os estimadores podem ser obtidos substituindo-se momentos 
populacionais por momentos amostrais análogos16. O operador análogo à expectativa, 
da população, é a média, na amostra. Substituindo expectativas por médias nas equações 
acima, chega-se a: 1ܰ
෍൫ݕ௜ − ߚመ଴ − ߚመଵݔ௜൯ = 0ே
௜ୀଵ
 (1′) 
1ܰ
෍ ݔ௜൫ݕ௜ − ߚመ଴ − ߚመଵݔ௜൯ = 0 (2′)ே
௜ୀଵ
 
 
16 A palavra “momento” denota expectativas ou médias de potências de variáveis, o que abrange tanto a 
média aritmética como a média do quadrado de uma variável. 
17 
 
Este sistema de duas equações pode ser manipulado de maneira a obterem-se as 
soluções: 
ߚመ଴ = ݕത − ߚመଵ̅ݔ (3) 
ߚመଵ = ∑ (ݕ௜ − ݕത)(ݔ௜ − ̅ݔ)ே௜ୀଵ∑ (ݔ௜ − ̅ݔ)ଶே௜ୀଵ (4) 
Eis a fórmula dos estimadores de MQO para os parâmetros da FRP. 
Deve-se notar que o estimador para o coeficiente angular tem em seu numerador a 
covariância amostral entre Y e X, e, em seu denominador, a variância amostral de X, 
i.e.: 
ߚመଵ = ܥ݋ݒ(ݔ௜, ݕ௜)ܸ(ݔ௜) (4′) 
 
2.6 Critério alternativo para obter o estimadorde MQO: método dos 
momentos (Woodridge, seção 2.2) 
O método de mínimos quadrados ordinários é apenas um dos métodos a partir do qual é 
possível obter os estimadores para os parâmetros da FRP. Há dois outros métodos que 
também permitem chegar a eles, o método de máxima verossimilhança e o método dos 
momentos. Por hora, será focado o último, uma vez que ele é a base da derivação 
apresentada por Wooldridge na seção 2.2 de seu livro17. 
O método dos momentos não parte de uma condição de otimização, mas sim de uma 
hipótese, denominada condição de ortogonalidade. Esta, tal como é o caso do critério de 
minimização do erro quadrático médio, consiste em uma afirmação que vale para a 
população. Trata-se de exigir que a covariância entre o termo de perturbação e a 
variável independente seja nula. Formalmente: 
cov[xi,ui] = 0 (MM1), i=1,...,N 
Além disso, assume-se que a expectativa do termo de perturbação é nula. 
E[ui] = 0 (MM2), i=1,...,N 
Da definição de covariância, tem-se cov[xi, ui] = E[(xi-E[xi]) (ui-E[ui])] = E[xi ui] + E[xi]E[ui] – E[xi]E[ui] + E[xi]E[ui] = E[xi ui]  cov[xi, ui] = E[xi ui] (*); a última 
passagem decorre diretamente de MM2. Levando o resultado (*) a MM1, tem-se: 
E[xi ui] = 0 (MM1’), i=1,...,N 
As condições MM1’ e MM2 são equivalentes às condições de primeira ordem do 
problema de minimização do erro quadrático médio, este o critério de obtenção de 
 
17 Segunda edição em inglês. 
18 
 
estimadores fornecido pelo método de mínimos quadrados. O primeiro passo para 
perceber isso consiste em reescrever MM1’ e MM2, explorando a definição do termo de 
perturbação, tal como segue. 
E[xi (yi - β0 - β1xi)] = 0 (MM1’), i=1,...,N 
E[yi - β0 - β1xi] = 0 (MM2), i=1,...,N 
Como segundo passo, recorre-se ao “princípio da analogia”, substituindo os momentos 
populacionais, E[xi(yi - β0 - β1xi)] e E[ui], por suas contrapartidas amostrais, 
∑ ݔ௜൫ݕ௜ − ߚመଵ − ߚመଵݔ௜൯
ே
௜ୀଵ e ∑ ൫ݕ௜ − ߚመଵ − ߚመଵݔ௜൯ே௜ୀଵ , de modo a chegar em: 
∑ ݔ௜൫ݕ௜ − ߚመ଴ − ߚመଵݔ௜൯
ே
௜ୀଵ = 0 (MM1’’) 
∑ ൫ݕ௜ − ߚመ଴ − ߚመଵݔ௜൯
ே
௜ୀଵ = 0 (MM2’) 
Tem-se, pois, as equações equivalentes às que o método de MQO conduz. 
 
2.7 Valores previstos e resíduos 
Uma vez obtidas as estimativas pontuais para os parâmetros, intercepto, ߚመ଴ e 
coeficiente, ߚመଵ, é possível, com base neles, obter os valores previstos, pela regressão, 
para a variável dependente. Basta tomar ݕො௜ = ߚመ଴ − ߚመଵݔ௜, i=1,...,N. 
A diferença entre os valores previstos e os valores observados é uma medida para os 
equívocos cometidos pela regressão. Na maioria dos casos, a reta de regressão (FRA) 
erra para um número não desprezível de observações. 
Isso ocorre por dois motivos. Em primeiro lugar, há o erro de aproximação linear da 
FRP, uma vez que se toma uma forma linear para essa, mesmo sendo que isso não 
necessariamente é verdade. Em segundo lugar, há o erro de inferência, oriundo do 
emprego da informação disponível na amostra para inferir a FRP. Este segundo erro, 
portanto, diz respeito à discrepância entre a FRA e a FRP e à “qualidade” do salto de 
inferência. 
Uma medida para o tamanho dos erros pode ser calculada como segue: 
ݑො௜ = ݕ௜ − ݕො௜ = ݕ௜ − ߚመ଴ − ߚመଵݔ௜ (A) 
Trata-se do geralmente se denomina por resíduos da regressão. 
Um detalhe crucial está na diferença conceitual entre os termos de perturbação da FPR e 
os resíduos18. Os primeiros nunca são observados, exatamente porque representam todas 
 
18 Gujarati comete um ato de imprecisão (ou de incorreção) ao afirmar, na p.49, que o termo de 
perturbação é conceitualmente análogo aos resíduos. Wooldridge, corretamente, assinala que se trata de 
elementos conceitualmente distintos em pelo menos três momentos do capítulo 2 de seu livro. Na p. 56 há 
uma explicação suficientemente clara, a qual é reproduzida no texto. 
19 
 
as variáveis explicativas que influenciam a variável dependente mas que não são 
observadas. Já os resíduos são sempre observados e é sempre possível os calcular a 
partir dos dados disponíveis. 
A razão apresentada no parágrafo anterior é plenamente suficiente para explicar a 
diferença conceitual entre erros e resíduos. Mas, para deixar mais claro que se trata de 
elementos distintos, pode-se recorrer à diferença algébrica, seguindo Wooldridge (p. 
56). Aplicando a definição da FRP na equação (A) acima, chega-se a: 
ݑො௜ = ߚ଴ + ߚଵݔ௜ + ݑ௜ − ߚመ଴ − ߚመଵݔ௜(ܣ′) 
Após a fatoração, tem-se: 
ݑො௜ = ݑ௜ + ൫ߚ଴ − ߚመ଴൯ + ൫ߚଵ − ߚመଵ൯ݔ௜(ܣ′′) 
Ou, de maneira mais clara: 
ݑො௜ − ݑ௜ = ൫ߚ଴ − ߚመ଴൯ + ൫ߚଵ − ߚመଵ൯ݔ௜(ܣ′′′) 
Como o termo do lado direito não é zero, pois os valores estimados para os parâmetros 
geralmente não são exatamente equivalentes aos valores populacionais19, fica 
demonstrando que erros e resíduos são algebricamente distintos. 
 
2.8 Propriedades algébricas 
Há três propriedades algébricas essenciais do estimador de MQO. Tais propriedades 
dizem respeito à estrutura matemática do estimador, sendo, portanto, sempre válidas, 
sem que seja necessário assumir qualquer hipótese que as garanta. 
(A) A soma dos resíduos da regressão é nula. A primeira condição de primeira 
ordem a partir da qual se obtém o estimador de MQO é equivalente a ∑ ൫ݕ௜ − ߚመଵ −ே௜ୀଵ
 ߚመଶݔ௜൯ = 0, ou, alternativamente, ∑ (ݕ௜ − ݕො௜)ே௜ୀଵ = ∑ ݑො௜ே௜ୀଵ = 0; 
Há um corolário fundamental da propriedade (A) que é a de que, na média, o modelo de 
regressão acerta. Para ver isso, basta tomar a última passagem, em que se afirma que 
∑ (ݕ௜ − ݕො௜)ே௜ୀଵ = 0, e, pois, ∑ ݕ௜ே௜ୀଵ = ∑ ݕො௜ே௜ୀଵ . Este corolário é importante, pois ele nos 
diz que, obrigatoriamente, se a regressão superestima alguns valores, ela 
obrigatoriamente tem de subestimar os demais, pois apenas assim os erros podem se 
cancelar quando somados. 
(B) A covariância amostral entre a variável independente e o resíduo é nula. Esta 
propriedade também decorre das condições de primeira ordem, mas, neste caso, da 
segunda delas. Esta é tal que ∑ ݔ௜൫ݕ௜ − ߚመଵ − ߚመଶݔ௜൯ ே௜ୀଵ = 0. O que é igual a 
∑ ݔ௜ݑො௜ = 0 ே௜ୀଵ . 
 
19 Isso é verdade mesmo quando, em média, os valores estimados são equivalentes aos valores 
populacionais, i.e., quando os estimadores são não-viesados. 
20 
 
(C) O ponto do plano cartesiano que corresponde aos valores médios para Y e X, (̅ݔ, 
ݕത) é parte da reta de regressão. A demonstração é simples, basta notar que (i) ݕത =
ܰିଵ ∑ ݕ௜
ே
௜ୀଵ ݁ (݅݅) ∑ ݕ௜ே௜ୀଵ = ∑ ݕො௜ே௜ୀଵ . Do que decorre: 
ܰିଵ ∑ ൫ߚመଵ + ߚመଶݔ௜ + ݑො௜൯ே௜ୀଵ = ߚመଵ + ܰିଵߚመଶ ∑ ݔ௜ே௜ୀଵ + ܰିଵ ∑ ݑො௜ே௜ୀଵ → ݕത = ߚመଵ + ߚመଶ̅ݔ.