Apostila Econometria

Econometria

•
UNIP

Poline Rodrigues Cascais
11/03/2020
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Fábio Heleno Mourão da Costa 
Anderson Litaiff Feitosa da Costa 
U n i v e r s i d a d e d o E s t a d o d o A m a z o n a s - U E A 
M a n a u s - A m a z o n a s 
2 0 1 3 
 
 
Econometria	
  I	
  	
  
2 
 
Universidade do Estado do Amazonas - UEA 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Econometria I 
(102) 
 
 
 
 
Fábio Heleno Mourão da Costa, M. Sc. 
Anderson Litaiff Feitosa da Costa, M. Sc. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Manaus 
2013
 
Nota dos autores 
 
Este material foi desenvolvido a partir da seleção de vários textos, na grande maioria das 
vezes, utilizando na íntegra o texto original. Com isto, os autores deste material, não possuem 
nenhuma pretensão de originalidade acerca do conteúdo que expõem nas próximas páginas 
deste trabalho. O objetivo foi, tão somente, disponibilizar aquilo que há de melhor em termos 
didáticos sobre o assunto tratado aqui. Esperamos que os alunos possam tirar o máximo 
proveito deste material e que possam sugerir o aperfeiçoamento do mesmo. As referencias dos 
textos originais encontram-se na parte final. 
 
Abraços, 
 
Fábio Heleno Mourão da Costa 
Anderson Litaiff Feitosa da Costa 
 
 
SUMÁRIO 
 
1 INTRODUÇÃO À ECONOMETRIA 5 
2 TEORIA DA CORRELAÇÃO 13 
3 REGRESSÃO LINEAR SIMPLES 23 
4 REGRESSÃO LINEAR MÚLTIPLA 54 
 
 
1 INTRODUÇÃO À ECONOMETRIA 
 
[…] A leading model builder asserted in public that the world 
is complicated and therefore we need complicated models. Before two 
hundred or so in the audience, I asked him, ‘How do you know’? He 
mumbled a few words and went on with his religious tract on the 
virtues of complexity (ZELLNER, 1996, p. 5). 
 
1.1 O que é econometria? 
 
Econometria é a junção de duas palavras gregas, economia e medida, significando 
“medição econômica” (GUJARATI; PORTER, 2011, p. 25)1. Koutsoyiannis afirma que: 
 
Econometria é uma combinação de teoria econômica, 
economia matemática e estatística, mas é completamente distinta de 
cada um destes três ramos da ciência [...] É um tipo especial de análise 
e pesquisa econômica em que a teoria econômica geral, formulada em 
termos matemáticos, é combinada com a medição empírica dos 
fenômenos econômicos (KOUTSOYIANNIS, 1977, p. 3, tradução 
nossa). 
 
Enfim, Intriligator (1978, p. 2, tradução nossa) define econometria como “[...] o ramo 
da economia preocupado com a estimação empírica das relações econômicas”. Entretanto, 
cabe ressaltar que a econometria não se limita à economia e finanças, sendo “[...] [utilizada 
também] por cientistas sociais, em particular, pesquisadores de história, ciência política e 
sociologia” (HILL; GRIFFITHS; JUDGE, 2010, p. 1), de modo que “econometria é uma 
ciência social. Seu objeto de estudo é a sociedade e o comportamento das instituições e 
indivíduos da qual se compõe” (HILL; GRIFFITHS; JUDGE, 1993, p. 1, tradução nossa). 
Reformulando Intriligator, pode-se ter o seguinte conceito: econometria é o ramo da economia 
preocupado com a estimação empírica de relações sociais, econômicas ou não. 
O conceito de Goldberger (1964, p. 1, tradução nossa) é o mais completo: 
“econometria pode ser definida como a ciência social em que ferramentas da teoria 
econômica, matemática e inferência estatística são aplicadas à análise de fenômenos 
econômicos [ou sociais]”. 
Segundo Koutsoyiannis (1977, p. 8) e Intriligator (1978, p. 5), os objetivos da 
econometria são análise (estrutural) da teoria econômica (por meio de inferência estatística), 
formulação e avaliação de políticas e previsão. 
 
1 Outras definições de econometria podem ser encontradas em Tintner (1953). 
6 
 
Koutsoyiannis (1977, p. 9-10, tradução nossa) divide a econometria em dois ramos: 
teórica (pura), que estuda e desenvolve métodos de análise mais apropriados; e aplicada, que 
estuda as aplicações da econometria teórica na ciência econômica, “para análise do fenômeno 
econômico e previsão do comportamento econômico”. Ainda existem aplicações 
econométricas que exigem uma econometria teórica (praticamente) própria, como seria o caso 
da econometria espacial. 
 
1.2 Um pouco mais sobre o método econométrico: sobre dados e modelos 
 
1.2.1 Dados 
 
Os dados são o conjunto de fatos quantitativamente expressos utilizados na análise 
econométrica (INTRLIGATOR, 1978, p. 57), e, portanto, tomam a forma de variáveis. 
Segundo Wooldridge (2006, p. 5-9), os dados econométricos podem ter as seguintes 
estruturas: 
 
a) Dados de corte transversal ou cross-section: conjunto de observações de vários 
indivíduos coletadas em um determinado momento; 
b) Dados de séries temporais: conjunto de observações de um indivíduo em 
intervalos discretos de tempo; 
c) Cortes transversais agrupados: é um conjunto de observações de dados de corte 
transversal em períodos diferentes, agrupados por indivíduo. Neste caso, a 
observação em períodos diferentes não é capaz a constituir uma série temporal, 
apenas estendendo a amostra; 
d) Dados de painel ou longitudinais: é uma combinação de dados de corte 
transversais e série temporal. Algo como uma série temporal de dados de corte 
transversal, isto é, um conjunto de indivíduos observados ao longo de 
intervalos discretos de tempo. 
 
Cada estrutura de dados possui métodos de análise próprios, não sendo correto, por 
exemplo, aplicar métodos de análise de corte transversal a dados em painel. Este curso foca na 
análise de estruturas de dados em cross-section. 
Intriligator (1978) classifica os dados quanto à origem da seguinte maneira: 
 
a) Dados experimentais: estes dados são obtidos através de experimentos 
controlados, onde as influências no sistema são controladas pelo 
experimentador. Embora sua utilização em outros ramos da economia seja 
difícil em virtude da dificuldade em controlar influências sociais, estes dados 
são frequentes em pesquisas de economia comportamental e teoria dos jogos 
PNI
Highlight
PNI
Highlight
PNI
Highlight
7 
 
experimental2; 
b) Dados não experimentais: também chamados de dados observacionais ou 
dados gerados passivamente (passively generated, no original), são aqueles 
provenientes de observações onde não há controle experimental. Este tipo de 
dados é mais comum em ciências sociais, embora também seja usado em 
ciências exatas. De fato, estão relacionados a áreas onde a experimentação é 
impossível ou praticamente impossível, como seria o caso da economia e da 
astrofísica. 
 
Outras classificações de dados não experimentais são indicadas em Hill, Griffiths e 
Judge (1993), como: 
 
1. Quanto ao nível de agregação: 
a. Microdados: dados coletados a partir de unidades econômicas 
individuais de tomada de decisão. Tendem a tomar a estrutura de dados 
em painel, já que avaliam o comportamento de famílias ou firmas 
individualmente ao longo do tempo (INTRILIGATOR, 1978; HILL; 
GRIFFITHS; JUDGE, 1993); 
b. Macrodados: dados resultantes da agregação entre indivíduos. 
2. Quanto aos aspectos temporais: 
a. Fluxos: dados sobre medidas coletadas ao longo do tempo; 
b. Estoque: dados coletados em um determinado momento. 
3. Quanto à natureza: 
a. Quantitativos: dados numéricos e transformações numéricas (dados per 
capita, preços reais etc.); 
b. Qualitativos: relacionam-se a características do tipo “sim ou não”, i. e., 
“possui ou não possui tal característica". 
 
Gujarati e Porter (2011, p. 45) classificam os dados quanto a escala de medição dos 
dados: 
 
1. Escala de razão: neste caso, “dada uma variável X , que assume dois valores, 
1X e 2X , a razão 1 2
X
X e a distância 1 2X X− são quantidades
significativas. 
Também há um ordenamento natural (ascendente ou descendente) dos valores 
ao longo da escala” (GUJARATI, PORTER, 2011, p. 45). Chamaremos as três 
premissas, respectivamente de: significância da razão, significância da 
distância e ordenamento natural. Exemplos: crescimento econômico (variação 
e razão do PIB); 
2. Escala de intervalo: as variáveis obedecem às propriedades de significância da 
distância e do ordenamento natural. Exemplos: temperatura, altura, períodos de 
tempo etc.; 
3. Escala ordinal: variáveis que satisfazem apenas à propriedade de ordenamento 
natural. Exemplos: conceitos, curvas de indiferença etc.; 
4. Escala nominal: variáveis que não obedecem nenhuma das três propriedades. 
Exemplos: estado civil, gênero etc. 
 
2 Vide Kalisch, Milnor, Nash e Nering (1954, apud NASH, 1996). Uma leitura introdutória para economia 
experimental é encontrada em Roth (1993). 
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
8 
 
1.2.1 Modelos 
 
De acordo com Malinvaud 
 
Um modelo é a representação formal das noções que temos 
sobre um fenômeno [...] [de modo que] essas noções, normalmente 
chamadas ‘teoria do fenômeno’, são expressas por um conjunto de 
suposições sobre os elementos essenciais do fenômeno e as leis que o 
regulam (MALINVAUD, 1970, p. 44, tradução nossa). 
 
Barbancho (1970, apud MATOS, 2000, p. 21) diferencia modelos teóricos de modelos 
econométricos, tendo em vista que a variante econométrica possui, necessariamente, “[...] [a 
especificação da] forma matemática, definição das variáveis e números de equações” 
(MATOS, 2000, p. 21). 
Também existe diferença entre modelos determinísticos e estatísticos (probabilísticos 
ou estocásticos). Modelos determinísticos são exatos, não possuindo erros, ao contrário dos 
modelos estatísticos. Segundo Hill, Griffiths e Judge (1993, p. 7, itálico no original, tradução 
nossa), ao interpretar o erro como um componente estocástico, “[...] converte[-se] o modelo 
econômico em um modelo estatístico-probabilístico e nos dá base para inferência estatística, 
isto é, uma base para estimar parâmetros desconhecidos e testar hipóteses sobre eles”. 
Ao comentar sobre a natureza estocástica do modelo econométrico, Intriligator 
relaciona a desenvolvimentos da física à importância de modelos estocásticos 
 
[...] Modelos iniciais, como aqueles da mecânica 
Newtoniana, são determinísticos, enquanto modelos posteriores, como 
os da mecânica quântica, são estocásticos. De fato, a revolução 
quântica [quantum revolution, no original] na física consistiu na 
observação revolucionária de que não se podia identificar, por 
exemplo, a exata localização de uma partícula elementar, mas se podia 
determinar uma distribuição de probabilidade para a sua localização 
(INTRILIGATOR, 1978, p. 25, tradução nossa). 
 
Os modelos são compostos de relações. Estas relações tomam a forma de equações ou 
funções, podendo, segundo a classificação de Barbancho (1970, apud MATOS, 2000, p. 22), 
ser classificadas em 
 
a. Comportamentais; 
b. Institucionais ou legais; 
c. Técnicas; 
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
PNI
Highlight
9 
 
d. Contábeis3. 
 
Ainda segundo Barbancho (1970, apud MATOS, 2000, p. 22-23), os modelos podem 
ser classificados nas seguintes categorias: 
 
1. Quanto à forma funcional4: 
a. Lineares; 
b. Não lineares; 
2. Quanto ao número de equações: 
a. Uniequacional; 
b. Multiequacional; 
3. Quanto à associação das variáveis em relação ao tempo: 
a. Estáticos: a relação entre a variável explicativa e a variável explicada 
ocorre ao mesmo tempo, sem defasagem; 
b. Dinâmicos: a relação inclui defasagens entre a variável explicada e 
explicativa; 
4. Quanto à finalidade: 
a. Modelos de decisão: sua finalidade é auxiliar a tomada de decisão; 
b. Modelos de previsão. 
 
1.3 Uma breve história da econometria 
 
O termo econometria foi usado pela primeira vez por Ragnar Frisch em 1926 
(KIRSTEN, 1991, p. 44, apud MATOS, 2000, p. 16; BRUE, 2000, p. 344; LANGE, 1963, p. 
15), embora sua história remonte à Quesnay e Charles Davenant, que “[...] definiu ‘aritmética 
política’ como a ‘arte de raciocinar por números com relação a coisas relacionadas [sic] ao 
governo’”, (BRUE, 2011, p. 344; LANGE, 1963, p.17). Davenant, segundo Stigler (1965, 
apud MADDALA, 2003, p. 3), foi o primeiro a realizar um estudo empírico de demanda em 
1699. 
O próprio termo econometria possui aspectos históricos na sua adoção. De fato, Brue 
(2011, p. 344) atribui sua origem ao termo biometria, uma aplicação de matemática e 
estatística à biologia, relacionada à Francis Galton e Karl Pearson (SALSBURG, 2004), que 
posteriormente tornou-se um ramo independente da biologia (LANGE, 1963, p. 15). 
Ainda conforme Lange (1963, p.17), “a Econometria, como método distinto de estudo 
da vida econômica, surgiu antes da Primeira Guerra Mundial e se desenvolveu com especial 
velocidade após a guerra”. Segundo Tinbergen (1953, p. 9) e Barbancho (1970, p.10-11, apud 
 
3 Vale ressaltar que identidades contábeis devem ser usadas com atenção em modelos econométricos, evitando 
realizar relações causais entre identidades. 
4 Neste caso, a classificação toma como critério as variáveis. Observe que um modelo linear nas variáveis pode 
ser não linear nos parâmetros e vice-versa. 
PNI
Highlight
10 
 
MATOS, 2000, p. 16), os trabalhos pioneiro em econometria foram os estudos de 1919 e 1925 
de H. L. Moore. 
Matos (2000, p. 16-17) também cita estudos importantes de Frisch (1927), Working (1927). O 
autor divide a história da econometria em quatro períodos: antes de 1930, 1930-1954, 1955-
1969 e pós-1969. Os pontos principais destes períodos são: 
 
1. Antes de 1930: busca de meios para testar teoria e realidade; 
2. 1930-1954: fundação da Econometric Society; início da Comissão Cowles para 
Pesquisa Econômica; publicação da revista Econometrica; estudo de Tinbergen sobre 
modelos macroeconômicos multiequacionais; 
3. 1955-1969: introdução de novos métodos de estimação e avaliação de 
modelos; 
4. Pós-1969: contribuições em análise de séries temporais e de dados em painel. 
 
A Comissão Cowles tinha como lema “ciência é medida” (ROMBOUTS, 2004, p. 12, 
tradução nossa)5 e, conforme Christ (1994, p. 30), “[...] criou uma revolução nos métodos e na 
prática econométrica durante seus anos na Universidade de Chicago de 1939 a 1955”, 
especialmente em modelos multiequacionais. 
Outro estudo interessante que aborda a história da econometria é Heckman (1992), 
onde é feita uma análise das contribuições de Haavelmo. 
 
1.4 Referências 
 
CHRIST, Carl F. The Cowles Commission’s Contributions to Econometrics at Chicago, 
1939-1955. In: Journal of Economic Literature, v. 32, n. 1, mar. 1994, p. 30-39. Disponível 
em: <http://www.jstor.org/stable/2728422>. Acesso em: 07 dez. 2012. 
GOLDBERGER, Arthur. Econometric Theory. New York: John Wiley, 1964. 
GUJARATI, Damodar N.; PORTER, Dawn C. Econometria Básica. Tradução Denise 
Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. 5. ed. Porto Alegre: AMGH, 2011. 
HECKMAN, James J. Haavelmo and the Birth of Modern Econometrics: A Review of the 
History of Econometric Ideas by Mary Morgan. In: Journal of Economic Literature, v. 30, 
 
5 Rombouts (2004) apresenta a história da econometria pós-1930 a partir de suas principais revistas. 
Teixeira (1984) faz uma breve
análise da histórica da economia quantitativa e da econometria, focando também 
no Brasil, especialmente na Revista Brasileira de Econometria. 
11 
 
n. 2, jun. 1992, p. 876-886. Disponível em: <http://www.jstor.org/stable/2727705>. Acesso 
em: 07 dez. 2012. 
HILL, R. Carter; GRIFFITHS, William E.; JUDGE, George G. Econometria. 3. ed. São 
Paulo: Saraiva, 2010. 
_____. Learning and Practicing Econometrics. Hoboken: John Wiley, 1993. 
INTRILIGATOR, Michael D. Econometric models, techniques, and applications. 
Englewood Cliffs: Prentice-Hall, 1978. 
KALISCH, Gerhard K.; MILNOR, J. W.; NASH, John Forbes; NERING, E. D. Some 
experimental n-person games. In: NASH, John Forbes. Essays in game theory. Brookfield, 
US: Edward Elgar, 1996. 
KOUTSOYIANNIS, A. [Anna]. Theory of Econometrics. 2. ed. London: Macmillan, 1977. 
LANGE, Oskar. Introdução à econometria. São Paulo: Fundo de Cultura, 1963. 
MADDALA, G. S. Introdução à econometria. Tradução de Leonardo Weller; revisão 
técnica de Paulo Tafner. 3. ed. São Paulo: LTC, 2003. 
MALINVAUD, E. [Edmund]. Statistical methods of Econometrics. 2. ed. rev. Translated by 
Mrs. A. Silvey. New York: Elsevier, 1970. 
MATOS, Orlando Carneiro de. Econometria básica: teoria e aplicações. 3. ed. rev. e ampl. 
São Paulo: Atlas, 2000. 
ROMBOUTS, Jeoren V. K. Econometrics, 1930 to the present. 22 nov. 2004. Disponível 
em: <http://zonecours.hec.ca/documents/197342.seance11notes.pdf>. Acesso em: 07 dez. 
2012. 
ROTH, Alvin E. On the Early History of Experimental Economics. In: Journal of the 
History of Economic Thought, n. 15, Fall 1993, p. 184-209. 
SALSBURG, David. Uma senhora toma chá...: como a estatística revolucionou a ciência no 
século XX. Tradução de José Maurício Gradel; revisão técnica de Suzana Herculano-Houzel. 
Rio de Janeiro: Zahar, 2009. 
TEIXEIRA, Joanílio Rodolpho. Uma perspectiva histórica da economia quantitativa e do 
papel da Sociedade Brasileira de Econometria – uma visão pessoal. In: Revista Brasileira de 
Econometria, v. 4, n. 2, nov. 1984. Disponível em: 
12 
 
<http://bibliotecadigital.fgv.br/ojs/index.php/bre/article/view/3141>. Acesso em: 09 dez. 
2012. 
TINTNER, Gerhard. The Definitions of Econometrics. In: Econometrica, v. 21, n. 1, jan. 
1953, p. 31-40. Disponível em: <http://www.jstor.org/stable/1906941>. Acesso em: 07 dez. 
2012. 
WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. Tradução 
Rogério Cézar de Souza, José Antônio Ferreira; revisão técnica Nelson Carvalheiro. São 
Paulo: Pioneira Thomson Learning, 2006. 
ZELLNER, Arnold. Past, present and future of econometrics. In: Journal of Statistical 
Planning and Inference, n. 49, 1996, p. 3-8. Disponível em: < 
http://www.sciencedirect.com/science/article/pii/0378375895000275>. Acesso em: 07 dez. 
2012. 
 
 
3 TEORIA DA CORRELAÇÃO 
 
O presente capítulo busca apresentar o estudo de correlação, como uma introdução ao 
estudo da regressão linear simples. 
Dividiu-se então em três subseções. A primeira subseção apresenta o conceito de 
correlação e algumas ideias a seu respeito. A segunda demonstra os aspectos algébricos 
relacionados ao coeficiente de correlação. A terceira é a resolução de um exercício proposto 
em Koutsoyiannis (1977, p. 46). 
 
2.1 Conceito 
 
Segundo Wonnacott e Wonnacott (1978, p. 98), correlação e regressão estão “[...] 
intimamente ligadas matematicamente, a correlação torna-se muitas vezes um auxílio útil na 
análise de regressão”. Conceitualmente, correlação é uma medida do grau de associação entre 
variáveis. 
Entretanto, cabe fazer algumas ressalvas sobre esta medida. 
Embora correlação seja comumente associada à causalidade, isso é um erro: 
causalidade e correlação não é a mesma coisa. Correlação pode sugerir causalidade, ao indicar 
que as variáveis estão associadas, porém não há identificação de causa e efeito. De fato, até a 
regressão se baseia em relações de causalidade hipotéticas. 
Diferente da regressão, não pode se falar em variáveis dependentes ou independentes, 
apenas em variáveis aleatórias (GUJARATI; PORTER, 2011, p. 43-44). Isto é, a variável X 
não tem o efeito quantificável em Y , como no caso da regressão, podendo-se apenas afirmar 
que elas variam simultaneamente com determinado grau de associação. 
 
2.2 O coeficiente de correlação 
 
Antes de analisar diretamente o cálculo da correlação linear, é interessante lembrar o 
cálculo da covariância. Conceitualmente, covariância e correlação são bastante similares, 
mudando apenas quando ao modo de interpretação das estatísticas, já que a correlação é uma 
grandeza contida no intervalo [ ]1,1− , como será visto mais adiante. 
 
14 
 
 
Define-se covariância populacional como 
 
( )( )XY i X i YS E X Yµ µ⎡ ⎤= − −⎣ ⎦ (2.1) 
 
ou, ainda, considerando ix e iy os desvios das observações em relação à média, 
 
 
( )
( )( )
( )
( ) ( ) ( )
1
1
1 1 1
1 1
1
1 1 1
2
n
i i
i
i i
n
i i i i
i
n n n
i i i i
i i i
n n
i in
i i
i i
i
n n n
i i i i
i i i
X X Y Y
E x y
n
X Y Y X X Y XY
n
X Y X Y Y X nXY
n
X Y
X Y
n
n
X Y X Y
E XY E X E Y
n n
=
=
= = =
= =
=
= = =
⎡ ⎤− −⎣ ⎦
=
− − +
=
− − +
=
−
=
= − = −
∑
∑
∑ ∑ ∑
∑ ∑
∑
∑ ∑ ∑
 (2.2) 
 
O estimador da covariância é ligeiramente diferente 
 
( )
1 1 1 1ˆ
1 1 1
n n n n
i i i i i i
i i i i
XY
x y X Y X Y
S
n n n n
= = = == = −
− − −
∑ ∑ ∑ ∑
. (2.3) 
 
A justificativa1 para esta correção é que “suponha observamos o exatamente o mesmo 
 
1 Pindyck e Rubenfeld (2004, p. 56-57) demonstram matematicamente que 
15 
 
tipo de dispersão numa amostra de tamanho dobrado; nosso índice seria também dobrado, 
embora o retrato de como estas variáveis variam juntas seja o mesmo” (WONNACOTT; 
WONACOTT, 1978, p. 101), ou seja, o valor absoluto do produto dos desvios tenderia a 
crescer com a amostra (HOFFMANN, 2006, p. 283-284). 
Existem poucas diferenças entre os coeficientes de correlação populacional e o 
amostral. Embora o foco deste curso seja a análise do segundo, o primeiro é calculado a partir 
da fórmula 
 
XY
X Y
Sρ
σ σ
= (2.4) 
 
Por sua vez, o estimador do coeficiente de correlação é dado pela fórmula 
 
 
 
2
21
( )
1
n
i
i
X
X X
E
n
σ=
−
=
−
⎡ ⎤
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎣ ⎦
∑
, pois se exclui a informação utilizada para calcular a média da amostra. 
16 
 
 
( )( )
( ) ( )
1
2 2
1 1
1
2 2
1 1
1 1
1
2 2
2 21 1
1 1
ˆ XYXY
X Y
n
i i
i
n n
i i
i i
n
i i
i
n n
i i
i i
n n
i in
i i
i i
i
n n
i in n
i i
i i
i i
sr
s s
X X Y Y
X X Y Y
x y
x y
X Y
X Y
n
X Y
X Y
n n
=
= =
=
= =
= =
=
= =
= =
=
⋅
⎡ ⎤− −⎣ ⎦
=
− ⋅ −
=
⋅
⋅
−
=
⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞
⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
∑
∑ ∑
∑
∑ ∑
∑ ∑
∑
∑ ∑
∑ ∑ (2.5) 
 
Observando que 2 2
1 1 1
n n n
i i i i
i i i
x y x y
= = =
≤ ⋅∑ ∑ ∑ , deduz-se que [ ]1,1XYr ∈ − . Notando 
também que o sinal de r depende do valor de 
1
n
i i
i
x y
=
∑ . 
 
A interpretação do coeficiente é 
 
1. Quando 0r > , a correlação linear é positiva, isto é, quando elas aumentam ou 
diminuem juntas; 
2. Quando 0r < , a correlação linear é negativa, significando que as variáveis 
possuem relação oposta; 
3. Quando 0r = , não há correlação
linear entre as variáveis. 
 
Geometricamente, o coeficiente de correlação é similar à função cosseno, como expõe 
17 
 
Hadley (1969, p. 32-33): x , y e θ são, respectivamente, vetores que representam o desvio 
em relação à média, e o ângulo entre eles; o coeficiente de correlação entre é igual ao cosseno 
deste ângulo, pois 
 
 1
2 2
1 1
cos
cos
n
i i
i
XYn n
i i
i i
x y
r
x y
θ
θ =
= =
′ =
′
∴ = = =
∑
∑ ∑
x y x y
x y
x y
 
 
Esta definição coloca o coeficiente entre no intervalo supracitado em decorrência da 
desigualdade de Schwarz2. Portanto, dois vetores não-nulos ortogonais implicam que a 
correlação entre eles é zero. 
Esta interpretação do coeficiente aponta para um fato interessante: se regressões 
simples recíprocas entre as variáveis são iguais, a correlação é perfeita; se a correlação é nula, 
as retas serão paralelas a um eixo cada e, portanto, perpendiculares entre si; em qualquer caso 
intermediário, quanto menor o ângulo entre as retas de regressão, maior é a correlação 
(RACTLIFFE, 1967, p. 168). 
O teste sobre a nulidade de correlação populacional entre duas variáveis é apresentado 
em Hoffmann (2006, p. 286-287): considerando que a distribuição conjunta das duas variáveis 
siga a distribuição normal bidimensional, testa-se a hipótese nula de ausência de correlação 
populacional através da comparação de 
 
 
2
ˆ 2
ˆ1
r nt
r
−=
−
 (2.6) 
 
com a distribuição t com 2n − graus de liberdade. 
Entretanto, Kendall (1970, apud RACTLIFFE, 1967, p. 149-150) aponta que o teste 
para correlação entre ranks é diferente, mas que, neste caso, o teste converge é o mesmo se 
10 20n< < e, se 20n ≥ , deve-se utilizar a distribuição normal com média zero e desvio-
 
2 A desigualdade de Schwarz enuncia que ′ ≤x y x y . 
18 
 
padrão 1
1n −
. De fato, a diferença ocorre quando 10n ≤ , quando deve ser utilizada uma 
distribuição específica. 
 
2.3 Exercício resolvido 
 
O exemplo a seguir é de Koutsoyiannis (1977, p. 46), onde se pede o cálculo do 
coeficiente de correlação das séries. Para efeitos didáticos, optou-se por incluir o teste da 
hipótese de ausência de correlação. 
 
Tabela 1: Número de acidentes automobilísticos, consumo de bebidas alcoólicas e salários (1961-1970) 
Anos
Acidentes 
automobilísticos
Consumo de 
bebidas em 
toneladas
Salários
1961 155 70 15.500
1962 150 63 14.500
1963 180 72 19.300
1964 135 60 15.600
1965 156 66 16.400
1966 168 70 19.300
1967 178 74 25.600
1968 160 65 25.000
1969 132 62 26.900
1970 145 67 27.850
Fonte: Koutsoyiannis (1977, p. 46). 
 
 
 
 
 
 
 
 
 
 
 
19 
 
2.3.1 O cálculo do coeficiente de correlação 
 
Tabela 2: Valores para cálculos dos coeficientes 
Valores
Acidentes 
automobilísticos
Consumo de bebidas 
em toneladas
Salários
Soma das 
Observações 1.559,00 669,00 205.950,00
Observações 10 10 10
Média 155,90 66,90 20.595,00
Soma dos Quadrados 
das Observações 2,45E+05 4,49E+04 4,49E+09
Soma dos Desvios
-5,68E-14 -5,68E-14 0
Soma dos Quadrados 
dos Desvios 2.394,90 186,90 245.852.250,00
Variância 266,10 20,77 27.316.916,67
Fonte: elaboração própria. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
20 
 
Tabela 3: Inter-relações entre variáveis. 
Acidentes 
automobilísticos
Consumo de bebidas em 
toneladas
Salários
Acidentes 
automobilísticos
245.443,00 104.887,00 32.104.150
Consumo de bebidas 
em toneladas
104.887,00 44.943,00 13.810.650,00
Salários 32.104.150,00 13.810.650,00 4487392500
Acidentes 
automobilísticos
Consumo de bebidas em 
toneladas
Salários
Acidentes 
automobilísticos
2.394,900 589,900 110.610,500
Consumo de bebidas 
em toneladas
589,900 186,900 32.595,000
Salários 110.610,500 32.595,000 245.852.250
Acidentes 
automobilísticos
Consumo de bebidas em 
toneladas
Salários
Acidentes 
automobilísticos
266,100 65,544 -383,889
Consumo de bebidas 
em toneladas
65,544 20,767 3.621,667
Salários -383,889 3.621,667 27.316.916,667
Produto cruzado dos desvios
Produto cruzados das observações
Variância-Covariância
Fonte: elaboração própria. 
 
Aplicando a equação (2.5), os coeficientes de correlação obtidos são apresentados na 
 
Tabela 4. 
 
Tabela 4: Coeficientes de correlação estimados. 
Acidentes 
automobilísticos
Consumo de bebidas 
em toneladas Salários
Acidentes 
automobilísticos
1,0000 0,8817 -0,0045
Consumo de bebidas 
em toneladas
0,8817 1,0000 -0,0045
Salários
-0,0045 -0,0045 1,0000
Fonte: elaboração própria. 
21 
 
 
2.3.2 Teste sobre os coeficientes de correlação populacional 
 
O teste sobre o coeficiente de regressão populacional baseou-se em (2.6), utilizando 8 
graus de liberdade e a distribuição t de Student. O resumo dos testes é mostrado na 
 
Tabela 5. 
 
Tabela 5: Testes sobre o hipótese nula de ausência de correlação populacional 
Acidentes 
automobilísticos
Consumo de bebidas 
em toneladas
Salários
Acidentes 
automobilísticos
- 7,25 -0,01
Consumo de bebidas 
em toneladas
7,25 - 0,47
Salários -0,01 0,47 -
Acidentes 
automobilísticos
Consumo de bebidas 
em toneladas
Salários
Acidentes 
automobilísticos
- 2,306 2,306
Consumo de bebidas 
em toneladas
2,306 - 2,306
Salários 2,306 2,306 -
Acidentes 
automobilísticos
Consumo de bebidas 
em toneladas
Salários
Acidentes 
automobilísticos
- Rejeita a hipótese nula
Não rejeita a 
hipótese nula
Consumo de bebidas 
em toneladas
Rejeita a hipótese 
nula
- Não rejeita a 
hipótese nula
Salários
Não rejeita a 
hipótese nula
Não rejeita a hipótese 
nula
-
Estatísticas de teste
Estatísticas Críticas (teste bilateral, 5%)
Resultado
Fonte: elaboração própria. 
 
 
 
 
 
22 
 
 
 
 
2.4 Referências 
 
GUJARATI, Damodar N.; PORTER, Dawn C. Econometria Básica. Tradução Denise 
Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. 5ª ed. Porto Alegre: AMGH, 2011. 
HADLEY, G. Linear Algebra. 3. print. Reading: Addison-Wesley, 1969. 
HOFFMAN, Rodolfo. Estatística para Economistas. 4. ed. rev. e ampl. São Paulo: Pioneira 
Thomson Learning, 2006. 
KOUTSOYIANNIS, A. [Anna]. Theory of Econometrics. 2. ed. London: Macmillan, 1977. 
RACTLIFFE, J. F. Elements of Mathematical Statistics. 2. ed. 2 reprint. London: Oxford 
University Press, 1967. 
WONNACOTT, Ronald J; WONNACOTT, Thomas H. Econometria. Tradução de Maria C. 
Silva. 2. ed. Rio de Janeiro: Livros Técnicos e Científicos, 1978. 
 
3 REGRESSÃO LINEAR SIMPLES 
 
O presente capítulo visa introduzir os conceitos de regressão linear simples, seus 
métodos e suas hipóteses básicas. Sua finalidade é compor uma base para a compreensão da 
análise de regressão múltipla, abordada em outra seção. 
 
3.1 Conceito 
 
De acordo Maddala (2003, p. 32), o termo regressão foi utilizado pela primeira vez por 
Francis Galton (1822-1911), no sentido de convergência à média da população. O conceito 
moderno, porém, 
 
[...] diz respeito ao estudo da dependência de uma variável, a 
variável dependente, em relação a uma ou mais variáveis, as variáveis 
explanatórias, visando estimar e/ou prever o valor médio (da 
população) da primeira em termos dos valores conhecidos ou fixados 
(em amostragens repetidas) das segundas (GUJARATI; PORTER, 
2011, p. 39, grifo dos autores). 
 
Os modelos de regressão linear simples envolvem a relação entre duas variáveis, a 
independente e a dependente, embora a nomenclatura dessas variáveis adotem alguns 
sinônimos,
como expõe a 
 
Tabela 6. 
 
Tabela 6: Classificação das variáveis em análise de regressão 
Y X 
Previsto Previsores 
Regredido Regressores 
Variável explicada Variáveis explicativas 
Variável dependente 
Variáveis 
independentes 
Variável de efeito Variáveis causais 
Variável endógena Variáveis exógenas 
24 
 
Variável alvo Variáveis de controle 
Fonte: Maddala, 2003. 
 
Em síntese, a regressão busca estimar os parâmetros de um modelo a partir de uma 
amostra e fazer testes sobre os parâmetros da função populacional. 
Sua principal diferença em relação à análise de correlação se dá no aspecto de 
previsão. O modelo de regressão tem a finalidade mais voltada para a previsão de valores e, 
neste caso, a variável explanatória é não estocástica. 
Além disso, na análise de regressão é possível avaliar o efeito de mais de uma variável 
explicativa. Quando há apenas uma variável explicativa, chama-se regressão simples; quando 
há mais de uma variável explicativa, chama-se regressão múltipla. 
Vale ressaltar que o objeto de estudo deste capítulo é a regressão linear simples, i. e., a 
regressão baseada em funções lineares nos parâmetros. 
 
3.2 Métodos de estimação dos parâmetros 
 
Como a relação expressa pelo gráfico abaixo é, aparentemente, uma função afim 
(“linear”), cada Y pode ser escrito em função de cada X da seguinte forma: 
 
Yi = β0 + β1Xi + ε i (3.1) 
 
Onde β0 + β1Xi é a equação da reta e ε i é o termo de erro. Este último termo tem 
que ser incluído porque, como podemos ver, o valor de Y não será dado exatamente pelo 
ponto a ser encontrada, como pode ser visto no gráfico abaixo: 
 
Figura 1: Reta de regressão linear simples 
25 
 
 
Fonte: Wooldridge, 2013. (mantida a notação original do autor) 
 
A pergunta que esta subseção analisa possui a seguinte formulação: dado o modelo 
estocástico acima, qual seria o melhor método para estimar seus parâmetros a partir de uma 
amostra? 
Primeiramente, deve-se discutir dois aspectos: o erro aleatório do modelo e algumas 
propriedades desejáveis dos estimadores. 
O componente aleatório na equação Error! Reference source not found. se deve a 
aspectos diversos. É interessante interpretar o erro como uma consequência de dois aspectos: 
 
i. Da impossibilidade de incluir todas as variáveis que explicam a variável 
dependente, em virtude de ausência de dados ou da dificuldade de inseri-las no 
modelo; 
ii. Da diferença entre o valor estimado do parâmetro a partir da amostra e o valor 
do parâmetro populacional. 
 
Com base em Gujarati e Porter (2011, p. 822-823), os estimadores de amostra 
pequenas (ou finitas) devem possuir as seguintes propriedades: 
 
i. Ausência de viés: um estimador é não viesado ou não tendencioso quando a 
esperança matemática do estimador for igual ao verdadeiro valor do parâmetro; 
ii. Variância mínima: propriedade que estabelece que o estimador deve ser pelo 
menos tão bom quanto os outros estimadores do valor populacional. Também é 
chamado de estimador eficiente; 
Copyright*©*2009*South1Western/Cengage*Learning**
11 
26 
 
iii. Linearidade: o estimador deve ser uma função linear das observações das 
amostras; 
iv. Consistência: os estimadores devem convergir ao valor real do parâmetro na 
medida em que a amostra tende ao infinito. 
 
A figura 2 auxilia a compreender os dois primeiros conceitos. Supondo que o valor 
populacional do parâmetro possui média 0 e variância 1, os estimadores representados nas 
curvas vermelha, verde e lilás são estimadores não viesados, enquanto a curva em azul 
representa um estimador viesado. A curva em vermelho, por sua vez, representa o estimador 
com variância mínima, i. e., o estimador mais eficiente. 
 
Figura 2: Gráficos de funções de distribuição normal 
 
 
Retornando à indagação sobre os métodos de estimação, a resposta segue o raciocínio 
de que os estimadores dos parâmetros devem “[...] minimizar o erro total” (WONNACOTT; 
WONNACOTT, 1978, p. 5). 
Então, o primeiro método consistiria em minimizar o valor do erro. Utilizando a 
notação, define-se o erro estimado como a diferença entre o valor observado e o valor 
estimado da amostra, ou seja 
 
( )0 1ˆ ˆˆiˆ i i i iY Y Y Xε β β= − = − + (3.2) 
 
Portanto, o primeiro método buscaria minimizar a soma dos erros das observações, i. 
e., matematicamente, 
 0
 0,05
 0,1
 0,15
 0,2
 0,25
 0,3
 0,35
 0,4
-10 -5 0 5 10 15
N(0 1)
N(2 4)
N(0 2.25)
N(0 4)
27 
 
 
( )
1 1
ˆˆ
n n
i i i
i i
Y Yε
= =
= −∑ ∑ (3.3) 
 
Entretanto, o método baseado em (3.3) possui um defeito: grandes erros de sinal 
positivo anulariam grandes erros de sinal negativo, o que poderia dar uma soma zero, sem 
distinguir um ajusto bom de um ruim, conforme ressalta Wonnacott e Wonnacott (1978, p. 6). 
A próxima solução para contornar o problema dos sinais opostos seria minimizar a 
soma do valor absoluto dos erros, ou seja, minimizar a expressão 
 
1 1
ˆˆ
n n
i i i
i i
Y Yε
= =
= −∑ ∑ (3.4) 
 
Porém, este método também possui defeitos. Como ressaltam Pindyck e Rubenfeld 
(2004, p. 6) e Wonnacott e Wonnacott (1978, p. 6-7), este método exige matemática mais 
complexa1 e tende a desconsiderar algumas observações de modo a minimizar a soma do 
módulo dos erros. 
 
A terceira solução seria minimizar o quadrado dos erros, ou seja, 
 
( )22
1 1
ˆˆ
n n
i i i
i i
Y Yε
= =
= −∑ ∑ (3.5) 
 
De acordo com Wonnacott e Wonnacott (1978), este método não sofre dos problemas 
dos dois métodos anteriores e é matematicamente mais simples que o anterior. 
 
3.3 O método dos mínimos quadrados ordinários 
 
O método que minimiza a função (3.5) é chamado método dos mínimos quadrados 
 
1 Lins e Calôba (2006, p. 21-23) apresenta um método de regressão linear através da minimização da 
soma dos módulos dos erros utilizando técnicas de programação linear, ressaltando uma vantagem deste método 
sobre os mínimos quadrados: este método não superestima a influência de um outliers distante, pois, segundo o 
método dos mínimos quadrados, quanto maior o valor absoluto do erro estimado, maior o quadrado do erro 
(GUJARATI; PORTER, 2011, p. 79). 
28 
 
ordinários (MQO). Passar-se-á a derivação matemática deste método de duas maneiras: (1) 
utilizando cálculo diferencial e (2) utilizando álgebra linear e diferenciação matricial. 
 
 
 
 
 
 
 
 
3.3.1 Obtendo os estimadores dos parâmetros: a abordagem do cálculo 
 
Substituindo (3.2) em (3.5), tem-se: 
 
( ) ( )
( ) ( )
( )
22 2 2
1 1 1
2
2
0 1 0 1
1
2 2 2 2
0 1 0 0 1 1
1
2 2 2 2
0 1 0 1 0 1
1 1 1 1
ˆ ˆ ˆˆ 2
ˆ ˆ ˆ ˆ2
ˆ ˆ ˆ ˆ ˆ ˆ2 2 2
ˆ ˆ ˆ ˆ ˆ ˆ2 2 2
n n n
i i i i i i i
i i i
n
i i i i
i
n
i i i i i i
i
n n n n
i i i i i i
i i i i i
Y Y Y YY Y
Y Y X X
Y Y X Y X X
Y Y X Y X n X
ε
β β β β
β β β β β β
β β β β β β
= = =
=
=
= = = = =
= − = − +
⎡ ⎤= − + + +⎢ ⎥⎣ ⎦
⎡ ⎤= − − + + +⎣ ⎦
= − − + + +
∑ ∑ ∑
∑
∑
∑ ∑ ∑ ∑
1
n
∑
 (3.6) 
 
Igualando a derivada da função (3.6) em relação aos parâmetros à zero, têm-se as 
equações normais: 
 
∂ ε i
2
i=1
n
∑
∂βˆ0
= −2 Yi
i=1
n
∑ + 2βˆ1 Xi
i=1
n
∑ + 2nβˆ0 = 0
 
 
∴ Yi
i=1
n
∑ = nβˆ0 + βˆ1 Xi
i=1
n
∑ 
 
29 
 
 
∂ ε i
2
i=1
n
∑
∂βˆ1
= −2 XiYi
i=1
n
∑ + 2βˆ0 Xi
i=1
n
∑ + 2βˆ1 Xi2
i=1
n
∑ = 0 
 
∴ XiYi
i=1
n
∑ = βˆ0 Xi
i=1
n
∑ + βˆ1 Xi2
i=1
n
∑ (3.7) 
 
 
 
A hessiana
da função (3.6) é: 
 
 
H ε i
2 , βˆ0
*,βˆ1
*⎡
⎣
⎤
⎦
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
=
∂2 ε i
2
i=1
n
∑
∂βˆ0
*2
∂2 ε i
2
i=1
n
∑
∂βˆ0
* ∂βˆ2
*
∂2 ε i
2
i=1
n
∑
∂βˆ1
* ∂βˆ0
*
∂2 ε i
2
i=1
n
∑
∂βˆ0
*2
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
 
 
H ε i
2 , βˆ0
*, βˆ1
*⎡
⎣
⎤
⎦
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
=
2n 2 Xi
i=1
n
∑
2 Xi
i=1
n
∑ 2 Xi2
i=1
n
∑
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
 (3.8) 
 
Como 
 
σˆX
2 =
(Xi − X )
2
i=1
n
∑
n −1
=
n Xi
2
i=1
n
∑ − Xi
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
2
n n −1( ) ≥ 0 (3.9) 
 
é óbvio que a hessiana é positivamente definida e, consequentemente, trata-se de um 
problema de minimização. Esclarecendo: sabendo-se do sinal da variância, a condição (3.10), 
30 
 
decorrente dos autovalores, é satisfeita: 
 
2
2
1 1
0
n n
i i
i i
n X X
= =
⎛ ⎞− >⎜ ⎟⎝ ⎠
∑ ∑ (3.10) 
 
Resolvendo o sistema de equações normais em (3.7), temos os estimadores dos 
parâmetros da função Error! Reference source not found.: 
 
 
βˆ0
* =
Yi − βˆ1
* Xi
i=1
n
∑
i=1
n
∑
n
= Y − βˆ0
* X 
 
 
βˆ1
* =
XiYi
i=1
n
∑ −
Xi
i=1
n
∑ ⋅ Yi
i=1
n
∑
n
Xi
2 −
Xi
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
2
ni=1
n
∑
=
xi yi
i=1
n
∑
xi
2
i=1
n
∑
=
SˆXY
σˆ X
2 (3.11) 
 
Sugere-se que o leitor faça a demonstração destes resultados para o método dos desvios. 
 
3.3.2 Obtendo os estimadores dos parâmetros: a abordagem matricial2 
 
Apresentar-se-á a abordagem utilizando álgebra matricial, pois esta passará a ser a 
linguagem principal das demonstrações seguintes, sendo, neste caso, um pré-requisito 
importante para o caso multivariado. 
Reescrevendo a equação Error! Reference source not found. em linguagem 
matricial, tem-se 
 
 1 2 2 1 1n n n× × × ×= +Y X β ε (3.12) 
 
 
2 Esta seção baseou-se em Goldberger (1964). 
31 
 
onde: 
 
1 1 1
2 2 2
0
1 3 1 3 2 1 1 3
1
1
1
, 1 , ,
1
n n n
n n n
Y X
Y X
Y X
Y X
ε
ε
β
ε
β
ε
× × × ×
⎡ ⎤ ⎡ ⎤ ⎡ ⎤
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
Y X β εM M M M . 
 
A função (3.5) é reescrita matricialmente como 
 
 
ε'ε = ε1  εn⎡⎣
⎤
⎦
ε1

εn
⎡
⎣
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
= ε i
2
i=1
n
∑ (3.13) 
 
Da equação (3.13), procede-se o raciocínio para chegar à uma versão de (3.6): 
 
( ) ( )
( )( )
′′ = − −
′ ′ ′= − −
′ ′ ′ ′ ′ ′= − − +
ε ε Y Xβ Y Xβ
Y βX Y Xβ
YY YXβ βXY βXXβ
 (3.14) 
 
Igualando a derivada em relação ao vetor dos parâmetros da função (3.14) à zero, 
obtêm-se os pontos críticos 
 
 
∂ε 'ε
∂β
= −2 ′X Y + 2 ′X Xβ = 0 
 
 ∴2 ′X Xβ = 2 ′X Y 
 
 ∴β
^
= ′X X( )−1 ′X Y (3.15) 
 
Confirma-se que os pontos críticos acima são mínimos, pois 
 
32 
 
 
∂2ε 'ε
∂β 2
= 2 ′X X = 0 
 
 
∴2
n Xi
i=1
n
∑
Xi
i=1
n
∑ Xi2
i=1
n
∑
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
 
 
 
∴
2n 2 Xi
i=1
n
∑
2 Xi
i=1
n
∑ 2 Xi2
i=1
n
∑
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
 
 
Esta última matriz é a mesma de (3.8) e é positivamente definida. 
Então, a última equação de (3.15) pode ser reescrita, obtendo-se os mesmos resultados 
para os estimadores derivados a partir da abordagem do cálculo3: 
 
β
^
=
n Xi
i=1
n
∑
Xi
i=1
n
∑ Xi2
i=1
n
∑
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎛
⎝
⎜
⎜
⎜
⎜⎜
⎞
⎠
⎟
⎟
⎟
⎟⎟
−1
⋅
Yi
i=1
n
∑
XiYi
i=1
n
∑
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
 
 
∴= 1
det ′X X( ) ⋅
Xi
2
i=1
n
∑ − Xi
i=1
n
∑
− Xi
i=1
n
∑ n
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎛
⎝
⎜
⎜
⎜
⎜⎜
⎞
⎠
⎟
⎟
⎟
⎟⎟
⋅
Yi
i=1
n
∑
XiYi
i=1
n
∑
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
 
 
 
3 Observar a similaridade entre Error! Reference source not found. e (3.11). 
33 
 
∴=
Xi
2
i=1
n
∑
n Xi
2
i=1
n
∑ − Xi
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
2
− Xi
i=1
n
∑
n Xi
2
i=1
n
∑ − Xi
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
2
− Xi
i=1
n
∑
n Xi
2
i=1
n
∑ − Xi
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
2
n
n Xi
2
i=1
n
∑ − Xi
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
2
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⋅
Yi
i=1
n
∑
XiYi
i=1
n
∑
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
 
 
∴=
Xi
2
i=1
n
∑ ⋅ Yi − Xi
i=1
n
∑ ⋅ XiYi
i=1
n
∑
i=1
n
∑
n Xi
2
i=1
n
∑ − Xi
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
2
n XiYi
i=1
n
∑ − Xi
i=1
n
∑ ⋅ Yi
i=1
n
∑
n Xi
2
i=1
n
∑ − Xi
i=1
n
∑⎛⎝⎜
⎞
⎠⎟
2
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
=
Y − βˆ1X
xi yi
i=1
n
∑
xi
2
i=1
n
∑
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
=
βˆ0
βˆ1
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
 (3.16) 
 
3.4 Hipóteses básicas do modelo clássico de regressão linear simples e o teorema de 
Gauss-Markov 
 
De acordo com Gujarati e Porter (2012, p. 84-90), existem sete hipóteses subjacentes 
ao método dos mínimos quadrados: 
 
i. Modelo de regressão linear nos parâmetros; 
ii. Regressor fixo em amostras repetidas ou independente dos termos de erro; 
iii. Erro médio zero; 
iv. Homocedasticidade ou variância constante do erro aleatório; 
v. Ausência de autocorrelação entre os termos de erro; 
vi. Número de observações maior que o número de parâmetros; 
vii. Variabilidade do regressor. 
 
Ainda segundo Gujarati e Porter (2011, p. 93), o teorema de Gauss-Markov afirma 
34 
 
que, satisfeitas as hipóteses do modelo clássico de regressão linear, “[...] os estimadores de 
mínimos quadrados da classe dos estimadores lineares não viesados tem variância mínima, 
isto é, são o melhor estimador linear não viesado”, sendo “[...] condição suficiente (mas não 
necessária) para a eficiência dos MQO”. 
 
 
 
 
 
 
 
3.5 Exemplo Resolvido 
 
Dados os valores de Y e X na tabela abaixo, estime a reta que exprime a relação entre 
Y e X. 
 
 
 
O primeiro passo é calcular a média de Y e X e encontrar as variáveis centradas: 
 
35 
 
 
 
Note que, se a variável é centrada na média, sua soma e, por conseguinte, sua média, 
será zero. 
E, agora, encontramos x2 , y2 e xy: 
 
 
 
Agora, podemos facilmente estimar a reta de regressão: 
 
β
^
1 =
xiyi∑
xi2∑
= 1.279, 561.059, 96 ≅1,207 
 
β0
^
= Y − β1
^
X = 214,2 − (1,207 ⋅154,2) ≅ 28,05 
36 
 
 
Portanto, a reta estimada será dada por: 
 
Y
^
= 28,05 +1,207X 
 
Isso quer dizer que, se X for igual a 300, um valor estimado (médio) para Y será dado 
por: 
Y
^
 = 28,05 + 1,207×300 ≅ 390,2 
 
Mas fica uma questão: esta previsão é confiável? Ou, uma questão ainda anterior: esta 
regressão é “boa”? 
Embora não seja muito rigorosa, uma inspeção gráfica, na base do “olhômetro” é 
sempre útil. Se colocarmos, no mesmo plano cartesiano, os pontos dados na tabela e a reta 
obtida pela regressão, temos: 
Figura 3: Estimação da reta de regressão linear simples 
 
 
3.6 Teste da
validade da regressão 
 
Visualmente, podemos constatar que, de fato, a relação é uma reta e que a reta de 
regressão prevê com boa precisão os valores verdadeiros de Y. 
Como podemos verificar isso de maneira mais rigorosa? A primeira coisa é calcular a 
diferença entre os Y dados no exemplo e os calculados pela reta de regressão ( Y
^
), ou seja, 
como os verificados na próxima tabela: 
37 
 
 
 
 
De fato, verificamos que as diferenças são bem pequenas quando comparadas com os 
valores de Y. 
Estas diferenças aliás, podem ser precipitadamente confundidas com os erros. É quase 
isso. Os erros são as diferenças entre os valores de Y e a reta “verdadeira”, isto é, a reta dada 
pelos valores populacionais de β0 e β1 (que não são conhecidos). As diferenças que 
encontramos são entre os valores de Y e os dados pela reta com os valores estimados 
(amostrais) de β0 e β1 . São portanto, não os erros, mas os estimadores dos erros, ou 
simplesmente os resíduos da regressão. Notemos no gráfico a seguir a diferença com relação 
ao gráfico da figura 1. 
 
Figura 4: Estimação da reta de regressão linear simples 
 
 
Copyright*©*2009*South1Western/Cengage*Learning**
6 
38 
 
Façamos agora uma análise com os quadrados dos resíduos e, conseqüentemente, com 
a variância dos mesmos. Esta análise é conhecida como análise de variância ou pela sua sigla 
em língua inglesa, ANOVA. 
A análise de variância envolve dividir a variável Y duas partes: a parte explicada pela 
regressão e a não explicada (resíduos). Então, o primeiro passo é calcular a soma dos 
quadrados da variável Y e de suas partes explicada e não explicada. Como se trata de 
variância, estamos tratando aqui da variável menos a média, isto é das variáveis centradas na 
média. 
Calculemos então, a soma dos quadrados dos totais (SQT) de Y (centrado), a soma dos 
quadrados explicados (SQE), isto é, do Y estimado e a soma dos quadrados dos resíduos 
(SQR). 
Na tabela a seguir, podemos verificar o quadrado dos resíduos, a última coluna da 
tabela. Em seguida procedemos no cálculo do SQT e de suas partes. 
 
 
A soma dos quadrados totais já foi calculada no exemplo, então: 
 
SQT = yi2 = 31.513,2∑ 
 
Para o cálculo das soma dos quadrados explicados, há duas maneiras: ou calculamos 
um a um, tiramos a média e elevamos ao quadrado, ou podemos utilizar a equação da reta: 
 
y
^
= β
^
1 xi 
39 
 
 
SQE = y
^
∑ i
2
= (β1
^
xi )2 = β
^
∑ 1
2
x∑
2
i
= β
^
1
2
x∑ i
2
= 30.893,12 
 
E a soma dos quadrados dos resíduos foi calculada já neste exemplo, na última tabela: 
 
SQR = 620,08 
 
Repare que: 
 
SQT = SQE + SQR 
 
Portanto, não seria necessário calcular as três, bastariam duas e a terceira sairia pela 
relação acima. Começaremos então, a preencher a tabela abaixo, começando pelas somas de 
quadrados: 
 
 
 
Com estas informações já é possível tirar uma conclusão a respeito da regressão, já 
que a soma dos quadrados dos resíduos é uma parcela bem pequena do total ou, o que é 
equivalente, a soma dos quadrados explicados é uma parcela importante. Esta proporção é 
conhecida como poder explicativo, coeficiente de determinação, ou simplesmente R2: 
 
R2 = SQESQT =
30.893,12
31513,20 ≅ 0,9803 
 
Repare que é impossível que SQE seja maior do que SQT, e como é uma soma de 
quadrados, não dá para ser negativo. Então, em qualquer regressão, 0 ≤ R2 ≤ 1, portanto é 
válido expressá-lo como um percentual. 
Como o R2 encontrado foi 98,03% dizemos que 98,03% da variância de Y é explicada 
pela variável X, o que indica que a regressão de Y por X apresentou um resultado (muito!) 
bom. 
 198
 Para o cálculo das soma dos quadrados explicados, há duas maneiras: ou calculamos um a 
um, tiramos a média e elevamos ao quadrado, ou podemos utilizar a equação da reta: 
 
 iyˆ = Eˆ xi 
 SQE = 6 iyˆ 2 = 6( Eˆ xi)2 = 6 Eˆ 2xi2 = Eˆ 26xi2 = 30893,12 
 
 E a soma dos quadrados dos resíduos foi calculada já neste exemplo, na última tabela: 
 
 SQR = 620,08 
 
 Repare que: 
 
 SQT = SQE + SQR 
 
 Portanto, não seria necessário calcular as três, bastariam duas e a terceira sairia pela relação 
acima. 
 
 Começaremos então, a preencher a tabela abaixo, começando pelas somas de quadrados: 
Soma de quadrados 
SQE = 30893,12 
SQR = 620,08 
SQT = 31513,2 
 
 Com estas informações já é possível tirar uma conclusão a respeito da regressão, já que a 
soma dos quadrados dos resíduos é uma parcela bem pequena do total ou, o que é equivalente, a 
soma dos quadrados explicados é uma parcela importante. Esta proporção é conhecida como poder 
explicativo, coeficiente de determinação, ou simplesmente R2: 
 
 R2 = 
SQT
SQE = 
2,31513
12,30893 # 0,9803 = 98,03% 
 
 Repare que é impossível que SQE seja maior do que SQT, e como é uma soma de 
quadrados, não dá para ser negativo. Então, em qualquer regressão, 0 d R2 d 1, portanto é válido 
expressá-lo como um percentual. 
 
 Como o R2 encontrado foi 98,03% dizemos que 98,03% da variância de Y é explicada pela 
variável X, o que indica que a regressão de Y por X apresentou um resultado (muito!) bom. 
 
 Mas a análise continua. Na próxima coluna colocaremos os graus de liberdade. Para a SQT, 
os graus de liberdade são os mesmos de uma variância amostral normal, isto é, n–1 (= 20 –1 = 19). 
 
 Para a soma de quadrados dos resíduos, temos que lembrar que são resíduos de uma reta. 
Para uma reta, sabemos, são necessários dois pontos. Mas, com apenas dois pontos, não teríamos 
variação nenhuma (e portanto nenhum resíduo). Os graus de liberdade em relação aos resíduos são, 
desta forma, n–2 (= 20 – 2 = 18). 
 
 E, quanto à SQE, há dois raciocínios: ou a diferença (19 – 18 = 1) ou o fato de que há 
apenas uma variável explicativa (afinal, é uma regressão simples). Portanto: 
Soma de quadrados g.l. 
SQE = 30893,12 1 
40 
 
Mas a análise continua. Na próxima coluna colocaremos os graus de liberdade. Para a 
SQT, os graus de liberdade são os mesmos de uma variância amostral normal, isto é, n–1 (= 
20 –1 = 19). 
Para a soma de quadrados dos resíduos, temos que lembrar que são resíduos de uma 
reta. Para uma reta, sabemos, são necessários dois pontos. Mas, com apenas dois pontos, não 
teríamos variação nenhuma (e portanto nenhum resíduo). Os graus de liberdade em relação 
aos resíduos são, desta forma, n–2 (= 20 – 2 = 18). 
E, quanto à SQE, há dois raciocínios: ou a diferença (19 – 18 = 1) ou o fato de que há 
apenas uma variável explicativa (afinal, é uma regressão simples). Portanto: 
 
 
Agora, nos resta calcular as variâncias propriamente ditas ou, como preferem alguns, 
os quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de 
liberdade. 
 
 
 
O que iremos testar, agora, é se estatisticamente falando, a variância explicada é maior 
do que a variância dos resíduos, isto é, um teste de comparação de variâncias. Se rejeitarmos a 
hipótese nula de que as variâncias são iguais, a regressão “explica mais do que não explica” e 
então consideraremos a regressão como válida. 
O teste F é feito dividindo-se uma variância pela outra. Mas, para realizarmos, é 
necessário que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, 
para realizar este teste necessitamos que a variável Y seja normalmente distribuída. Como ela 
é composta de uma reta (fixa), mais um erro aleatório, a variância de Y será dada pela 
variância do erro. Portanto, uma hipótese adicional sobre o erro, a de que ele segue uma 
distribuição normal. Façamos então o teste F: 
 
 199
SQR = 620,08 18 
SQT = 31513,2 19 
 
 Agora, nos resta calcular as variâncias propriamente ditas ou, como
preferem alguns, os 
quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de liberdade. 
Soma de quadrados g.l. Quadrados médios 
SQE = 30893,12 1 30893,12 
SQR = 620,08 18 2,7678 
SQT = 31513,2 19 1658,59 
 
 O que iremos testar, agora, é se estatisticamente falando, a variância explicada é maior do 
que a variância dos resíduos, isto é, um teste de comparação de variâncias. Se rejeitarmos a hipótese 
nula de que as variâncias são iguais, a regressão “explica mais do que não explica” e então 
consideraremos a regressão como válida. 
 
 O teste F é feito dividindo-se uma variância pela outra. Mas, para realizarmos, é necessário 
que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, para realizar este 
teste necessitamos que a variável Y seja normalmente distribuída. Como ela é composta de uma reta 
(fixa), mais um erro aleatório, a variância de Y será dada pela variância do erro. Portanto, uma 
hipótese adicional sobre o erro, a de que ele segue uma distribuição normal. 
 
 Façamos então o teste F: 
 
Soma de quadrados g.l. Quadrados médios teste F 
SQE = 30893,12 1 30893,12 896,75 
SQR = 620,08 18 34,45 
SQT = 31513,2 19 1658,59 
 
 Pela tabela, o valor limite da distribuição F com 1 grau de liberdade no numerador e 18 
graus de liberdade no denominador , com 5% de significância é: 
 
 F1,18 = 4,41 
 
 Como O F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a 
hipótese nula, isto é, a regressão é válida a 5% de significância. 
 
Exemplo 8.2.3 
Teste a significância dos parâmetros da regressão obtida no exemplo 8.2.1 
 
 Testar a significância dos parâmetros significa testar a hipótese nula de que D e E são, na 
verdade, iguais a zero. Isto é, será que D ou E de fato, não existem, e o valor que encontramos é 
apenas resultado da amostra? 
 
 Isto equivale a testar as seguintes hipóteses para E (e depois também para D): 
 
 H0: E = 0 
 H1: E z 0 
 
 Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo anterior) 
que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de Student. Os valores 
tabelados com 18 (= n – 2) graus de liberdade com 1%, 5% e 10% (bicaudais) são: 
 199
SQR = 620,08 18 
SQT = 31513,2 19 
 
 Agora, nos resta calcular as variâncias propriamente ditas ou, como preferem alguns, os 
quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de liberdade. 
Soma de quadrados g.l. Quadrados médios 
SQE = 30893,12 1 30893,12 
SQR = 620,08 18 2,7678 
SQT = 31513,2 19 1658,59 
 
 O que iremos testar, agora, é se estatisticamente falando, a variância explicada é maior do 
que a variância dos resíduos, isto é, um teste de comparação de variâncias. Se rejeitarmos a hipótese 
nula de que as variâncias são iguais, a regressão “explica mais do que não explica” e então 
consideraremos a regressão como válida. 
 
 O teste F é feito dividindo-se uma variância pela outra. Mas, para realizarmos, é necessário 
que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, para realizar este 
teste necessitamos que a variável Y seja normalmente distribuída. Como ela é composta de uma reta 
(fixa), mais um erro aleatório, a variância de Y será dada pela variância do erro. Portanto, uma 
hipótese adicional sobre o erro, a de que ele segue uma distribuição normal. 
 
 Façamos então o teste F: 
 
Soma de quadrados g.l. Quadrados médios teste F 
SQE = 30893,12 1 30893,12 896,75 
SQR = 620,08 18 34,45 
SQT = 31513,2 19 1658,59 
 
 Pela tabela, o valor limite da distribuição F com 1 grau de liberdade no numerador e 18 
graus de liberdade no denominador , com 5% de significância é: 
 
 F1,18 = 4,41 
 
 Como O F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a 
hipótese nula, isto é, a regressão é válida a 5% de significância. 
 
Exemplo 8.2.3 
Teste a significância dos parâmetros da regressão obtida no exemplo 8.2.1 
 
 Testar a significância dos parâmetros significa testar a hipótese nula de que D e E são, na 
verdade, iguais a zero. Isto é, será que D ou E de fato, não existem, e o valor que encontramos é 
apenas resultado da amostra? 
 
 Isto equivale a testar as seguintes hipóteses para E (e depois também para D): 
 
 H0: E = 0 
 H1: E z 0 
 
 Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo anterior) 
que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de Student. Os valores 
tabelados com 18 (= n – 2) graus de liberdade com 1%, 5% e 10% (bicaudais) são: 
41 
 
 
 
Pela tabela, o valor limite da distribuição F com 1 grau de liberdade no numerador e 
18 graus de liberdade no denominador , com 5% de significância é: 
F1,18 = 4,41 
Como o F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a 
hipótese nula, isto é, a regressão é válida a 5% de significância. 
 
3.7 Teste da significância dos parâmetros da regressão obtida 
 
Testar a significância dos parâmetros significa testar a hipótese nula de que α e β são, 
na verdade, iguais a zero. Isto é, será que β0 ou β1 de fato, não existem, e o valor que 
encontramos é apenas resultado da amostra? 
Isto equivale a testar as seguintes hipóteses para β1 (e depois também para β0 ): 
 
H0: β1 = 0 
H1: β1 ≠ 0 
 
Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo 
anterior) que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de 
Student. Os valores tabelados com 18 (= n – 2) graus de liberdade com 1%, 5% e 10% 
(bicaudais) são: 
 
t(18,10%) = 1,73 
t(18,5%) = 2,10 
t(18,1%) = 2,88 
 
E o valor calculado da estatística é dado por: 
 
 199
SQR = 620,08 18 
SQT = 31513,2 19 
 
 Agora, nos resta calcular as variâncias propriamente ditas ou, como preferem alguns, os 
quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de liberdade. 
Soma de quadrados g.l. Quadrados médios 
SQE = 30893,12 1 30893,12 
SQR = 620,08 18 2,7678 
SQT = 31513,2 19 1658,59 
 
 O que iremos testar, agora, é se estatisticamente falando, a variância explicada é maior do 
que a variância dos resíduos, isto é, um teste de comparação de variâncias. Se rejeitarmos a hipótese 
nula de que as variâncias são iguais, a regressão “explica mais do que não explica” e então 
consideraremos a regressão como válida. 
 
 O teste F é feito dividindo-se uma variância pela outra. Mas, para realizarmos, é necessário 
que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, para realizar este 
teste necessitamos que a variável Y seja normalmente distribuída. Como ela é composta de uma reta 
(fixa), mais um erro aleatório, a variância de Y será dada pela variância do erro. Portanto, uma 
hipótese adicional sobre o erro, a de que ele segue uma distribuição normal. 
 
 Façamos então o teste F: 
 
Soma de quadrados g.l. Quadrados médios teste F 
SQE = 30893,12 1 30893,12 896,75 
SQR = 620,08 18 34,45 
SQT = 31513,2 19 1658,59 
 
 Pela tabela, o valor limite da distribuição F com 1 grau de liberdade no numerador e 18 
graus de liberdade no denominador , com 5% de significância é: 
 
 F1,18 = 4,41 
 
 Como O F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a 
hipótese nula, isto é, a regressão é válida a 5% de significância. 
 
Exemplo 8.2.3 
Teste a significância dos parâmetros da regressão obtida no exemplo 8.2.1 
 
 Testar a significância dos parâmetros significa testar a hipótese nula de que D e E são, na 
verdade, iguais a zero. Isto é, será que D ou E de fato, não existem, e o valor que encontramos é 
apenas resultado da amostra? 
 
 Isto equivale a testar as seguintes hipóteses para E (e depois também para D): 
 
 H0: E = 0 
 H1: E z 0
Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo anterior) 
que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de Student. Os valores 
tabelados com 18 (= n – 2) graus de liberdade com 1%, 5% e 10% (bicaudais) são: 
42 
 
β
^
1− 0
S
β
^
1
= β
^
1
S
β
^
1
 
 
Isto é, basta dividir o coeficiente encontrado pelo seu desvio padrão. A questão agora 
encontrar o desvio padrão de β
^
1 . Sabemos que: 
 
β
^
1 =
xiyi∑
xi2∑ 
 
Então: 
 
var(β
^
1) = var(
xiyi∑
xi2∑
) 
 
var(β
^
1) =
xi2∑
( xi2 )2∑
var(yi ) 
 
O estimador desta variância (valor amostral) será: 
 
S
β
^
1
2 =
xi2∑
( xi2 )2∑
var(resíduos) 
 
Já que a variância de Y dado X, isto é, a variância de Y no modelo de regressão é a 
própria variância dos resíduos, que já calculamos na tabela ANOVA e é igual a 34,45 e foi 
obtida através da expressão SQR/(n-2). 
 
S
β
^
1
2 =
SQR
(n − 2)
xi2∑
 
 
43 
 
S
β
^
1
2 = 34, 4521.199, 2 ≅ 0,0016⇒ Sβ^ 1 ≅ 0,04 
 
O cálculo da estatística é então: 
 
β
^
1
S
β
^
1
= 1,2070,04 ≅ 30,2 
 
Como o valor calculado é superior aos valores tabelados (inclusive para 1%), 
rejeitamos a hipótese nula de que β1 é igual a zero. Dizemos, então que β1 é estatisticamente 
diferente de zero a 1% de significância, ou , simplesmente, é significante a 1%. 
O procedimento para β0 é quase o mesmo. A diferença está no cálculo do seu desvio 
padrão. 
 
 
 
 
Sabemos que: 
 
β
^
0 = Y − β
^
1 X
var(β
^
0 ) = var(Y − β
^
1 X)
var(β
^
0 ) = var(Y )+ var(β
^
1 X)
var(β
^
0 ) = var(
yi∑
n )+ X
2 var(β
^
1)
 
 
Cujo estimador será dado por: 
 
44 
 
S
β
^
0
2 = nn2 ⋅
SQR
n − 2 + X
2
⋅ SQR (n − 2)xi2∑
S
β
^
0
2 = SQRn − 2
1
n +
X 2
xi2∑
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
S
β
^
0
2 = 34,45 ⋅ 120 +
154,22
21.199,2
⎛
⎝⎜
⎞
⎠⎟
≅ 40,36⇒ S
β
^
0
≅ 6,4
 
 
O cálculo da estatística será então: 
 
β
^
0
S
β
^
1
= 28,056,4 ≅ 4,4 
 
Que é superior aos valores tabelados, portanto α também é significante a 1%. 
 
3.8 A hipótese de normalidade 
 
Até agora, fizemos duas hipóteses sobre o modelo de regressão: a de que os erros tem 
média zero e de que eles são normalmente distribuídos, hipótese esta que foi utilizada para a 
realização dos testes de hipótese acerca da regressão e de seus parâmetros. 
 
 
 
As hipóteses vistas até agora podem ser resumidas assim: 
 
i) E(εi) = 0 (erros têm média zero). 
ii) erros são normalmente distribuídos. 
 
É razoável assumir que os erros sejam normalmente distribuídos? Sim, se partirmos do 
significado do termo de erro, isto é, uma soma de fatores que não foram incluídos no modelo 
(até porque não é possível). Se imaginarmos que são muitos os fatores, a soma deles seguirá 
uma distribuição normal, pelo Teorema do Limite Central4. 
 
4 Se a média segue uma distribuição normal, basta multiplicarmos por n e teremos a soma que será, 
portanto, normalmente distribuída também. 
45 
 
Entretanto, se isto não for considerado satisfatório, é sempre possível testar a hipótese 
de que os resíduos sejam normais e que, portanto, são originados de erros também normais e 
assim termos maior segurança em relação aos testes de hipóteses5. Um teste muito utilizado 
para isso é o de Jarque-Bera. 
O teste de Jarque-Bera utiliza os resultados para os momentos da distribuição normal, 
em particular os coeficientes de assimetria (que é zero para a distribuição normal) e de curtose 
(que vale 3). 
O coeficiente de assimetria para os resíduos é dado por: 
 
A = 1n
ε
^
i
σ
⎛
⎝
⎜
⎜
⎞
⎠
⎟
⎟i=1
n
∑
3
 
 
E o de curtose: 
 
C = 1n
ε
^
i
σ
⎛
⎝
⎜
⎜
⎞
⎠
⎟
⎟i=1
n
∑
4
 
 
 
 
O teste de Jarque-Bera é feito através da seguinte estatística: 
 
JB = n6 A
2 + 14 C − 3( )
2⎡
⎣⎢
⎤
⎦⎥
 
 
Demonstra-se que, sob a hipótese nula de que os resíduos sejam normalmente 
distribuídos, a estatística JB converge assintoticamente para uma distribuição χ2 com 2 graus 
de liberdade. 
Na tabela abaixo são mostrados os resíduos da regressão do exemplo 1. Teste a 
normalidade dos mesmos. 
 
 
5 Isto para amostras pequenas, já que é possível mostrar que a razão entre o coeficiente e seu desvio 
padrão converge para uma distribuição normal padrão sob a hipótese nula de que o coeficiente seja zero. 
46 
 
 
 
Calculamos a variância deste conjunto de valores (independente de sabermos que se 
tratam de resíduos de uma regressão6), e depois o desvio padrão: 
 
σ 2 = 31⇒σ ≅ 5,56 
 
O coeficiente de assimetria é dado por: 
 
A = 1n
ε
^
i
σ
⎛
⎝
⎜
⎜
⎞
⎠
⎟
⎟i=1
n
∑
3
≅ −0,66 
 
E o de curtose: 
 
C = 1n
ε
^
i
σ
⎛
⎝
⎜
⎜
⎞
⎠
⎟
⎟i=1
n
∑
4
≅ 3,5933 
 
A estatística de Jarque-Bera será dada então, por: 
 
JB = n6 A
2 + 14 C − 3( )
2⎡
⎣⎢
⎤
⎦⎥
≅ 1,7323 
 
Na tabela χ2 verificamos que, para 2 graus de liberdade o valor crítico (para 10% de 
significância) é 4,61. Como o valor encontrado para a estatística JB é inferior, aceitamos a 
hipótese nula de que os resíduos são normais. Ou, em outras palavras, não é possível, 
estatisticamente falando, rejeitar a hipótese que a distribuição destes resíduos seja normal. 
 
3.9 Propriedades dos estimadores de mínimos quadrados 
 
6 Isto é, dividimos por n e não n-2. 
47 
 
 
3.9.1 O estimador de β1 é não viesado? 
 
A resposta a esta pergunta remete a esperança do estimador: 
 
E(β
^
1) = E
xiyi∑
xi2∑
⎛
⎝⎜
⎞
⎠⎟
 
 
E(β
^
1) = E
xi (β1xi + ε i )∑
xi2∑
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
 
 
E(β
^
1) = E
(β1xi2 + ε i xi )∑
xi2∑
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
 
 
Como a esperança da soma é a soma das esperanças: 
 
E(β
^
1) = E
β1xi2∑
xi2∑
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
+ E ε i xi∑ xi2∑
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
 
 
 
 
E ainda temos que β1 é uma constante, portanto: 
 
E(β
^
1) = E
β1 xi2∑
xi2∑
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
+ E ε i xi∑ xi2∑
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
 
E(β
^
1) = E β1[ ]+ E
ε i xi∑
xi2∑
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
 
 
E(β
^
1) = β1 + E
ε i xi∑
xi2∑
⎡
⎣
⎢
⎢
⎤
⎦
⎥
⎥
 
 
48 
 
Voltemos a nossa atenção para o termo dentro da esperança: consideremos que os 
valores xi são fixos ou, para ser mais preciso, fixos em amostras repetidas. O que significa 
que, se nossa amostra é de imóveis, um dado imóvel é sorteado na amostra, ele tem uma certa 
área. Se fizermos uma nova amostragem, e este imóvel for sorteado de novo, irá apresentar 
exatamente o mesmo valor para área. Este valor é fixo, não depende de probabilidade, 
portanto a área de um imóvel se enquadra nesta hipótese. 
Isto não se aplicaria, por exemplo, se a variável fosse a nota de um aluno em um teste. 
O mesmo aluno, fazendo um mesmo teste (ou tipo de teste) uma segunda vez não 
necessariamente tiraria a mesma nota. Isto depende de uma distribuição de probabilidade, x é 
neste caso uma variável estocástica. 
Se a variável x for fixa em amostras repetidas (como a área de um imóvel), então cada 
xi pode ser tratado como uma constante: 
 
E(β
^
1) = β1 +
E(ε i xi )∑
xi2∑
 
 
E(ε i xi ) = xiE(ε i ) = 0 
 
Já que E(εi) = 0. Portanto: 
 
E(β
^
1) = β1 +
E(ε i xi
)∑
xi2∑
= β1 
Desta forma, β
^
1 é um estimador não viesado do coeficiente β1 . 
Adicionamos então uma terceira hipótese: 
 
i) E(εi) = 0 (erros têm média zero). 
ii) erros são normalmente distribuídos. 
iii) xi são fixos (não estocásticos). 
 
Isto significa que, se a variável x for estocástica, o coeficiente será necessariamente 
viesado? Não, mas para isso teríamos que manter a condição de que E(εixi) = 0, o que 
equivale dizer que a correlação (e a covariância) entre εi e xi é nula. Se não, vejamos: 
 
49 
 
cov(ε i , xi ) = E(ε i xi )− E(ε i )E(xi ) = E(ε i xi ) 
 
Já que E(εi) = 0. Assim, podemos garantir que o estimador é não viesado com uma 
hipótese mais fraca. O conjunto de hipóteses seria, neste caso: 
 
i) E(εi) = 0 (erros têm média zero). 
ii) erros são normalmente distribuídos. 
iii*) E(εixi) = 0 (xi não são correlacionados com os erros). 
 
3.9.2 Eficiência e MELNV 
 
Se, além das hipóteses i e ii, os erros tiverem variância constante e não forem 
autocorrelacionados (o erro de uma observação não é correlacionado com o de outra, isto é, os 
erros são independentes), o Teorema de Gauss-Markov mostra que o estimador de mínimos 
quadrados β
^
1 apresenta a menor variância entre todos os estimadores de β1 que são lineares e 
não viesados, sendo portanto um MELNV. Acrescentamos então, mais duas hipóteses: 
 
i) E(εi) = 0 (erros têm média zero). 
ii) erros são normalmente distribuídos. 
iii) xi são fixos (não estocásticos). 
iv) var(εi) = σ2 (constante). 
v) E(εixi) = 0, i ≠  j (erros não são autocorrelacionados). 
Se ainda levarmos em conta a hipótese de normalidade, é possível demonstrar7 que o 
estimador β
^
1 tem a menor variância entre todos os estimadores não viesados de β, ou seja, é 
um estimador eficiente. 
 
3.10 Modelos lineares 
 
Muitos modelos não lineares são facilmente “linearizáveis”. Por exemplo, o modelo 
abaixo: 
 
 
7 Através da desigualdade de Cramer-Rao. 
50 
 
Y = β0 + β1Xi2 + ε i 
 
Pode se tornar um modelo linear através da seguinte transformação: 
 
Zi ≡ Xi2 
 
E, desta forma: 
 
Y = β0 + β1Zi + ε i 
 
É um modelo linear e pode ser estimado da mesma maneira que vínhamos fazendo. 
Dos muitos modelos que podem ser transformados em lineares, dois se destacam. Um 
deles é o modelo multiplicativo: 
 
Y = β0Xiβ1ε i 
 
Aplicando logaritmo dos dois lados da equação: 
 
logY = log(β0Xiβ1ε i )
logY = logβ0 + logXiβ1 + logε i
logY = logβ0 + β1 logXi + logε i
 
 
Fazendo: 
 
Y’ = log Y 
β0’ = log β0 
X’ = log X 
µ = log ε 
 
Chegamos a um modelo linear: Y’ = β0’ + β1Xi’ + µi . 
Em que as variáveis estão em logaritmos, por isso mesmo este modelo é também 
conhecido como log-log. 
É interessante notar o significado do coeficiente β1 neste tipo de modelo. Isto pode ser 
51 
 
feito derivando Y em relação a X: 
 
∂Y
∂X = β0β1X
β1−1ε = 1X β0β1X
β1ε = 1X β1Y 
 
Portanto, β1 será dado por: 
 
β1 =
∂Y
∂X ⋅
X
Y 
 
Aproximando a derivada pelo taxa de variação discreta: 
 
β1 ≅
∂Y
∂X ⋅
X
Y =
ΔY
Y
ΔX
X
= variação percentual de Yvariação percentual de X 
 
Ou seja, quando o modelo é estimado com as variáveis em logaritmo, o coeficiente β1 
significa a razão entre as variações relativas (percentuais) das variáveis Y e X, ao invés das 
absolutas, quando a regressão é feita com os valores originais das variáveis. Esta razão 
também é conhecida como elasticidade de Y em relação a X. 
Um outro tipo de modelo importante é o exponencial: 
 
Y = β0eβ1Xiε i 
De novo, aplicando logaritmo8 nos dois lados da equação temos: 
 
logY = log(β0eβ1Xiε i )
logY = logβ0 + logeβ1Xi + logε i
logY = logβ0 + β1Xi + logε i
 
 
E, novamente, fazendo as transformações: 
 
 
8 Embora neste caso seja mais prático aplicar o logaritmo natural (base e), é importante ressaltar que 
tanto faz qual é a base do logaritmo, pois o valor do coeficiente β1 será o mesmo. 
52 
 
Y’ = log Y 
β0’ = log β0 
µ = log ε 
 
Temos novamente um modelo linear: 
 
Y’= β0’+β1Xi +µi 
 
Onde uma das variáveis foi transformada no seu logaritmo e por isso mesmo este 
modelo é conhecido como log-linear. 
E, da mesma forma, derivamos Y em relação a X para encontrar o significado do 
coeficiente β1: 
 
∂Y
∂X = β0β1e
β1Xε = β1Y 
 
Portanto: 
 
β1 =
1
Y ⋅
∂Y
∂X 
 
 
 
 
Repetindo a aproximação da derivada pelo taxa de variação discreta: 
 
β1 =
1
Y
∂Y
∂X =
ΔY
Y
ΔX =
variação percentual de Y
variação absoluta de X 
 
Se a variável X representar o tempo, o coeficiente β1 representa a taxa de crescimento 
(médio) da variável Y ao longo do tempo. 
 
3.10.1 Aplicação 
53 
 
 
A tabela abaixo fornece o volume de vendas em uma empresa ao longo do tempo. 
Determine sua taxa de crescimento anual médio. 
 
 
 
Para determinar a taxa de crescimento médio, devemos fazer uma regressão do tipo 
log- linear, em que a variável Y é o logaritmo das vendas e X é variável tempo. 
 
 
 
Note que a mudança na variável tempo (X), que em vez de começar por 1986, começa 
por 1, não afeta a taxa de crescimento.(Por que?) 
 
O resultado da regressão é: 
 
Y = 6,77 + 0,2073X 
 (0,07) (0,008) 
 
Onde os números entre parênteses são os desvios padrão dos coeficientes. 
A taxa média de crescimento anual é, portanto, 0,2073 ou 20,73% ao ano. 
 210
 Portanto: 
 E = 
Y
1
X
Y
w
w 
 
 Repetindo a aproximação, temos: 
 E = 
Y
1
X
Y
'
' = 
X
Y
Y
'
'
 = 
X de absoluta variação
Y de percentual variação 
 
 Se a variável X representar o tempo, o coeficiente E representa a taxa de crescimento 
(médio) da variável Y ao longo do tempo. 
 
Exemplo 8.6.1 
A tabela abaixo fornece o volume de vendas em uma empresa ao longo do tempo. Determine sua 
taxa de crescimento anual médio. 
ano vendas ano vendas 
1986 1020 1993 5300 
1987 1200 1994 6640 
1988 1450 1995 7910 
1989 1800 1996 8405 
1990 2550 1997 9870 
1991 3320 1998 11530 
1992 4250 1999 13320 
 
 Para determinar a taxa de crescimento médio, devemos fazer uma regressão do tipo log-
linear, em que a variável Y é o logaritmo das vendas e X é variável tempo. 
 
X Y X Y 
1 6,9276 8 8,5755 
2 7,0901 9 8,8009 
3 7,2793 10 8,9759 
4 7,4955 11 9,0366 
5 7,8438 12 9,1973 
6 8,1077 13 9,3527 
7 8,3547 14 9,4970 
 
 Note que a mudança na variável tempo (X), que em vez de começar por 1986, começa por 1, 
não afeta a taxa de crescimento.(Por que?) 
 
 O resultado da regressão é: 
 
 Y = 6,77 + 0,2073X 
 (0,07) (0,008) 
 
 Onde os números entre parênteses são os desvios padrão dos coeficientes. 
 
 A taxa média de crescimento anual é, portanto, 0,2073 ou 20,73% ao ano. 
 
8.7 Regressão múltipla 
 
 210
 Portanto: 
 E = 
Y
1
X
Y
w
w 
 
 Repetindo a aproximação, temos: 
 E = 
Y
1
X
Y
'
' = 
X
Y
Y
'
'
 = 
X de absoluta variação
Y de percentual variação 
 
 Se a variável X representar o tempo, o coeficiente E representa a taxa de crescimento 
(médio) da variável Y ao longo do tempo. 
 
Exemplo 8.6.1 
A tabela abaixo fornece o volume de vendas em uma empresa ao longo do tempo. Determine sua 
taxa de crescimento anual médio. 
ano vendas ano vendas 
1986 1020 1993 5300 
1987 1200 1994 6640 
1988 1450 1995 7910 
1989 1800 1996 8405 
1990 2550 1997 9870 
1991 3320 1998 11530 
1992 4250 1999 13320 
 
 Para determinar a taxa de crescimento médio, devemos fazer uma regressão do tipo log-
linear, em que a variável