Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

2018
EconomEtria i
Prof. Vanderlei Kleinschmidt
Copyright © UNIASSELVI 2018
Elaboração:
Prof. Vanderlei Kleinschmidt
Revisão, Diagramação e Produção:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri 
UNIASSELVI – Indaial.
Impresso por:
K64e
 Kleinschmidt, Vanderlei 
 Econometria I. / Vanderlei Kleinschmidt. – Indaial: UNIASSELVI, 2018.
 249 p.; il.
 ISBN 978-85-515-0223-5
 1.Econometria. – Brasil. II. Centro Universitário Leonardo Da Vinci.
CDD 330.015195
III
aprEsEntação
Prezado acadêmico! A Ciência Econômica existe há muitos séculos, 
porém nos últimos 100 anos, ela ganhou um impulso enorme com a 
formalização da Econometria como braço direito dos economistas. Esse é o 
elo que nos auxilia na tarefa de testar as teorias econômicas e que torna a 
economia uma verdadeira ciência. Estudar Econometria é um desafio, por 
isso tomamos muito cuidado ao elaborar o seu material.
As unidades foram estruturadas e preparadas de forma a lhe oferecer 
um conteúdo moderno, atualizado, em linha com o que as principais 
universidades do país utilizam. Ao longo dos seus estudos, você perceberá 
que a Econometria é um conhecimento cumulativo, no sentido de que tudo 
o que você aprender, desde as primeiras páginas, continuará usando até a 
última página desse livro. E não só do livro de Econometria I, durante os 
seus estudos de Econometria II você utilizará recorrentemente os conceitos e 
as habilidades que irá desenvolver a partir de agora.
Na Unidade 1, você terá uma visão geral da Econometria. Verá como 
ela surgiu, entenderá um pouco da sua importância e aprenderá os primeiros 
conceitos. Nessa fase, talvez, você sinta um pouco a necessidade de revisar aquilo 
que você sabe de estatística e matemática. Se isso acontecer, recomendamos 
que o faça, mas não de forma aprofundada, reveja apenas os conceitos que 
tiver maior dificuldade, porque ao longo dessa unidade esses conceitos são 
explicados à luz do processo econométrico. Ao final dessa unidade, você já 
estará estimando os seus primeiros modelos de regressão simples, com apenas 
duas variáveis, e fazendo as primeiras análises de resultados.
A ideia de conhecimento cumulativo ficará bem clara ao iniciar os 
estudos da Unidade 2. Nela você retomará os modelos desenvolvidos na 
Unidade 1, porém ampliando-os com a adição de múltiplas variáveis, e com 
isso terá que recorrer a novas técnicas para estimar os seus modelos. Estamos 
falando da álgebra matricial, que alguns autores relutam em apresentar em 
seus materiais, porém, como poderá constatar, o uso de matrizes torna o 
estudo e a aplicação da Econometria mais intuitiva. Essa unidade é finalizada 
com uma das ferramentas mais importantes que os econometristas usam, 
trata-se das variáveis binárias. Com elas é possível dessazonalizar séries de 
dados, calcular médias, medir quebras estruturais, estimar diferenças entre 
categorias, enfim, adicionar o elemento qualitativo aos modelos quantitativos.
Finalizamos o livro com a Unidade 3, que aborda os três grandes 
problemas que enfrentamos ao estimar os modelos econométricos. Nesse 
caso, o objetivo é apresentar a você, acadêmico, os conceitos relacionados a 
cada um desses problemas, explicando a sua fonte, as consequências, como 
IV
diagnosticar e como superar cada um deles. Você compreenderá que, apesar 
de usarmos um software para fazer a parte pesada e tornar mais simples 
o nosso trabalho, estimar um modelo de regressão requer mais do que 
alguns simples cliques com o mouse. Nós precisamos estar atentos a certos 
problemas, como a heteroscedasticidade e a autocorrelação, que podem jogar 
por terra todo o tempo que empregamos na nossa pesquisa.
O segredo do sucesso de estudar e aprender Econometria reside na 
prática. Não adianta de nada você apenas ler o material desenvolvido e 
assistir aos vídeos. Se não praticar, todo esse tempo dedicado aos estudos terá 
sido em vão. Recomendamos que você utilize os dados disponibilizados no 
material e tente reproduzir os resultados que obtivemos. Isso é extremamente 
importante, porque é impossível aprender Econometria sem praticar!
Guarde bem esse material para consultas futuras, utilize a técnica e as 
habilidades que você irá desenvolver ao longo dos seus estudos, e tente aplicá-
las no seu trabalho e nos estudos das outras disciplinas do curso de Ciências 
Econômicas. Dedique-se aos estudos dessa fantástica área do conhecimento 
econômico e colherá os melhores resultados na sua carreira. 
Bons estudos!
Prof. Vanderlei Kleinschmidt
V
Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto 
para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há 
novidades em nosso material.
Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é 
o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um 
formato mais prático, que cabe na bolsa e facilita a leitura. 
O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova 
diagramação no texto, aproveitando ao máximo o espaço da página, o que também 
contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo.
Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, 
apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade 
de estudá-lo com versatilidade nas telas do celular, tablet ou computador. 
 
Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para 
apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto 
em questão. 
Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas 
institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa 
continuar seus estudos com um material de qualidade.
Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de 
Desempenho de Estudantes – ENADE. 
 
Bons estudos!
NOTA
Olá acadêmico! Para melhorar a qualidade dos 
materiais ofertados a você e dinamizar ainda mais 
os seus estudos, a Uniasselvi disponibiliza materiais 
que possuem o código QR Code, que é um código 
que permite que você acesse um conteúdo interativo 
relacionado ao tema que você está estudando. Para 
utilizar essa ferramenta, acesse as lojas de aplicativos 
e baixe um leitor de QR Code. Depois, é só aproveitar 
mais essa facilidade para aprimorar seus estudos!
UNI
VI
VII
UNIDADE 1 – OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO ....................................... 1
TÓPICO 1 – INTRODUÇÃO AO ESTUDO ECONOMÉTRICO .................................................. 3
1 INTRODUÇÃO .................................................................................................................................... 3
2 O QUE É ECONOMETRIA? .............................................................................................................. 3
3 O MÉTODO ECONOMÉTRICO ...................................................................................................... 7
LEITURA COMPLEMENTAR .............................................................................................................. 11
RESUMO DO TÓPICO 1 ....................................................................................................................... 13
AUTOATIVIDADE ................................................................................................................................. 14
TÓPICO 2 – MODELO DE REGRESSÃO LINEAR GERAL .......................................................... 15
1 INTRODUÇÃO .................................................................................................................................... 15
2 A MODELAGEM ECONÔMICA E A ORIGEM DOS DADOS ECONOMÉTRICOS .......... 15
3 ANÁLISE DE REGRESSÃO ..............................................................................................................19
4 O MODELO DE REGRESSÃO LINEAR SIMPLES ...................................................................... 23
5 AS HIPÓTESES DO MODELO DE REGRESSÃO LINEAR ....................................................... 24
RESUMO DO TÓPICO 2........................................................................................................................ 29
AUTOATIVIDADE ................................................................................................................................. 30
TÓPICO 3 – MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS ................................. 31
1 INTRODUÇÃO .................................................................................................................................... 31
2 A FUNÇÃO DE REGRESSÃO AMOSTRAL E SUAS CARACTERÍSTICAS .......................... 32
3 ESTIMATIVA DOS PARÂMETROS POR MÍNIMOS QUADRADOS ORDINÁRIOS ....... 33
4 PROPRIEDADES NUMÉRICAS DOS ESTIMADORES ............................................................. 37
5 TESTES ESTATÍSTICOS .................................................................................................................... 38
6 O USO DO GRETL PARA ESTIMAÇÃO E ANÁLISE ECONOMÉTRICA:
 A ANÁLISE DOS RESULTADOS E SUA INTERPRETAÇÃO ................................................... 59
7 OUTROS TÓPICOS RELACIONADOS AO MÉTODO DE MQO ........................................... 73
RESUMO DO TÓPICO 3 ....................................................................................................................... 79
AUTOATIVIDADE ................................................................................................................................ 80
UNIDADE 2 – REGRESSÃO MÚLTIPLA .......................................................................................... 83
TÓPICO 1 – O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL .................... 85
1 INTRODUÇÃO .................................................................................................................................... 85
2 O MODELO DE REGRESSÃO LINEAR GERAL EM FORMA MATRICIAL ......................... 87
3 HIPÓTESES DO MODELO ............................................................................................................... 89
RESUMO DO TÓPICO 1 ....................................................................................................................... 94
AUTOATIVIDADE ................................................................................................................................ 95
TÓPICO 2 – ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS 
DE REGRESSÃO MÚLTIPLOS .........................................................................................................101
1 INTRODUÇÃO ..................................................................................................................................101
2 ESTIMADORES DE MQO ...............................................................................................................102
sumário
VIII
3 ESTIMANDO O MODELO DE REGRESSÃO MÚLTIPLO .....................................................109
4 TESTES ADICIONAIS APLICADOS AOS RESULTADOS DOS
 MODELOS DE REGRESSÃO .........................................................................................................117
RESUMO DO TÓPICO 2 .....................................................................................................................129
AUTOATIVIDADE ..............................................................................................................................130
TÓPICO 3 – USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS ..................................133
1 INTRODUÇÃO ..................................................................................................................................133
2 ESTIMANDO UM MODELO DE REGRESSÃO COM VARIÁVEIS QUALITATIVAS .....134
3 OUTRAS APLICAÇÕES COM VARIÁVEIS QUALITATIVAS ...............................................138
LEITURA COMPLEMENTAR ............................................................................................................154
RESUMO DO TÓPICO 3 .....................................................................................................................157
AUTOATIVIDADE ..............................................................................................................................158
UNIDADE 3 – MODELOS DE REGRESSÃO GENERALIZADOS ............................................163
TÓPICO 1 – MULTICOLINEARIDADE ..........................................................................................165
1 INTRODUÇÃO ..................................................................................................................................165
2 CONCEITO DE MULTICOLINEARIDADE ................................................................................166
3 DETECÇÃO DA MULTICOLINEARIDADE ...............................................................................169
4 O QUE FAZER NA PRESENÇA DE MULTICOLINEARIDADE? ...........................................177
LEITURA COMPLEMENTAR ............................................................................................................184
RESUMO DO TÓPICO 1 .....................................................................................................................186
AUTOATIVIDADE ..............................................................................................................................187
TÓPICO 2 – HETEROSCEDASTICIDADE .....................................................................................189
1 INTRODUÇÃO ..................................................................................................................................189
2 A NATUREZA DA HETEROSCEDASTICIDADE ......................................................................190
3 DETECTANDO O PROBLEMA DA HETEROSCEDASTICIDADE .......................................192
4 RESOLVENDO O PROBLEMA DA HETEROSCEDASTICIDADE – O MÉTODO
 DOS MÍNIMOS QUADRADOS GENERALIZADOS ...............................................................201
RESUMO DO TÓPICO 2 .....................................................................................................................211
AUTOATIVIDADE ..............................................................................................................................212
TÓPICO 3 – AUTOCORRELAÇÃO ..................................................................................................213
1 INTRODUÇÃO ..................................................................................................................................213
2 A NATUREZA DA CORRELAÇÃO SERIAL ...............................................................................214
3 DETECTANDO O PROBLEMA DA CORRELAÇÃO SERIAL ................................................217
4 RESOLVENDO O PROBLEMA DA CORRELAÇÃO SERIAL – MÉTODO
 DOS MÍNIMOS QUADRADOS GENERALIZADOS ...............................................................230
RESUMO DO TÓPICO 3 .....................................................................................................................235
AUTOATIVIDADE ..............................................................................................................................236
REFERÊNCIAS ......................................................................................................................................239
1
UNIDADE 1
OS FUNDAMENTOS DA ANÁLISE DE 
REGRESSÃO
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você será capaz de:
• definir o conceito e os objetivos da econometria, identificando os passos que 
envolvem o processo de pesquisa e as ferramentas utilizadas para este fim;
• explicar os conceitos básicos da econometria, tais como regressão, variável 
dependente e explanatória, os tiposde dados e suas fontes;
• aplicar o conhecimento desenvolvido para construir um modelo econo-
métrico simples;
• estimar o modelo construído utilizando dados econômicos, analisar os re-
sultados obtidos e com base nas inferências estatísticas, validar ou refutar 
as hipóteses propostas inicialmente.
Esta unidade está dividida em três tópicos. No decorrer da unidade você 
encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
TÓPICO 2 – MODELO DE REGRESSÃO LINEAR GERAL
TÓPICO 3 – MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
2
3
TÓPICO 1
UNIDADE 1
INTRODUÇÃO AO ESTUDO 
ECONOMÉTRICO
1 INTRODUÇÃO
Prezado acadêmico, seja bem-vindo ao maravilhoso mundo da 
econometria. Esperamos que você esteja pronto para a nossa jornada, mas, se 
não tiver certeza disso, não se preocupe, juntos construiremos os fundamentos 
necessários para que você possa usar essa importante ferramenta na sua vida 
acadêmica e profissional.
Até agora você aprendeu os principais conceitos econômicos, estudou os seus 
fundamentos matemáticos e estatísticos, viu a separação dos aspectos microeconômicos 
dos macroeconômicos e foi apresentado a diversas teorias e modelos.
A partir de agora, estudando econometria, você terá a oportunidade de 
colocar em prática e testar a maior parte das teorias aprendidas e as que aprenderá 
até o final do seu curso. Além disso, poderá incorporar aos seus trabalhos acadêmicos 
todas as ferramentas aprendidas neste livro de estudos. Para isso, veremos, de 
forma gradual e seguindo uma sequência lógica e organizada, um conjunto de 
técnicas que, além de modernas, refletem o que as grandes universidades ao redor 
do mundo estão ensinando aos seus graduandos em economia.
A disciplina de econometria, apesar de não ser exclusividade dos cursos 
de ciências econômicas, é, sem sombra de dúvidas, o nosso grande diferencial 
como economistas. Por esse motivo, dominar a técnica econométrica poderá ser o 
seu diferencial nesse mercado cada vez mais competitivo.
Para ajudá-lo nessa empreitada, o primeiro tópico desse livro buscará 
entender o significado de econometria, um pouco da sua história, como ela se insere 
dentro da economia como ciência e como torná-la uma aliada para os seus estudos.
2 O QUE É ECONOMETRIA?
Se tivéssemos que traduzir a palavra econometria de forma literal, diríamos 
que é uma medida econômica ou mensuração econômica, mas a tradução literal 
é muito fria e em nada reflete a dinâmica dessa disciplina. Na prática, pouco 
adianta saber a etimologia da palavra se você não entender o que ela significa de 
fato e não puder compreender a sua importância.
4
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
4
( )dQ f P=
Para saber o real significado da econometria é necessário recordarmos o 
que aprendemos até agora sobre a economia e uma das coisas mais importantes, 
na própria definição de economia, é entender que ela é uma ciência social.
Por seu aspecto científico, a economia “[...] mais do que outras disciplinas 
– exige uma combinação de aptidões verbais e quantitativas” (TAYLOR, 2007, 
p. 69). Embora alguns pensem o contrário, a economia não é exclusivamente 
para quem gosta de cálculo, nem tampouco está voltada apenas para entender o 
funcionamento do mercado financeiro.
Conseguir explicar a dinâmica das relações econômicas faz do economista 
um profissional diferenciado. Nesse quesito, muito mais do que conseguir efetuar 
um cálculo, é necessário ter a capacidade de síntese no sentido de poder interpretar 
os resultados obtidos. É aí que entra a parte não quantitativa da economia, aquela 
que descrevemos com o uso de palavras.
Devemos ter em mente que o homem, nas suas relações interpessoais, 
tem certas necessidades as quais busca satisfazer. Esse agente econômico, que 
pode ser uma pessoa, o governo ou uma empresa, dispõe de certa quantidade de 
recursos para atender as suas escolhas.
Ocorre que esses recursos nem sempre são suficientes. As necessidades, na 
maioria das vezes são ilimitadas, e aquilo que você quer, as suas escolhas, envolvem 
determinados custos. Assim, como bem sintetiza Krugman e Wells (2007, p. 5), “as 
escolhas individuais estão no cerne da economia”. Ou ainda, como nos ensina Marshall 
(1996, p. 77), “Economia Política ou Economia é um estudo da Humanidade nas 
atividades correntes da vida; examina a ação individual e social em seus aspectos mais 
estreitamente ligados à obtenção e ao uso dos elementos materiais do bem-estar”.
Isso nos traz grandes desafios. Como medimos essas relações? Como 
sabemos em que grau as trocas ocorrem? As escolhas, feitas por um indivíduo, 
afetam a decisão de outros? Caso a resposta seja positiva, em que medida? De que 
maneira podemos descrever essas relações e mensurá-las?
Uma importante ferramenta de análise é a economia matemática. Com 
ela podemos formular melhor a economia, ou seja, traduzir aquelas palavras que 
usamos para descrever certas relações através de equações. Por exemplo, sabemos 
que a demanda de um determinado bem, de maneira bem simplificada, pode ser 
expressa em função do seu preço, como:
5
TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
5
Em que:
Qd é a quantidade demandada (unidades, quilos, metros etc.), e
P é o preço desse bem.
Nessa relação, esperamos que se o preço for muito alto, as pessoas 
demandem menos unidades do que quando o preço for menor. Exceções a esta 
regra podem ser vistas na microeconomia, mas, como um bom estudante de 
economia, deixaremos para você verificar!
A equação anterior não nos conta a história toda. Para avançarmos em nossa 
análise, precisaremos coletar informações na quantidade e qualidade suficientes, 
e assim teremos condições de averiguar se o comportamento descrito condiz com 
a realidade prática. Na ciência econômica, nós usamos técnicas estatísticas para 
resolver esses problemas econômicos, formulados pela matemática, de forma 
empírica (HOFFMANN, 2002, p. 2). 
E quanto à econometria? Onde ela se encaixa nessa história toda? Se você 
juntar a teoria econômica com a economia matemática e a estatística econômica, 
você terá aquilo que chamamos de econometria. Ela nada mais é do que a junção, 
ou a soma, ou ainda, como diz Gujarati e Porter (2011, p. 26), “[...] econometria é 
um amálgama de teoria econômica, economia matemática, estatística econômica 
e estatística matemática”.
A palavra econometria foi utilizada pela primeira vez em 1933, quando 
saiu a edição de número um da revista Econométrica. Sua definição formal está 
no documento de constituição da Econometric Society, que em uma tradução livre 
diz que é uma sociedade internacional para o avanço da teoria econômica e sua 
relação com a estatística e a matemática (ROOS, 1933, p. 106). 
Desde o seu início, a econometria vem evoluindo dia após dia. Atualmente 
não podemos entender essa disciplina ou ramo da ciência econômica apenas 
analisando os seus aspectos matemáticos. Da mesma forma, apesar de toda 
a sua força e utilidade, a estatística é uma ferramenta empregada no processo 
econométrico, mas não se pode confundi-las como sendo a mesma coisa. Além 
disso, aquilo que entendemos como teoria econômica é ponto de partida para a 
econometria, dando sentido a sua análise, mas não é a econometria em si.
Fica claro que a junção dessas três áreas críticas torna a econometria 
uma ferramenta poderosa para os economistas desenvolverem o seu trabalho 
com qualidade e assertividade. Porém, há um elemento-chave no processo 
econométrico que não pode ser desprezado, a tecnologia, que vem dando um 
impulso sem precedentes ao desenvolvimento tanto da econometria teórica 
quanto da econometria aplicada.
6
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
6
Você consegue imaginar os economistas, nos anos 1930, fazendo análises 
estatísticas, coletando dados, tabulando e extraindo conclusões, sem um 
microcomputador? Nós que estamos acostumados ao uso dos meios eletrônicos 
temos dificuldade para imaginar um mundo assim.Pense em um matemático 
calculando derivadas, usando logaritmos, ou obtendo ângulos de figuras 
geométricas com o uso de tabelas específicas criadas para esse fim!
Apesar de ser possível fazer tudo isso, temos que compreender que a 
tecnologia tem um papel central em todas as áreas de estudo e pesquisa, e na 
econometria ela é indissociável. Como veremos adiante, temos programas de 
computador tradicionais, como o SAS ou o Eviews, que têm um custo significativo, 
porém, para quem os usa no campo da pesquisa, o seu retorno compensa o 
investimento. Por outro lado, graças ao GNU e ao Free Software Foundation, temos 
hoje uma série de opções que, além de serem gratuitas, são poderosas ferramentas 
e acessíveis a todos, inclusive a nós, que usaremos muita técnica e tecnologia ao 
longo deste curso.
Toda pesquisa começa por um problema, algo que intriga o pesquisador, 
que precisa de uma resposta. Assim, o objetivo principal da econometria é auxiliar 
o economista a responder aos seus problemas de pesquisa. Em uma investigação 
sobre um determinado evento ou fenômeno, nos deparamos com uma série de 
questões, que muitas vezes começam com a palavra “quanto?”. 
Esses problemas de pesquisa, ou essas questões que precisam ser 
resolvidas, encontram abrigo nas chamadas hipóteses ou pressupostos, que nada 
mais são que respostas prévias às perguntas formuladas anteriormente, as quais 
precisam ser medidas e testadas. Precisamos nos assegurar de que aquilo que 
entendemos como verdadeiro realmente é verdadeiro. Não basta afirmar, tem 
que comprovar!
São exemplos de perguntas, ou problemas, com que nos deparamos em 
nossas pesquisas e para as quais a econometria é nossa grande aliada:
I- Quanto irá variar o consumo se houver um aumento real no salário mínimo?
II- Quantos carros serão vendidos se o IPI for reduzido a zero?
III- Quanto uma mudança em uma determinada variável afeta a outra?
IV- Haverá alguma variação no PIB caso o COPOM decida reduzir a meta da 
SELIC?
V- Qual deve ser o nível de inadimplência caso o país passe por um período de 
recessão?
VI- É possível determinar se houve discricionariedade na condução da política 
monetária por parte do Banco Central entre dois governos distintos?
A resposta a essas e muitas outras questões que surgem durante um 
trabalho de pesquisa é obtida através do emprego de certas técnicas, dentre as 
quais, no caso da ciência econômica, a econometria é, sem sombra de dúvidas, a 
peça-chave.
7
TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
7
A seguir, veremos os passos que envolvem o processo econométrico 
através de um exemplo clássico, a teoria keynesiana do consumo. Veremos que 
existe uma sequência lógica que precisa ser respeitada para se obter resultados que 
sejam coerentes com a realidade. Ao longo de todo este livro desenvolveremos e 
refinaremos as técnicas apresentadas nesta primeira unidade, e com o tempo nos 
prepararemos para aprender modelos ainda mais robustos e cujas aplicações estão 
em linha com o que se vem empregando no mundo acadêmico e dos negócios.
3 O MÉTODO ECONOMÉTRICO
Grande parte dos livros de econometria descreve o método econométrico 
com um exemplo prático. Não faremos diferente, até mesmo porque é preciso 
que você já comece a se familiarizar com o método e a visualizar as opções para 
aplicar essas poderosas ferramentas na sua vida acadêmica e profissional. O 
exemplo clássico que usaremos é a função consumo keynesiana, que nos dá algo 
a ser investigado ou medido, a propensão marginal a consumir. 
Utilizando a sequência proposta por Gujarati e Porter (2011), Greene 
(2012) e Wooldridge (2016), vamos ver o que Keynes (1996, p. 118) falou sobre a 
relação consumo versus renda:
A lei psicológica fundamental em que podemos basear-nos com inteira 
confiança, tanto a priori, partindo do nosso conhecimento da natureza 
humana, como a partir dos detalhes dos ensinamentos da experiência, 
consiste em que os homens estão dispostos, de modo geral e em média, 
a aumentar o seu consumo à medida que a sua renda cresce, embora 
não em quantia igual ao aumento de sua renda.
Toda pesquisa começa com algo que desperte a atenção do pesquisador e 
que lhe suscite perguntas. Por exemplo, no excerto da obra de Keynes citada, seria 
interessante considerar a possibilidade de se medir essa proporção do aumento 
na renda repassada ao consumo das famílias. O nosso problema de pesquisa 
já está bem claro e delineado, mas essa é apenas a primeira parte do processo 
econométrico e ainda está na fase da teoria econômica. 
Agora usaremos a matemática e a estatística como auxiliares no 
desenvolvimento da nossa pesquisa, e depois, quando tudo estiver bem claro, a 
tecnologia será o nosso “workhorse”, ou numa tradução livre, nosso “cavalo de 
batalha” nessa grande empreitada, e que nos conduzirá, de alguma forma, à vitória.
Usando a matemática para refinar nossa intuição, devemos nomear as 
variáveis e estabelecer as relações em uma forma funcional que seja capaz de 
resumir a hipótese a ser testada. O formato dessa função matemática pode 
ter como fonte a própria teoria subjacente, porém, no nosso caso específico, a 
exposição de Keynes não nos dá uma pista sobre qual seria a relação funcional 
existente entre consumo e renda. 
8
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
8
Por simplificação, podemos supor que exista uma relação linear. Como 
veremos mais adiante, a linearidade é essencial para as análises que serão 
propostas e torna o nosso trabalho mais fácil. Por enquanto, vamos propor que a 
relação tenha a seguinte forma:
A equação acima parece perfeita para aquilo que estamos propondo, 
porém teremos que testá-la na prática para ver se realmente serve para o nosso 
trabalho. Podemos supor que a propensão marginal a consumir, ou seja, quanto 
varia o consumo dada uma variação na renda, seja menor do que um. Leia 
novamente o excerto de Keynes e você verá isso bem claro. 
Se for verdade que apenas parte do aumento na renda é transferida para 
o consumo, podemos esperar que 0 < β2 < 1. 
Acho que você já deve ter percebido que a equação 1.2 é uma velha 
conhecida nossa. É a equação linear mais elementar, a qual costumamos escrever 
nas aulas de matemática com o formato Y = a + bX, em que a é o intercepto, ou o 
ponto onde a reta formada pela equação toca o eixo vertical do plano cartesiano e 
b é o coeficiente angular, ou, a inclinação dessa reta.
O problema de se usar a equação 1.2 é que ela estabelece uma relação 
exata entre duas variáveis. Na vida real sabemos que isso nem sempre acontece 
de fato. Você é capaz de imaginar uma gama de outras coisas que podem afetar o 
consumo? Uma delas é o consumo no período anterior. Se você faz uma compra 
grande no início do mês e não consome tudo o que comprou, o que sobra diminui 
a quantidade adquirida na próxima compra.
Alguns fatores são puramente subjetivos, outros são bem objetivos e 
quantificáveis, mas no geral todos são capazes de influenciar o consumo, o que 
nos faz concluir que na prática a relação entre consumo e renda não é exata ou 
determinística como em 1.2.
Portanto, precisamos de uma variável que seja capaz de capturar a 
influência de todas essas variáveis, as quais de alguma forma afetam o consumo, 
mas que estamos deixando de fora dessa equação matemática por razões que ainda 
estudaremos neste livro. Chamaremos essa variável de termo de perturbação 
estocástica e representaremos pela letra u. 
Chamamos de perturbação porque ela é capaz de perturbar o 
comportamento da nossa variável consumo e é dita estocástica porque não segue 
um comportamento previsível, é totalmente aleatório, porém, como veremos 
mais adiante, com distribuições de probabilidade conhecidas.
1.2Consumo = β1 + β2 Renda
9
TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
9
Vamos alterar o modelo 1.2 incluindo esse termo estocástico, o que fará 
com que ele se torne um modelo econométrico:
1.3Consumo = β1 + β2 Consumo + u
Temos uma teoria para ser testada, temos o modelo econométricoque derivou 
de uma função matemática, agora podemos obter os dados e empregar a estatística 
para prepará-los para a estimação ou solução de 1.3. Existem diversas fontes de 
dados, o que você precisa ter em mente é que nem sempre eles são confiáveis, por 
isso precisam de uma análise criteriosa, porque, em algum momento, alguém irá 
ler o resultado da nossa pesquisa e poderá se basear nela para implementar alguma 
política governamental, por exemplo. Por este motivo é importante que você se 
habitue a ser muito cuidadoso e crítico em tudo o que você faz.
Como o excerto da teoria keynesiana não define claramente as variáveis, 
empregaremos uma aproximação, uma “proxy” para cada variável. Veremos 
ao longo do livro que a correta definição das variáveis que entram no modelo 
econométrico é muito importante, pois mitiga o risco de especificarmos um 
modelo de forma incorreta, ou, como é chamado, viés de especificação.
Depois de coletar os dados e montar a nossa base, entra em ação um 
aliado importantíssimo do econometrista, a tecnologia. Estimaremos o modelo 
econométrico, ou seja, resolver a equação 1.3, com o emprego dos dados coletados, 
empregando um software econométrico. Como dissemos anteriormente, hoje em 
dia há uma variedade grande deles à disposição no mercado. Alguns são pagos 
e outros até gratuitos. Greene (2012) relaciona os seguintes programas e seus 
respectivos endereços na internet, os quais reproduzimos no quadro a seguir:
QUADRO 1 – RELAÇÃO DE ALGUNS SOFTWARES ECONOMÉTRICOS DISPONÍVEIS NO MERCADO
Software Endereço eletrônico Fornecedor/desenvolvedor
EViews <www.eviews.com> QMS, Irvine, CA
Gauss <www.aptech.com> Aptech Systems, Kent, WA
LIMDEP <www.limdep.com> Econometric Software, Plainview, NY
MATLAB <www.mathworks.com> Mathworks, Natick, MA
NLOGIT <www.nlogit.com> Econometric Software, Plainview, NY
R <www.r-project.org> The R Project for Statistical Computing
RATS <www.estima.com> Estima, Evanston, IL
SAS <www.sas.com> SAS, Cary, NC
Shazam <www.econometrics.com> Northwest Econometrics Ltd., Gibsons, Canada
Stata <www.stata.com> Stata, College Station, TX
TSP <www.tspintl.com> TSP International, Stanford, CA
FONTE: Greene (2012, p. 37)
10
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
10
Da listagem fornecida por Greene (2012), é comum as grandes empresas, os 
centros de pesquisa de universidades, os profissionais do mercado financeiro, entre 
outros, escolherem dois ou até mais deles para suas atividades diárias. Todos eles são 
muito bons, mas não há um programa que faça exatamente tudo o que precisamos.
Muitas vezes, o programa tem rotinas prontas que resolvem o nosso 
problema com alguns cliques do mouse. Mas, em aplicações mais avançadas, 
precisamos dominar a linguagem que está por trás do programa e escrever as 
linhas, as rotinas ou o algoritmo que será empregado. Evidentemente que no 
nosso livro de estudos não faremos algo assim tão avançado, até mesmo porque 
isso fugiria do escopo do que está sendo proposto nesse material. Porém, fica 
como advertência que, agora que você está entrando nesse mundo fantástico da 
econometria, mais cedo ou mais tarde você sentirá a necessidade e o desejo de 
avançar ainda mais nos seus estudos e buscar esse conhecimento.
Vamos deixar você escolher o programa que melhor se adapte ao seu gosto, 
ao seu bolso, e ao domínio que você tem da língua inglesa, caso queira pagar pela 
licença de uso de um deles. Ao longo de todo o curso de Econometria I, usaremos 
o Gretl, que não foi relacionado por Greene (2012) e, portanto, não está na listagem.
Gretl é a abreviatura ou acrônimo de Gnu Regression, Econometrics and 
Time-series Library. É um software livre e de código aberto, feito para análise 
estatística e econométrica de dados. Trata-se de uma importante ferramenta a 
serviço dos econometristas, especialmente dos graduandos!
Ele traz como vantagens o fato de ser totalmente gratuito, possuir interface 
em diversas línguas, inclusive o português, e ser multiplataforma, o que permite 
que seja instalado praticamente em todos os computadores vendidos atualmente.
Para obter uma cópia deste programa você deve ir até <http://gretl.
sourceforge.net/pt.html>, clicar na opção “Download” e selecionar o arquivo de 
instalação de acordo com o seu sistema operacional. Como usamos o Windows 
10, da Microsoft, as telas apresentadas a seguir foram produzidas a partir deste 
sistema operacional.
Os procedimentos de instalação são intuitivos e os manuais disponíveis no site 
o ajudarão nessa tarefa, caso tenha alguma dificuldade. Mesmo assim, sugerimos que você 
leia o material produzido por Carlos Henrique Coelho de Andrade, da UFRGS. Ele elaborou um 
manual introdutório ao Gretl, com o “objetivo [de] apresentar, de forma simplificada, algumas das 
funcionalidades presentes no Gretl de forma a auxiliar seu aprendizado tanto por aqueles que nunca 
utilizaram pacotes econométricos quanto aqueles que já possuem certa experiência com esse tipo 
de programa” (ANDRADE, 2013, p. 2). Esse manual está disponível para ser baixado em <https://www.
ufrgs.br/ppge/wp-content/themes/PPGE/page/textos-para-discussao/pcientifica/2013_12.pdf>.
DICAS
11
TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
11
Após estimar a regressão dada pela equação 1.3, fazemos uma série de 
verificações a fim de garantir que o modelo tenha a especificação adequada e os 
resultados sejam consistentes. Com o modelo devidamente validado, fazemos os 
testes de hipótese, as inferências estatísticas ou usamos o modelo para fins de 
previsão econômica. Se concluirmos que o modelo não é adequado, reiniciamos 
todo o trabalho, alterando a definição das variáveis, coletando mais dados, 
modificando a estrutura deles ou até mesmo redefinindo a forma funcional do 
modelo de regressão, como veremos na prática ao longo dos nossos estudos.
O nascimento da econometria e sua contribuição para a sociedade
Samy Dana
Lousas rabiscadas de equações matemáticas, barulhos de calculadoras e cheiro 
de giz permeiam o ambiente. Para quem não frequenta as aulas de econometria, tal 
cenário pode parecer uma bolha matemática muito distante da realidade. Engana-se 
quem pensa assim. Um dos maiores interesses de um economista é ver se o que foi 
proposto pela teoria se aplica na realidade. Isso, porém, sempre representou um dos 
maiores desafios da Economia. Diferentemente das ciências naturais, o economista 
raramente consegue realizar experimentos controlados, por isso os dados coletados 
em Economia são resultados de muitas relações de interdependência, o que torna 
difícil inferir relações de causa e consequência. Para tentar resolver este problema foi 
desenvolvida a Econometria: braço da Economia responsável por, justamente, estimar 
e testar as relações apresentadas pelos modelos teóricos usando dados da realidade. 
Até a metade do século passado faltava aos pesquisadores um sistema 
comum para formular, analisar e resolver os problemas de teste e estimação. 
Por causa disso, grandes economistas, como John Keynes, rejeitavam o uso 
dos métodos adotados, pois acreditava que isso limitava muito a extensão da 
teoria para o mundo real. Nesse cenário limitado, surge o trabalho de Trygve 
Haavelmo. O economista foi responsável por introduzir de forma consistente o 
uso dos métodos probabilísticos no campo da Econometria e, por consequência, 
por uma grande evolução na Ciência Econômica.
Haavelmo nasceu em Oslo, na Noruega, em 1911. Graduou-se em 
economia pela Universidade de Oslo no ano de 1933. Entrou no Instituto de 
Economia como assistente de Ragnar Frisch, grande econometrista da época e 
laureado com o Nobel em Ciências Econômicas anos depois. O economista também 
estudou estatística no University College London. Em 1941, recebeu o título de 
Ph.D. pelo trabalho “The Probability Approach in Econometrics” (Abordagem 
Probabilística em Econometria, tradução livre), sendo essa a base que, seguida 
por outros de seus trabalhos, serviu para mostrar de forma convincente que o uso 
de probabilidadena formulação e teste das teorias econômicas poderia resolver 
grande parte dos problemas enfrentados pela Econometria da época. 
LEITURA COMPLEMENTAR
12
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
12
O uso da abordagem probabilística é tão importante porque permite a 
aplicação de métodos de inferência capazes de apontar conclusões confiáveis 
sobre as relações previstas pela teoria. De maneira mais simples, a abordagem 
probabilística possibilita que, com dados da realidade, o pesquisador diga algo 
confiável sobre o todo, algo previsto pela teoria e confirmado pelas evidências 
práticas. Por exemplo, pode-se pegar os dados sobre programas do governo e 
entender se eles funcionam de acordo com o que foi planejado, desse modo há 
possibilidade de aperfeiçoamento do programa. 
Ao mostrar a necessidade do uso da teoria de probabilidade, ele também 
provou a sensatez por trás do novo método. Afinal, acreditar que é possível 
prever tudo sem incorrer em erros no cenário econômico complexo enfrentado 
pelos economistas seria absurdo. O ponto forte da probabilidade é o fato de ela 
ter erros e imprecisões, mas ser viável medir os erros e trabalhar para minimizar 
as imprecisões. 
O norueguês também contribui para a análise de problemas com 
interdependência nas relações econômicas. Basicamente, o problema é que um 
acontecimento econômico, como aumento de preço da gasolina, impacta muitos 
outros preços de várias formas. A gasolina mais cara aumenta o custo da entrega 
de pizza, mas a pizza ficou mais cara também porque a entrega da farinha ficou 
mais custosa. Por isso, é difícil entender o resultado pontual do preço da gasolina. 
Haavelmo explicou que se fosse utilizado um conjunto de relações autônomas, 
algo como relações entre custo da farinha e da pizza, custo da entrega e da pizza, 
e assim por diante, seriam explicadas de uma forma melhor. 
É do interesse do governo e das instituições que atuam na economia 
entender a inflação - como os preços vão aumentar -, a fim de fazer um 
planejamento mais adequado para o futuro. Imagine o seguinte exemplo: uma 
indústria está interessada em comprar uma máquina que custa R$ 1 milhão. Para 
isso, ela precisa saber qual será o melhor momento para efetuar a compra da 
máquina. Se em um ano a máquina custar R$ 1,1 milhão (inflação de 10%) e em 
dois anos a mesma máquina custar R$ 1,5 milhão (inflação de 50%), a empresa 
optará por efetuar a compra em um ano, pois pagará por um preço menor se tiver 
caixa. E a empresa só conseguirá tomar a melhor decisão se conseguir projetar 
bem a inflação. Antes de Haavelmo, isso não seria possível, já que os economistas 
não acreditavam na possibilidade de prever esses dados, afinal, não existia um 
processo preciso e bem estruturado. Depois de seus trabalhos, tais previsões são 
realizadas com grande frequência. São elas que permitem um melhor processo de 
decisão pelas empresas e pelo governo. 
Graças a Trygve Haavelmo, o giz que rabisca as equações na lousa das 
aulas de econometria se tornou capaz de desenhar soluções para problemas reais 
da sociedade.
FONTE: <http://g1.globo.com/economia/blog/samy-dana/post/o-nascimento-da-econometria-e-
sua-contribuicao-para-sociedade.html>. Acesso em: 25 ago. 2018.
13
Neste tópico, você aprendeu que:
• A econometria utiliza a teoria econômica, a matemática, a estatística e a 
computação para, de forma empírica, testar teorias, formular e avaliar políticas 
econômicas e auxiliar as empresas na tomada de decisão.
• O método econométrico segue alguns passos, a saber: a identificação de um 
problema de pesquisa, ou hipótese a ser testada, o refinamento com o uso da 
matemática, a especificação das variáveis, coleta e o tratamento adequado dos 
dados com o auxílio da estatística, a estimação dos parâmetros do modelo 
econométrico com o uso de um software e a análise dos resultados.
• Neste livro de estudos usamos o Gretl, que é um software livre de código 
aberto, muito útil por ter uma interface amigável, em língua portuguesa e de 
utilização intuitiva.
RESUMO DO TÓPICO 1
14
Para fechar este tópico, queremos propor uma atividade para você. 
Como você está iniciando na econometria, vamos começar com calma, sem 
preocupação com o acertar, mas queremos que você se esforce para fazer o 
melhor possível. Ao longo do livro você aprenderá uma série de técnicas que 
lhe permitirá voltar a esse exercício no momento que desejar e testar cada uma 
das ferramentas econométricas que aprender.
Questão única – Com base no conhecimento que você adquiriu até agora ao 
longo do curso de Ciências Econômicas, procure lembrar de alguma teoria ou 
de algum aspecto que lhe chamou atenção e tente, a partir disso, elaborar um 
problema de pesquisa. Ao elaborar o problema, tente propor uma resposta para 
ele, mas não se preocupe se estiver certo ou errado, apenas faça a proposição 
de forma que você consiga identificar uma relação entre duas variáveis apenas. 
Procure defini-las adequadamente e baixe os dados da internet, salvando em 
uma planilha eletrônica que você consiga manipular. Com os dados em mãos, 
monte um gráfico de dispersão, colocando no eixo y a variável que você entende 
que depende da outra variável, a qual você colocará no eixo x. Olhando para 
esse gráfico e tendo em mente o que você já sabe sobre economia, procure 
analisar a sua hipótese e diga se é capaz de confirmá-la ou se terá que refutá-la. 
A que conclusões gerais você chegou com esse exercício? Procure escrever isso 
na forma de relatório, e na medida do possível, limite o conteúdo de forma a 
caber em apenas uma página.
AUTOATIVIDADEAUTOATIVIDADE
15
TÓPICO 2
MODELO DE REGRESSÃO LINEAR GERAL
UNIDADE 1
1 INTRODUÇÃO
Neste tópico, aprenderemos os conceitos básicos da econometria, os quais 
nos acompanharão enquanto estivermos estudando ou trabalhando na área 
econômica. São conceitos universais essenciais para compreender o funcionamento 
e a importância da econometria e sua aplicação prática. Por isso, vamos começar 
devagar, apresentando a análise de regressão, o modelo de regressão linear simples 
para finalmente entrarmos no método dos mínimos quadrados ordinários. 
Antes de vermos cada um desses pontos, devemos nos lembrar de que 
a ciência econômica é repleta de teorias, as quais são sintetizadas em modelos 
econômicos, sendo eles mais ou menos complexos, dependendo da sua 
aplicabilidade. Mas o que é um modelo, afinal de contas? É o que veremos a 
partir de agora.
2 A MODELAGEM ECONÔMICA E A ORIGEM DOS DADOS 
ECONOMÉTRICOS
Como bem define Maddala (2003, p. 3), “um modelo é uma representação 
simplificada do mundo real.” A ideia de simplificar as relações torna mais fácil 
compreender o resultado das interações. Por exemplo, se estamos interessados 
em entender o motivo pelo qual o Comitê de Política Monetária do Banco Central 
(COPOM) altera a meta para a taxa básica de juros, podemos começar nossa 
análise dizendo que a sua decisão está baseada na expectativa que os agentes 
econômicos têm sobre o comportamento futuro dos preços.
O problema é que estimar uma função resposta do Banco Central com 
base apenas no comportamento dos preços torna esse nosso modelo simplista 
demais. Para resolver essa questão poderíamos supor que, mantendo inalteradas 
todas as demais variáveis que afetam a decisão do Bacen, a taxa básica de juros 
da economia brasileira será alterada de acordo com as mudanças nas expectativas 
em relação à inflação futura. Assim, aplicando a condição ceteris paribus, ou seja, 
fixando as demais variáveis, podemos nos concentrar naquilo que realmente nos 
interessa, que é compreender quanto de aumento ou diminuição nos juros nós 
teremos quando a inflação aumenta ou diminui.
UNIDADE 2
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
16
Poderíamos imaginar também que a safra agrícola brasileira dependerá, 
dentre outros fatores, da quantidade de fertilizantes utilizados nas lavouras. Claro 
que a maioria de nós gosta de consumir produtos naturais, ou seja, sem aadição 
de elementos químicos para alterar sua composição e assim produzir além do que 
produziria em um processo natural. Quando elaboramos um modelo capaz de 
explicar a safra agrícola, usando como explicação a quantidade de fertilizantes, 
estamos estabelecendo uma relação ceteris paribus para as demais variáveis que, 
de alguma forma, impactam na safra. 
Como estudante de economia, você já deve ter feito o exercício de tentar 
enxergar todas as variáveis que afetam ou explicam um determinado fenômeno. 
No caso da safra agrícola, podemos pensar na quantidade de chuva durante o ano, 
medida em milímetros cúbicos, até mesmo na quantidade de sol, pensando em 
horas de luz por dia, no fato de a acidez do solo ter sido corrigida ou não, no método 
de plantio e até mesmo na época do ano em que o agricultor começou a plantação.
E no caso do Banco Central, você consegue enumerar quais são as variáveis 
que afetam a decisão do COPOM ao tomar sua decisão em relação a elevar, manter ou 
reduzir a taxa básica de juros? 
Sugerimos que você dê uma lida na ata da última reunião do COPOM, disponível 
em <https://www.bcb.gov.br/?ATACOPOM>, e veja tudo o que é analisado pelo comitê para 
se chegar a um consenso sobre a decisão a ser tomada. Você perceberá que eles falam 
em cenários, e esses cenários são definidos com o uso de modelos econométricos que 
estudaremos na disciplina de Econometria II.
O Bacen usa modelos complexos, mas a ideia de impor restrições ao modelo 
ajuda a torná-lo simples, porém alguns pressupostos podem ser tão restritivos 
que os tornam irrealistas. Por isso, podemos começar com um modelo simples e 
ir adicionando outras variáveis até termos certeza de que temos o suficiente para 
representarmos a realidade (MADDALA, 2003, p. 4).
Uma forma de construir modelos é começando com uma proposição como 
aquela de Keynes sobre o consumo e a renda, apresentada no Tópico 1. Podemos 
falar em comportamento conjunto, dizer que uma variável provoca alterações 
em outra, ou é causada por outra, ou ainda varia em função de outra variável 
(GREENE, 2012, p. 51). 
Costumamos definir a variável que provoca as alterações como “explicativa” 
enquanto a que sofre a mudança é a “explicada”. O termo “explicativa”, em 
econometria, é sinônimo de explanatória, independente, exógena, previsor ou 
DICAS
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
17
regressor. Por outro lado, “explicada” é sinônimo de dependente, alvo, endógena, 
de efeito, variável de controle ou regressando.
As variáveis são construídas a partir de dados coletados geralmente na 
internet, em sites oficiais do governo ou de entidades privadas e de pesquisa 
onde as informações são divulgadas, tais como IBGE, Banco Central, IPEADATA, 
FMI, CNI, entre outros. Eles também podem ser coletados por meio de pesquisa 
de campo, ou seja, monta-se um questionário e o pesquisador vai a campo para 
aplicar e, posteriormente, tabular as informações coletadas. 
Há ainda outras formas de se obter os dados, tais como em experimentos 
controlados em laboratório, o que dificilmente conseguiremos fazer em economia, 
porém é comum em outras áreas da ciência, como a Biologia, a Física, ou até 
mesmo em fábricas, quando querem testar algo novo. Esses dados podem ser de 
três tipos: séries temporais, dados de corte e painel de dados.
Um conjunto de dados é dito de séries temporais quando temos mudanças 
ao longo do tempo. Nós os representamos nos nossos modelos pelo subscrito 
“t”, por exemplo, Yt. Dessa forma, quando falamos na inflação anual do período 
compreendido entre 1994 e 2016, estamos relacionando o acumulado de cada ano 
em uma sequência. Da mesma forma, a variação percentual trimestral do Produto 
Interno Bruto ao longo do ano de 2016 também representa uma série temporal. 
Esses dados podem ser coletados com frequência intradiária (séries financeiras 
como preço de ações, câmbio etc.), diária, mensal, bimestral, trimestral, semestral, 
anual e assim por diante.
Dizemos que esse conjunto de dados faz parte da Macroeconometria, 
porque está relacionado a temas estudados na Macroeconomia, tais como:
a) Qual o efeito causado por mudanças na taxa básica de juros da economia 
brasileira sobre a inflação? Quando esse efeito começa e por quanto tempo ele 
dura?
b) Longos períodos de recessão costumam ter como custo social altas taxas de 
desemprego. Quais os efeitos da baixa produção e do desemprego sobre o 
nível de preços da economia?
Os dados de corte são aqueles obtidos em um determinado momento no 
tempo e representamos com o subscrito “i”, por exemplo, Yi. Esse subscrito indica 
que estamos tratando de indivíduos, que podem ser pessoas, estados, países, 
firmas etc. 
Ao longo da série de dados não há alterações temporais. Esses dados 
de corte são objeto de estudo da Microeconometria e nos ajudam a responder 
questões, como:
a) Qual a relação entre gastos de campanha e número de votos na eleição 
presidencial de 2014?
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
18
b) A quantidade de alunos em sala de aula, na rede pública de ensino em 2017, é 
capaz de explicar o seu desempenho no ENEM?
c) Profissionais com menos idade, mas com o domínio de mais idiomas 
estrangeiros ganham mais do que profissionais mais velhos que dominam 
apenas um idioma estrangeiro?
Finalmente, o painel de dados, que também está relacionado à 
Microeconometria, junta tanto os dados de séries temporais quanto os dados de 
corte e suas séries são representadas pelos subscritos “i” e “t”, como em Yit. Isso 
significa que estamos nos referindo ao indivíduo “i” no período “t”. Em termos 
práticos, falamos na arrecadação tributária dos estados do Paraná (“i”) em 2014 
(“t”), 2015 e 2016, estado de Santa Catarina em 2014, 2015 e 2016 e Rio Grande do 
Sul em 2014, 2015 e 2016. Aqui os indivíduos “i” são os estados, enquanto o período 
“t” são os anos de 2014 até 2016.
A tabela a seguir apresenta um exemplo de painel de dados. Como você 
pode perceber, nesse caso nós empilhamos as informações individuais ao longo 
do tempo, a fim de construir a base de dados e conseguir estimar os modelos 
econométricos:
TABELA 1 – PAINEL DE DADOS
Observação Ano País PIB(bilhões de US$) Desemprego (%)
Inflação
(% ao ano)
1 2013 Argentina 716,419 7,2 9,77
2 2014 Argentina 743,121 7,2 10,04
3 2015 Argentina 777,945 7,3 10,62
4 2013 Bolívia 50,904 5,8 9,88
5 2014 Bolívia 55,229 5,4 4,52
6 2015 Bolívia 59,195 3,2 5,73
7 2013 Brasil 2.294,243 6,0 6,64
8 2014 Brasil 2.355,586 5,5 5,40
9 2015 Brasil 2.423,306 6,6 6,20
10 2013 Chile 299,632 6,1 3,34
11 2014 Chile 320,54 6,4 3,00
12 2015 Chile 334,76 5,9 1,79
13 2013 Colômbia 471,964 10,9 3,42
14 2014 Colômbia 502,874 10,4 3,17
15 2015 Colômbia 527,565 10,5 2,02
FONTE: <www.imf.org>. Acesso em: 26 ago. 2018.
Empregamos painel de dados quando o número de dados de corte e de 
séries de tempo são insuficientes para fazermos o nosso estudo com qualidade. 
Com eles, podemos responder a perguntas do tipo:
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
19
3 ANÁLISE DE REGRESSÃO
Em 1886, Francis Galton publicou um artigo em que estudou as 
semelhanças familiares em estatura, explicando que a estatura média familiar 
gradualmente diminui ou regride à altura média da população como um todo 
(GALTON, 1886, p. 42). Isso ficou conhecido como regressão à mediocridade. 
A ideia por trás dessa expressão é bem simples e se resume a algumas 
questões que Galton (1886) tentou responder:
1. Por que filhos de pais altos tendem a ser altos também, mas não tão altos quanto 
seus pais?
2. Por que filhos de pais baixos tendem a ser baixos também, mas não tão baixos 
quanto seus pais?
3. Por que pais de filhos altos tendem a ser altos, mas não tão altos quanto os seus 
filhos? 
4. Por que pais de filhos baixos tendem a ser baixos, mas não tão baixos quanto 
os seus filhos?
Essas questões levantadas por Galton e que deram origem à expressão 
“regressão à mediocridade”, também podem ser observadas em outras áreas. Por 
que um atleta de alto nível temum bom desempenho em uma temporada, mas na 
temporada seguinte seu rendimento cai? Por que um time de futebol brasileiro, 
ao disputar a final do mundial de clubes no fim da temporada, não tem o mesmo 
desempenho físico do início do ano?
Essa ideia de regressão é a que está na origem do termo que usamos hoje 
em dia, porém com um significado um pouco diferente. De um ponto de vista 
mais moderno, Maddala (2003, p. 32) diz que a “análise de regressão refere-se à 
descrição e à quantificação da relação entre uma dada variável (em geral chamada 
de variável explicada ou dependente) e uma outra ou mais outras variáveis (em 
geral chamadas de variáveis explicativas ou independentes)”.
a) Como o estoque de capital das cinquenta maiores empresas do Brasil 
impactaram nos seus investimentos brutos nos últimos três anos?
b) De que forma a estrutura de mercado impacta na decisão de inovar das 
indústrias brasileiras?
c) Qual o impacto dos grandes eventos esportivos (olimpíadas e copa do mundo), 
sobre o crescimento econômico dos países sede, após a crise de 2008? 
O termo regressão e o significado de análise de regressão são assuntos a 
serem discutidos com mais detalhe na sequência. Ao desenvolvermos o modelo 
de regressão linear geral, iniciaremos a parte técnica dos nossos estudos, o que irá 
demandar bastante atenção de sua parte. Sugerimos que você leia mais de uma 
vez o conteúdo e faça todas as aplicações práticas usando o software econométrico 
que você escolheu.
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
20
Geralmente denotamos por Yi a variável dependente e por Xi a variável 
explicativa e podemos, com o auxílio da matemática, formular essa relação da 
seguinte maneira:
Yi = f (Xi) 2.1
f (Xi) = b + mXi 2.2
Yi = b + mXi 2.3
Em que f (Xi) é uma função de Xi, que estabelece a relação existente entre 
a variável explicativa e a explicada, e assume qualquer formato. Ela pode ser 
um polinômio de segundo grau, ou de terceiro, pode ser uma função recíproca, 
logarítmica, enfim, terá o formato que se ajusta melhor aos dados coletados 
relativos às variáveis.
Como nem sempre sabemos qual a especificação exata da função 2.1, 
recorremos à teoria econômica que na maioria das vezes nos dá uma pista para 
seguirmos. Outras vezes recorremos aos próprios dados, plotando um gráfico 
de dispersão e observamos o formato da distribuição dos dados. Dependendo 
da figura formada ou do caminho seguido pelas informações, podemos chegar à 
conclusão sobre qual a melhor equação a ser usada.
No caso da função consumo keynesiana, podemos esperar que a relação 
entre consumo e renda se dê de forma linear. Assim, representamos a função da 
seguinte forma:
Substituindo 2.2 em 2.1, temos a expressão:
A função linear em 2.3 nada mais é do que um polinômio de grau 
zero. Ela tem como características uma variável dependente Yi, explicada por 
uma constante b, e um coeficiente angular m, que é multiplicado pela variável 
explicativa Xi. Note, também, que estamos supondo uma relação de causalidade 
direta, matemática ou determinística entre as variáveis Yi e Xi. 
Em 2.3, b geralmente não tem um significado econômico relevante. 
Algumas vezes até tem, mas isso veremos com o tempo ao longo desse livro. 
O que chama a atenção é que, quando o coeficiente angular m é igual a zero, Yi 
assume o valor de b. 
Por outro lado, m é de extrema importância e é nesse parâmetro que 
geralmente concentramos toda a nossa atenção. A leitura que fazemos dele é 
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
21
Yi = 85,6742 + 0,516Xi 2.4
Yi = b + mXi + ui
□ = 85,6742 + 0,516Xi ± 6
2.5
direta, ou seja, se Xi variar uma unidade, Yi irá variar exatamente m. Expresso de 
outra forma, podemos entender essa variação como ∆Yi/∆Xi = m.
Supondo que Yi, na equação 2.3, represente a altura dos filhos e Xi, a altura 
dos pais, ambos em centímetros, e suponha que a constante b e o coeficiente angular 
m assumam os seguintes valores:
Em 2.4, para um pai que tenha 180 cm de altura, podemos esperar que o 
filho tenha 178,55 cm (Y180 cm = 85,6742 + 0,516 x 180 = 178,55 cm). Porém, sabemos 
que essa relação de altura entre pais e filhos, na prática, não pode ser determinada 
com exatidão por nenhuma fórmula matemática, pois há outros fatores que podem 
afetar o crescimento. Por exemplo, há medicamentos específicos usados em 
determinados tratamentos médicos que prejudicam o crescimento, a quantidade 
de exercícios físicos, o tempo de exposição ao sol, a genética, entre outros, que 
influenciam diretamente no crescimento das crianças.
Se trabalharmos com o conceito de probabilidade, podemos melhorar nossa 
capacidade de prever a altura dos filhos. Vamos reescrever a equação 2.4 para incluir 
o termo comportamental u, que terá valor de ± 6 cm, com probabilidade de 50%:
Substituindo Xi por 180 cm, teremos Y180cm = 184,55 cm, com probabilidade 
de 50% e Y180cm = 172,55 cm com probabilidade de 50% (faça esse cálculo para 
confirmar). O problema dessa variável ui é que normalmente só conhecemos a 
sua distribuição de probabilidade. 
Podemos supor que ui tenha distribuição normal padrão, com média 
igual a zero e variância constante igual a 1. Se for este o caso, Yi, ou a altura dos 
filhos, poderá assumir qualquer valor e assim teremos que nos indagar sobre a 
relevância da equação 2.5 em termos práticos.
Se tivéssemos a nossa disposição os dados da altura de todos os pais do 
mundo inteiro, saberíamos que alguns pais com 185 cm de altura têm filhos com 
estatura ligeiramente acima dessa marca ou ligeiramente abaixo dela. Alguns até 
superam em muitos centímetros para mais ou para menos. Assim, a relevância da 
equação 2.5 é permitir que estimemos a altura média dos filhos de pais com 185 
cm de estatura, ou ainda, nos dar a ideia de quanto um filho deverá ter de altura, 
em média, se os pais tiverem altura em torno de Xi. Devemos ter em mente que o 
valor exato da altura dependerá de outros fatores e que geralmente teremos uma 
ótima estimativa, mas acertar o valor correto é outra história.
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
22
Essa é uma maneira de regredir à altura média da população, como 
definiu Galton (1886), e por isso chamamos a função 2.5 de Função de Regressão 
Populacional. O termo populacional é empregado porque estamos supondo que 
temos acesso a toda a população de dados. Imagine você medindo a altura de 
todos os pais e filhos de todos os 7,6 bilhões de pessoas que vivem no mundo. 
Obviamente é inviável, por isso na prática estimamos uma Função de Regressão 
Amostral e inferimos estatisticamente os resultados, a fim de tentar prever da 
melhor forma possível os verdadeiros b e m da população.
Ao tentar explicar a altura dos filhos a partir da altura dos pais, se fixarmos 
esta última variável em categorias e obtivermos amostras da primeira, poderemos 
ilustrar melhor esse comportamento, como fizemos no Gráfico 1 a seguir:
GRÁFICO 1 – DISPERSÃO DA ALTURA DOS FILHOS E DOS PAIS EM CM
200
195
190
185
180
175
170
165
160
160 165 170 175 180 185 190 195
A
lt
u
ra
 d
o
s 
fil
h
o
s 
e
m
 c
m
Altura dos pais em cm
FONTE: O autor
No eixo vertical está a nossa variável dependente, enquanto no eixo 
horizontal encontra-se a variável que a explica. Esse exemplo é hipotético e 
tem como objetivo apenas ilustrar e consolidar alguns conceitos importantes. 
Por exemplo, ao se fixar os dados da variável explicativa, pode-se obter 
diversas amostras da variável dependente e distribuir esses valores, criando as 
subpopulações amostrais.
Se tirarmos uma média dessas subpopulações amostrais e traçarmos 
uma reta ligando esses pontos médios, teremos aquilo que chamamos de reta 
de regressão ou curva de regressão. “Em termos geométricos, uma curva de 
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
23
regressão populacional é apenaso local geométrico das médias condicionais da 
variável dependente para os valores fixados da(s) variável(is) explanatória(s)” 
(GUJARATI; PORTER, 2011, p. 61). 
Isso deixa claro que essa reta conecta os valores médios condicionais 
E(Y|Xi) da variável dependente, e que essa média condicional aumenta conforme 
aumentam os valores da variável explicativa, demonstrando que há uma relação 
positiva entre as variáveis como haveria de se esperar.
Apenas para lembrar, o valor médio esperado “E” ou esperança 
matemática pode ser definida como:
1 1 2 2 1
n
n n i ii
...E(X) X P(X ) X P(X ) X P(X ) X P(X )
=
= + + + =Σ 2.6
Em que Xi é a observação i da variável X, P(Xi)é a função de 
probabilidade de X. Como exemplo, suponha que X = (3,5,7,9), assim, 
1 1 1 1E(X)=3 +5 +7 +9
4 4 4 4
       
       
       
, o que equivale a 41 14 6iiE(X) X== =Σ .
4 O MODELO DE REGRESSÃO LINEAR SIMPLES
Um modelo de regressão linear simples tem um formato parecido com a 
equação 2.5, em que uma variável Y é explicada em termos de outra variável, a 
qual representamos por X. Esse modelo é usado para responder questões acerca 
da população, porém como o acesso a toda a população é muito custoso em termos 
de tempo e recursos financeiros, via de regra procuramos obter uma estimativa 
dos parâmetros e a partir daí fazemos inferências sobre a população.
Vamos voltar à equação 2.5 para reescrevê-la da seguinte forma:
Yi = β1 + β2Xi + ui 2.7
A equação 2.7 é conhecida como modelo de regressão linear simples e 
vamos nos dedicar a entender melhor a sua funcionalidade. Como você pôde 
perceber, as variáveis dependente e explicativa são exatamente as mesmas usadas 
anteriormente, enquanto os coeficientes mudaram, para que possamos começar a 
usar a terminologia padrão ou universal da econometria.
Aqui queremos chamar a sua atenção para uma variável em especial, o 
termo de erro ou perturbação estocástica ui. Além de ela perturbar uma relação 
estável entre as demais variáveis, também tem papel central na análise de 
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
24
regressão. A sua função básica é representar todas as demais variáveis que de 
alguma forma possam afetar a variável dependente, mas que, por certas razões, 
não estamos considerando no estudo.
Por que precisamos incluir esse termo de erro na nossa equação? São 
diversos os motivos que nos levam a fazer isso. Um deles é o fato de que nem 
sempre conseguimos capturar todas as relações existentes com o modelo que 
escolhemos. Isso ocorre porque a teoria subjacente pode deixar algo em aberto, 
ou não ser precisa quanto às especificações.
Talvez até sejamos capazes de relacionar todas as variáveis que explicam 
um determinado fenômeno, mas obter os dados necessários para estudar essas 
relações nem sempre é possível. Outras vezes algumas das variáveis relacionadas 
não são relevantes ao ponto de serem utilizadas no estudo. Assim, capturamos o 
seu efeito através desse termo de erro estocástico.
Há ainda os erros de mensuração, uma vez que é mais fácil definir quais 
variáveis entram no modelo do que definir como são medidas ou obtidas. Um 
modelo que busca explicar o consumo das famílias em função da renda e da sua 
riqueza tornará difícil a tarefa de determinar ou medir a riqueza, que tem um 
caráter bem subjetivo e pouco preciso.
Assim, em 2.7 temos uma parte que é determinística, formada por β1 + 
β2Xi, e outra que é totalmente aleatória, ui, e usamos esse modelo para estimar os 
parâmetros desconhecidos, β1 e β2, e com base nesses resultados somos capazes 
até mesmo de fazer previsões sobre o comportamento esperado da nossa variável-
alvo: Yi.
Em geral, se ∆ui = 0, então ∆Yi = β2∆Xi, e com isso as mudanças na variável 
dependente são explicadas por β2 multiplicada pelas variações em Xi, ou seja, a 
inclinação da reta de regressão formada a partir da equação 2.7.
5 AS HIPÓTESES DO MODELO DE REGRESSÃO LINEAR
Os manuais de econometria apresentam um conjunto de hipóteses que 
explica como o modelo de regressão linear é capaz de capturar as relações entre 
as diversas variáveis que entram no modelo. Se o nosso objetivo é apenas calcular 
os parâmetros do modelo, ou seja, os βs em 2.7, basta coletar os dados e estimar 
aqueles parâmetros usando um bom software econométrico. Porém, se o nosso 
objetivo for ir além da estimativa pura, e sempre queremos ir além, precisaremos 
estabelecer algumas regras, ou hipóteses que carregaremos conosco enquanto 
estudarmos e aplicarmos na prática o método econométrico. 
A seguir, enumeramos essas hipóteses. Chamamos a sua atenção para 
o fato de usarmos o subscrito i, indicando que essa variável assume valores 
diferentes para cada indivíduo ao longo da sequência de dados.
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
25
a) Hipótese 1
O modelo de regressão especifica uma relação linear entre a variável 
dependente e a explicativa. Essa linearidade se dá nos parâmetros como em Yi = 
β1 + β2Xi + ui. 
Uma função é dita linear nas variáveis quando essas não são divididas 
por outras variáveis ou quando não são elevadas à potência diferente de 1. Neste 
caso, Yi = β1 + β2Xi2 + ui e 1 2
i
i i
i
X
Y u
Z
β β= + + são exemplos de modelos que não são 
lineares nas variáveis, porque elas são elevadas à potência diferente de 1, como 
no primeiro caso, ou são divididas por outra variável, como no segundo caso.
No entanto, esse tipo de função, que não é linear nas variáveis, não viola a 
hipótese 1 do modelo de regressão linear. Isso decorre do fato de que a linearidade 
que nos interessa é nos parâmetros. Com isso, modelos do tipo Yi = β1 + βi2Xi + ui ou 
do tipo 21
1
i i iY X u
β
β
β
= + + violam a hipótese 1, no sentido de que o parâmetro β2 
no primeiro exemplo é elevado à potência diferente de 1 e no segundo exemplo, 
ele é dividido pelo parâmetro 1.
Gujarati e Porter (2011, p. 63) resumem bem a relação entre linearidade 
nos parâmetros versus linearidade nas variáveis. Podemos ter um modelo de 
regressão que seja linear nos parâmetros, mas não necessariamente linear nas 
variáveis. Por outro lado, podemos ter um modelo de regressão que não seja 
linear nos parâmetros, e ele pode ser linear nas variáveis ou não. Em síntese, o 
que nos interessa são os modelos de regressão que são lineares nos parâmetros, 
e não nos importamos se são ou não lineares nas variáveis, pelo menos não neste 
momento. 
b) Hipótese 2 
A variável X é não estocástica e seus valores são fixos em amostras 
repetidas. Isso significa que conhecemos os valores de X, que não são gerados ao 
acaso.
Por exemplo, pais com 180 cm de altura geram filhos mais altos ou mais 
baixos do que eles. Para sabermos a probabilidade de os filhos serem maiores ou 
menores, tomamos várias amostras de filhos cujos pais têm a altura de 180 cm. 
Em outras palavras, repetimos a amostra várias vezes, mas condicionamos ou 
fixamos a altura dos pais para podermos coletar os dados. No entanto, apesar de 
fixarmos os valores nas amostras repetidas, os valores individuais de X devem 
variar, pois se cada valor de Xi for igual ao outro, a sua média X será igual aos 
Xi individuais, e com isso não conseguiremos calcular o coeficiente β2, como 
veremos adiante.
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
26
A reta de regressão é dada por E(Y|Xi) = β1 + β2Xi. Substituindo em 2.7, 
temos:
c) Hipótese 3
A média condicional do termo de erro é igual a zero. Em termos algébricos, 
estamos dizendo que E(ui|Xi) = 0. Podemos ilustrar essa hipótese por meio da 
figura a seguir:
FIGURA 1 – DISTRIBUIÇÃO CONDICIONAL DOS TERMOS DE ERRO
FRP: Yi = β1 + β2Xi
X1 X2 X3 X4
Y
X
+ui
-ui
FONTE: Gujarati e Porter (2011, p. 85)
Para que a média condicional do termo de erro seja zero, precisamos 
retomar à equação 2.7:
Yi = β1 + β2Xi + ui 2.8
Yi = Yi – E(Y|Xi) 2.9
Resolvendo a equação para ui, temos:
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
27
var(ui|Xi) = E[ui – E(ui|Xi)]22.10
var(ui|Xi) = E(ui2|Xi) 2.11
Volte novamente à Figura 1. Veja que para qualquer valor de Xi há diversos 
pontos acima e abaixo do valor médio, o qual se situa sobre a reta de regressão, 
expressa por Yi = β1 + β2Xi, que, já sabemos, equivale a E(Y|Xi). A distância entre 
os diversos valores de Y e o valor médio é chamado de termo de erro e aqui 
representamos por E(ui|Xi). 
Perceba, ainda, que os valores de ui acima da reta de regressão são 
positivos, pois neste caso Yi – E(Y|Xi) > 0. Por outro lado, os valores de ui abaixo 
da reta de regressão são negativos, pois Yi – E(Y|Xi) < 0. Podemos finalmente 
concluir que, se tirarmos a média dos diversos ui obteremos o valor zero, pois os 
valores positivos encontrados anulam os valores negativos.
Você pode verificar isso com um exemplo simples. Seja Y = (3, 5, 7, 9), 
como vimos anteriormente, E(Y) = 6, e se fizermos Y – E(Y) teremos Y – E(Y) = [(3 
– 6) + (5 – 6) + (7 – 6) + (9 – 6)] = 0. 
d) Hipótese 4
Os erros ui são homoscedásticos e não apresentam autocorrelação. A 
homoscedasticidade tem um sentido de espalhamento simétrico da dispersão em 
torno do valor médio. Isso significa que, para cada Xi, corresponde um conjunto 
de valores observados de Y. 
Sabemos que o termo de erro é medido pela distância entre o valor médio 
de Yi relativo a cada Xi. Ter erros homoscedásticos significa que não importa o 
valor de Xi, a distribuição de probabilidade dos erros é simétrica e constante, como 
em uma curva de Gauss, ou “curva de sino”, se você preferir, visto na Figura 1.
Como sabemos, a média dos erros é igual a zero, ou seja, E(ui|Xi) = 0, a 
hipótese de homoscedasticidade implica que a variância condicional do termo de 
erro deve ser constante:
Sabemos que E(ui|Xi) = E(ui2|Xi), isso nos leva a:
Também sabemos que o quadrado de um número negativo tem por 
resultado um valor positivo. Dessa forma, a variância condicional do termo de 
erro é um número positivo e constante. Em termos algébricos, temos:
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
28
var(ui|Xi) = o2 2.12
cov(ui, uj|Xi, Xj) = E{[ui – E(ui)]|Xi}{[uj – E(uj)]|Xj} 2.13
cov (ui, uj|Xi, Xj) = E(ui|Xi(uj|Xj) 2.14
cov (ui, uj|Xi, Xj) = 0 2.15
E se a variância não for constante? Neste caso teremos o problema da 
heteroscedasticidade, que será objeto de estudo mais adiante, na Unidade 3.
O outro ponto dessa hipótese diz respeito à ausência de autocorrelação 
entre os termos de erro. Isso significa que a convariância condicional entre os 
termos deve ser nula:
Já sabemos que E(ui|Xj) = 0, e isso também é válido para E(uj|Xj) = 0. Com 
isso, temos:
Em termos práticos, a covariância condicional igual a zero significa que 
um termo de erro condicionado a Xi não pode influenciar o outro termo de erro 
condicionado a Xj. Devido a sua complexidade, exploraremos mais esse conceito 
adiante, na Unidade 3.
Gujarati e Porter (2011) apresentam ainda outras hipóteses, tais como a 
ausência de covariância entre ui e Xi, ou seja, E(ui Xi), a necessidade de a nossa 
amostra ser grande o suficiente para que o número de observações seja maior do 
que a quantidade de parâmetros a serem estimados e a necessidade de o modelo 
estar corretamente especificado.
As hipóteses que enumeramos são suficientes, por enquanto, para 
avançarmos em nossos estudos. Em breve apresentaremos outras hipóteses, 
à medida que necessitarmos de técnicas mais apuradas na solução dos nossos 
problemas. Por exemplo, quando estivermos analisando um modelo de regressão 
múltiplo, precisaremos que as variáveis X não sejam colineares. Mas isso ficará 
para outro momento, primeiro precisamos saber como estimar os parâmetros do 
modelo de regressão, e para isso aplicaremos o método de mínimos quadrados 
ordinários. 
29
RESUMO DO TÓPICO 2
Nesse tópico, você aprendeu que: 
• Existem os conceitos básicos da econometria, tais como variável dependente 
e explicativa, os tipos de dados usados no processo econométrico (dados de 
corte, séries temporais e painel de dados).
• O termo “regressão”, cunhado por Francis Galton em 1886, tinha um sentido 
de regressão à mediocridade. Atualmente tem um sentido de análise da relação 
quantitativa existente entre duas variáveis, a dependente e a explicativa.
• Estudamos o modelo de regressão linear simples, que diferentemente do 
modelo matemático determinístico apresenta uma forma estocástica com a 
inclusão do termo de erro, uma variável aleatória que captura o sentido ceteris 
paribus na econometria.
• As hipóteses do modelo clássico de regressão linear devem ser observadas 
se quisermos ir além da estimação pontual dos parâmetros do modelo de 
regressão.
30
1 Sobre os principais conceitos da econometria, relacione a coluna da direita 
com a da esquerda:
AUTOATIVIDADE
( A ) Variável dependente ( ) Tem a capacidade de influenciar outras 
variáveis.
( B ) Variável explicativa ( ) A arrecadação tributária do Paraná, Santa Catarina 
e Rio Grande do Sul em 2004, 2008 e 2012.
( C ) Séries temporais ( ) O IDH de todos os municípios brasileiros em 2010.
( D ) Dados de corte ( ) Aquela que é explicada por outras variáveis.
( E ) Painel de dados ( ) O rendimento da poupança nos últimos 24 meses.
2 Suponha que estimamos uma regressão cujo resultado é Yi = 1.200 + 0,73Xi, 
em que Yi representa o consumo de um determinado grupo de famílias e Xi a 
renda recebida por essas famílias: 
a) Qual deve ser o consumo estimado para uma família sem renda? 
b) Qual deve ser a renda de uma família que tem um consumo de $ 5.000? 
3 Uma das hipóteses do modelo de regressão linear é que a linearidade deve 
ocorrer nos parâmetros. Sendo assim, responda “V” quando se tratar de 
uma função linear nos parâmetros e “F” quando a função não for linear nos 
parâmetros: 
a) ( ) Yi = β1 + β2Xi + ui 
b) ( ) Yi = β1 + β2X5 + ui
c) ( ) Yi = β1 + (β1 X β2) Xi + ui
d) ( ) i i
i
Y u
X
β β= + +1 2
1
4 Considerando as seguintes sequências de eventos aleatórios: Y = {3, 7, 12, 17} 
e X = {5, 9, 15, 19}, calcule:
a) A média de Y, representada por i iYY == Σ4 114 e a média de X, representada 
por i ixX == Σ4 114 .
b) A soma dos desvios de Y e X em relação a sua média: Yi i iu YY= = −Σ4 1 e 
Xi i i
u XX= = −Σ4 1 .
c) A variância de Y, dada por i iVar(Y) (Y Y)== −Σ4 2114 e a variância de X, dada 
por i iVar(X) (X X)== −Σ4 2114 .
31
TÓPICO 3
MÉTODO DOS MÍNIMOS QUADRADOS 
ORDINÁRIOS
UNIDADE 1
1 INTRODUÇÃO
No tópico anterior, estudamos o modelo clássico de regressão linear. 
Aprendemos alguns conceitos e vimos as hipóteses relevantes que estão por trás 
de praticamente toda análise de regressão. O único problema é que o que vimos 
anteriormente se refere a uma situação em que o pesquisador tem acesso aos 
dados de toda a população de dados, ou dizendo em linguagem matemática, é 
como se tivéssemos a nossa disposição o conjunto universo dos dados.
Na prática existe um custo elevado para você acessar toda a população de 
dados. Aqui não estamos falando apenas em termos monetários, mas em termos 
de tempo dispendido ou de mão de obra empregada na pesquisa. Imagine que 
você queira investigar se a estatura do pai é capaz de influenciar a altura dos 
filhos. Como você levantaria as informações necessárias, ou melhor dizendo, 
como você faria para saber qual é a altura de cada indivíduo? Provavelmente 
você precisaria entrevistar as pessoas e medi-las. Uma coisa é você medir a altura 
de 100 pais e, digamos, 200 filhos (supondo dois filhos em média por pai), outra 
coisa é medir a altura de mais de 100 milhões de pais e outros duzentos milhões 
de filhos.
É por isso que empregamos a técnica da amostragem a fim de responder 
aos nossos problemas de pesquisa. Primeiro identificamos a população que tem 
as características que iremos estudar, por exemplo, os pais e os filhos. A partir 
daí, extraímos uma amostra representativa e montamos o nosso estudo.
A grande pergunta é: Como estimar essa relação entre variável dependente 
e explicativa com base em amostragem e ter certeza quetemos em mãos resultados 
precisos? Para isso recorremos a um ferramental técnico-matemático e estatístico 
que nos permite não apenas chegar aos resultados buscados, mas ter certeza de 
que eles não são espúrios.
Este, que é o último tópico da Unidade 1, é também o mais extenso e o que 
envolve mais questões práticas. É aqui que começamos a sujar as mãos de verdade 
para aprender a econometria. Tenha em mente que essa disciplina envolve muita 
prática e que é indispensável que você faça todas as atividades propostas e vá 
além, pesquisando informações e lendo os estudos que outros pesquisadores 
fizeram. Isso o ajudará a conciliar a teoria com a prática e permitirá que você 
tenha uma perspectiva clara em relação ao tipo de economista que pretende ser.
32
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
2 A FUNÇÃO DE REGRESSÃO AMOSTRAL E SUAS 
CARACTERÍSTICAS
O objetivo da análise de regressão é estimar os parâmetros do modelo 
econométrico derivado da teoria subjacente, de forma mais precisa e confiável 
possível. Como não temos acesso à população de dados ou ao conjunto universo, 
recorremos a um subconjunto ou à amostragem cujas técnicas são discutidas nos 
livros de estatística que compõem as referências bibliográficas desse livro de estudos.
Estimar parâmetros significa calcular os βs da Função de Regressão 
Populacional 3.1, de forma a obter os resultados expressos em 3.2, que é a nossa 
Função de Regressão Amostral:
FRP Yi = β1 + β2Xi + ui 3.1
Esse chapéu (^) que vemos na equação 3.2 significa que estamos diante dos 
estimadores, ou seja, de valores que esperamos serem o mais próximo possível 
dos verdadeiros valores encontrados na população, caso tivéssemos acesso a 
todas as informações existentes. Assim, �iY nada mais é do que uma estimativa 
de E(Y|Xi), enquanto β̂1 e β̂2 são estimativas de β1 e β2 e o resíduo (por se tratar 
de uma amostra) ˆ é o estimador do termo de erro estocástico (que se refere à 
população) ui.
Em termos práticos, raramente teremos acesso aos verdadeiros parâmetros 
populacionais, mas temos condições de obter a melhor estimativa possível 
se empregarmos a técnica correta e tomarmos os cuidados necessários, como 
veremos adiante. Com isso esperamos que, usando as estimativas da Função de 
Regressão Amostral, sejamos capazes de determinar:
3.2FRA i i iˆ ˆ ˆY X ûβ β= + +1 2
3.3i i iY X uˆ ˆ ˆβ β= + +1 2
A relação entre FRP e FRA pode ser vista na Figura 2, em que você deve 
perceber que a nossa FRA não tem o mesmo desenho da FRP (inclinação e 
interceptos diferentes). Isso acontece pelos motivos que já conversamos e porque 
o máximo que conseguimos a partir da FRA é uma estimativa dos parâmetros 
da FRP. Se tomarmos outra amostra é bem possível que a curva de regressão 
da nossa FRA tenha outros parâmetros, e assim sucessivamente, à medida que 
formos obtendo novas amostras e fazendo novas estimativas. Porém, se repetirmos 
muitas vezes a amostragem, veremos que em média os valores dos parâmetros de 
3.3 tendem a convergir aos valores dos parâmetros de 3.1.
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
33
FIGURA 2 – REPRESENTAÇÃO DAS LINHAS DE REGRESSÃO
Verdadeiro Y
da poulação
Obtido pela
À esquerda do ponto "A", a
FRA subestima a verdadeira
FRP, enquanto que à direita de
"A", a FRA superestima a
verdadeira FRP.
FRP → E(Y|Xi) = β1 + β2Xi
FRP E(Y|Xi)=
Xi
X
E(Y|Xi)
Yi
ui
Yi
Y
A
Resíduo
Desvio
� � �
i iFRA Y Xβ β→ = +1 2
� � �
i iFRA Y Xβ β→ = +1 2 � � �
i iFRA Y Xβ β→ = +1 2
 iu
FONTE: Adaptado de Gujarati e Porter (2011, p. 69)
No gráfico fica muito clara a definição de desvio, que é a diferença entre 
o verdadeiro valor de Yi e o seu valor médio da população E(Y|Xi). Também 
fica clara a definição de resíduo, ou seja, a distância entre o verdadeiro valor 
de Yi e o seu valor estimado pela equação 3.2. Também podemos ver que, como 
não conhecemos os verdadeiros valores dos parâmetros populacionais, os βs, a 
nossa linha de regressão em alguns momentos subestimará a verdadeira reta de 
regressão e, em outros, ela superestimará aquela reta.
No fim das contas, o grande segredo está na obtenção de estimadores 
precisos, como mencionamos, e para fazer isso existe um grande número 
de técnicas de estimação, porém a mais popular é a de Mínimos Quadrados 
Ordinários, e também é a mais eficiente, como veremos a seguir.
3 ESTIMATIVA DOS PARÂMETROS POR MÍNIMOS 
QUADRADOS ORDINÁRIOS
Se voltarmos nossa atenção novamente à FRP e à Figura 2, veremos que 
existe uma diferença entre o valor médio condicionado de Y, dado por E(Y|Xi) e 
o verdadeiro valor obtido na população. Essa diferença chamamos de termo de 
erro estocástico ou desvio e a representamos por ui:
34
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
3.4Yi = β1 + β2Xi + ui
Ao obtermos a estimativa dos parâmetros de 3.4, usando a FRA, temos:
3.5i i iY X uˆ ˆ ˆβ β= + +1 2
3.7i i iu Y Ŷˆ = −
3.6�  ii iY Y u= +
A equação 3.5 pode ser reescrita como:
Assim, para sabermos o valor do verdadeiro Yi da população, precisamos 
estimar um valor para E(Y|Xi), o qual é representado por iŶ , e a esse valor 
somamos o resíduo da função iû , como pode ser visto em 3.5 e na Figura 2. O 
segredo, portanto, é obter uma estimativa precisa errando o mínimo possível.
Para minimizar os desvios, primeiro resolvemos 3.6 para iû conforme 3.7:
Sabemos que a soma dos resíduos é zero, ou seja, n ii u= =Σ 1 0 , por isso 
tentar minimizar a soma dos desvios não é possível. Uma saída possível poderia ser 
minimizar a soma em módulo dos desvios, porém alguns valores são maiores do que 
os outros e, se fizermos assim, estaremos atribuindo o mesmo peso a todos eles.
A melhor opção é minimizar a soma dos quadrados, como em 3.8:
3.8 �
n n
i iii i
u (Y Y )
= =
= −Σ Σ2 21 1
Dessa forma penalizamos os resíduos maiores e conseguimos obter 
uma estimativa mais precisa dos parâmetros. Como �n iii (Y Y )= −Σ 21 implica em � �n
i ii
(Y X )β β
=
− −Σ 21 21 , em última análise, a soma dos quadrados dos resíduos é 
uma função dos parâmetros que pretendemos estimar, o que significa que basta 
fazer diversas simulações para os parâmetros e escolher �β 1 e �β 2 cuja soma dos 
quadrados seja a menor dentre todas.
Obviamente essa tarefa é muito custosa, mas felizmente aprendemos em 
matemática que, para minimizar uma função escolhendo um parâmetro, a técnica 
de diferenciação é a que deve ser empregada.
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
35
3.11Xˆ Y ˆβ β= −1 2
Para diferenciarmos, especificamos a função e as restrições como:
3.9( )i i,ˆ ˆ iˆmin Yû Xˆβ β β β∑ = ∑ − −1 2
22
1 2
3.10( )i i iu Y Xˆ ˆ ˆˆ β ββ
∂∑
− ∑ − −
∂
2 2
1 2
1
2
3.12( )i i i iu Yˆ Xˆ Xˆˆ β ββ
∂∑
− ∑ − −
∂
2
1 2
2
2
3.13
( )( )
( )
i i
i
Yˆ X X Y
X X
β
∑ − −
=
∑ −
2 2
3.14i i
i
ˆ x y
x
β
∑
=
∑2 2
Diferenciando 3.9 em relação a β̂1 obtemos:
Após alguns algebrismos cansativos, cuja demonstração pode ser 
encontrada com facilidade nas obras de referência, obtemos a nossa estimativa 
para β1:
O mesmo procedimento é aplicado em 3.9 para obter o β̂2 :
Resolvendo para β̂2 e após algumas manipulações, obtemos:
Por simplificação, podemos fazer ( )i ix X X= − e ( )i iy Y Y= − e assim obter:
No Quadro 2 temos dados aleatórios referentes à altura dos filhos em cm, 
representada por Y, e a altura dos pais em cm, representada por X. Com base nas 
equações 3.11 e 3.14 estimaremos os valores de β̂1 e β̂2.
36
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
O primeiro passo é obter os valores de yi, xi, xiyi e xi2, o que não é muito 
difícil de fazer quando você tem poucas observações como no Quadro 2, porém, 
para uma base de dados muito grande, fazer esses cálculos manualmente se torna 
uma tarefa complicada e um simples erro pode gerar resultados questionáveis.
QUADRO 2 – ALTURA DOS PAIS E FILHOS EM CM
(a) (b) (c) (d) (e) (f)
Obs. Y X yi Yi Y= = xi Xi X= = xiyi xi2
1 166 165 -13,2 -13,5 178,2 182,25
2 168 168 -11,2 -10,5 117,6 110,25
3 169 171 -10,2 -7,5 76,556,25
4 176 174 -3,2 -4,5 14,4 20,25
5 180 177 0,8 -1,5 -1,2 2,25
6 179 180 -0,2 1,5 -0,3 2,25
7 185 183 5,8 4,5 26,1 20,25
8 186 186 6,8 7,5 51 56,25
9 188 189 8,8 10,5 92,4 110,25
10 195 192 15,8 13,5 213,3 182,25
Soma 1792 1785 0 0 768 742,5
Média 179,2 178,5 0 0 76,8 74,25
FONTE: O autor
Após obter as séries de yi, xi, xiyi e xi2 apresentadas nas colunas c até f no 
quadro, aplicamos esses resultados na equação 3.14 e obtemos:
3.15i i
i ,
ˆ x y ,
x
β
∑
= = =
∑2 2
768 1 0343
742 5
Substituindo o resultado de 3.15 na equação 3.11 teremos:
3.16*ˆ Y X , , ,ˆ ,β β= − = − = −1 2 179 2 1 0343 178 5 5 43
3.17i iŶ , , X= − +5 43 1 0343
Concluímos a nossa estimação formando a FRA da seguinte forma:
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
37
Em 3.17 podemos ver um intercepto β̂1 negativo, porém sem um 
significado prático evidente. Imagine você, que por se tratar do intercepto em 
uma equação linear, ele representa o valor de Yi quando Xi é zero. Neste caso, 
não podemos pensar em um pai sem altura alguma (caso em que Xi seria zero). 
Por outro lado, β̂2, ao representar o coeficiente angular da função linear, indica o 
quanto da altura do pai que se transfere para o filho de forma hereditária. Claro 
que estamos diante de uma relação puramente matemática ou estatística, ou seja, 
não podemos falar aqui de relação de causalidade, como alertam Gujarati e Porter 
(2011, p. 43).
Como vimos, a ideia aqui é minimizar a soma dos quadrados dos resíduos, 
o que nos garante que estamos diante dos melhores estimadores possíveis. A 
seguir, veremos que esses estimadores possuem propriedades importantes 
e daremos sequência aos nossos estudos, porque, afinal de contas, não basta 
calcular os valores, é preciso ter certeza de que eles são confiáveis.
4 PROPRIEDADES NUMÉRICAS DOS ESTIMADORES
Anteriormente vimos as hipóteses do modelo clássico de regressão 
linear, agora veremos as propriedades numéricas dos estimadores de MQO, as 
quais se mantêm, independentemente da forma como os dados foram gerados 
(GUJARATI; PORTER, 2011, p. 81):
1. n ii u= =Σ 1 0 : os resíduos gerados pelo método de mínimos quadrados ordinários 
têm soma zero. Essa regra também se aplica à média dos resíduos, ou seja, 
( )iE û = 0 .
2. n i ii Xu= =Σ 1 0 : isso equivale a dizer que não existe covariância entre os resíduos 
e os regressores. Poderíamos representar essa propriedade como ( )i iE û X = 0 , 
ou ainda ( )i ic ˆov u X .= 0 Em termos práticos ela indica que a distribuição de iû 
não depende de Xi.
3.  �n iii u Y= =Σ 1 0 : da mesma forma que a propriedade 2, nesta vemos que não há 
covariância entre os resíduos e o valor estimado de Yi. Isso quer dizer que os 
resíduos são independentes tanto de Xi quanto de iŶ .
4. Os valores médios de X e Y sempre estarão sobre a reta de regressão. Dito de 
outra forma, se pegarmos o resultado da regressão em 3.17 e substituirmos o 
valor de Xi pela sua média, 178,5, o resultado deverá ser a média de Yi, ou seja, 
179,2. Vamos deixar para você o desafio de verificar essa afirmação na prática. 
A demonstração dessas propriedades pode ser vista no Quadro 3. A 
questão que fica agora é: Quão precisas são essas estimativas? Além disso, se 
empregássemos outro método para obter os estimadores, será que ainda assim 
escolheríamos aqueles obtidos por MQO?
38
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Ainda estamos no início da nossa jornada e é natural surgirem essas 
dúvidas e muitas outras. Por isso, precisamos agora nos concentrar em aferir o 
nosso modelo e usaremos o ferramental estatístico de que dispomos para fazer 
diversos testes a fim de nos certificarmos de que estamos diante de estimativas 
confiáveis.
QUADRO 3 – ALTURA DOS PAIS E FILHOS EM CM, COM VALORES ESTIMADOS
Obs. Y X � � �i iY Xβ β= +1 2 
�
ii iu = Y - Y i iû X i iû Ŷ
1 166 165 165,2364 0,7636 126 126,1805
2 168 168 168,3394 -0,3394 -57,0182 -57,1334
3 169 171 171,4424 -2,4424 -417,6545 -418,7351
4 176 174 174,5455 1,4545 253,0909 253,8843
5 180 177 177,6485 2,3515 416,2182 417,7431
6 179 180 180,7515 -1,7515 -315,2727 -316,5890
7 185 183 183,8545 1,1455 209,6182 210,5970
8 186 186 186,9576 -0,9576 -178,1091 -179,0260
9 188 189 190,0606 -2,0606 -389,4545 -391,6400
10 195 192 193,1636 1,8364 352,5818 354,7187
Soma 1792 1785 1.792 0,0000 0,0000 0,0000
Média 179,2 178,5 0,00 0,0000 0,0000 0,0000
FONTE: O autor
No Quadro 3, a coluna que contém os valores de Y
i
 foi obtida usando os 
parâmetros calculados em 3.17, ou seja, Y
i
 = –5,43 + 1,0343X
i
.
ATENCAO
^
5 TESTES ESTATÍSTICOS
Depois de calcular os estimadores dos parâmetros do nosso modelo, 
precisamos saber quais características esperamos encontrar neles. Obviamente 
queremos estimadores precisos, não tendenciosos e eficientes. 
Iniciamos nossa análise com uma medida de precisão, o desvio padrão. 
Sabemos da estatística que o desvio padrão de uma variável aleatória nada mais 
é do que a raiz quadrada da variância. Essas duas medidas nos dizem quão 
disperso um valor obtido através de uma estimativa está do valor esperado.
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
39
As medidas de dispersão nos indicarão se nossas estimativas estão 
centradas em torno dos verdadeiros valores dos parâmetros, os quais só saberíamos 
se tivéssemos acesso a todas as informações disponíveis da população. Com 
isso, supondo que os desvios são homoscedásticos, ou seja, var(ui|Xi) = o2 – um 
número constante e positivo –, obtemos a variância dos estimadores de mínimos 
quadrados dos parâmetros, como:
3.18( )
( )
i
i
X
va
n X X
ˆr β σ
∑
=
∑ −
2
2
1 2
3.19( )
( )i
var ˆ
X X
σβ =
∑ −
2
2 2
3.20( ) ( )
i
i
X
e
n X X
ˆp β σ
∑
=
∑ −
2
1 2
3.21( ) ( )i
ep ˆ
X X
σβ =
∑ −
2 2
3.22i
ûˆ
n
σ
∑
=
−
2
2
2
Em que n é o tamanho da amostra. A partir das equações 3.18 e 3.19, 
obtemos facilmente o erro padrão ou desvio padrão:
O problema das equações acima é que não sabemos qual o valor da 
variância dos desvios o2, pois se trata de um parâmetro populacional e, por 
razões já discutidas, nós só dispomos de uma amostra. O desvio agora é obter um 
estimador para o2.
Para uma estimativa da variância, usaremos a equação 3.22:
Obviamente, o desvio padrão é obtido da seguinte forma:
40
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
O denominador das equações 3.22 e 3.23 é n – 2, porque, ao calcular 
a variância, e consequentemente o desvio padrão, perdemos dois graus de 
liberdade. Os graus de liberdade são o tamanho da amostra e as perdas se devem 
em função dos parâmetros estimados, ou seja, �β 1 e �β 2. Isso garante que, com o 
aumento do tamanho da amostra, a precisão dos estimadores também aumente, 
pois vamos nos aproximando cada vez mais do número de observações existente 
na população e com isso a dispersão em torno do valor médio diminui.
Agora podemos reescrever as equações 3.18 até 3.21 e assim obter os 
estimadores da variância e dos desvios padrão dos nossos βs:
3.24( ) ( )
i
i
ˆ ˆXvar
n X X
β σ
∑
=
∑ −
2
2
1 2
3.25( ) ( )i
var ˆ
X X
σ̂β =
∑ −
2
2 2
3.26( ) ( )
i
i
X
e ˆ
n X
ˆp
X
β σ
∑
=
∑ −
2
1 2
3.27( ) ( )i
ep ˆ
X X
σ̂β =
∑ −
2
2 2
Para avançarmos em nosso estudo e podermos trabalhar com os testes 
estatísticos, que validarão o nosso modelo econométrico estimado, o termo de erro 
deve ter distribuição normal. Essa condição de normalidade é indispensável para a 
inferência estatística, e as razões teóricas nas quais nos baseamos para usá-la são a 
Lei dos Grandes Números e o Teorema do Limite Central. 
A Lei dos Grandes Números tem a ver com o tamanho da amostra e por 
isso tem um sentido de assimptótico, ou seja, de aumento indefinido. De uma forma 
simples e prática, significa que, à medida que a amostra cresce tendendo ao infinito, 
a média amostral converge para a média populacional (SARTORIS, 2013).
3.23iûˆ
n
σ
∑
=
−
2
2
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
41
Por sua vez, o Teorema do Limite Central diz que se a variável for distribuídade forma independente e identicamente, e a amostra for suficientemente grande, a 
média amostral da variável em questão terá distribuição normal, ou seja, converge 
em distribuição para normal (SARTORIS, 2013).
Dessa forma, dizemos que ui tem distribuição normal com média E(ui) = 0, 
variância E(ui2) = o2 e covariância E(ui,uj) = 0, para todo i ≠ j, e representamos como:
3.28ui~N(0,o2)
Em que ~ deve ser lido como “é distribuído como”, N indica o tipo de 
distribuição de probabilidade, que neste caso é o normal. O primeiro termo entre 
parênteses indica a média, e já vimos que é igual a zero e o segundo termo é a 
variância (um número constante e finito).
Além da distribuição normal dos erros, há outras propriedades desejáveis 
em um estimador, tais como não tendenciosidade, variância mínima (eficiência) 
e consistência (convergem para os verdadeiros valores da população). Essas 
propriedades são encontradas nos estimadores de mínimos quadrados ordinários.
Se as hipóteses do modelo clássico de regressão linear se mantiverem e 
o termo de erro tiver distribuição normal, o teorema de Gauss-Markov pode ser 
aplicado. Esse teorema nos diz que, dentre todos os estimadores lineares não 
tendenciosos existentes, os que são gerados pelo método de mínimos quadrados 
ordinários são os que têm variância mínima. Isso garante que estamos diante dos 
melhores estimadores lineares não tendenciosos, que em inglês é representado 
pela sigla BLUE (Best Linear Unbiased Estimator).
Para entender melhor o que acabamos de discutir, lembre-se de que os 
estimadores que calculamos em 3.17 foram obtidos com base em uma única 
amostra. Portanto, tratam-se de estimadores pontuais. Se tirarmos outra amostra 
da população, é provável que os resultados estimados sejam diferentes. Assim, se 
fizermos 100 amostras diferentes, obteremos 100 estimadores também diferentes. 
No entanto, se tirarmos a média desses estimadores, seus valores se aproximarão 
em muito dos verdadeiros valores populacionais. Em outras palavras, o E(β1) 
= β1 e E(β2) = β2 , ou seja, essa convergência é o que garante a eficiência desses 
estimadores. 
Para uma verificação prática dessa propriedade, suponha um parâmetro 
estimado, digamos ө, com média 5 e variância 2. Suponha ainda que tenhamos 
outros dois estimadores com exatamente a mesma média, só que com variância 4 
e 6, respectivamente. Dentre esses três estimadores, qual é o mais eficiente?
A resposta você mesmo pode obter abrindo o Gretl e seguindo os seguintes 
passos:
42
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
FIGURA 3 – GRÁFICOS DE DISTRIBUIÇÕES
FONTE: Adaptado de Gretl (2018)
2. Na tela seguinte, altere os parâmetros da média para 5 e do desvio padrão para 
2 e pressione o botão ok para confirmar (Figura 4):
FIGURA 4 – DISTRIBUIÇÃO NORMAL DO PRIMEIRO PARÂMETRO
FONTE: Adaptado de Gretl (2018)
3. O passo anterior gerará um gráfico de distribuição normal, com média cinco 
e variância igual a quatro. Clique com o botão direito do seu mouse sobre o 
gráfico e escolha “Acrescentar outra curva...” (Figura 5):
1. Vá no menu “Ferramentas” e escolha “Gráficos de distribuições” (Figura 3):
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
43
FIGURA 5 – ACRESCENTAR OUTRA CURVA
FONTE: Adaptado de Gretl (2018)
4. Na janela que abrir, você deve alterar apenas o desvio padrão para 4 e 
posteriormente para 6. O resultado será idêntico ao do Gráfico 2:
GRÁFICO 2 – EFICIÊNCIA DE UM ESTIMADOR
0,2
N(5 4)
N(5 16)
N(5 36)
0,15
0,1
0,05
0
-30 -20 -10 0 10 20 30 40
FONTE: Adaptado de Gretl (2018)
44
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Com base nos resultados apresentados no Gráfico 2 é possível perceber 
que o estimador mais eficiente é o primeiro, que apresenta a menor variância, 
representada pela curva N (5,4). Via de regra, sempre escolheremos o estimador 
com menor variância, porque é ele que tem a maior probabilidade de estar 
próximo do verdadeiro parâmetro populacional.
Para calcular a variância e o desvio padrão dos coeficientes estimados, 
usamos as equações precedentes, como descrito no quadro a seguir:
QUADRO 4 – CÁLCULO DA VARIÂNCIA E DESVIO PADRÃO DOS COEFICIENTES ESTIMADOS
Parâmetro Equação Cálculo
σ̂ 2 i
ûˆ
n
σ
∑
=
−
2
2
2
,ˆ ,σ = =
−
2 27 2242 3 4030
10 2
σ̂ i
ûˆ
n
σ
∑
=
−
2
2
ˆ , ,σ = =
−
27 2242 1 8447
10 2
( )var β̂1 ( ) ( )
i
i
ˆ ˆXvar
n X X
β σ
∑
=
∑ −
2
2
1 2 ( ) .var , ,,ˆ *β = =1
319 365 3 4030 146 3702
10 742 5
( )ep β̂1 ( ) ( )
i
i
X
e ˆ
n X
ˆp
X
β σ
∑
=
∑ −
2
1 2 ( ) .ep * , ,*ˆ ,β = =1
319 365 1 8447 12 0982
10 742 5
( )var β̂2 ( ) ( )i
var ˆ
X X
σ̂β =
∑ −
2
2 2 ( ) ,var ,,β̂ = =2
3 4030 0 0046
742 5
( )ep β̂2 ( ) ( )i
ep ˆ
X X
σ̂β =
∑ −
2
2 2 ( ) ,ep ,,β̂ = =2
3 4030 0 0677
742 5
FONTE: O autor
Como você pôde perceber no Quadro 4, deixamos para você a tarefa de 
calcular algumas das variáveis que entram nas equações. Porém, como você deve 
ter percebido, ter a capacidade de fazer esses cálculos conseguindo ler as fórmulas 
matemáticas é indispensável no estudo econômico. A ideia até aqui era permitir que 
você tivesse acesso a uma base de dados e, ao se deparar com fórmulas matemáticas, 
fosse capaz de ler e interpretar o seu significado. Entender a engenharia por trás 
dos resultados é fundamental para compreender o seu significado.
Os coeficientes estimados, as variâncias dos parâmetros e seus respectivos 
desvios padrão, por si só, não são suficientes para responder a todas as perguntas 
relevantes que fazemos quando decidimos testar uma teoria econômica. 
Lembrando que essas estimativas são pontuais, o que significa dizer que não 
carregam informações suficientes para aquilo ao qual nos propomos a fazer. 
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
45
Uma das alternativas possíveis para essa deficiência é estimar um intervalo 
de confiança, que consiste em uma faixa de valores dentro da qual há certa 
probabilidade de os verdadeiros parâmetros populacionais estarem contidos.
Sabemos através de 3.28 que os erros ui têm distribuição normal, por isso 
os seus estimadores de mínimos quadrados β̂1 e β̂2 também têm. Representamos 
essa distribuição da seguinte forma:
3.31
( ) ( )
k k
n
k
t ~ t
ep
ˆ
ˆ
β β
β −
−
= 2
O procedimento descrito a seguir foi obtido de Hill, Griffiths e Judge 
(2010). Dadas as hipóteses do modelo de regressão linear e as equações 3.29 e 
3.30, podemos escrever de modo geral que:
3.29
( )
i
iX
ˆ ˆX~ N , ,
n X
β β σ
 ∑ 
 ∑ − 
2
2
1 1 2 
3.30
( )iX
ˆˆ ~ N ,
X
σβ β
 
 
 ∑ − 
2
2 2 2
Em que n é o tamanho da amostra e k é igual a 1 e 2, sendo 1 o β̂1 e 2 para 
o β̂2, o que significa que se tivéssemos mais parâmetros estimados teríamos um k 
ainda maior. Como estamos estimando um modelo de regressão simples, com uma 
variável dependente sendo explicada por uma variável explicativa, e incluímos 
uma constante no modelo de regressão i i iY X uˆ ˆ ˆβ β= + +1 2 , perdemos dois graus de 
liberdade ao estimar a regressão (um grau para cada parâmetro beta).
O intervalo de confiança é obtido a partir de 3.31, porque não conhecemos 
o verdadeiro valor de σ 2, mas conhecemos a sua estimativa σ̂ 2, e o erro padrão dos 
coeficientes de mínimos quadrados é dado por 3.26 e 3.27. Essa variável t apresenta 
distribuição t de Student, com n – 2 graus de liberdade pelas razões discutidas.
Segundo Hill, Griffiths e Judge (2010, p. 108), a construção do intervalo de 
confiança requer a consulta a uma tabela de valores críticos da estatística t. Porém, 
podemos usar o Gretl, como veremos adiante. Em ambos os casos, encontraremos 
valores críticos tc, que satisfazem:
46
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
3.32P(t > tc) = P(t < tc) = a/2
3.33P(–tc < t < tc) = 1 – a
Reorganizando, temos:
Substituindo 3.31 em 3.33, obtemos:
3.34( )
k k
c c
k
P t t
p
ˆ
ˆe
β β
α
β
 − − ≤ ≤ = −
 
 
1
Simplificando, temos:
3.35( ) ( )k c k k k c kP t pˆ ˆ ˆep tˆ eβ β β β β α − ≤ ≤ + = −  1
Em que tc é o valorcrítico da estatística t, e c = α/2 é obtido em tabelas 
próprias disponíveis na internet ou nos apêndices de livros de estatística e 
econometria, mas que não precisaremos recorrer a elas porque estamos usando o 
software Gretl como apoio e ele já tem essa e outras tabelas no menu “Ferramentas” 
e “Tabelas Estatísticas”. O parâmetro α é um valor de probabilidade, digamos 1%, 
5% ou 10% na maioria das aplicações práticas, chamado de nível de significância.
Para entender o seu funcionamento na prática, vamos voltar aos resultados 
dos parâmetros estimados e seus respectivos erros padrão. Começaremos com β̂1 
e depois faremos o mesmo procedimento para o β̂2.
De 3.17, sabemos que ˆ ,β = −1 5 43, e de 3.26 e do Quadro 4, sabemos que 
( )ep ˆ ,β =1 12 0982. Usando 3.35 estabelecemos um nível de significância α = 5% 
ou 0,05, e construímos um intervalo de confiança de 100(1 – α)%, ou 95%, para β1 
com 10 – 2 = 8 graus de liberdade:
3.36( ) ( ), / , /P t ep ˆ t epˆ ˆ ˆ ,β β β β β − ≤ ≤ + = − 1 0 05 2 1 1 1 0 05 2 1 1 0 05
3.37( ) ( )P , , ep , pˆ , e ,ˆβ β β − − ≤ ≤ − + = 1 1 15 43 2 306 5 43 2 306 0 95
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
47
O erro padrão de β̂1 é 12,0982, com isso podemos construir um intervalo 
de confiança para β1 em que:
3.38( ) ( ), /t ep , , ,ˆ , ; ,ˆβ β  ± = − ± = − 1 0 05 2 1 5 43 2 306 12 0982 33 3284 22 4684
Ou, – 33,3284 < β1 < 22,4684.
Vamos analisar melhor as equações acima para podermos dar uma 
interpretação a esse resultado. Primeiramente você precisa saber de onde 
surgiu esse valor de 2,306. Algumas tabelas de distribuição da estatística t são 
monocaudais, enquanto outras são bicaudais. 
Observe o Gráfico 3, ela apresenta o gráfico de distribuição da estatística 
t, com 8 graus de liberdade. A área cinza sob a curva é o valor t α/2, obtido em uma 
tabela de distribuição t:
GRÁFICO 3 – GRÁFICO DE DISTRIBUIÇÃO DE t, COM 8 GRAUS DE LIBERDADE
0,5
T(8)
0,4
0,3
0,2
-5 -4 -3 -2 -1
1 – α
0 11 2 3 4 5
0,1
0
FONTE: Adaptado de Gretl (2018)
A curva de distribuição de t é semelhante à da distribuição normal, porém 
com poucos graus de liberdade, ela é mais magra do que a normal padrão. À 
medida que o número de graus de liberdade aumenta, a distribuição t tende à 
distribuição normal. 
48
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
A Figura 6 apresenta a estatística de teste gerada pelo Gretl. Para gerar 
esses valores, basta escolher o menu “Ferramentas” e em seguida “Tabelas 
estatísticas”. Ao abrir a janela com as estatísticas de distribuição, você deve 
escolher “t”, e em seguida informar os graus de liberdade, n – 2 → 10 – 2 = 8, ou 
seja, o tamanho da amostra, 10, menos o número de parâmetros estimados, 2. 
Na parte de baixo você informa a probabilidade da cauda à direita, que é α/2 → 
0,05/2 = 0,025. Observação importante: use ponto para separar os decimais no 
Gretl em vez de usar vírgula, ou seja, use 0.025 em vez de 0,025.
FIGURA 6 – VALORES CRÍTICOS DE t PARA 8 GRAUS DE LIBERDADE
FONTE: Adaptado de Gretl (2018)
O Quadro 5 apresenta uma parte da tabela de distribuição de t. Os números 
da primeira coluna à esquerda são os graus de liberdade, enquanto as colunas à 
direita são os níveis de significância α. Note que, para 8 graus de liberdade e 
significância monocaudal de 0,025, o valor crítico é t0,05/2 = 2,306.
QUADRO 5 – DISTRIBUIÇÃO DA ESTATÍSTICA t
Graus de liberdade
Probabilidade:
Monocaudal α/2 0,05 0,025 0,005
Bicaudal α 0,10 0,05 0,010
1 6,314 12,706 63,657
2 2,920 4,303 9,925
3 2,353 3,182 5,841
4 2,132 2,776 4,604
8 1,860 2,306 3,355
... ... ... ... ...
FONTE: Adaptado de Gujarati (2011 p. 876)
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
49
Agora que sabemos de onde vêm as informações que usamos, podemos 
interpretar o resultado obtido. A leitura é bem simples, direta e seu significado 
diz respeito à obtenção de um grande número de amostras repetidas. Neste caso 
específico, como estabelecemos que α = 5% ou 0,05, se fizéssemos várias amostras, 
95 em cada 100 delas o valor de β1 estaria dentro do intervalo – 33,3284 < β1 < 
22,4684. 
Porém, aqui fica um alerta, isso não significa que a probabilidade de o 
intervalo – 33,3284 < β1 < 22,4684 conter o verdadeiro β1 é de 1 – α → 1 – 5% 
= 95%. Isso ocorre porque após estimar o parâmetro e especificar o intervalo, 
nós o fixamos. Neste caso, a probabilidade de esse intervalo específico conter o 
verdadeiro β1 é 0 ou 1. Como o valor estimado é -5,43, podemos dizer que o nosso 
modelo estimou um β1 que está dentro do intervalo de confiança de 95%.
Vamos repetir o procedimento e calcular o intervalo de confiança para o β2.
3.39( ) ( ), / , /P t ep ˆ t epˆ ˆ ˆ ,β β β β β − ≤ ≤ + = − 2 0 05 2 2 2 2 0 05 2 2 1 0 05
3.40( ) ( )P , , e ,ˆ ˆp , ep ,β β β − ≤ ≤ + = 2 2 21 0343 2 306 1 0343 2 306 0 95
3.41( ) ( ), / eˆ ˆt p , , , , ; ,β β  ± = ± =  2 0 05 2 2 1 0343 2 306 0 0677 0 8782 1 1904
3.42, ,β≤ ≤20 8782 1 1904
Como no caso do β̂1, o coeficiente β̂2 também está dentro do intervalo 
especificado. Se fizéssemos várias amostras repetidas e estimássemos dezenas ou 
centenas de vezes o coeficiente β̂2, 95 de cada 100 intervalos como 0,8782 < β2 < 1,1904 
conteriam o verdadeiro β2, com 95% de confiança.
Podemos aproveitar esses intervalos calculados para fazer testes de 
hipótese sobre os coeficientes estimados. A hipótese que será testada é chamada 
de hipótese nula e é representada por H0, enquanto a alternativa geralmente é 
representada por H1.
Vamos analisar o parâmetro β̂2 e imaginar que existem razões teóricas 
muito fortes para crermos que o seu verdadeiro valor é 0,516, ou seja, β2 = 0,516. 
Montamos o nosso conjunto de hipóteses como:
50
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
H : ,
H : ,
β
β
=
≠
0 2
1 2
0 516
0 516
Além das hipóteses estabelecidas acima, precisamos de um intervalo de 
confiança de 95%, e assim, podemos usar 3.42. Caso o valor de β2 sob a hipótese 
nula esteja dentro desse intervalo, não poderemos rejeitar a hipótese nula. Caso 
o valor de β2 sob a hipótese nula esteja fora desse intervalo, nós a rejeitamos em 
favor da hipótese alternativa, ou seja, o verdadeiro valor de β2 é um número 
diferente de 0,516, com 95% de confiança. A Figura 7 ilustra a regra de decisão:
FIGURA 7 – REGRA DE DECISÃO PARA OS TESTES DE HIPÓTESE
Caso o valor de β2 sob H0 cair dentro desse
intervalo, não rejeitamos a hipótese nula.
� �
k kct ep( )β β−
� �
k kct ep( )β β+
FONTE: Adaptado de Gujarati e Porter (2011, p. 134)
Se rejeitarmos a hipótese nula, automaticamente estamos aceitando 
a hipótese alternativa. Neste caso, como a hipótese nula diz que β2 = 0,516 e a 
alternativa diz que o verdadeiro valor é diferente disso, mas não diz se é maior 
ou menor, rejeitar a hipótese nula implica aceitar que o verdadeiro β2 pode ser 
qualquer valor maior ou menor do que aquele estabelecido na hipótese nula.
A Figura 8 (com base no intervalo de confiança obtido em 3.42) mostra o 
resultado do nosso teste de hipótese. Perceba que, com 95% de confiança, o β2 de 
H0 caiu fora da região de aceitação da hipótese nula. Com isso, a rejeitamos em 
favor da hipótese alternativa, H1, de que o verdadeiro β2 não é 0,516, mas sim um 
número diferente, seja ele qual for.
FIGURA 8 – TESTE DE HIPÓTESE PARA β
2
Região de rejeição da
H0 e a aceitação da H1.
Região de rejeição da
H0 e aceitação da H1.
Região de aceitação da H0.
0,87820,516 1,1904
FONTE: O autor
Caso aceitássemos a hipótese nula, diríamos que os resultados obtidos 
com a amostra são compatíveis com a hipótese de que o β2 = 0,516.
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
51
Além do teste intervalar, podemos implementar o teste t para verificar a 
significância estatística dos nossos coeficientes estimados. Na prática, esse tipo de 
teste é mais empregado do que o de intervalo de confiança, por ser intuitivamente 
mais claro de se entender do que o anterior.
Os passos para implementar o teste de hipóteses estão no quadro a seguir:QUADRO 6 – FORMATO DO TESTE DE HIPÓTESES
Passo Especificação
1 Determine as hipóteses nula, H0, e alternativa, H1.
2 Especifique a estatística de teste e sua distribuição se a hipótese nula é verdadeira.
3 Escolha α e determine a região de rejeição.
4 Calcule o valor amostral da estatística de teste.
5 Formule sua conclusão.
FONTE: Adaptado de Hill, Judge e Griffiths (2010, p. 117)
Vamos verificar a implementação desses procedimentos com o nosso 
exemplo prático. Começamos recordando que o resultado estimado pelo nosso 
modelo econométrico, dado por 3.17, é:
3.17i iŶ , , X= − +5 43 1 0343
Agora devemos determinar as hipóteses nula e alternativa. A hipótese 
nula é aquela que expressa uma crença que temos em relação àquele parâmetro 
estimado pelo modelo. Ela pode emergir da própria teoria econômica, ou pode 
ser formulada para testar algo que acreditamos, quer seja por questões técnicas, 
quer seja por nossa suposição.
Normalmente testamos a hipótese de que os coeficientes estimados são 
iguais a zero. Isso faz sentido em relação a β̂1, porque, como estamos diante de 
uma equação linear, esse coeficiente parte de algum ponto situado sobre o eixo 
vertical do nosso gráfico cartesiano. Se ele for igual a zero, isso significa que 
podemos eliminá-lo do nosso resultado e a reta de regressão partirá do ponto 
(0,0), ou seja, da origem.
O outro coeficiente, β̂2, se for igual a zero significa que Xi não é capaz 
de explicar as variações em Yi, ou seja, quer dizer que a inclinação da reta de 
regressão é nula e, portanto, a reta é horizontal em relação a Xi, indicando que 
mudanças em sua trajetória não influenciam a trajetória de Yi.
Vamos construir as nossas hipóteses da seguinte forma:
52
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
H : 
H : 
β
β
=
≠
0 1
1 1
0
0
O segundo passo diz que devemos especificar a estatística de teste e sua 
distribuição de probabilidade. Por definição, vimos em 3.31 que:
3.31( ) ( )
k k
n
k
t ~ t
ep
ˆ
ˆ
β β
β −
−
= 2
Isso significa que aceitar H0 é aceitar a distribuição de 3.31, enquanto 
rejeitar H0 em favor de H1 quer dizer que 3.31 não tem distribuição tn – 2.
Antes de explicar o que significa a escolha de α, precisamos entender o 
que acontece quando rejeitamos uma hipótese nula e ela é verdadeira, ou quando 
aceitamos uma hipótese nula e ela é falsa. Em estatística podemos cometer dois 
tipos de erro: o erro tipo I e o erro tipo II.
Um erro do tipo I ocorre quando rejeitamos a hipótese nula e ela é verdadeira. 
Assim, se rejeitarmos a H0:β1 = 0, aceitando que ele tem qualquer valor diferente de 
zero, mas na verdade ele é zero, estaremos cometendo um erro do tipo I.
Por outro lado, o erro do tipo II ocorre quando aceitamos H0, mas na 
realidade ela é falsa, ou seja, aceitamos que H0:β1 = 0, fazemos nossa análise com 
uma linha de regressão que passa pela origem, quando na verdade β1 não é zero, 
é um número qualquer diferente de zero.
Assim, aceitar ou rejeitar uma hipótese consiste em um jogo em que estamos 
sujeitos a cometer um determinado erro, porém há uma certa probabilidade 
envolvida nessa escolha. O que nos leva a tomar a decisão é a minimização da 
probabilidade de se cometer um erro do tipo I. E é exatamente aqui que entra a 
escolha do nível de significância α.
Escolher α significa responder à questão: Quão rigoroso eu sou ou 
pretendo ser em relação ao meu resultado? Ou ainda: Qual a probabilidade de se 
cometer o erro do tipo I que eu estou disposto a aceitar? Se escolhermos um α = 
0,10, quer dizer que estou disposto a rejeitar a hipótese nula em favor da hipótese 
alternativa, com 10% de probabilidade de se cometer o erro do tipo I.
Como padrão, os pesquisadores costumam aceitar 5% de probabilidade de 
se cometer um erro do tipo I, ou seja, escolhem um α = 0,05. Outros, que buscam 
resultados mais precisos, estabelecem α = 0,01, ou 1% de probabilidade de se rejeitar 
a hipótese nula quando ela é verdadeira.
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
53
Em relação ao erro do tipo II, podemos dizer que sua probabilidade é 
dada por θ (teta). Assim, podemos definir o poder do teste como 1 – θ, que é a 
probabilidade de se rejeitar H0 quando ela realmente é falsa. Com isso, dizemos 
que se a probabilidade de se cometer o erro do tipo II é de 10%, o poder do teste 
é de 90%, ou seja, θ = 0,10 → 1 – θ = 0,90.
Para o nosso exemplo, vamos escolher o α = 0,05, e aceitar a probabilidade 
de se rejeitar a H0:β1 = 0 quando ele é diferente de zero em 5%. Com isso podemos 
partir para o próximo passo que consiste em calcular a estatística de teste, dada 
por 3.31 cujo resultado está em 3.43:
3.43( )
,t ,
,e ˆp
β̂ β
β
− − −
= = = −1 1
1
5 43 0 0 4488
12 0982
O resultado em 3.43 deve ser comparado à tabela de distribuição de t, com 
n – 2 graus de liberdade, em que n é o tamanho da amostra. No nosso caso, n – 2 → 
10 – 2 = 8 graus de liberdade.
Já sabemos como obter o valor crítico da distribuição t8gl a partir de uma 
tabela estatística e a partir do Gretl. Vamos usar a segunda opção por ser mais 
prática. Só precisamos lembrar de que essa informação está em “Ferramentas” e 
“Tabelas estatísticas”, e depois selecionamos a aba que contém a distribuição de 
t. No campo gl informamos 8 e no campo probabilidade da cauda direita, temos 
que informar 0.025 (ponto ao invés de vírgula). Por que informamos 0.025 ao 
invés de 0.05, se escolhemos o α = 0,05? Porque no Gretl ele pede a probabilidade 
da cauda direita e, como vimos, a distribuição t é simétrica, semelhante à 
distribuição normal. Por isso, basta indicar a probabilidade de uma das caudas 
que o programa calcula a da outra.
O resultado obtido é t8gl = 2,306, o qual é maior do que o valor obtido no 
cálculo da estatística de teste, ou seja, t = – 0,4488. Aqui devemos estabelecer a 
seguinte regra: se o valor de tcalculado > ttabela, rejeitamos a hipótese nula no nível de 
significância estabelecido. No caso do nosso exemplo, como – 0,4488 < 2,306, ou 
seja, o t calculado é bem menor do que o t da tabela, com nível de significância de 
5% (0,05) e 8 graus de liberdade. Nesse caso não podemos rejeitar a hipótese nula 
de que o β1 = 0 e, portanto, a linha de regressão, para este exemplo, deve passar 
pela origem.
54
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
GRÁFICO 4 – TESTE DE HIPÓTESE PARA O β
1
0,5
T(8)
0,4
0,3
0,2
-5 -4 -3 -2 -1 0 1 2 3 4 5
0,1
0
Região de
rejeição da H
0
.
Região de
aceitação da H
0
.
Região de
rejeição da H
0
.
FONTE: Adaptado de Gretl (2018)
Em termos gráficos, o Gráfico 4 apresenta uma análise intuitiva dos 
resultados obtidos. A região de aceitação da hipótese nula está demarcada no 
gráfico de distribuição de t8gl. A área cinza em ambos os lados indica a região de 
rejeição da hipótese nula. O demarcador de cada região é o valor de tc, ou seja, do 
valor da estatística de t encontrado na tabela de distribuição de probabilidade.
Como o valor calculado de t, dado por 3.43 está dentro da região de 
aceitação da hipótese nula, essa hipótese não pode ser descartada. Com isso, a 
indicação é que a regressão não deveria ter intercepto e seu gráfico ficaria como 
o do Gráfico 5.
A pergunta que fica é: Nós podemos realmente fazer isso? Na prática, uma 
regressão que passa pela origem é válida? Por ora basta sabermos que, apesar 
de o nosso teste de significância nos dizer que o β1 é estatisticamente igual a 
zero, somente iremos retirá-lo da nossa regressão se houver argumentos teóricos 
e técnicos muito convincentes. Alguns modelos de regressão realmente não 
dispõem de constante β1, por exemplo, o modelo CAPM (de formação de preços 
de ativos financeiros). Porém, via de regra, não devemos omitir o intercepto do 
nosso modelo de regressão.
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
55
GRÁFICO 5 – REGRESSÃO QUE PASSA PELA ORIGEM
Y
0 X
� �
i iY Xβ→ = 2FRA
FONTE: O autor
Mais adiante voltaremos ao β1 não significativo em termos estatísticos, 
quando interpretarmos o resultado da regressão comoum todo. Agora vamos 
fazer um novo teste de hipótese, só que para o β2, e por coerência, manteremos 
os mesmos critérios, ou seja, nível de significância estatística de 5% ou α = 0,05.
H
H
β
β
=
≠
0 2
1 2
: 0
: 0
A estatística de teste calculada é:
3.44( )
t
ep
β β
β
− −
= = =2 2
2
1,0343 0 15,2777
ˆ
0,067ˆ 7
Sabemos que o valor da tabela é de tc = 2,306, que é menor que 15,2777. 
Dessa forma, como o valor calculado da estatística de t é maior do que o valor 
da tabela, rejeitamos a hipótese nula em favor da hipótese alternativa que diz 
que o β2 é estatisticamente diferente de zero. Esse resultado nos dá um alento, 
afinal, o intercepto foi considerado não significante do ponto de vista estatístico. 
Caso o coeficiente angular β2 também fosse estatisticamente igual a zero, teríamos 
um sério problema. Isso significaria que nosso modelo não é válido, como já 
discutimos.
56
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Vamos recapitular o que vimos até agora. Após estimarmos o nosso modelo 
econométrico, obtivemos estimativas pontuais para os β1 e β2, calculamos a variância do 
termo de erro e os desvios padrão dos coeficientes estimados de mínimos quadrados. 
Estimamos um intervalo com 1 – α de confiança, com α = 0,05 ou 95%, e percebemos que 
as nossas estimativas estão dentro desses intervalos especificados. Porém, o intercepto 
não é estatisticamente significativo em nível de 5% de significância estatística.
Vamos deixar para você testar novamente o intercepto, considerando 
um nível de significância de 10%. Será que se formos menos rigorosos o nosso 
intercepto será estatisticamente significativo? Você deverá repetir o teste para o 
β2, só que com um nível de significância menor, de 1%. Neste caso, sendo ainda 
mais rigoroso, continuamos rejeitando a hipótese nula para o β2?
Falta ainda um passo para terminarmos nossa análise estatística, antes 
de fazermos a interpretação dos resultados. O que queremos saber agora é se 
o modelo se ajusta bem aos dados, e para isso calcularemos o coeficiente de 
determinação r2, que nos dará uma medida da qualidade do ajustamento do 
nosso modelo aos dados. Dito de outra forma, saberemos quantos por cento das 
variações de Y são explicadas por i iY X= − +ˆ 5,43 1,0343 .
A estimação dos parâmetros da regressão se dá através da minimização 
da soma dos quadrados dos desvios, por isso se chama de método dos mínimos 
quadrados ordinários. Ocorre que essa soma dos quadrados dos desvios, ou soma 
total dos quadrados (SQT), pode ser dividida em dois componentes. Um deles 
é a soma dos quadrados dos resíduos (SQR) e o outro a soma dos quadrados 
explicados pela regressão (SQE).
Para facilitar a compreensão, vamos dar uma olhada na Figura 9. Ela 
apresenta a decomposição da variação dos erros. Dito de outra forma, nela 
encontramos o valor médio de Y, representado por Y, traçamos uma linha da 
função de regressão amostral e indicamos onde estão localizados, no gráfico, o 
verdadeiro valor de Y e o seu valor estimado pela regressão Ŷ.
Assim fica claro entender que, quando falamos na soma total dos 
quadrados, estamos nos referindo à soma das variações de Y em torno do seu 
valor médio amostral, que é dado por:
3.45iSQT Y Y= −∑ 2( )
3.46� iiSQE Y Y= −∑ 2( )
Por sua vez, a soma dos quadrados da variação residual de Y, SQR, é 
obtido por:
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
57
Finalmente, a soma dos quadrados da variação explicada de Y, SQE, é:
( )iSQR Y Y= ∑ −
2ˆ 3.47
Da relação entre as equações anteriores, podemos escrever:
3.48SQT = SQR + SQE
Dividindo ambos os lados de 3.48 por SQT, teremos:
3.49
SQR SQE
SQT SQT
= +1
Que equivale a:
3.50
( )
( )
( )
( )
i i i
i i
Y Y Y Y
Y Y Y Y
∑ − ∑ −
= +
∑ − ∑ −
2 2
2 2
ˆ ˆ
1
De 3.8, sabemos que ( )i i iu Y Y∑ = ∑ −
2
2 ˆˆ , então, podemos reescrever 3.50 
como:
3.51
( )
( )
( )
ii
i i
Y Yu
Y Y Y Y
∑ −∑
= +
∑ − ∑ −
2
2
2 2
ˆˆ
1
Agora, podemos definir o coeficiente de determinação r2, que mede 
quanto da variação de Y é explicada pelo modelo de regressão. Algebricamente 
escrevemos:
3.52
( )
( )
i
i
Y YSQEr
SQT Y Y
∑ −
= =
∑ −
2
2
2
ˆ
Ou, alternativamente, 
( )
i
i
u SQRr
SQTY Y
∑
= − = −
∑ −
2
2
21 1
ˆ
.
58
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
FIGURA 9 – DECOMPOSIÇÃO DA VARIAÇÃO DOS ERROS
Y
Y
� � �
i iY Xβ β→ = +1 2FRA
�
iiY Y= −Total ( )
�
iiY Y= −Total ( )
�
iiY Y= −Total ( )
�Yi Y−( )Devido à regressão =
Devido aos resíduos =  iu
X
Xi
FONTE: Adaptado de Gujarati e Porter (2011, p. 96)
Vamos pôr em prática o que vimos calculando o coeficiente de 
determinação para o modelo econométrico que está servindo de exemplo para os 
nossos estudos:
QUADRO 7 – ALTURA DOS PAIS E FILHOS EM CM, COM VALORES ESTIMADOS E RESÍDUOS
Obs. Y X = −i iy Y Y ( )
22 = −i iy Y Y Yi = β1 + β2Xi ˆˆ = −i i iu Y Y
2ˆ iu
1 166 165 -13,2 174,24 165,2364 0,7636 0,5831
2 168 168 -11,2 125,44 168,3394 -0,3394 0,1152
3 169 171 -10,2 104,04 171,4424 -2,4424 5,9654
4 176 174 -3,2 10,24 174,5455 1,4545 2,1157
5 180 177 0,8 0,64 177,6485 2,3515 5,5296
6 179 180 -0,2 0,04 180,7515 -1,7515 3,0678
7 185 183 5,8 33,64 183,8545 1,1455 1,3121
8 186 186 6,8 46,24 186,9576 -0,9576 0,9170
9 188 189 8,8 77,44 190,0606 -2,0606 4,2461
10 195 192 15,8 249,64 193,1636 1,8364 3,3722
Soma 1792 1785 0 821,6 1.792 0,0000 27,2242
Média 179,2 178,5 0 82,16 0,00 0,0000 2,7224
FONTE: O autor
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
59
O Quadro 7, que é uma síntese dos quadros 2 e 3, apresenta as informações 
que precisamos. Vamos usar a seguinte equação:
3.53( )
2
2
21
ˆ i
i
u
r
Y Y
∑
= −
∑ −
3.542
27,2242 1 0,9669
821,6
r = − =
Isso significa que 96,69% das variações em Y são explicadas pelo nosso 
modelo de regressão. Podemos dizer que é um ótimo resultado!
O coeficiente de determinação é uma estatística cujo resultado deve ficar 
entre 0 < r2 < 1. Se for igual a zero, dizemos que nosso modelo de regressão não 
é capaz de explicar as variações de Y. O outro extremo, isso é, r2 = 1,00, significa 
que 100% das variações em Y são explicadas pelo nosso modelo. O caso extremo 
é raro de acontecer, normalmente teremos valores intermediários.
6 O USO DO GRETL PARA ESTIMAÇÃO E ANÁLISE 
ECONOMÉTRICA: A ANÁLISE DOS RESULTADOS E SUA 
INTERPRETAÇÃO
Depois de todo esse esforço braçal que fizemos para estimar o modelo 
de regressão, calcular os intervalos de confiança, testar as hipóteses e verificar a 
qualidade do ajustamento do nosso modelo, é hora de darmos passos mais largos 
e avançarmos de forma mais rápida e sermos mais eficientes no nosso trabalho.
A tecnologia é grande aliada dos economistas e, especialmente, dos 
econometristas. Fazer todos esses cálculos que fizemos até agora na mão é muito 
importante para você entender de onde vêm as coisas e valorizar os resultados 
obtidos, mas, do ponto de vista prático, é um tempo precioso que gastamos e 
que poderia ser investido em outras coisas, por exemplo, analisar e interpretar os 
resultados ou trabalhar melhor o nosso banco de dados.
A ideia de agora em diante é gastar o menor tempo possível fazendo cálculos 
manuais e aproveitar o máximo possível o tempo analisando e interpretando os 
resultados. Para isso, vamos propor o mesmo experimento feito anteriormente. 
Vamos investigar se a altura dos pais é passada para os filhos, ou seja, vamos 
testar o grau de hereditariedade na altura. O Quadro 8 traz dados simulados da 
altura dos filhos e dos pais, em cm:
60
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
QUADRO 8 – ALTURA DOS FILHOS E DOS PAIS EM CM
Obs. Y X
1 166 165
2 168 168
3 169 171
4 176 174
5 180 177
6 179 180
7 185 183
8 186 186
9 188 189
10 195 192
Soma 1792 1785
Média 179,2 178,5
FONTE: O autor
Os quadros 2 e 8 são os mesmos, só que agora sem os cálculos que 
apresentamos naquela oportunidade. A primeira coisa que precisamos fazer é 
abrir o nosso software econométrico, o Gretl, e colocar essa tabela dentro dele. 
Para isso, na tela inicial escolha“Arquivo” e “Novo conjunto de dados”. Na 
janela seguinte ele pede o número de observações, escolha 10, porque é essa a 
quantidade de dados presentes no Quadro 8.
Ao pedir qual é a estrutura de dados, ele apresenta três opções: são dados 
de corte (aqueles que são dispostos por indivíduo e não variam no tempo), série 
temporal (dados de um indivíduo que variam no tempo) e painel (que junta dados 
de corte e série temporal). Neste caso você escolherá dados de corte e clicará 
em “Avançar”, e depois, quando ele pedir para confirmar a estrutura de dados, 
escolha “Aplicar”.
O Gretl criará uma variável índice que contém uma sequência de números 
que vão de 1 a 10. Essa variável não tem nenhuma aplicação prática para nós 
nesse momento. Para acrescentar os dados do Quadro 8, você deve selecionar o 
menu “Acrescentar” e depois “Definir nova variável”. Quando abrir a janela, você 
informará a fórmula da nova variável ou o seu nome. Informe Y e clique em “ok”.
Automaticamente o Gretl abrirá uma tabela para você entrar com as 
informações de Y. Basta digitá-las, linha por linha, e no final você deve clicar no 
botão de que aparece na parte superior direita da tabela, como mostra a Figura 
10. Ao repousar o mouse sobre o botão, ele apresentará a legenda “acrescentar”, 
como pode ser visto na figura. Abrirá um menu de opções e você selecionará 
“Acrescentar variável” e posteriormente informará o nome da próxima variável 
que é X.
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
61
FIGURA 10 – ENTRANDO COM OS DADOS NO GRETL MANUALMENTE
FONTE: Adaptado de Gretl (2018)
A partir daí é só entrar com as informações da variável X e clicar no botão 
aplicar para concluir a importação dos dados. Ao retornar à tela inicial do 
Gretl, você visualizará uma constante com indicador 0 , a variável índice com 
indicador 1, a variável Y com indicador 2 e a variável X com indicador 3.
Há outra opção que consiste em importar os dados diretamente de 
uma planilha do Excel. O processo de importação de dados é bastante simples, 
bastando selecionar a opção Arquivo → Abrir dados → Arquivo do usuário, e 
em seguida escolher a pasta onde está o arquivo e o formato desejado, como na 
Figura 11.
Na tela seguinte você deve informar em qual planilha, coluna e linha estão 
os dados, sendo a “Coluna 1” do Gretl o equivalente à coluna “A” do Excel, e a 
“Linha 1” do Gretl é onde tem o rótulo dos dados no Excel (ver Figura 12).
62
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
FIGURA 11 – IMPORTANDO OS DADOS PARA O GRETL A PARTIR DO EXCEL
FONTE: Adaptado de Gretl (2018)
O Gretl apresenta uma mensagem, informando que foram encontradas 
“x” planilhas, “y” variáveis e “z” observações. Como a única opção apresentada 
é “Fechar”, basta escolhê-la para que seja apresentada a segunda mensagem, que 
diz respeito ao tipo de dados que se está trabalhando. No caso de dados de corte, 
nosso caso, basta dar um “Não”.
FIGURA 12 – IMPORTAÇÃO DOS DADOS PASSO A PASSO
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
63
FONTE: Adaptado de Gretl (2018)
Você poderá clicar com o botão direito do mouse sobre cada uma das 
variáveis e escolher “Editar as características” para acrescentar informações que 
julgue relevantes, tais como descrição, por exemplo. Essa atividade de personalizar 
a apresentação da sua estrutura de dados ficará como desafio. Assim, você poderá 
explorar as funcionalidades do software e aprender coisas novas. Lembre-se, é 
sujando as mãos que se aprende econometria!
É costume entre os econometristas rodar um gráfico de dispersão antes 
de estabelecer qual modelo econométrico será estimado. Com isso espera-se 
obter alguma informação sobre a equação matemática que servirá de base para 
o modelo de regressão. Para fazer isso, na borda inferior do Gretl, selecione o 
botão que tem uma figura de gráfico . Na janela que abrir, você deve indicar 
a variável X para o eixo X, e obviamente a variável Y para o eixo Y. O Gráfico 6 
apresenta o gráfico de dispersão que geramos a partir do Gretl:
64
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
GRÁFICO 6 – GRÁFICO DE DISPERSÃO DA ALTURA DOS FILHOS EM RELAÇÃO À ALTURA DOS 
PAIS COM LINHA DE REGRESSÃO
FONTE: Adaptado de Gretl (2018)
Um fato importante em relação ao gráfico de dispersão apresentado é que 
o Gretl já mostra a linha de regressão, mesmo sem termos solicitado. Para removê-
la, basta você clicar sobre o gráfico com o botão direito e escolher “Editar”. Na aba 
principal da janela que se abrirá, você escolhe “Linha de ajustamento” e seleciona 
“Nenhum”, clicando em “ok” na sequência. O Gráfico 7 mostra o gráfico sem a 
linha de regressão:
195
190
185
180
175
170
165
165 170 175 180 185 190
160
+
+
+
+
+
+
+ +
+
5,43 1,03Y X= − +
Y versus X (com ajustamento por mínimos quadrados)
Y
X
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
65
GRÁFICO 7 – GRÁFICO DE DISPERSÃO DA ALTURA DOS FILHOS EM RELAÇÃO À ALTURA DOS 
PAIS SEM LINHA DE REGRESSÃO
195
190
185
180
175
170
165
165 170 175 180 185 190
160
+
+
+
+
+
+
+ +
+
FONTE: Adaptado de Gretl (2018)
O procedimento anterior também é útil para testar outras formas funcionais, 
bastando selecionar qualquer uma das opções, quadrática, cúbica, inversa, entre 
outras, como mostra a figura:
FIGURA 13 – SELEÇÃO DE LINHAS DE AJUSTAMENTO
FONTE: Adaptado de Gretl (2018)
66
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Voltando ao Gráfico 7 é possível perceber que há uma correlação 
positiva entre as variáveis. Isso fica evidente na medida em que os pontos estão 
dispersos da esquerda para a direita de forma ascendente. Com isso, e dado que a 
distribuição parece seguir uma linha mais ou menos reta, podemos escolher uma 
equação linear e esperar que o coeficiente angular seja positivo, afinal de contas, 
a correlação aparentemente é positiva.
Estabelecemos o seguinte modelo de regressão a ser estimado:
3.55Yi = β1 + β2Xi + ui
O procedimento de estimação no Gretl é bem intuitivo. No menu principal 
do Gretl você deve selecionar “Modelo”, e em seguida “Mínimos Quadrados 
Ordinários”. Na variável dependente você informa Y, clicando sobre a variável e 
na seta correspondente, e para o campo “regressor”, já temos a constante como 
padrão, bastando selecionar X. Depois é só clicar em “ok” para visualizar os 
resultados, que são apresentados no Quadro 9.
Perceba a quantidade enorme de informações apresentada pelo Gretl. 
Vamos ler a maior parte delas agora e individualmente para entender o que 
temos em mãos. Na equação 3.17 vimos o resultado da estimação manual dos 
coeficientes de mínimos quadrados. Agora podemos compará-los à saída do 
Gretl e ver se o nosso cálculo estava correto.
Os parâmetros calculados manualmente e os calculados pelo Gretl são 
exatamente os mesmos, diferindo ligeiramente por questão do arredondamento 
usado nos cálculos manuais. Este é mais um motivo pelo qual não devemos fazer 
esses cálculos à mão. A precisão do programa de computador é muito maior do 
que a nossa capacidade de calcular e arredondar os resultados. 
QUADRO 9 – SAÍDA DO GRETL PARA A ESTIMAÇÃO DO MODELO DE REGRESSÃO 3.55
Modelo 1: MQO, usando as observações 1-10
Variável dependente: Y
 coeficiente erro padrão razão-t p-valor 
 ---------------------------------------------------------
 const −5,43030 12,0984 −0,4488 0,6655 
 X 1,03434 0,0676994 15,28 3,34e-07 ***
Média var. dependente 179,2000 D.P. var. dependente 9,554522
Soma resíd. quadrados 27,22424 E.P. da regressão 1,844730
R-quadrado 0,966864 R-quadrado ajustado 0,962722
F(1, 8) 233,4319 P-valor(F) 3,34e-07
Log da verossimilhança −19,19700 Critério de Akaike 42,39400
Critério de Schwarz 42,99917 Critério Hannan-Quinn 41,73013
FONTE: Adaptado de Gretl (2018)
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
67
O Quadro 9 apresenta também, nas linhas iniciais, ao ladodos coeficientes 
estimados, o erro padrão e a razão t. Comparem esses resultados com os que 
obtivemos no Quadro 4 e nas equações 3.43 e 3.44. Novamente a diferença está no 
arredondamento.
Por padrão, a razão t apresentada pelo Gretl trabalha com a H0 de que o 
coeficiente estimado é estatisticamente igual a zero. Neste caso, sabemos por 3.31 
que basta dividir o coeficiente pelo desvio padrão e assim obter o valor de t. 
Ao lado da estatística t está o p-valor, que mede o nível exato da 
probabilidade de se cometer o erro do tipo I, ou seja, o menor nível de significância 
ao qual rejeitamos a hipótese nula (GUJARATI; PORTER, 2011, p. 142). Para o β̂1
, que é representado no Quadro 9 como constante, a probabilidade de se cometer 
o erro do tipo I é de 66,55%, caso decidirmos rejeitar a hipótese nula de que o β1 é 
zero, quando ela é verdadeira. Por isso não podemos rejeitar a H0.
Por outro lado, vemos que o p-valor do β̂2 é muito baixo, 3,34e-07. Esse 
número científico pode ser traduzido para 0,000000334. Ou seja, “e-07” quer dizer 
que há 6 zeros após a vírgula e a partir da sétima casa decimal aparecem os números 
334. Podemos concluir que a probabilidade de se cometer um erro do tipo I ao se 
rejeitar H0 : β2 = 0 é muito pequena. Por isso podemos rejeitá-la sem medo.
Podemos adotar como regra geral para a rejeição da hipótese nula: quando 
o p-valor do teste de hipótese é menor do que o valor escolhido de α, rejeitamos a 
hipótese nula. Assim, se α = 0,05 e o p-valor é 0,0000, podemos rejeitar a hipótese 
nula de que o coeficiente estimado é estatisticamente igual a zero, com 0,00% de 
probabilidade de se cometer um erro do tipo 𝐼.
Outro detalhe são os três asteriscos que aparecem ao lado do p-valor. O 
Gretl está nos informando que esse parâmetro é estatisticamente significativo ao 
nível de 1%. Ele usa como padrão três asteriscos para 1%, dois asteriscos para 
5% e um asterisco para 10% de significância estatística. Quando não aparecem os 
asteriscos quer dizer que o coeficiente estimado não é estatisticamente significativo 
ou estatisticamente diferente de zero.
Em 3.54 calculamos o grau de ajustamento do modelo, representado pelo 
r2. Naquela ocasião chegamos ao valor de r2 = 0,9669. Compare esse resultado 
com o Quadro 9 e perceba novamente que a diferença entre os resultados está no 
arredondamento. Para padronizar a sua apresentação e os seus cálculos, procure 
usar sempre quatro casas após a vírgula.
Como o resultado dos programas econométricos apresentam um excesso 
de informação, no momento de apresentar o seu resultado em um artigo científico 
ou em um trabalho acadêmico, você deve selecionar apenas algumas dessas 
informações. Não existe uma apresentação padrão, por isso sugerimos o seguinte:
68
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
( ) ( )
2
5 4303 1 0343
12 0984 0 0677
0 9669
i iY , , X
, , * * *
,
ˆ
r
= − +
=
3.56
( ) ( )
2
5 4303 1 0343
12 0984 0 0677
0 9669
i iY , , X
, , * * *
,
ˆ
r
= − +
=
3.57
Em 3.56 apresentamos entre parênteses os erros padrão. Assim, quem ler o 
seu resultado poderá fazer um teste de hipóteses rapidamente, calculando a razão 
t e verificando se os coeficientes estimados são estatisticamente significativos.
Outra forma de apresentar é substituir os valores dos desvios padrão 
pelas razões t. Você pode ainda optar por colocar asteriscos ao lado da estatística 
para que o leitor saiba se as estimativas são significativas ou não e em qual nível:
Para interpretar o resultado da regressão precisamos recorrer ao nosso 
conhecimento prévio, à teoria econômica por trás do modelo, ao problema proposto 
e às hipóteses levantadas. Com isso em mente, verificamos se os resultados 
alcançados fazem sentido. Também buscamos em estudos semelhantes ao nosso 
por resultados que estão em linha ou que discordam daquele que alcançamos.
Como o estudo proposto dizia respeito à hereditariedade, ou seja, à 
capacidade dos pais transferirem aos filhos a sua estatura, o nosso modelo 
estimado está bem coerente com o que se esperava. Em primeiro lugar porque o 
sinal do coeficiente estimado β̂2 é positivo, indicando que em média a altura dos 
pais influencia a estatura dos filhos de forma positiva, ou seja, quanto maiores os 
pais, maiores também serão os filhos.
Além disso, o coeficiente estimado β̂2 é estatisticamente significativo, 
mesmo considerando um nível de significância estatística de 1% (α = 0,01). Por 
outro lado, o intercepto β̂1 não é estatisticamente significativo. Em geral, esse 
coeficiente não tem muito sentido econômico e, como vimos, a menos que se tenha 
uma razão teórica muito forte, o fato de o intercepto não ser significativo não quer 
dizer que deva ser eliminado da nossa regressão. Faz mais sentido mantê-lo, até 
mesmo para se evitar um erro de especificação, como será visto ao longo desse 
curso.
O coeficiente de determinação r2 é de 0,9669, o que significa que 96,69% 
das variações na altura dos filhos nessa amostra é explicado pelo nosso modelo 
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
69
econométrico. Isso é muito bom porque significa que o nosso modelo se ajusta 
muito bem aos dados. Porém, aqui vai um alerta importante. Todos esses 
resultados foram obtidos com uma amostra contendo apenas 10 observações. 
Acontece que esse tamanho é muito pequeno e pode causar alguns problemas 
estatísticos, como a micronumerosidade. Além disso, praticamente todos os testes 
estatísticos são testes assintóticos, ou seja, construídos para que funcionem bem 
em amostras grandes.
Sempre que trabalharmos com a estimação de regressões por mínimos 
quadrados, precisamos de amostras que contenham no mínimo 20 graus de 
liberdade, independentemente de quantos estimadores ou variáveis explicativas 
tenham o nosso modelo. Os graus de liberdade são estabelecidos a partir do 
tamanho da amostra, no nosso exemplo são 10, menos os parâmetros estimados, 
ou seja, a constante β̂1 e o coeficiente β̂2. Assim, perdemos 2 graus de liberdade 
e, com isso, em vez de dez, temos apenas oito graus de liberdade, o que é 
consideravelmente pouco para um experimento confiável.
Essa regra sobre graus de liberdade pode ser somada à regra que diz que, 
sob a hipótese nula de que o parâmetro estimado é estatisticamente igual a zero, 
se tivermos pelo menos 20 graus de liberdade, e com um nível de significância de 
5%, o valor da estatística t deve ser maior do que 2 em módulo, ou seja, |t| > 2. 
Se você procurar em uma tabela estatística os valores críticos de t, com 20 graus 
de liberdade, e α = 0,05, encontrará um valor próximo de 2, ou, para sermos mais 
precisos, de 2,08596. Com isso, e sabendo que se o valor de tcalculado > ttabela, a um 
nível de 5% de significância estatística, podemos rejeitar a hipótese nula a favor 
da hipótese alternativa de que o coeficiente é estatisticamente diferente de zero.
Devemos nos lembrar de que estamos supondo que os termos de erro 
têm distribuição normal, sem a qual as estatísticas não têm o menor valor. O teste 
de normalidade de Jarque-Bera (JB) pode ser facilmente implementado com o 
auxílio do Gretl. Basicamente ele consiste na estimação da equação 3.58, e tem 
como 0 iH : u ~ˆ Normal, e usa uma tabela qui-quadrado com dois graus de liberdade:
( )22 3
6 24
KSJB n
 −
 = +
 
 
3.58
Em que n é o tamanho da amostra, S é o coeficiente de assimetria, que deve 
ser igual a zero, e K é o coeficiente de curtose, que deve ser igual a 3. Graficamente 
falando, a curva será uniformemente distribuída em ambos os lados da média.
O teste é implementado a partir do modelo de regressão estimado pelo 
Gretl, na janela da estimativa, no menu “Testes” e “Normalidade dos resíduos”. 
Os resultados são apresentados no Gráfico 8, e os resultados do teste, também 
apresentados pelo Gretl, estão no Quadro 10.
70
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Grifamos o resultado do teste para você compreender melhor o seu 
significado. Perceba que o Gretl apresenta a hipótese nula de queos resíduos 
têm distribuição normal. Apresenta o valor do qui-quadrado com dois graus de 
liberdade e o p-valor, de 0,36133. Sabemos que o p-valor é a probabilidade exata 
de se cometer um erro do tipo I, ou seja, rejeitar a hipótese nula quando ela é 
verdadeira. Nesse caso, a probabilidade de rejeitarmos a hipótese nula e ela ser 
verdadeira é de 36,13%. Por este motivo, nós não rejeitamos a hipótese nula e 
chegamos à conclusão de que os resíduos têm distribuição normal.
QUADRO 10 – DISTRIBUIÇÃO DE FREQUÊNCIA PARA TESTE DE JARQUE-BERA
Distribuição de frequência para uhat1, observações 1-10
número de classes = 5, média = 5,68434e-015, desvio padrão = 1,84473
 intervalo pt. médio frequência rel. acum.
 < -1,8432 -2,4424 2 20,00% 20,00% *******
 -1,8432 - -0,64470 -1,2439 2 20,00% 40,00% *******
 -0,64470 - 0,55379 -0,045455 1 10,00% 50,00% ***
 0,55379 - 1,7523 1,1530 3 30,00% 80,00% **********
 >= 1,7523 2,3515 2 20,00% 100,00% *******
Teste para a hipótese nula de distribuição normal:
Qui-quadrado(2) = 2,036 com p-valor 0,36133
FONTE: Adaptado de Gretl (2018)
Você deve estar se perguntando: Devo testar a hipótese nula em todas 
as minhas regressões? Não necessariamente. Apesar de ser uma hipótese 
importante, ela deve ser testada de fato para amostras com menos de 100 
observações (GUJARATI; PORTER, 2011, p. 120). Como a distribuição normal é 
assintótica, pelo Teorema do Limite Central, à medida que a amostra aumenta 
indefinidamente, a distribuição de um estimador tende a se aproximar da 
distribuição normal (GUJARATI; PORTER, 2011, p. 827).
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
71
GRÁFICO 8 – TESTE DE NORMALIDADE DOS RESÍDUOS
FONTE: Adaptado de Gretl (2018)
Consideramos ainda que os estimadores de mínimos quadrados 
convergem para os valores verdadeiros, os quais seriam obtidos se tivéssemos 
acesso a todas as observações da população. Mas, como estamos trabalhando 
com amostras, dizemos que em amostras repetidas, em média, os parâmetros 
devem convergir para as médias populacionais. Isso significa que os coeficientes 
estimados por mínimos quadrados são não tendenciosos.
Podemos testar essa afirmação usando os chamados experimentos de 
Monte Carlo e verificar se, em média, os valores de β̂2 convergem em média ao 
valor que estimamos. Para fazer isso, ainda dentro do arquivo que você usou para 
rodar a regressão, abra o console do Gretl, clicando no botão no menu - “abrir 
o menu console” – na parte inferior do programa. 
Na janela aberta, digite a sequência de comandos do Quadro 11, lembrando 
de substituir a vírgula por ponto. O primeiro passo é criar uma série de ˆiY , o qual 
é obtido com o comando “series Ys”. Na sequência é definida a quantidade de 
estimações repetidas que serão feitas, e neste caso são 1.000 estimações. Como 
sabemos que ˆi i iY Y u= + , e definimos essa variável ˆiY no primeiro passo, devemos 
supor que os ui~N(0,1) . Com isso obtemos o valor de Yi.
Agora é só rodar a regressão por mínimos quadrados ordinários de 
Yi contra Xi, através do comando “ols” (de ordinary least square) e salvar os 
0,3
0,25
0,2
0,15
0,1
0,05
0
-6 -4 -2 0 2 4 6
Estatística de teste para normalidade:
Qui-quadrado(2) = 2,036 [0,3613]
uhat1
N(5,6843e-0,15 1,8447)
D
en
si
da
de
uhat1
72
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
parâmetros estimados obtidos em cada uma das 1.000 estimativas. Depois disso, 
ao dar o comando “endloop”, o programa encerra o experimento informando os 
resultados das estimativas de mínimos quadrados de Yi contra Xi, com os valores 
médios dos parâmetros estimados.
A sequência de comandos que vem depois serve para mostrar as demais 
estatísticas desses parâmetros estimados, o que nos permite verificar se os 
resultados após 1.000 estimativas são convergentes.
QUADRO 11 – EXPERIMENTO DE MONTE CARLO
FONTE: Adaptado de Gretl (2018)
series Ys = -5.4303 + 1.0343*X
loop 1000 --progressive --quiet
Y = Ys + normal(0,1)
ols Y const X
scalar b1 = $coeff(const)
scalar b2 = $coeff(X)
scalar sig2 = $sigma^2
print b1 b2 sig2
store "@workdir\coef.gdt" b1 b2 sig2
endloop
open "@workdir\coef.gdt"
summary
freq b2 --normal
O resultado do experimento pode ser sintetizado no Gráfico 9. Se os 
coeficientes estimados são de fato não tendenciosos, então, tomando como 
exemplo o β̂2, vamos esperar que, após 1.000 simulações, ou seja, 1.000 
estimações diferentes, teremos alguns valores maiores e outros menores do que 
os que estimamos no nosso modelo original. Porém, em média, os valores devem 
convergir para 1,0343 , como pode ser visto no resultado do nosso experimento.
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
73
GRÁFICO 9 – RESULTADO DO EXPERIMENTO DE MONTE CARLO
FONTE: Adaptado de Gretl (2018)
7 OUTROS TÓPICOS RELACIONADOS AO MÉTODO DE 
MQO
Nesta última seção da Unidade 1, conversaremos sobre banco de dados, 
formas funcionais e faremos uma aplicação prática para conversarmos um pouco 
sobre a utilização dos modelos econométricos na previsão do comportamento 
das variáveis explicadas.
Um dos pontos mais sensíveis na análise de regressão é a base de dados. 
Muitos trabalhos de pesquisa alcançaram sucesso em função de ter uma boa base 
de dados, com variáveis bem definidas e fontes confiáveis. Da mesma forma, 
alguns trabalhos fracassam porque a sua base de dados é ruim, prejudicando a 
análise e interpretação à luz da teoria econômica subjacente.
Por utilizar informações do mundo real, a economia nem sempre nos 
fornece aquilo de que precisamos para os nossos estudos na quantidade e na 
qualidade adequadas. Muitas vezes precisamos adaptar algumas variáveis, 
criando uma aproximação, ou proxy. Para um exemplo de variável proxy, podemos 
analisar a função consumo keynesiana, supondo que o consumo seja uma função 
da renda e da riqueza da pessoa.
Como fazemos para medir a riqueza? Essa é uma variável para a qual não há 
uma definição de consenso na literatura econômica. Podemos medir, por exemplo, 
Estatística de teste para normalidade:
Qui-quadrado(2) = 1,024 [0,5992]
12
10
8
6
4
2
0
D
en
si
da
de
b2
0,95 1,05 1,1 1,151
b2
N(1,0343 0,036394)
74
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
pelo volume de dinheiro aplicado no mercado financeiro. Outra forma seria pela 
conta de luz, supondo que quanto mais rica for uma família, mais energia elétrica 
ela irá consumir, tendo em vista que terá em sua residência uma quantidade maior 
de aparelhos elétricos e eletrônicos em comparação com pessoas menos ricas.
Essas maneiras diferentes de medir a riqueza são aquilo que chamamos de 
variáveis proxy. Não é a riqueza em si, mas algo plausível e próximo o suficiente 
da verdadeira variável a ponto de conseguirmos extrair um resultado confiável 
do nosso modelo econométrico.
Aqui fica um alerta em relação às variáveis proxy, que serve também 
para as demais. Se você não especificar corretamente as variáveis que entram 
no modelo de regressão, poderá gerar um viés de especificação. Com isso, os 
estimadores de mínimos quadrados perdem algumas das suas características, tais 
como a ausência de viés e a consistência, pois geram resíduos correlacionados ou 
com a variável dependente, ou com a explicativa.
Em um estudo sobre o endividamento das famílias e a sua renda, que 
requeira a aplicação de um questionário, pode ter alguns entrevistados que se 
recusem a fornecer determinadas informações. Isso gera um problema de ausência 
ou omissão de informação.
A solução para esse tipo de problema envolve a aplicação de certas 
técnicas estatísticas. Por exemplo, em uma situação com uma amostra contendo 
40 observações, em que temos duas variáveis, Y e X, sendo que para Y, a variável 
dependente, temos apenas as 38 observações, enquanto para X temos todas as 40 
observações. 
Há três possibilidades de solução nesse caso hipotético. Como você tem 
uma base de dados consideravelmente grande,com mais de 20 graus de liberdade, 
seria possível eliminar as duas observações de X que não formam par com as de 
Y, resolvendo assim o nosso problema. Claro que com isso você tem a perda de 
dois graus de liberdade por reduzir o tamanho da amostra, mas mesmo assim, 
o custo é compensado pela possiblidade de se chegar a resultados consistentes.
A segunda alternativa é preencher essa lacuna com uma previsão para os 
valores faltantes. Nesse caso, você estima a regressão para as 38 observações que 
estão completas e emprega o modelo de regressão estimado para prever os dois 
dados faltantes. Esse é outro procedimento simples de se empregar e garante um 
resultado confiável, além de manter os graus de liberdade que você perderia ao 
eliminar duas observações.
A terceira consiste na imputação de valores através da média das observações 
anteriores de Y. Porém, essa técnica seria melhor empregada se os dados ausentes 
não forem contíguos. Dessa forma, temos condições de gerar estimadores não 
tendenciosos dos parâmetros de regressão.
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
75
Algumas vezes não temos dificuldade em especificar as nossas variáveis. 
Elas são muito claras e até a coleta de dados é bem tranquila no sentido de serem 
facilmente encontradas. Você faz a coleta, monta a sua regressão, mas descobre 
que uma ou algumas poucas observações destoam das demais. Em um gráfico, 
nós visualizaríamos como aquele ponto que destoa ou que é discrepante em 
relação aos demais, como na Figura 14.
Perceba que o volume de câmbio contratado vinha em uma trajetória mais 
ou menos bem-comportada. Ele passa de US$ 2.018 milhões em março/2013 para 
US$ 6.672 milhões em abril/2013, e mais do que dobra em maio, com US$ 14.098 
milhões. 
O termo técnico para isso é outlier, e no nosso dia a dia estamos acostumados 
a ouvir a expressão “ponto fora da curva”. É exatamente isso que significa, ou 
seja, ele destoa dos demais pontos por motivos que precisam ser bem estudados, 
pois apresentam uma discrepância em relação ao comportamento dos demais 
dados da série.
Neste caso, precisamos entender o motivo pelo qual houve essa mudança 
brusca no valor. Precisamos verificar estatisticamente se esse dado precisa ser 
suavizado, através de médias móveis ou a aplicação de algum filtro estatístico, ou 
ainda se é necessário excluí-lo da amostra.
FIGURA 14 – CÂMBIO COMERCIAL CONTRATADO EM US$ (MILHÕES)
FONTE: <www.ipeadata.gov.br>. Acesso em: 22 ago. 2018.
Essa atitude extrema, de excluir essa informação da amostra, poderá 
causar um problema maior do que se a mantivermos na nossa base de dados. 
Talvez essa seja uma grande oportunidade que se revela durante um estudo 
empírico. O pesquisador vem preparado para investigar um fenômeno e acaba 
esbarrando, quase sem querer, em outro que requer a máxima atenção.
Há outras possiblidades, que dependem de qual é a variável em estudo 
e de como ela foi obtida. Talvez o método empregado em sua coleta ou na sua 
transformação apresenta falhas, bastando apenas corrigir esses erros e continuar o 
trabalho. Enfim, tudo dependerá da natureza desse fenômeno e de sua capacidade 
em influenciar os parâmetros do nosso modelo de regressão.
76
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Outra questão que requer a nossa atenção diz respeito às formas funcionais 
dos modelos de regressão. A primeira hipótese do modelo clássico de regressão 
linear estabelece uma relação linear entre a variável dependente e a explicativa. 
Mas de que tipo de linearidade estamos falando?
Quando falamos em linearidade nos modelos de regressão, nos referimos 
sempre aos parâmetros e não às variáveis. Isso significa que um modelo como o 
da equação 3.59 é linear no sentido que buscamos e que atende às hipóteses do 
modelo clássico:
Yi = β1 + β2Xi + β3Xi2 + ui 3.59
Yi = β1 + β22Xi + ui 3.61
Por outro lado, um modelo com o formato da equação 3.60 ou 3.61 não é 
considerado linear:
2
1
3
Y X ui i i
β
β
β
= + + 3.60
Isso nos permite formular o seguinte conceito relativo à linearidade: um 
modelo de regressão é considerado linear nos parâmetros e, portanto, atende às 
exigências do modelo clássico de regressão linear, se nenhum dos seus parâmetros 
estiver sendo multiplicado por outro parâmetro ou estiver sendo elevado a uma 
potência diferente de 1.
Assim, uma equação que contenha variáveis elevadas a determinada 
potenciação, divididas ou ainda multiplicadas por outra variável, ainda assim 
pode ser considerada linear (nos parâmetros) se os coeficientes não forem elevados 
a potência diferente de 1, não estiverem sendo multiplicadas ou divididas por 
outros coeficientes. Os gráficos 10 e 11 trazem a representação de duas funções 
que, apesar da aparência, são lineares nos parâmetros, apesar de não o serem nas 
variáveis:
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
77
GRÁFICO 10 – EXEMPLO DE FUNÇÃO QUADRÁTICA COM Y = α + bX + cX2
FONTE: O autor
Note que no Gráfico 10 os dados se ajustam perfeitamente ao desenho 
dessa função. É por esse motivo que o primeiro passo em um estudo empírico 
deve passar obrigatoriamente pela plotagem do gráfico de dispersão, com 
o objetivo de verificar qual o desenho que lhe é apresentado. Somente depois 
disso é que você elabora o modelo matemático que melhor se ajusta aos dados e, 
posteriormente, o seu modelo de regressão. O mesmo vale para o Gráfico 11:
GRÁFICO 11 – EXEMPLO DE FUNÇÃO CÚBICA COM Y = a + bX + cX2 + dX3
FONTE: O autor
Isso nos faz lembrar que não precisamos nos prender ao tradicional Y = 
a + bX + u para rodarmos um estudo econométrico. Outras formas, por exemplo, 
uma função de produção do tipo Cobb-Douglas, podem ser usadas. Neste caso é 
preciso transformar o modelo a fim de torná-lo linear, como mostram as equações 
3.62 e 3.63:
78
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
3.62321 2 3 i
u
i i iY X X e
βββ=
A equação 3.62 não é linear, por isso precisa ser transformada. Essa 
transformação ocorre quando empregamos logaritmos:
3.631 2 2 3 3i i i iLnY LnX LnX uβ β β= + + +
Em que β1 = Lnβ1. Agora obtemos a linearidade nos parâmetros e mesmo 
que as variáveis não sejam lineares, ainda assim é possível empregar o método de 
mínimos quadrados ordinários.
Os logaritmos são um artifício amplamente utilizado em análise de regressão, 
como teremos a oportunidade de estudar mais adiante neste manual. Entre as 
vantagens está o fato de que ele comprime os dados e, como veremos, nos ajuda a 
melhorar a estimação do nosso modelo econométrico. Outra vantagem é que no caso 
do modelo 3.63, o parâmetro estimado β̂2 nos dá a elasticidade de Y em relação a X, o 
que é muito útil em estudos de microeconomia e economia monetária.
Há ainda outros casos específicos em que os modelos precisam ter 
logaritmos. Além da análise de elasticidade, podemos precisar obter variações 
percentuais ou estimativas de crescimento entre outras aplicações. 
DICAS
Ao longo de todo o nosso estudo teremos a oportunidade de voltar a esse 
assunto, mas se você quiser se aprofundar, sugerimos a leitura do Capítulo 6 do livro:
• GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. 
Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria 
Lúcia G. L. Rosa. 
79
RESUMO DO TÓPICO 3
Neste tópico, você aprendeu que:
• Utilizando técnicas de amostragem é possível inferir sobre uma determinada 
população de dados através da estimação de uma função de regressão amostral.
• A estimação da função de regressão amostral é feita através do método 
dos mínimos quadrados ordinários, que busca a minimização da soma dos 
quadrados dos resíduos através da escolha dos parâmetros beta que melhor se 
ajustam aos dados obtidos para as variáveis.
• Os testes estatísticos são suportados pela hipótese de que os erros têm 
distribuição normal, e devido ao teorema de Gauss-Markov é possível verificar 
que os estimadores de mínimos quadrados, dentre a classe dos estimadores não 
tendenciosos,são os melhores estimadores para os parâmetros da regressão.
• Usando a estatística t, nós podemos construir intervalos de confiança e testar 
hipóteses acerca dos coeficientes estimados.
• Podemos construir testes de hipótese e buscar minimizar a probabilidade de 
cometer o erro do tipo I, que consiste em rejeitar uma hipótese nula quando ela 
é verdadeira.
• Podemos usar o Gretl para estimar a regressão, aplicar os testes estatísticos e 
interpretar os resultados obtidos.
• A base de dados de uma pesquisa está estritamente relacionada ao sucesso ou 
ao fracasso de uma investigação empírica.
80
Período 2016 VALE BBAS PETR IBOV
janeiro -0,2540 -0,0604 -0,1914 -0,0679 
fevereiro 0,2150 -0,0224 0,0606 0,0591 
março 0,2828 0,4601 0,4463 0,1697 
abril 0,2997 0,1184 0,2484 0,0770 
maio -0,2778 -0,2551 -0,2329 -0,1009 
junho 0,1442 0,0431 0,1306 0,0630 
julho 0,1371 0,2253 0,2172 0,1122 
agosto -0,0843 0,1026 0,0521 0,0103 
setembro 0,0514 -0,0177 0,0271 0,0080 
outubro 0,2398 0,2846 0,2312 0,1124 
novembro 0,2708 -0,0270 -0,0091 -0,0465 
dezembro -0,0848 -0,0144 -0,0828 -0,0271 
Período 2017 VALE BBAS PETR IBOV
janeiro 0,2531 0,1075 -0,0443 0,0738
fevereiro 0,0168 0,0640 -0,0142 0,0308
março -0,0895 0,0202 -0,0508 -0,0252
abril -0,0779 -0,0272 -0,0521 0,0064
maio -0,0109 -0,1373 -0,0515 -0,0412
junho 0,0674 -0,0543 -0,0308 0,0030
julho 0,0793 0,0709 0,0455 0,0480
agosto 0,1208 0,0697 0,0123 0,0746
setembro -0,0915 0,1368 0,1317 0,0488
outubro 0,0072 -0,0132 0,1018 0,0002
novembro 0,0947 -0,1310 -0,0844 -0,0242
dezembro 0,1457 0,0631 0,0602 0,0536 
AUTOATIVIDADE
Foram coletados dados mensais do retorno de algumas ações 
selecionadas do índice da bolsa BM&F Bovespa. A variável VALE se refere ao 
retorno do papel Vale3, da empresa Vale S.A., BBAS se refere ao papel BBAS3, 
do Banco do Brasil S.A., PETR representa o papel PETR4, da Petrobras S.A. e 
IBOV o índice de ações da BM&F Bovespa. Os dados são mensais, referentes 
ao período de janeiro de 2016 a dezembro de 2017, totalizando 24 meses e 
obtidos acessando o site <https://br.financas.yahoo.com/>. Lembre-se de que, 
por se tratar de séries temporais, você deve dar o devido tratamento no Gretl. 
Em outras palavras, ao importar os dados, você deve informar que se trata de 
dados de série temporal, com frequência mensal iniciando em janeiro de 2016.
QUADRO 12 – RETORNO DA VALE E DO IBOV
FONTE: Adaptado de <https://br.financas.yahoo.com/>. Acesso em: 22 ago. 2018.
81
Parâmetro Modelo 1 Modelo 2 Modelo 3
 β1
Razão t
 p – valor
 β2
Razão t
 p – valor
 r2
2 Com relação aos modelos estimados na Questão 1, qual deles explica melhor 
a variável dependente? Justifique a sua resposta.
3 Analisando os parâmetros β̂2 de cada modelo, qual papel é mais sensível a 
mudanças no índice Ibov? Justifique a sua resposta.
4 No Gretl, selecione, a partir do menu “Ver”, a opção “Gráfico das variáveis”. 
Na sequência, escolha a opção “Série temporal”. Selecione todas as variáveis 
para gerar um gráfico e reproduza-o fazendo comentários sobre o resultado 
dos modelos estimados e o gráfico gerado.
Com base nos dados do quadro, responda ao que se pede:
1 Estime os seguintes modelos de regressão, preenchendo o quadro abaixo 
com quatro casas decimais. Ao lado do p-valor indique: *, ** e *** para os 
parâmetros que são estatisticamente significativos ao nível de 10%, 5% e 1%, 
respectivamente. Caso o parâmetro não seja estatisticamente significativo, 
deixe sem asteriscos:
Modelo 1 → Valet = β1 + β2Ibovt + ut 
Modelo 2 → BBASt = β1 + β2Ibovt + ut 
Modelo 3 → PETRt = β1 + β2Ibovt + ut 
UNIDADE 2 | 
82
TÓPICO 1 | 
83
UNIDADE 2
REGRESSÃO MÚLTIPLA
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• redefinir o modelo econométrico desenvolvido na Unidade 1, com a inclu-
são de múltiplas variáveis explicativas;
• estimar o modelo e analisar os resultados comparando-os com o que foi 
obtido nos modelos de regressão simples;
• resumir os resultados de ambos os modelos, avaliar, criticar e escolher 
qual modelo deve ser utilizado para fins de controle e previsão;
• incorporar aos modelos de regressão as variáveis que não podem ser men-
suradas quantitativamente, como sexo, religião, localização geográfica, 
classe social etc., conhecidas como variáveis qualitativas ou binárias;
• categorizar estas novas variáveis distinguindo a sua aplicabilidade prática.
Esta unidade está dividida em três tópicos. No decorrer da unidade, você en-
contrará autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – O MODELO DE REGRESSÃO LINEAR EM FORMA
 MATRICIAL
TÓPICO 2 – ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS 
DE REGRESSÃO MÚLTIPLOS
TÓPICO 3 – USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
UNIDADE 2 | REGRESSÃO MÚLTIPLA
84
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
85
TÓPICO 1
O MODELO DE REGRESSÃO LINEAR EM 
FORMA MATRICIAL
UNIDADE 2
1 INTRODUÇÃO
Na Unidade 1, fomos apresentados à análise de regressão através do 
modelo linear simples. Na Unidade 2, veremos que esse tipo de modelo, com 
apenas uma variável explicativa, nem sempre consegue explicar de forma completa 
as alterações na variável dependente, porque não estamos considerando outros 
fatores que são igualmente importantes. Dito de outra forma, tornamos nosso 
modelo tão simples que acabamos ignorando a influência de certas variáveis que 
são imprescindíveis na explicação do fenômeno em estudo.
Para entender melhor a necessidade e a vantagem de se usar modelos 
de regressão múltiplos, considere um exemplo hipotético sobre a formação de 
preços da gasolina por parte de uma determinada refinaria. Qual é a variável que 
afeta o preço escolhido pela petrolífera?
Poderíamos montar uma função para explicar essa decisão da seguinte 
forma:
P = f(E) + ε 1.1
Em que P é o preço da gasolina na refinaria, E é a taxa de câmbio definida 
como a quantidade de R$ necessário para comprar US$ 1,00, e ε o termo de erro. 
Note que esse modelo consegue explicar de alguma forma as oscilações 
no preço da gasolina e, pensando bem, como a gasolina é derivada do petróleo, 
que é um tipo de bem que tem cotação em dólar, faz sentido alterar o seu preço 
em razão da flutuação no mercado de câmbio.
A dúvida que fica é se essa variável é suficiente para determinar o 
comportamento do preço desse combustível. Podemos pensar em uma série de 
outras variáveis capazes de exercer essa influência, tais como o preço de bens 
substitutos (álcool, por exemplo), o preço de carros novos ou de carros usados, e 
ainda a cotação do barril do petróleo no mercado externo. 
Se modificássemos o modelo para incluir essa última variável, teríamos:
UNIDADE 2 | REGRESSÃO MÚLTIPLA
86
P = f(E,B) + ε 1.2
As variáveis permanecem as mesmas do modelo 1.1, tendo apenas a 
inclusão de β, a cotação internacional do barril do petróleo. 
Se trabalhássemos em uma transportadora e estivéssemos elaborando o 
planejamento da empresa para o próximo ano, certamente o preço da gasolina 
seria determinante para o nosso direcionamento estratégico. Qual dos dois 
modelos você considera que poderia fornecer uma estimativa mais próxima ou 
mais assertiva do preço da gasolina? 
Certamente o modelo 1.2 é o mais completo, porque agrega mais variáveis 
explicativas do que o modelo 1.1, mas como veremos mais adiante, nem sempre 
acrescentar novas variáveis torna o modelo melhor. Há que se cuidar com o viés 
da especificação do modelo ou, como se diz na gastronomia, às vezes “menos é 
mais”!
Mesmo assim, o fato de termos mais variáveis relevantes melhora a 
nossa capacidade de explicar a variável dependente, ou a nossa capacidade de 
previsão, o que nos leva a aceitar essa justificativa para a utilização de modelos 
com múltiplas variáveis exógenas.
Para avançarmos em nosso estudo, precisaremos recorrer a uma ferramenta 
matemática que tornará nosso entendimento mais intuitivo. Trata-se da álgebra 
matricial, que além de facilitar a compreensão daparte econométrica, tem como 
argumento a seu favor o fato de que é a linguagem universal empregada pelos 
econometristas modernos no desenvolvimento e apresentação dos resultados das 
suas pesquisas empíricas.
Por isso, o estudo das unidades 2 e 3, em sua maior parte, se dará com 
o uso de matrizes e todas as técnicas inerentes a elas, mas não se preocupe 
se você não domina a álgebra matricial, na verdade você deve apenas estar 
familiarizado com os conceitos importantes, tais como multiplicação de matrizes, 
determinantes, inversão, entre outros. O fato de conhecer esses conceitos facilitará 
a sua compreensão e, caso tenha dificuldade em lembrar, sugerimos começar pela 
autoatividade desse tópico, pois lá consta uma ligeira revisão daqueles pontos 
que são mais importantes e dos quais você deve ter um certo conhecimento antes 
de avançar nesse conteúdo.
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
87
Salárioi = β1 + β2 Educaçãoi + εi 1.3
DICAS
Além da autoatividade, se preferir, você pode fazer uma leitura rápida nos 
apêndices dos manuais de econometria, de Gujarati e Porter (2011), ou no material extra 
do Wooldridge (2016), disponível gratuitamente na internet, porém, se você se sente seguro 
para ir adiante, pode dispensar essa rápida revisão.
• GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. 
Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria 
Lúcia G. L. Rosa. – Edição do Kindle. 
• WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. 6. ed. 
São Paulo: Cengage Learning, 2016. 848 p.
2 O MODELO DE REGRESSÃO LINEAR GERAL EM FORMA 
MATRICIAL
O modelo de regressão linear com múltiplas variáveis explicativas 
parte do princípio de que existe uma relação entre uma variável dependente, 
representada por Yi, e diversas outras variáveis que são capazes de explicá-la, as 
quais representamos por Xi. Em que i = 1, 2, ..., k, o que significa que temos X1, X2, 
..., Xk variáveis explicativas.
Poderíamos desenvolver toda a análise usando a álgebra tradicional. Ela 
se encaixaria facilmente para duas variáveis explicativas, ou seja, X1 e X2, mas 
quanto mais variáveis X fôssemos acrescentando, o entendimento deixaria de ser 
intuitivo e passaria a ser cada vez mais complexo. O emprego de álgebra matricial 
nos permite analisar tanto os modelos simples, como vimos na Unidade 1, quanto 
os modelos complexos, com 10 regressores, por exemplo, ou mais.
Vamos começar supondo que você está trabalhando no estudo sobre a 
remuneração de um grupo específico de profissionais, em que diversos fatores são 
considerados para estabelecer o salário no momento da contratação. A equação 
1.3 nos dá uma dessas possiblidades:
Em que Salárioi é a remuneração recebida pelas pessoas em uma amostra, 
Educaçãoi é o tempo de educação formal que o profissional teve em sua vida e ε1 
é o termo de erro, usado para capturar as demais variáveis que influenciam na 
remuneração, mas que não estamos considerando nesse modelo por acreditarmos 
que sua influência conjunta seja muito pequena.
UNIDADE 2 | REGRESSÃO MÚLTIPLA
88
Sabemos que a educação é importante na composição dos salários, que 
quanto maior o nível de instrução de uma pessoa, maior tenderá a ser a sua 
remuneração. Porém, há diversos fatores que não podem ser desprezados sob o 
risco de cometermos um erro crucial. Trata-se da omissão de variáveis explicativas.
Neste caso, sabemos que o tempo de experiência profissional também 
entra na composição do salário. Esperamos que profissionais experientes tenham 
uma remuneração maior do que os que estão entrando agora no mercado de 
trabalho. Afinal, a experiência profissional deve valer de alguma coisa, não é 
mesmo?
A fluência em outras línguas também ajuda a melhorar a renda e esperamos 
que um profissional que fale várias línguas estrangeiras tenha um salário maior 
do que aquele que fala apenas o português.
Vamos reescrever 1.3 da seguinte forma:
Salárioi = β1 + β2Educaçãoi + β3Experiênciai + β4Idiomasi + εi 1.4
Agora temos uma variável dependente sendo explicada por três variáveis 
exógenas. A dúvida é: Como estimamos os coeficientes em um modelo como esse?
Nos modelos 1.3 e 1.4 usamos o subscrito i para indicar que se tratam de 
indivíduos, ou seja, o salário de João, Paulo, Marcia etc., é explicado pelo tempo 
de estudos de João, Paulo, Marcia etc., mais o tempo que João, Paulo, Marcia etc. 
atuam no mercado, e mais ainda, quantos idiomas cada um deles fala. 
Podemos montar uma equação para cada indivíduo da seguinte forma:
SalárioJoão = β1 + β2EducaçãoJoão + β3ExperiênciaJoão + β4IdiomasJoão + εJoão
SalárioPaulo = β1 + β2EducaçãoPaulo + β3ExperiênciaPaulo + β4IdiomasPaulo + εPaulo
SalárioMarcia = β1 + β2EducaçãoMarcia + β3ExperiênciaMarcia + β4IdiomasMarcia + εMarcia... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
Salárioi = β1 + β2Educaçãoi + β3Experiênciai + β4Idiomasi + εi
1.5
Podemos resumir 1.5 como:
Yi = β1 + β2X2i + β3X3i + β4X4i + ... BkXki + εi 1.6
O formato desse modelo 1.6, nós já conhecemos. Estamos habituados a ele e 
nos sentimos muito confortáveis ao fazer a sua leitura. Há, no entanto, outra forma 
de escrever 1.6, mas para isso teremos que ampliar a nossa zona de conforto e pensar 
em empilhar os dados, colocando um embaixo do outro. Isso pode ser visto em 1.7:
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
89
k
k
k
n n n kn k n
Y X X X
Y X X X
Y X X X
Y X X X
y X
n n k k n
β ε
β ε
β ε
β ε
β ε
       …
       …       
       = +…
       
       
       …       
= +
× × × ×
1 21 31 1 1 1
2 22 32 2 2 2
3 23 33 3 3 3
2 3
1
1
1
1
1 1 1
        1.7
Em que y é um vetor coluna n x 1 de observações da variável dependente, 
X é a matriz n x k de variáveis explicativas, ou seja, X21 se refere aos anos de 
educação formal de João, X31 se refere ao tempo de experiência de João, X22 é o 
tempo de educação formal de Paulo, X23 o tempo de experiência de Paulo, e assim 
sucessivamente. β representa o vetor coluna k x 1 dos parâmetros do modelo e ε 
é o vetor coluna n x 1 dos termos de erro.
Acadêmico, duas coisas serão destacadas. Primeiro é que a amostra vai 
até n observações, e segundo, a primeira coluna de X é composta por números 1 
porque é a partir dela que se calcula o intercepto da regressão, ou seja, o β1. Com 
isso, as colunas representam vetores de n observações de cada variável explicativa.
De forma compacta, reescrevemos 1.7 como:
y = Xβ + ε 1.8
Em que X tem posto de coluna = (k), que é menor do que o número 
de observações n, e ε é idêntica e individualmente distribuído com média 0 e 
variância σ2I , ou seja, ε~iid(0, σ2I) , como veremos mais adiante. 
Uma matriz com posto de coluna = (k), em que k é o número de colunas 
da matriz, significa que essas colunas são independentes, no sentido de que uma 
não é exatamente colinear a outra. Em econometria, como veremos nas hipóteses 
do modelo, é chamado de full rank.
3 HIPÓTESES DO MODELO
Da mesma forma que no modelo de regressão linear simples, o modelo de 
regressão múltiplo se sustenta sob determinadas hipóteses, que veremos agora, 
baseado em Greene (2012), e que é uma extensão do que foi visto na Unidade 1.
UNIDADE 2 | REGRESSÃO MÚLTIPLA
90
a) Hipótese 1
O modelo de regressão é linear nos parâmetros – considere um modelo 
econométrico com k variáveis explicativas e n observações. Usaremos as letras 
minúsculas em negrito para representar cada coluna ou linha de uma matriz 
de variáveis e as letras maiúsculas em negrito para representar as respectivas 
matrizes ou vetores.
Assim, a Hipótese 1 afirma que existe uma relação linear entre cada 
variável dependente yi e as variáveis explicativas x1, x2, ..., Xk, de modo que:
y = x1β1 + x2β2 + ... + xkβk + ε 1.9
y = Xβ + ε 1.10
E[εi|xj1, xj2, ..., xjk] = 0 1.11
Em queε representa o termo de erro, e de forma convencional, 
representamos 1.9 como:
Em um modelo de regressão simples, com apenas uma variável explicativa, 
a matriz X é formada por apenas duas colunas, sendo a primeira formada por 1, 
representando o intercepto β1, e a segunda coluna representa a variável explicativa. 
Em um modelo de regressão múltiplo, ela tem a forma apresentada em 1.7.
a) Hipótese 2
A média condicional do termo de erro é zero – essa hipótese implica que 
as variáveis independentes são exógenas:
Pode ser escrita de forma geral como E[ε|X] = 0, o que significa que as 
variáveis independentes X não são capazes de prever o termo de erro ε.
Há três implicações para essa hipótese:
1. A média incondicional do termo de erro é zero: E[εi] = 0 .
2. A covariância entre o termo de erro e a variável independente é zero: Cov[εi,xi] = 0.
3. A média condicional de y é dada por: E[y|X] = Xβ .
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
91
a) Hipótese 3
Não há correlação ou colinearidade perfeita entre as variáveis explicativas 
X – essa hipótese implica que a matriz X, de variáveis explicativas, tem posto de 
coluna completo (full rank) ou, dito de outra forma, as colunas da matriz X são 
independentes. 
Veremos adiante que para obtermos os estimadores de mínimos quadrados 
ordinários, haverá uma multiplicação entre a matriz X e sua transposta X'. Essa 
multiplicação é importante para obtermos os estimadores dos parâmetros, e para 
isso, o resultado X'X tem que ser inversível. 
Para invertermos uma matriz é necessário obter o determinante, e se a 
matriz X não tiver posto completo, ou seja, se matriz n x k não tiver posto k, não 
será possível calcular esse determinante e, consequentemente, obter as estimativas 
dos coeficientes de mínimos quadrados.
Greene (2012, p. 59) apresenta no exemplo 2.5 de seu livro um caso em que o 
posto de coluna não é completo. Para isso ele descreve uma função consumo como:
C = β1 + β2outrasrendas + β3salário + β4rendatotal + ε 1.12
Var[εi|X] = σ2 1.13
Cov[εi, εj|X] = 0 1.14
Não é difícil perceber que a renda total é formada pela soma do salário e 
de outras rendas. Neste caso, há uma correlação perfeita ou colinearidade perfeita 
entre as variáveis explicativas. 
Outro ponto que deve ser ressaltado é que o número de observações deve 
ser maior do que o número de coeficientes a serem estimados na regressão. Se 
tivermos uma amostra com 10 observações, por exemplo, e 11 coeficientes a serem 
estimados, logicamente a matriz X, n x k, terá posto < k, violando a Hipótese 3.
a) Hipótese 4
Os erros são homoscedásticos e não são correlacionados – algumas 
vezes ouviremos a expressão “disturbâncias esféricas” para essa hipótese. Para 
compreender melhor, considere que:
Para todo i = 1, 2, ..., n e i ≠ j.
UNIDADE 2 | REGRESSÃO MÚLTIPLA
92
Pela equação 1.13 a distribuição de probabilidade de cada termo de erro é 
um número constante, e por 1.14, que é válido no caso dados de séries temporais, 
vemos que os termos não são correlacionados, ou seja, não há correlação serial 
dos resíduos.
Na Unidade 3, teremos um tópico específico para analisar a Hipótese 3, e 
dois tópicos para entendermos as implicações da violação da Hipótese 4, ou seja, 
a heteroscedasticidade e a autocorrelação.
Em síntese, buscamos modelos capazes de gerar resíduos homoscedásticos, 
ou seja, com a mesma distribuição de probabilidade dos termos de erro e não 
correlacionados. Isso pode ser visto através da matriz de variância-covariância:
n
n
n n n n
E |X E |X E |X
E |X E |X E |X
E |X
E |X E |X E |X
ε ε ε ε ε ε
ε ε ε ε ε ε
εε
ε ε ε ε ε ε
            
     …        =   
 
            
′
1 1 1 2 1
2 1 2 2 2
1 2

   

1.15
n
n
n n n n
Var |X Cov |X Cov |X
Cov |X Var |X Cov |X
E |X
Cov |X cov |X Var |X
ε ε ε ε ε σ
ε ε ε ε ε ε σ
εε
σε ε ε ε ε ε
                     … …          = =     
   
              
′

2
1 1 2 1
2
2 1 2 2 2
2
1 2
0 0
0 0
0 0
 
      

1.16
O termo σ2 é um escalar, ou seja, uma constante, e pelas propriedades da 
multiplicação de matrizes, podemos representar 1.16 como:
E[εε'|X] = σ2I 1.17
Em 1.16 notamos que em função de 1.13 a diagonal principal representa a 
variância do erro, que é igual a σ2 para cada termo, ou seja, um valor constante. Podemos 
ver ainda que nas demais posições temos 1.14, ou a covariância entre os termos de erro 
distintos, que por definição é zero, demonstrando ausência de autocorrelação.
a) Hipótese 5
A matriz X é não estocástica – em amostras repetidas, os valores de X são 
fixados. Obviamente não estamos dizendo que os valores de X não se alteram ao 
longo de uma amostra. O que queremos dizer é que se tirarmos 100 amostras, 
teremos em todas os mesmos valores de X, os quais são diferentes uns dos outros 
dentro da amostra.
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
93
ε|X~N[0, σ2I] 1.18
Essa variabilidade é crucial para podermos estimar os coeficientes por 
mínimos quadrados ordinários.
b) Hipótese 6
O vetor de erros ε tem distribuição normal, com média zero e variância 
constante:
Vale dizer ainda que se a intenção é apenas uma estimativa pontual dos 
coeficientes, as hipóteses de 1 a 5 são suficientes. No entanto, como precisamos 
aferir o modelo aplicando a inferência estatística, a hipótese 6 é fundamental. 
Como vimos na Unidade 1, a hipótese de normalidade é o pressuposto básico 
para podermos calcular intervalos de confiança, fazer testes de hipótese, utilizar 
o modelo para previsão, entre outras aplicações.
94
RESUMO DO TÓPICO 1
Neste tópico, você aprendeu que:
• O modelo de regressão apresentado na Unidade 1, contendo apenas uma 
variável explicativa, pode ser reescrito de forma a conter múltiplos regressores.
• Devido às complicações algébricas para se apresentar um modelo de regressão 
múltiplo da forma tradicional, ao apresentar esse modelo na forma matricial, 
podemos visualizar de forma mais intuitiva a relação entre as variáveis.
• As hipóteses do modelo de regressão múltiplo na forma matricial são expressas 
como:
a) Hipótese 1 – O modelo de regressão y = Xβ + ε é linear nos parâmetros.
b) Hipótese 2 – A média condicional do termo de erro é zero.
c) Hipótese 3 – Não há correlação ou colinearidade perfeita entre as variáveis 
explicativas X.
d) Hipótese 4 – Os erros são homoscedásticos e não são correlacionados.
e) Hipótese 5 – A matriz X é não estocástica; em amostras repetidas, os valores 
de X são fixados. 
f) Hipótese 6 – O vetor de erros ε tem distribuição normal, com média zero e 
variância constante ε|X~N[0, σ2I].
95
AUTOATIVIDADE
Como introduzimos o modelo de regressão na forma matricial, talvez 
você não esteja bem à vontade com essa linguagem. Antes de mais nada, é 
importante lembrar que não esperamos que você tenha domínio total e 
completo de todas as particularidades envolvendo operações matriciais. O 
mais importante neste momento é que você tenha uma noção e que isso lhe 
permita entender de forma intuitiva a análise de regressão, na forma como 
está aprendendo nesse livro de estudos, e na forma como os modernos 
econometristas usam. Por esse motivo, as autoatividades a seguir têm por 
objetivo fazer uma revisão de matrizes e álgebra matricial, nas quais você 
poderá exercitar alguns dos conceitos mais importantes.
1 Sabemos que uma matriz nada mais é do que um arranjo retangular de 
números distribuídos em n linhas e k colunas. Assim, uma matriz A, de 
ordem n x k, pode ser representada por:
k
k
n n nk
a a a
a a a
 
a a a
 
 
 =
 
 
  
11 12 1
21 22 2
1 2


   

A
 
( )ija i , , ,n; j , , ,k= … = …1 2 1 2 são elementos de A, m x n é a dimensão da 
matriz.
 As matrizes de modo geral têm algumas características importantes. 
Por exemplo, uma matriz n x 1 é chamada de vetor coluna e uma matriz 1 x k é 
chamada de vetor linha.Se o número de linhas é igual ao número de colunas, 
temos uma matriz quadrada. Quando todos os elementos fora da diagonal 
principal de uma matriz quadrada forem iguais a zero, temos a chamada 
matriz diagonal. Ela é semelhante à matriz identidade, também conhecida 
como matriz unitária, cujos elementos da diagonal principal são todos iguais a 
1 e os elementos fora dessa diagonal são iguais a zero.
 Considere as seguintes matrizes a seguir, relacionando-as com as 
respectivas definições:
96
 
 
 =
 
 
  
3
5
7
9
A
 
( ) Matriz Quadrada
( ) Matriz Identidade
( ) Vetor Coluna
( ) Matriz Diagonal
( ) Vetor Linha
 =  10 20 30 40B 
 
=  
 
5 6
9 12
C
 
 
 =  
  
1 0 0
0 5 0
0 0 6
D
 
 
 =  
  
1 0 0
0 1 0
0 0 1
E
 
2 A soma de duas matrizes se dá elemento a elemento, ou seja, A + B = [aij + bij]. 
Assim, em uma matriz quadrada de ordem 2 x 2, temos:
 
a a b b a b a b
a a b b a b a b
     + +
+ = + =     + +     
11 12 11 12 11 11 12 12
21 22 21 22 21 21 22 22
A B
 Considere a matriz 
 
=  
 
2 4
6 8
A e a matriz 
 
=  
 
1 3
5 7
B . Determine A + B.
3 Na linguagem matricial, dizemos que um escalar é um número, uma 
constante. Uma constante multiplicada por uma matriz resulta em uma nova 
matriz, cujos elementos são o resultado da multiplicação do escalar por cada 
elemento da matriz original: δA = [δaij]. Por outro lado, se tivermos duas 
matrizes, só poderemos multiplicá-las se o número de colunas da primeira 
for igual ao número de linhas da segunda. Dito de outra forma, uma matriz 
n x k só pode ser multiplicada por outra matriz de ordem k x m. O resultado 
dessa multiplicação é uma matriz de ordem n x m, ou seja, terá o número 
de linhas da primeira matriz e o número de colunas da segunda matriz. A 
multiplicação, por sua vez, se dá na forma n ik kjk a b=
 =
 ∑ 1AB . Assim, seja 
 
=  
 
2 4 9
6 8 0
A e 
 
 =  
  
1 3
5 7
8 0
B , determine C = AB. Depois, sendo δ = 2, um escalar, 
obtenha D = δC.
97
4 A transposição de uma matriz é outro elemento importante na análise de 
regressão para a determinação dos parâmetros β. Transpor uma matriz 
qualquer nada mais é do que trocar as linhas por colunas e vice e versa. 
Assim, se A = [aij], A' = [aij] . Considere a seguinte matriz 
 
 =  
  
5 10
15 20
25 30
A e 
obtenha a transposta de A. 
5 O determinante de uma matriz A, representado por det A, ou |A|, é um 
número ou escalar, que é obtido de uma matriz quadrada. São várias as 
técnicas para se obter o determinante de uma matriz, como por exemplo o 
método de Sarrus para matrizes de ordem até 3 x 3, o teorema de Laplace 
para matrizes de ordem superior a 3 x 3 , mas que pode ser empregado em 
matrizes quadradas de qualquer ordem. Há ainda o teorema de Leibniz, 
cálculo por triangulação entre outras técnicas. O importante é que você 
empregue a técnica que melhor se adapte ao seu estilo. Aqui faremos a 
demonstração do teorema de Laplace, calculando o determinante da matriz
A
 
 =  
  
2 4 6
8 10 1
3 5 7
. Começamos obtendo o menor dos elementos da primeira 
linha, denotado por |Mij|, dado pelo determinante da submatriz resultante 
da eliminação da i – ésima linha e da j – ésima coluna. Assim, na primeira 
linha temos: =11
10 1
5 7
M , =12
8 1
3 7
M , =13
8 10
3 5
M . O determinante é 
calculado por ( )i jijdet a
+
= ∑ −1 ijA M :
 
( ) ( ) ( )det + + += × − + × − + × −1 1 1 2 1 310 1 8 1 8 102 1 4 1 6 15 7 3 7 3 5A 
 ( ) ( ) ( )det = × − − × − + × −2 70 5 4 56 3 6 40 30A 
 det = − +130 212 60A 
 det = −22A 
Como exercício, obtenha o determinante de B
 
 =  
  
0 1 2
3 6 0
1 4 1
.
6 O último conceito que precisamos revisitar é o de inversão de matrizes, que 
só é possível no caso de uma matriz quadrada não singular, ou seja, cujo 
determinante é diferente de zero. Matrizes singulares, ou com determinante 
igual a zero, não são passíveis de inversão. Para inverter uma matriz, 
devemos começar obtendo o menor dos elementos aij, como na questão 5, 
98
mas nela nós obtivemos apenas para a primeira linha. Agora teremos que 
obter para todas as linhas da matriz A
 
 =  
  
2 4 6
8 10 1
3 5 7
.
Assim, na primeira linha temos: M =11
10 1
5 7
, M =12
8 1
3 7
, M =13
8 10
3 5
. 
Na segunda linha temos: M =21
4 6
5 7
, M =22
2 6
3 7
, M =23
2 4
3 5
.
Na terceira linha temos: M ,=31
4 6
10 1
 M =32
2 6
8 1
, M =33
2 4
8 10
.
Com esses resultados devemos construir uma matriz de Cofatores, dada por 
cij = (–1)i+j|Mij|. Dito de outra forma, trata-se de uma matriz composta por 
menores com sinal trocado quando i + j é ímpar:
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
M M M
A M M M
M M M
c c c
Cof c c c
c c c
+ + +
+ + +
+ + +
 − − −   
   = = − − −   
     − − −  
1 1 1 2 1 3
11 12 13
11 12 13
2 1 2 2 2 3
21 22 23 21 22 23
3 1 3 2 3 3
31 32 33
31 32 33
1 1 1
1 1 1
1 1 1
 
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
ACof 
 
− − − 
 
 
 = − − −
 
 
 − − − 
 
2 3 4
3 4 5
4 5 6
10 1 8 1 8 10
1 1 1
5 7 3 7 3 5
4 6 2 6 2 4
1 1 1
5 7 3 7 3 5
4 6 2 6 2 4
1 1 1
10 1 8 1 8 10 
( )
( ) ( )
( )
ACof 
 − − − −
 
= − − − − − = 
 − − − − 
70 5 56 3 40 30
28 30 14 18 10 12
4 60 2 48 20 32 
 −
 − 
 − − 
65 53 10
2 4 2
56 46 12
ACof = 
 −
 − 
 − − 
65 53 10
2 4 2
56 46 12
99
A transposta da matriz de Cofatores é chamada de matriz Adjunta e é dada 
por (Cof A)':
AAdj 
 −
 = − − 
 − 
65 2 56
53 4 46
10 2 12
A Inversa de A é dada por:
( )A A
A
Adj − =1 1
Como o determinante de A = – 22, a sua inversa é:
A−
 −
 = − − −  − 
1
65 2 56
1 53 4 46
22
10 2 12
A .−
 
− − 
 
 = − −
 
 − −
  
1
65 2 56
22 22 22
1 53 4 46
22 22 22 22
10 2 12
22 22 22
Como exercício, obtenha a inversa de D
 
=  
 
0 2
5 4
.
100
101
TÓPICO 2
ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS 
MODELOS DE REGRESSÃO MÚLTIPLOS
UNIDADE 2
1 INTRODUÇÃO
Vimos no tópico anterior uma breve introdução ao modelo de regressão 
com múltiplas variáveis explicativas. Como você deve ter notado, representar o 
modelo na forma matricial, além de intuitivo, nos proporciona ganhos em termos 
de generalização, permitindo que tenhamos tantas variáveis explicativas quantas 
forem necessárias para descrever o comportamento da nossa variável dependente.
Na Unidade 1, vimos como obter uma estimativa dos parâmetros 
do modelo de regressão linear simples, empregando o método de mínimos 
quadrados ordinários em que, em síntese, minimizávamos a soma dos quadrados 
dos resíduos a fim de obter estimativas para os coeficientes populacionais que 
fossem consistentes e eficientes.
Naquela oportunidade demonstramos como obter os estimadores de um 
modelo com apenas uma variável explicativa. Mas, e se tivermos duas ou mais 
variáveis explicando a variável dependente? Neste caso, o cálculo tradicional 
torna-se complexo e cansativo, motivo pelo qual o emprego de matrizes para 
obtenção desses parâmetros é o mais indicado.
Além de estimar um modelo de regressão mais completo e complexo, 
teremos acesso a uma série de estatísticas de teste que nos permitirão deixar 
os resultados obtidos ainda mais robustos e a nossa análise ainda mais rica em 
detalhes.
A análise de regressão vai muito além da simples estimativa de parâmetros. 
Os modelos estimados podem ser empregados para fins de tomada de decisão 
no planejamento estratégico de uma empresa, ou como análise de impactos de 
uma política econômica. Por esses motivos, ter certeza de que temos em mãos 
resultados confiáveis é extremamente importante.
Imagine uma empresa em que boa parte dos insumos usados na produção 
de sua fábrica é importada do exterior. Você é escalado para construir um modelo 
de regressão capaz de prever o comportamento da taxa de câmbio no curto e 
médio prazos. Com base no modelo de regressão que você estimar, a empresadecidirá se e quando deverá contratar instrumentos de proteção cambial. 
UNIDADE 2 | REGRESSÃO MÚLTIPLA
102
É nesse exato momento que o seu trabalho é posto à prova. Será que o 
modelo está corretamente especificado? Será que não deixou de fora alguma 
variável que poderia ser importante, ou relevante para explicar o comportamento 
do câmbio? Por outro lado, talvez tenha inserido variáveis de mais para explicar 
a variável dependente! Talvez uma relação linear nas variáveis não seja a forma 
funcional mais adequada. Um modelo com logaritmos pode trazer resultados 
mais eficientes e a decisão tomada a partir da previsão feita pelo modelo estimado 
com outra forma funcional pode ser gerar resultados melhores.
Essas e outras perguntas serão respondidas neste Tópico 2, que terminará 
com um exemplo que nos permitirá ver na prática cada conceito adquirido aqui.
2 ESTIMADORES DE MQO
Suponha que tenhamos um modelo econométrico com k variáveis 
explicativas. Esse modelo é representado em 2.1:
Yi = β1 + β2X21 + β3X3i + ... + βkXki + εi 2.1
Independentemente do que estamos pretendendo com este modelo, 
dificilmente teremos acesso a todos os dados existentes, nesse caso, obter uma 
amostra representativa e a partir dela fazer inferências acerca da população é o 
procedimento correto.
Com isso, 2.1, que é a Função de Regressão Populacional, dá espaço para 
2.2, a Função de Regressão Amostral:
2.2i i i k ki iY ˆ ˆ ˆ ˆX XˆXβ β β β ε= + + +…+ +1 2 2 3 3
Podemos reescrever 2.2 na forma matricial como em 2.3:
2.3� y X εβ= +
Em que y é o vetor n x 1 da variável dependente, X é a matriz n x k de 
variáveis explicativas, β é o vetor de k x 1 de parâmetros estimados e ε é o vetor n 
x 1 dos resíduos da regressão. A ideia por trás do método de mínimos quadrados 
ordinários é minimizar a soma dos quadrados dos resíduos.
De 2.3, temos:
^ ^
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
103
2.4ε = y – Xβ^
^
A soma dos quadrados dos resíduos é dada por:
2.5ε'ε = (y – Xβ)'(y –Xβ)^ ^ ^ ^
Assim, minimizamos 2.5 sujeito a β para obter:^
2.6 � �min (y X )'(y X )ε β β= − −
β^
2.7min ε = y'y – yXβ – X'β'y + X'β'Xββ^
^ ^ ^ ^ ^
Como y'Xβ e X'β'y são iguais e, pelas propriedades da multiplicação de 
matrizes, podemos rearranjar e simplificar 2.7 para obter:
^ ^
ˆ
' 'ˆmin ' y y X y Xˆ ˆˆ Xˆ
β
ε ε β β β+′ ′−′= 2 2.8
Pela condição de primeira ordem, tiramos a derivada parcial de 2.8, 
igualamos a zero e resolvemos para β̂ :
( )' 'y y X y Xˆ Xˆ ˆ
ˆ
β β β
β
∂
∂
′ ′ ′− +
=
2
0 2.9
X y X Xβ̂− ′+′ = 0 2.10
Resolvendo para X X ,β̂′ temos:
2.11X X yˆ Xβ ′=′
Pré-multiplicando ambos os lados de 2.11 por ( )X X ,−′ 1 obtemos:
UNIDADE 2 | REGRESSÃO MÚLTIPLA
104
2.12( ) ( ) ( ) 'X X X X X X Xˆ yβ− −′=′ ′1 1
Em 2.12, pelas propriedades envolvendo multiplicação de matrizes 
invertidas, sabemos que ( ) ( )X X X X I−′ ′ =1 , ou seja, uma matriz identidade. Assim, 
o estimador de β de mínimos quadrados ordinários é dado por:
2.13( ) 'X X X yβ̂ −′= 1
Que é um vetor k x 1 dos coeficientes estimados ou estimadores dos 
parâmetros do modelo de regressão. 
Se o estimador em 2.13 for não viesado, ou seja, se obtivermos várias 
amostras e estimarmos diversas vezes os parâmetros β, esperamos que, em média, 
o valor dado por 2.13 convirja para o verdadeiro parâmetro da população. Dito 
de outra forma, esperamos que:
2.14E β̂ β  = 
Para verificar isso, tomamos 2.13 e, sabendo que na população encontramos 
y = β + ε, escrevemos:
2.15( ) ( )'X X X Xβ̂ β ε−′= +1
2.16( ) ( )'Xˆ X X X X X X'β β ε− −= +′ ′1 1
Em 2.16 aplicamos o operador de expectativas para reescrevê-la como:
2.17( ) ( )'E[ X X X X ] E X X Xβ̂ β ε− − = +   ′ ′ ′
1 1
Em 2.17, (X'X)–1X'X resulta em uma matriz identidade I e, além disso, 
podemos reescrever ( )E X X X ε− ′ ′   
1 como ( )X X X E ε−   ′ ′
1
. 
Como E ε  =  0, temos:
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
105
2.18E β̂ β  = 
Além de não tendencioso ou não viesado, queremos que esse estimador 
obtido em 2.13 seja eficiente, ou seja, tenha variância mínima.
Sabemos que a variância é obtida por:
2.19( )ˆV r ˆa ˆE Eβ β β   = −   
2
( ) ( ){ }Var E E . E 'ˆ ˆ ˆ ˆ ˆβ β β β β     = − −      2.20
Sabemos por 2.16 que ( ) ( )'Xˆ X X X X X X'β β ε− −= +′ ′1 1 . Em que 
( ) 'X X X X I−′ =1 . Se resolvermos 2.16 para β̂ β− , temos:
2.21( )Xˆ X X'β β ε−− ′= 1
De 2.18, temos que ( )E β̂ β= . Aplicando isso em 2.20 e substituindo o 
resultado em 2.21, podemos reescrever 2.20 para:
2.22{ }'V ˆar ˆE .β̂ β β β β     = − −     
2.23( ) ( )
'
Var E X X X . X X Xβ̂ ε ε
− −      =         
′ ′

′ ′

1 1
2.24( ) ( )Var E X X X' 'Xˆ X Xβ εε− −   =   ′ ′ 
1 1
2.25( ) ( )Var X X X E X X Xβ̂ εε− −′ ′   =   ′ ′
1 1
2.26( )Var E I X Xβ̂ εε −′   =    ′
1
UNIDADE 2 | REGRESSÃO MÚLTIPLA
106
Em 2.26 temos E ,εε ′   que por 1.17 é definida como Iσ
2 , e como a matriz 
identidade multiplicada por qualquer matriz resulta na própria matriz que é 
multiplicada, obtemos a variância de β̂ como:
2.27( )Var X Xβ̂ σ −  =  ′
12
Portanto, a matriz de variância do vetor de parâmetros β̂ vai depender da 
estimativa de σ 2, que é o parâmetro populacional, o qual desconhecemos, e de 
( )X X −′ 1. 
Para obter uma estimativa de ,σ 2 usamos:
2.28
'
n k
ˆ ˆˆ ε εσ =
−
2
Em 2.28, sabemos que n – k é o total de observações da nossa amostra 
menos a quantidade de coeficientes β estimados na regressão. Dito de outra 
forma, é o número de graus de liberdade do modelo de regressão.
A matriz de variância e covariância de β̂ está representada em 2.29:
2.29
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
k
k
k k k
var cov , cov ,
cov , var cov ,
var cov
cov , cov ,
ˆ ˆ ˆ ˆ ˆ
ˆ ˆ ˆ ˆ ˆ
ˆ v
ˆ
ˆ ˆ ˆ a ˆr
β β β β β
β β β β β
β
β β β β β
 
 
 …   − =   
 
  
1 1 2 1
2 1 2 2
1 2

   

Pelo fato de os estimadores serem lineares, não tendenciosos, terem 
variância mínima e ainda os resíduos terem distribuição normal, o teorema de 
Gauss-Markov garante que os estimadores de mínimos quadrados ordinários são 
os melhores estimadores lineares não tendenciosos, o que na literatura muitas 
vezes é representado pela sigla BLUE, ou seja, Best Linear Unbiased Estimator.
Em amostras relativamente pequenas, as propriedades vistas até agora 
podem não ser encontradas, no entanto, à medida que a amostra vai aumentando 
indefinidamente, vai-se confirmando todas as propriedades. Dizemos que 
no limite, em pequenas amostras, os estimadores são não tendenciosos, mas à 
medida que a amostra aumenta indefinidamente, eles se tornam consistentes, 
porque a variância vai diminuindo, tendendo a zero.
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
107
Pela Hipótese 6 do modelo de regressão linear, vimos que o vetor do termo 
de erro ε tem distribuição normal, com média igual a zero e variância constante. 
Como em última análise os parâmetros estimados β̂ são uma função linear do 
vetor de erros, é possível supor que eles carregam essa característica estatística. 
Dito de outra forma, ( )|X ~ N , X Xβ̂ β σ −   ′
12 , o que implica que cada parâmetro 
individual kβ̂ também tem distribuição normal, ou seja, 
kk
k k~ N , Sβ̂ β σ  
2 , em que 
Skk é o k – ésimo elemento da matriz ( )X X −′ 1.
Isso nos permite aplicar um teste t a fim de verificar se cada coeficiente é 
individualmente significante do ponto de vista estatístico. Você deve se lembrar, 
como vimos na Unidade 1, de que o primeiro passo é estabelecer as hipóteses 
(nula e alternativa) a serem testadas:
k
k
H : 
H : 
β
β
=
≠
0
1
0
0
O segundo passo é calcular a estatística de teste, neste caso:
2.30( )
H
k
n k
ˆ
k k
t
ˆ
~ t
S
β
β β
−
−
= 0 k , , ,n= …1 2para todo
Com kβ̂ sendo o k – ésimo coeficiente estimado, Hkβ 0é o valor do k – ésimo coeficiente sob a hipótesenula, 
k
ˆSβ é o desvio padrão do k – ésimo coeficiente 
estimado e n – k representa o número de graus de liberdade, sendo n o tamanho 
da amostra e k o número de parâmetros estimados.
O resultado de 2.30 é comparado à tabela estatística de distribuição de 
probabilidade de t, e se o tcalculado > ttabela, para um nível de significância α, rejeitamos 
a hipótese nula em favor da hipótese alternativa de que o coeficiente estimado é 
estatisticamente significativo.
É preciso compreender que cada coeficiente estimado individualmente 
tem o seu significado, supondo ceteris paribus para os demais coeficientes. Ou 
seja, mantendo constantes todos os demais efeitos individuais sobre a variável 
dependente, a variável explicativa Xi tem um efeito kβ̂ sobre Yi.
É possível também testar a hipótese nula H0, de que em conjunto, os 
coeficientes estimados kˆ , ,ˆ ˆ,β β β…2 3 são estatisticamente iguais a zero, contra a hipótese 
alternativa de que em conjunto os coeficientes estimados são estatisticamente 
diferentes de zero. Para isso empregamos um teste F, definido como:
UNIDADE 2 | REGRESSÃO MÚLTIPLA
108
2.31
( )
( ) ( ) ( )k , n k
SQE / k 
F ~ F
SQR / n k − −
−
=
− 1
1
Em que SQE é a soma dos quadrados explicados pela regressão, obtida 
por ' yˆ X nYβ ′ − 2, com k – 1 graus de liberdade no numerador, e SQR é a soma 
dos quadrados dos resíduos, obtida por ˆ ˆ'ε ε , com n – k graus de liberdade no 
denominador. Esse valor calculado é comparado à estatística F obtida em uma 
tabela de distribuição de probabilidade, a um nível de significância α.
Da mesma forma que o teste t para os parâmetros individuais, se o Fcalculado 
> Ftabela, rejeitamos a hipótese nula com um nível de significância de α, em favor da 
hipótese alternativa.
E quanto à capacidade do nosso modelo de se ajustar aos dados? O 
coeficiente de determinação é dado por 2.32:
2.32
SQER
STQ
=2
Que em notação matricial fica:
2.33
'X y nYR
y'
ˆ
y nY
β ′ −
=
−
2
2
2
Note que em 2.33 estamos usando o R2 ao invés do r2 que tínhamos na 
Unidade 1. Fazemos isso para diferenciar o modelo de regressão simples do 
modelo de regressão múltiplo. Em termos de interpretação não muda nada, ou 
seja, o R2 fornece uma medida do poder explicativo da regressão, ou da qualidade 
do ajustamento do modelo aos dados.
Podemos ver ainda que se trata de uma decomposição da variância de y. 
Podemos analisar o coeficiente de determinação e obter outras estatísticas ligadas 
a ele através da análise de variância, ANOVA. Para isso, observe o quadro a seguir:
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
109
QUADRO 1 – ANÁLISE DE VARIÂNCIA
Causas da variação Fontes Graus de liberdade Quadrado médio
Devido à Regressão (SQE) ' yˆ X nYβ ′ − 2 k – 1
Devido aos Resíduos (SQR) ˆ ˆ'ε ε n – k σ̂ 2
Total (STQ) y' y nY− 2 n – 1 yσ̂
2
Coeficiente de determinação
'X y nY 'R
y' y n '
ˆ ˆ
Y y nY
ˆ
y
β ε ε−
= = −
−
′
−
2
2
2 21
( )
( )
( )
( )
'SQE / k X y nY / k
F
SQR / n k ' / n k 
ˆ
ˆ ˆ
β
ε ε
′− − −
= =
− −
21 1
FONTE: Adaptado de Greene (2012, p. 82)
3 ESTIMANDO O MODELO DE REGRESSÃO MÚLTIPLO
Um dos campos de aplicação da econometria que tem crescido nos últimos 
anos é o do desenvolvimento econômico e social. Nessa área de pesquisa, um 
dos indicadores mais difundidos é o Índice de Desenvolvimento Humano – IDH. 
Enquanto o PIB nos dá uma ideia de quão rica pode ser uma nação, o IDH nos 
mostra a qualidade dessa riqueza.
Vamos usar alguns indicadores do Atlas do Desenvolvimento Humano 
no Brasil <http://www.atlasbrasil.org.br> para ilustrar a estimação de um modelo 
de regressão múltipla. A ideia se baseia menos na parte teórica envolvendo os 
conceitos econômicos e sociais, para dar mais ênfase aos aspectos técnicos da 
análise de regressão.
Como ponto de partida, a variável explicativa será o IDHM, Índice de 
Desenvolvimento Humano Municipal, e como variáveis explicativas teremos 
o RDPC – renda per capita média, ESPVIDA – esperança de vida ao nascer e 
EANOSESTUDO – número médio de anos de estudo que uma geração de crianças 
que ingressa na escola deverá completar ao atingir 18 anos de idade, se os padrões 
atuais se mantiverem ao longo de sua vida escolar.
Temos a nossa disposição uma base de dados de corte, por estados 
brasileiros, relativa aos anos de 1991, 2000 e 2010. Isso nos permite estimar pelo 
menos três modelos econométricos e verificar se há mudanças significativas nos 
resultados para cada ano de levantamento dos dados.
O primeiro modelo econométrico é dado por 2.34 e se refere ao ano de 
1991. Naquele ano, para o Brasil como um todo, o IDH era de 0,493:
UNIDADE 2 | REGRESSÃO MÚLTIPLA
110
i i i i iIDHM RDPC ESPVIDA EANOSESTUDOβ β β β ε= + + + +1 2 3 4 2.34
Esperamos que os coeficientes estimados β2, β3 e β4 tenham sinal 
positivo, indicando que renda, saúde e educação são fatores importantes no 
desenvolvimento humano de uma nação. 
Como os dados se referem a estados brasileiros, e como o Brasil tem 
uma heterogeneidade muito grande, representaremos os demais fatores que 
influenciam no desenvolvimento humano, mas que não entraram nesse modelo, 
por εi, que supomos ter distribuição normal, com média zero e variância constante.
Os dados obtidos no site Atlas Brasil foram importados para o Gretl e ao 
todo temos 27 observações. Para compreender melhor o significado de dados de 
corte e da análise de regressão múltipla usando matrizes, vamos dar uma olhada 
no quadro seguinte:
QUADRO 2 – AMOSTRA DA BASE DE DADOS DO IDHM DE 1991
Unidade da Federação X1 RDPC ESPVIDA EANOSESTUDO IDHM
Rondônia 1 304,90 63,11 7,55 0,407
Acre 1 284,96 63,72 6,56 0,402
Amazonas 1 345,82 63,67 6,52 0,430
Roraima 1 437,24 62,66 7,14 0,459
Pará 1 273,22 63,42 6,48 0,413
Amapá 1 378,57 65,05 7,81 0,472
Tocantins 1 243,58 60,32 6,36 0,369
Maranhão 1 156,47 58,04 6,29 0,357
Piauí 1 167,03 60,71 5,89 0,362
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.
A primeira coluna refere-se aos estados da federação e torna clara a 
diferença entre dados de corte e séries temporais. Essa base tem informações 
exclusivamente do ano de 1991, para cada estado brasileiro. Dito de outra forma, 
os dados não variam no tempo, o que caracteriza os dados de corte.
A coluna X1 é formada por números 1 porque, como vimos em 1.7, usamos 
essa coluna para estimar o intercepto β̂1 do nosso modelo de regressão. As demais 
colunas são as variáveis explicativas, exceto a última, que é a variável dependente. 
A Figura 1 apresenta os gráficos de dispersão entre a variável dependente 
IDHM e as demais variáveis explicativas. Como podemos perceber, há uma 
correção positiva entre as variáveis explicativas individualmente e a variável 
dependente. O gráfico ilustrado a seguir reforça a hipótese de que podemos 
esperar que os coeficientes estimados sejam positivos:
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
111
FIGURA 1 – GRÁFICOS DE DISPERSÃO DO IDHM 1991
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.
O Gretl, através dos seus menus, nos fornece uma série de estatísticas 
descritivas que vamos deixar para você explorar. Aproveite esse exemplo para 
aprender mais sobre essa ferramenta que é fundamental no nosso processo de 
aprendizado.
Vamos rodar a regressão sobre a equação 2.35. Para isso, na barra de menus 
do Gretl, selecione “Modelo” e na sequência “Mínimos Quadrados Ordinários”. 
Na janela que será exibida (Figura 2), você deve selecionar as variáveis e colocá-
las nos seus respectivos campos.
Esta é outra grande vantagem do Gretl: tanto o seu menu quanto as janelas 
de opções são totalmente intuitivas. Cada elemento que forma as rotinas prontas 
do software encontra correspondência nos manuais de econometria.
UNIDADE 2 | REGRESSÃO MÚLTIPLA
112
FIGURA 2 – ESPECIFICAÇÃO DO MODELO ECONOMÉTRICO NO GRETL
FONTE: Adaptado de Gretl (2018)
O Quadro 3 apresenta os resultados da regressão. A primeira análise que 
fazemos é verificarse os coeficientes estimados têm o sinal que esperávamos 
encontrar. Veja que todos são positivos, corroborando nossa hipótese inicial, de 
que renda, saúde e educação são elementos que melhoram o desenvolvimento 
humano de uma nação.
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
113
QUADRO 3 – RESULTADO DA ESTIMAÇÃO POR MÍNIMOS QUADRADOS ORDINÁRIOS
Modelo 1: MQO, usando as observações 1-27
Variável dependente: IDHM
 coeficiente erro padrão razão-t p-valor 
 ------------------------------------------------------------
 const 0,00909081 0,103925 0,08747 0,9311 
 RDPC 0,000216030 3,01665e-05 7,161 2,72e-07 ***
 ESPVIDA 0,00358231 0,00207447 1,727 0,0976 *
 EANOSESTUDO 0,0179243 0,00471780 3,799 0,0009 ***
Média var. dependente 0,453926 D.P. var. dependente 0,071943
Soma resíd. quadrados 0,005474 E.P. da regressão 0,015427
R-quadrado 0,959325 R-quadrado ajustado 0,954019
F(3, 23) 180,8175 P-valor(F) 3,94e-16
Log da verossimilhança 76,48761 Critério de Akaike −144,9752
Critério de Schwarz −139,7919 Critério Hannan-Quinn −143,4339
Obs. *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância 
estatística.
FONTE: Adaptado de Gretl (2018) e <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.
Analisando o intercepto β̂1, vemos que o seu valor é extremamente 
pequeno, 0,0091. Com um erro padrão de 0,1039, obtemos um valor tcalculado = 
0,0875, que é obtido por 
( )
,t ,
,
ˆ
ep ˆ
β
β
= = =1
1
0 0091 0 0875
0 1039
.
Estabelecendo um teste de hipótese com H0: β1 = 0 contra a hipótese 
alternativa de que β1 ≠ 0, podemos verificar se esse coeficiente é estatisticamente 
significativo ao nível de significância α, de 5%, ou α = 0,05. Procuramos os valores 
críticos de t em uma tabela de distribuição de probabilidade ou com o auxílio do 
Gretl, como já vimos.
Considerando n – k graus de liberdade, dado pelo número de observações 
da amostra menos a quantidade de coeficientes estimados, 27 – 4, chegamos 
a 23 graus de liberdade. Com o auxílio das tabelas estatísticas do Gretl, em 
“Ferramentas” e “Tabelas estatísticas”, encontramos um ttabela de 2,06866. Como o 
tcalculado < ttabela, não podemos rejeitar a hipótese nula de que o coeficiente estimado 
β1 é estatisticamente igual a zero.
Isso quer dizer que esse valor de 0,0091 obtido para o parâmetro não 
tem significância do ponto de vista estatístico. Como vimos na Unidade 1, se 
rejeitarmos a hipótese nula e ela for verdadeira, cometeremos o erro do tipo I, 
com probabilidade α%.
Para sermos mais precisos, a probabilidade de se rejeitar a hipótese nula e 
ela ser verdadeira é dada pelo p – valor. Nos resultados apresentados pelo Gretl, 
esse número está na última coluna e é de 0,9311 para a constante. Isso quer dizer 
que, do ponto de vista estatístico, não podemos rejeitar a hipótese nula. Se o 
UNIDADE 2 | REGRESSÃO MÚLTIPLA
114
fizermos, temos 93,11% de chances de cometer um erro do tipo I, motivo pelo 
qual não podemos considerar esse parâmetro estatisticamente significativo.
Para os demais coeficientes, para sermos mais práticos, vamos nos 
concentrar no p – valor. Note que tanto β̂2 quanto β̂4 são estatisticamente 
significativos a um nível de significância de 1%, porque o p – valor é menor do 
que 0,01. Por outro lado, β̂3 só é estatisticamente significativo a um nível de 
significância estatística de 10%, pois, o p – valor é 0,0976, maior do que 0,01 e 0,05. 
Esse resultado nos diz que, em 1991, a variável expectativa de vida não teve uma 
contribuição muito forte para explicar o valor do IDHM.
Vimos em 2.31 que é possível verificar se, em conjunto, os coeficientes β2, β3 
e β4 são estatisticamente significativos. Para isso, usamos o teste F, cujo resultado 
é apresentado pelo Gretl.
No Quadro 3 temos Fcalculado = 180,8175, que podemos estabelecer um nível 
de significância α e procurar o seu valor crítico em uma tabela de F, ou ainda, olhar 
diretamente no p – valor que também é apresentado pelo Gretl, com valor de 3,94e-
16. Esse número complicado de se ler é um número científico, como já tivemos a 
oportunidade de discutir. Ele significa que inicia com zero e, após a vírgula, na 
posição 16, aparece o número 394. Seu valor real é 0,000000000000000394, que 
podemos considerar como sendo um número muito pequeno e extremamente 
próximo de zero.
Em termos práticos, a leitura que fazemos é que, sob a hipótese nula de 
H0: β2 = β3 = β4 = 0, podemos rejeitá-la com uma probabilidade muito pequena, 
praticamente zero, de se cometer um erro do tipo I. Com isso, podemos dizer 
que, apesar de o coeficiente β̂3 não ser estatisticamente significativo a um nível 
de 1% ou 5%, consideramos que, em conjunto, os coeficientes estimados são 
estatisticamente significativos.
Outra estatística que nos ajuda a verificar a qualidade do nosso modelo 
é o R2, que dá uma ideia da qualidade do ajustamento do modelo aos dados. Em 
2.32, e no Quadro 1, vimos que seu valor é obtido por SQER
STQ
=2 , e a sua estimativa 
é apresentada no Quadro 3.
Outra forma de obter essa estimativa, como vimos no Quadro 1, é através 
da ANOVA. Para isso, na janela de resultados do modelo estimado, selecione 
“Análise” e em seguida “ANOVA”. O resultado está na Figura 3. 
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
115
FIGURA 3 – TABELA ANOVA PARA O MODELO DE REGRESSÃO
FONTE: Adaptado de Gretl (2018)
Com um valor de R2 = 0,9593, podemos dizer que 95,93% das variações 
no IDHM de 1991 podem ser explicadas pelo nosso modelo de regressão, o que 
significa que o modelo se ajusta muito bem aos dados e traz um grande poder 
explicativo.
Essa estimativa foi feita com base nas informações disponíveis de 1991. E 
se mantivermos a análise de dados de corte e fizermos a mesma estimativa só que 
com os dados de 2000 e 2010 e com as mesmas variáveis, o que encontraremos?
O Quadro 4 compara o modelo 2.34 referente aos três anos de estudo 
individualmente. Primeiro cabe ressaltar que o IDHM no Brasil, em 1999, 
era de 0,493, passou para 0,612 em 2000 e para 0,727 em 2010. O segundo 
ponto importante é o valor do coeficiente estimado da renda per capita, que é 
extremamente pequeno. Isso indica que, mantido tudo o mais constante, a renda 
tem um peso muito pequeno para explicar o IDHM.
A esperança de vida ao nascer, por outro lado, apresentou um aumento 
no seu valor nos anos seguintes e uma melhora na significância estatística. 
Podemos interpretar esse resultado de forma positiva, na medida em que essa 
variável mede o número médio de anos que as pessoas deverão viver a partir do 
nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de 
mortalidade por idade, prevalecentes no ano do Censo. Dito de outra forma, a 
melhora na esperança de vida, consequência da melhora nas condições de saúde 
da população, tem contribuído mais para a melhora do IDHM.
UNIDADE 2 | REGRESSÃO MÚLTIPLA
116
QUADRO 4 – COMPARANDO O MODELO 2.34 PARA TRÊS ANOS DISTINTOS
1991 2000 2010
Constante 0,0091(0,9311)
−0,0509
(0,5840)
−0,5379
(0,0008)***
RDPC 0,0002(0,0000)***
0,0001
(0,0000)***
0,00006
(0,0000)***
ESPVIDA 0,0036(0,0976)*
0,0052
(0,0041)***
0,0148
(0,0000)***
EANOSESTUDO 0,0179(0,0009)***
0,0244
(0,0000)***
0,0113
(0,0070)***
F 180,8175(0,0000)***
470,1644
(0,0000)***
282,6830
(0,0000)***
R2 0,9593 0,9839 0,9736
R2 ajustado 0,9540 0,9819 0,9701
Obs.: p – valor entre parênteses com *, ** e *** indicando significância estatística ao nível de 
10%, 5% e 1% respectivamente.
FONTE: Adaptado de Gretl (2018, s.p.) e <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.
Finalmente, olhando a variável educação, a sua importância no modelo 
aumenta de 1991 para 2000, mas diminui em 2010. Caberia um estudo específico 
sobre esse tema, investigando as razões pelas quais essa variáveloscilou entre esses 
três anos de amostra. Esse é um belo exemplo da importância da econometria na 
pesquisa científica. Basta comparar os resultados entre modelos distintos ou aplicados 
entre períodos distintos para se despertar novos temas e opções de estudo.
Acadêmico! Faltou falar sobre a constante. Você deve ter percebido que 
apenas no primeiro ano é que esse coeficiente estimado não era estatisticamente 
significativo. Isso reforça a nossa tese de se ter muito cuidado antes de excluí-lo 
do modelo. Principalmente porque em 2010 o seu valor, além de ser negativo, 
apresentou um valor bem alto se comparado aos demais coeficientes estimados. 
Esse resultado pode significar que o nosso modelo, de um modo geral, 
pode ter problemas de especificação. Isso fica claro na medida que observamos a 
composição da base de dados. O IDHM, por exemplo, é um índice. RDPC é expresso 
em Reais, ESPVIDA e EANOSESTUDO em anos. Essas unidades de medida 
distintas tornam confusa a interpretação individual dos parâmetros estimados.
Por exemplo, se pegarmos o coeficiente ESPVIDA para 2010, veremos que o 
seu valor estimado é de 0,0148. Isso quer dizer que, cada ano adicional na esperança 
de vida ao nascer eleva o IDHM em 0,0148. Políticas públicas voltadas à melhoria 
na qualidade de vida, ações de saúde e cidadania, poderiam fazer com que as 
pessoas vivessem mais, com mais qualidade e saúde, melhorando o IDHM. Porém, 
essa análise é superficial e, como dissemos anteriormente, merece um estudo mais 
profundo para se entender melhor o seu impacto na variável dependente.
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
117
Dando uma olhada no F, percebemos que em conjunto os coeficientes 
estimados são estatisticamente significativos e que o R2 é bem grande em cada um 
dos anos do estudo. A propósito disso, acrescentamos outra estatística, o R2ajustado. 
Usamos o termo ajustado para designar que ele é ajustado pelo número de graus 
de liberdade.
( )ajustado nR R n k
−
= − −
−
2 2 11 1 2.35
Essa estatística é útil quando formos comparar modelos diversos contendo 
diferentes quantidades de variáveis explicativas. Por exemplo, um modelo com 
uma variável explicativa comparada a outro com duas variáveis explicativas. A 
definição de R2 diz que ele é o grau de ajustamento ou quanto das variações na 
variável dependente são explicadas pelo modelo. Por isso, quanto mais variáveis 
explicativas incluirmos no nosso modelo, maior tende a ser o R2 . Como na 
equação 1.53 há uma punição para o acréscimo de variáveis explicativas pela 
perda do número de graus de liberdade, essa medida nos fornece uma maneira 
de comparar modelos diferentes.
4 TESTES ADICIONAIS APLICADOS AOS RESULTADOS DOS 
MODELOS DE REGRESSÃO
Vamos avançar um pouco na análise de regressão, partindo de um modelo 
econométrico estimado. Para isso, considere a teoria Keynesiana de preferência 
por liquidez. Segundo essa teoria, os motivos advindos de transação, precaução e 
especulação levam a uma função de demanda por moeda que depende da renda 
e da taxa de juros. 
DICAS
Para ver os detalhes dessa teoria, consulte um manual de Economia Monetária, 
como este escrito por Carvalho et al. (2015):
• CARVALHO, Fernando J. Cardim de et al. Economia monetária e financeira. 3. ed. Rio de 
Janeiro: Campus, 2015. 423 p. 
Para a nossa análise usaremos o modelo 2.36, que descreve a demanda por 
moeda como uma função linear:
UNIDADE 2 | REGRESSÃO MÚLTIPLA
118
2.36Mt = β1 + β2Yt + β3it + εt
Em que Mt representa a demanda por moeda (aqui usamos o M1 como 
proxy), Yt denota o Produto Interno Bruto a preços de mercado (variável que 
funciona como uma proxy para a renda), e it representa a taxa de juros do CDI Over, 
que é a média dos juros que instituições financeiras pagam a outras instituições 
financeiras que lhe emprestaram dinheiro no mercado interbancário. εt é o termo 
de erro e supõe-se que ε~N(0, σ2I).
Em 2.36 estamos supondo que demanda por moeda seja positivamente 
relacionada com a renda e negativamente relacionada à taxa de juros. Os dados 
são trimestrais e foram obtidos para a economia brasileira no site <www.ipeadata.
gov.br>, para o período entre 2002 e 2017, com um total de 64 observações e estão 
disponíveis no Quadro 5. 
Além disso, como no modelo 2.36 estamos interessados em medir a 
elasticidade renda da demanda por moeda e a elasticidade dos juros em relação à 
demanda por moeda, as variáveis foram transformadas em logaritmos.
QUADRO 5 – VARIÁVEIS MACROECONÔMICAS PARA ESTIMAÇÃO DA DEMANDA POR MOEDA
Período M Y i P Período M Y i P
2002/01 11,2012 12,7434 1,4367 0,3988 2010/01 12,3428 13,6949 0,7048 0,7227 
2002/02 11,2856 12,8141 1,4481 0,3646 2010/02 12,3661 13,7580 0,7957 0,0000 
2002/03 11,3871 12,8474 1,4869 0,9478 2010/03 12,4242 13,8134 0,9603 -0,6931 
2002/04 11,5885 12,8976 1,6074 1,8810 2010/04 12,5492 13,8713 0,9345 0,8020 
2003/01 11,3749 12,8923 1,7352 1,6351 2011/01 12,4366 13,8319 0,9726 0,8920 
2003/02 11,3577 12,9456 1,7551 0,3577 2011/02 12,4445 13,8987 1,0305 0,3365 
2003/03 11,3549 12,9931 1,7247 0,2776 2011/03 12,4492 13,9220 1,1014 0,0583 
2003/04 11,6050 13,0441 1,4816 0,1398 2011/04 12,5616 13,9646 0,9811 0,3784 
2004/01 11,4899 13,0053 1,3246 0,6152 2012/01 12,4589 13,9373 0,8981 0,1989 
2004/02 11,5374 13,0853 1,2994 0,4700 2012/02 12,4887 13,9837 0,7349 0,0770 
2004/03 11,6069 13,1328 1,3508 0,6627 2012/03 12,5239 14,0229 0,6477 0,3507 
2004/04 11,7594 13,1729 1,3834 0,6931 2012/04 12,6917 14,0559 0,5280 0,6881 
2005/01 11,6682 13,1218 1,4297 0,5822 2013/01 12,5889 14,0319 0,4790 0,6627 
2005/02 11,6693 13,1911 1,5174 0,2927 2013/02 12,6142 14,0951 0,5812 0,1655 
2005/03 11,6735 13,2229 1,5550 -0,2614 2013/03 12,6158 14,1187 0,7507 -0,4780 
2005/04 11,8830 13,2750 1,4602 0,5128 2013/04 12,7499 14,1615 0,8380 0,7130 
2006/01 11,7656 13,2254 1,3955 0,3646 2014/01 12,6441 14,1420 0,8760 0,7793 
2006/02 11,7910 13,2742 1,2747 -2,3026 2014/02 12,6308 14,1678 0,9210 0,4318 
2006/03 11,8710 13,3340 1,2561 -0,7985 2014/03 12,6570 14,1954 1,0024 -0,1863 
2006/04 12,0688 13,3929 1,1391 0,1133 2014/04 12,7703 14,2266 1,0165 0,5423 
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
119
Obs.: Dados em logaritmos.
FONTE: <www.ipeadata.gov.br>. Acesso em: 24 ago. 2018
2007/01 11,9549 13,3557 1,1075 0,2311 2015/01 12,6615 14,1916 1,0331 1,3429 
2007/02 12,0087 13,4160 1,0618 -0,2107 2015/02 12,6313 14,2076 1,1079 0,8154 
2007/03 12,0715 13,4471 1,0231 -0,1165 2015/03 12,5975 14,2264 1,2328 0,3293 
2007/04 12,3520 13,4958 0,9657 0,3577 2015/04 12,7201 14,2544 1,2123 1,0367 
2008/01 12,1219 13,4759 0,9466 0,4187 2016/01 12,6119 14,2194 1,1791 0,9632 
2008/02 12,1347 13,5535 1,0086 0,7372 2016/02 12,6146 14,2575 1,2118 0,5596 
2008/03 12,1797 13,6080 1,1660 0,0677 2016/03 12,6372 14,2694 1,2435 0,0392 
2008/04 12,3169 13,6117 1,1990 0,0862 2016/04 12,7594 14,3050 1,1757 -0,3011 
2009/01 12,1666 13,5360 1,0613 0,2070 2017/01 12,6411 14,2761 1,1081 -0,0408 
2009/02 12,2171 13,5968 0,8638 0,2776 2017/02 12,6642 14,3047 0,9322 -1,5141 
2009/03 12,2532 13,6563 0,7792 -0,4620 2017/03 12,6656 14,3110 0,8122 -0,5276 
2009/04 12,4302 13,7327 0,7344 0,0583 2017/04 12,8022 14,3477 0,5644 0,1310 
Os resultados da estimação estão no Quadro 6 e, como esperávamos, o 
sinal dos coeficientes estimados está de acordo com o que foi dito incialmente, ou 
seja, o coeficiente β̂2 é positivo e o coeficiente estimado β̂3 é negativo.
O valor dos coeficientes estimados é lido como elasticidade, ou seja, uma 
variação de 1% na renda conduz a um aumento na demanda por moeda na ordem 
de 0,83%. Por outro lado, um aumento na taxa de juros em um ponto percentual 
reduz a demanda por moeda em 0,27%:
QUADRO 6 – RESULTADO DA ESTIMAÇÃO DE 2.36
Modelo 1: MQO, usando as observações 2002:1-2017:4 (T = 64)
Variável dependente: M
 coeficiente erro padrão razão-t p-valor 
 ----------------------------------------------------------
 const 1,15514 0,4369472,644 0,0104 **
 Y 0,829907 0,0292322 28,39 7,34e-037 ***
 i −0,270326 0,0464715 −5,817 2,37e-07 ***
Média var. dependente 12,20565 D.P. var. dependente 0,469026
Soma resíd. quadrados 0,398430 E.P. da regressão 0,080819
R-quadrado 0,971251 R-quadrado ajustado 0,970309
F(2, 61) 1030,419 P-valor(F) 9,72e-48
Log da verossimilhança 71,71933 Critério de Akaike −137,4387
Critério de Schwarz −130,9620 Critério Hannan-Quinn −134,8872
rô 0,371141 Durbin-Watson 1,200039
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância 
estatística.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 27 ago. 2018.
UNIDADE 2 | REGRESSÃO MÚLTIPLA
120
Modelos como o 2.36 são derivados de outras formas funcionais, como 
a função de produção Cobb-Douglas, muito utilizada na microeconomia. Para 
entender melhor essa derivação, considere a equação 2.37:
t
t tY X e
εββ= 21 2.37
Aplicando logaritmo nos dois lados da equação, temos:
2.38t t tlnY ln lnXβ β ε= + +1 2
Se fizermos *t tY lnY= , α β=1 1, α β=2 2, 
*
t tX lnX= e reescrevermos 2.38 para:
* *
t t tY Xα α ε= + +1 2 2.39
Temos novamente um modelo de regressão com a aparência que estamos 
acostumados a estimar, ou seja, um modelo econométrico linear nos parâmetros. 
Assim, interpretamos o parâmetro α2 como elasticidade de X em relação a Y, ou 
seja, quantos por cento a variável dependente varia quando a variável explicativa 
variar 1 ponto percentual.
Há outras possibilidades para a aplicação de logaritmos. Podemos aplicar 
o logaritmo apenas no lado direito da equação, ou apenas no lado esquerdo. Em 
ambos os casos a interpretação muda, como podemos ver no Quadro 7, que traz 
quatro modelos de regressão em que aplicamos logaritmos. A decisão de quando 
e como usar cada modelo dependerá do que estamos interessados em obter com 
a nossa estimação, portanto, a decisão é do pesquisador.
Voltando ao Quadro 6, falta verificar ainda se os coeficientes estimados 
são estatisticamente significativos. A constante β̂1 apresentou um p – valor de 
0,0104, que é acompanhado de dois asteriscos. Isso quer dizer que, ao nível de 
1% de significância estatística, não podemos rejeitar a hipótese nula de que este 
parâmetro é igual a zero. Porém, aos níveis de 5% e 10% de significância estatística, 
nós rejeitamos H0 em favor da hipótese alternativa e, portanto, podemos dizer 
que a constante é diferente de zero do ponto de vista da significância estatística.
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
121
QUADRO 7 – FORMAS FUNCIONAIS ALTERNATIVAS
Modelo Equação Interpretação do coeficiente angular
Linear Yi = β1 + β2Xi
Uma variação de uma unidade em Xi altera a variável 
dependente, Yi, em β2 unidades.
Log-linear InYi = β1 + β2 InXi 
Uma variação de um por cento em Xi altera a variável 
dependente, Yi, em β2% (elasticidade).
Log-lin InYt = β1 + β2t 
Estamos falando em um modelo de séries temporais em que t 
= 1, 2, ..., T , que pode representar dias, meses, trimestres, anos 
etc. Neste cvaso, β2 x 100 mede a taxa de crescimento médio da 
variável dependente.
Lin-log Yt = β1 + β2InXt 
Usamos para medir crescimento, só que desta vez uma variação 
absoluta. β2 ÷ 100 é quanto, em valores absolutos, Yt varia 
quando Xt varia 1%.
FONTE: Adaptado de Gujarati e Porter (2011)
Lembre-se da regra geral, quando o p – valor é menor que o nível de 
significância estabelecido, 1%, 5%, ou 10%, rejeitamos a hipótese nula de que o 
coeficiente é estatisticamente igual a zero. Se o p – valor é maior que o nível de 
significância estatística, não podemos rejeitar a hipótese nula.
O p – valor mede a probabilidade exata de cometer um erro do tipo 1, 
ou seja, rejeitar uma hipótese quando ela é verdadeira. No caso da constante 
estimada, do Quadro 6, a probabilidade de rejeitarmos a hipótese de que esse 
parâmetro é igual a zero e ele de fato ser igual a zero é de 1,04%. Trata-se de um 
valor baixo e, portanto, se estabelecermos um nível de significância estatística 
em 1%, 5% ou 10%, rejeitar a H0, ou não, será uma decisão do pesquisador e 
dependerá do grau de rigorosidade com que ele está tratando a sua pesquisa.
Todos os demais coeficientes estimados são individual e estatisticamente 
significativos aos níveis de 1%, 5% e 10%. Se olharmos a estatística F, veremos que 
o seu valor calculado é de F2,61 = 1030,419, e se analisarmos o p – valor associado 
a essa estatística, veremos que é igual a 0,0000. Isso significa que rejeitamos H0 
de que β2 = β3 = 0, e concluímos que, em conjunto, os coeficientes estimados são 
estatisticamente significativos.
Finalmente, o R2 indica que 97,12% das variações de Mt são explicados 
pelo modelo 2.36, o que indica um alto poder de explicação do modelo, mas será 
que não estamos deixando alguma variável de fora? Talvez tenhamos incluído 
variáveis em excesso! Ou será que o modelo foi especificado de forma correta? 
Vamos começar verificando se a especificação do modelo 2.36 está correta. 
Primeiro testaremos se podemos deixar alguma variável de fora, ou seja, se não 
temos variáveis em excesso no modelo.
Retornamos ao modelo 2.36, expresso agora em 2.40:
UNIDADE 2 | REGRESSÃO MÚLTIPLA
122
2.40t t t tM Y iβ β β ε= + + +1 2 3
Vamos testar se a variável it pode ser eliminada do modelo e assim 
melhoramos o resultado da nossa estimação. Para isso, a partir da janela do 
resultado do modelo estimado, reproduzida no Quadro 6, selecione o menu 
“Testes” e, na sequência, escolha “Omitir variáveis”. Preencha a janela de testes 
conforme a Figura 4 e clique em “Ok” para ver o resultado do teste:
FIGURA 4 – OMITIR VARIÁVEIS NO MODELO 2.40
FONTE: Adaptado de Gretl (2018)
O resultado do teste foi sintetizado no Quadro 8. A hipótese nula do teste 
é que o coeficiente estimado relacionado à variável it é estatisticamente igual a 
zero. O Gretl emprega um teste F e reporta essa estatística juntamente ao p – valor, 
para facilitar a nossa decisão de omitir ou não a variável. Ele também informa 
quantos critérios de informação melhoraram com a omissão da variável que está 
sendo testada.
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
123
QUADRO 8 – RESULTADO DO TESTE PARA OMITIR VARIÁVEIS DO MODELO
Teste no Modelo 1
 Hipótese nula: o parâmetro de regressão é igual a zero para i
 Estatística de teste: F(1, 61) = 33,8377, p-valor 2,36729e-007
 A exclusão de variáveis melhorou 0 de 3 critérios de informação.
FONTE: O autor
O primeiro passo para entender o resultado é verificar que o p – valor 
é igual a 0,0000. Isso significa que você deve rejeitar a hipótese nula, ou seja, 
o parâmetro associado à variável it é relevante, ou estatisticamente diferente de 
zero. Na mesma linha, o Gretl nos informa que dos três critérios de informação 
levados em consideração, Akaike, Schwarz e Hannan-Quinn, nenhum deles 
melhorou com a exclusão dessa variável.
Esses critérios de informação são definidos da seguinte forma:
Critério de informação Equação
Akaike ( )AIC l ˆ kθ= − +2 2 2.41
Schwarz ( ) ˆBIC l k lnnθ= − +2 2.42
Hannan-Quinn ( )HQC l k lnlnnθ̂= − +2 2 2.43
Em que ( )l θ̂ representa o log de máxima verossimilhança como uma função 
do vetor de parâmetros estimados ( )θ̂ e k é o número de parâmetros estimados 
no modelo de regressão. A regra geral dos critérios de informação é que, quando 
comparamos modelos diferentes, devemos sempre selecionar aqueles que 
apresentem o menor critério de informação.
DICAS
 Para conhecer mais detalhes, leia Cottrell e Lucchetti (2018, p. 221).
• COTTRELL, Allin; LUCCHETTI, Riccardo “jack”. Gretl User’s Guide: Gnu Regression, 
Econometrics and Time-series Library. 2018. 394 p.
Também pode ser obtido através do Gretl, no menu “Ajuda” e “Guia do usuário”. Clicando 
nessas opções, o Gretl abre esse manual no formato PDF.
UNIDADE2 | REGRESSÃO MÚLTIPLA
124
Portanto, como rejeitamos a hipótese nula relativa à exclusão da variável 
it e como o modelo estimado sem essa variável não melhora nenhum dos três 
critérios de informação citados, concluímos que it não deve ser excluída do 
modelo de regressão.
Isso nos possibilita fazer outro questionamento. Será que não estamos 
deixando uma variável relevante de fora do nosso modelo? Digamos que 
queremos verificar se outra variável, digamos Pt, deve entrar no modelo. Neste 
caso, 2.40 deveria ser:
2.44t t t t tM Y i Pβ β β β ε= + + + +1 2 3 4
Para fazer o teste, voltamos à janela do modelo 2.40 estimado pelo Gretl, 
selecionamos o menu “Testes” e depois escolhemos “Acrescentar variáveis”. Será 
apresentada uma janela para você preencher as informações, como a da Figura 5. 
Você deve selecionar a variável que quer testar e clicar em “Ok”.
FIGURA 5 – TESTE DE ACRÉSCIMO DE VARIÁVEIS AO MODELO 2.40
FONTE: O autor
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
125
O resultado do teste está no Quadro 9. Novamente estamos suprimindo 
parte do que o Gretl reporta para facilitar a compreensão. Perceba que a hipótese 
nula, H0, é de que o parâmetro de regressão dessa nova variável é igual a zero, 
ou seja, ele não tem significância estatística e, portanto, não deve ser incluído no 
modelo. Perceba também que o Gretl reporta o p – valor do teste – que, neste caso, 
é de 0,0838. A pergunta que fica é: Com base no resultado apresentado, podemos 
rejeitar a hipótese nula de que não devemos incluir essa nova variável no modelo 
de regressão?
QUADRO 9 – RESULTADO DO TESTE DE INCLUSÃO DE VARIÁVEIS AO MODELO
Teste no Modelo 1
 Hipótese nula: o parâmetro de regressão é igual a zero para P
 Estatística de teste: F(1, 60) = 3,091, p-valor 0,0838263
 O acréscimo de variáveis melhorou 2 de 3 critérios de informação.
FONTE: O autor
A resposta correta a essa pergunta é “depende”! O pesquisador deve, nessa 
situação, avaliar o quão rigoroso ele é em relação a sua pesquisa. Perceba que 
aos níveis de 1% e 5% não podemos rejeitar a hipótese nula de que o parâmetro 
de regressão é igual a zero para a variável Pt. No entanto, ao nível de 10% de 
significância estatística, podemos rejeitar a hipótese nula e, portanto, incluir essa 
variável no modelo 2.40.
Agora que conhecemos os critérios de informação, podemos ver que 
dois dos três critérios melhoram com a inclusão dessa variável. Seja qual for a 
sua decisão, pondere bem antes de incluir ou excluir uma variável. Em outras 
palavras, considere a teoria econômica subjacente ao modelo estimado e verifique 
se faz sentido esse acréscimo ou não.
Costumamos usar a expressão “parcimonioso” para definir o melhor 
modelo de regressão. Para fins de ilustração, vamos acrescentar a variável Pt ao 
modelo e estimar a regressão 2.44. O resultado pode ser visto no Quadro 10:
UNIDADE 2 | REGRESSÃO MÚLTIPLA
126
QUADRO 10 – RESULTADO DA ESTIMAÇÃO DO MODELO 2.44
Modelo 3: MQO, usando as observações 2002:1-2017:4 (T = 64)
Variável dependente: M
 coeficiente erro padrão razão-t p-valor 
 ----------------------------------------------------------
 const 1,14960 0,429657 2,676 0,0096 ***
 Y 0,830509 0,0287457 28,89 6,60e-037 ***
 i −0,279869 0,0460162 −6,082 8,96e-08 ***
 P 0,0280719 0,0159670 1,758 0,0838 *
Média var. dependente 12,20565 D.P. var. dependente 0,469026
Soma resíd. quadrados 0,378910 E.P. da regressão 0,079468
R-quadrado 0,972660 R-quadrado ajustado 0,971293
F(3, 60) 711,5241 P-valor(F) 7,85e-47
Log da verossimilhança 73,32680 Critério de Akaike −138,6536
Critério de Schwarz −130,0181 Critério Hannan-Quinn −135,2516
rô 0,391675 Durbin-Watson 1,157380
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância 
estatística.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 27 ago. 2018.
Perceba que o coeficiente estimado da variável Pt só é estatisticamente 
significativo ao nível de 10% de significância estatística. Porém, note que o R2 
se elevou em comparação a 2.40, passando de 0,9712 para 0,9726, ainda assim 
permanecendo alto. Por outro lado, sabemos que o R2 não deve ser usado para 
comparar modelos de regressão, mas sim o R2ajustado, que no caso do modelo 2.40 
era de 0,9703, e no modelo 2.44 passou para 0,9712.
E quanto aos critérios de informação? Como temos menos de 100 
observações, o melhor critério a ser analisado é o Akaike, cujas razões são discutidas 
em Diebold (2007, p. 85). Se tivéssemos mais de 100 observações, preferiríamos o 
Schwarz. No entanto, o critério de Hannan-Quinn é assintoticamente melhor do 
que o de Schwarz. Um resumo dos critérios de informação está no Quadro 11:
QUADRO 11 – COMPARANDO OS CRITÉRIOS DE INFORMAÇÃO
Critério Modelo 2.40 Modelo 2.44
Akaike −137,4387 −138,6536
Schwarz −130,9620 −130,0181
Hannan-Quinn −134,8872 −135,2516
FONTE: O autor
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
127
Dois pontos a serem destacados no Quadro 11: 
1. Os valores são negativos, portanto, -138 é menor do que -137.
2. O critério de Schwarz é o único que teve o seu valor aumentado, enquanto os 
demais diminuíram.
Com base no Quadro 11, percebemos que o modelo 2.44 é o que deve 
ser escolhido, porque a inclusão da nova variável torna este modelo mais 
parcimonioso, ou seja, melhora a capacidade de previsão do modelo (visto 
pelo R2) e, de modo geral, os coeficientes estimados são todos estatisticamente 
significativos, contanto que você considere 10% de significância estatística.
Há ainda um teste a ser aplicado, o RESET, que é um acrônimo de Regression 
Specification Error Test. Ele é baseado na distribuição F e traz na hipótese nula, H0, 
a informação de que a forma funcional é adequada, enquanto a alternativa é que 
existe outra forma funcional que se ajusta melhor aos dados utilizados.
Novamente, a implementação do teste é facilitada com o uso do Gretl, 
porque ele já tem no seu pacote uma rotina pronta. Para acessá-la, a partir da 
janela do modelo estimado, apresentado no Quadro 6, selecione o menu “Testes” 
e depois “RESET de Ramsey”. Na janela que abrir, você deverá informar a 
especificação alternativa a ser testada. Essa forma funcional é utilizada para fins 
de comparação com o modelo originalmente estimado. Os resultados do teste 
estão no Quadro 12.
Como você pode perceber, a tela apresentada no Quadro 12 é o resultado 
da estimação de uma regressão auxiliar. Essa regressão é construída a partir da 
estimação do modelo 2.40, quando você deve salvar a série da variável dependente 
estimada e incluir essa série na regressão auxiliar na forma de quadrados e cubos 
(no quadro representado por yhat^2 e yhat^3).
QUADRO 12 – RESULTADO DO TESTE RESET APLICADO AO MODELO 2.40
Regressão auxiliar para o teste de especificação RESET
MQO, usando as observações 2002:1-2017:4 (T = 64)
Variável dependente: M
 coeficiente erro padrão razão-t p-valor
 --------------------------------------------------------
 const 206,630 157,046 1,316 0,1934 
 Y −62,6990 45,3887 −1,381 0,1724 
 i 20,5102 14,7860 1,387 0,1706 
 yhat^2 6,61986 4,52447 1,463 0,1487 
 yhat^3 −0,190175 0,124680 −1,525 0,1325 
Aviso: matriz de dados quase singular!
Estatística de teste: F = 15,511588,
com p-valor = P(F(2,59) > 15,5116) = 3,86e-006
FONTE: O autor
UNIDADE 2 | REGRESSÃO MÚLTIPLA
128
As duas últimas linhas do quadro são as que mais nos interessam. A 
primeira apresenta a estatística Fcalculada, e a segunda o p – valor desse teste F. Como 
podemos ver, o número reportado é extremamente pequeno e menor do que os 
usuais níveis de significância estatística queutilizamos, ou seja, 0,01, 0,05 e 0,10. Com 
isso, podemos rejeitar a hipótese nula de que o modelo original está corretamente 
especificado e concluir que devemos revisar o modelo como um todo.
Nem sempre o resultado do teste significa que devemos mudar a forma 
funcional de linear para logarítmica, ou de logarítmica para quadrática, cúbica 
ou recíproca. Muitas vezes, como teremos a oportunidade de ver na Unidade 3, 
pode haver outros problemas relacionados ao banco de dados, variáveis proxy 
erroneamente especificadas, colinearidade entre variáveis explicativas, correlação 
serial dos resíduos ou heteroscedasticidade, entre outros.
No caso do nosso exemplo, o mais provável é que ignoramos o fato de 
estarmos lidando com séries temporais e omitimos uma série de testes que 
antecedem a estimação desse tipo de dado. Esses testes serão objeto de estudo da 
Econometria II e, por enquanto, não iremos abordá-los.
129
RESUMO DO TÓPICO 2
Neste tópico, você aprendeu que:
• É possível estimar os parâmetros de MQO e as principais estatísticas de teste 
usando álgebra matricial.
• Usar a álgebra matricial para estimar um modelo de regressão com múltiplas 
variáveis explicativas torna o seu entendimento mais intuitivo.
• Pode-se realizar testes adicionais aplicados aos resultados do modelo de 
regressão, tais como os testes de omissão e inclusão de variáveis e o teste 
RESET, além de outras formas funcionais aplicando logaritmos às variáveis.
• Existem os critérios de informação – Akaike, Schwarz e Hannan-Quinn – 
empregados para selecionar modelos que melhor se ajustam aos dados a serem 
empregados na estimação.
130
AUTOATIVIDADE
Vamos revisar os principais conceitos vistos no Tópico 2. Para isso, utilize 
os dados do Quadro 13, que apresenta a quantidade de veículos produzidos no 
Brasil entre janeiro de 2015 e fevereiro de 2018, o rendimento real médio de 
todos os trabalhadores efetivos e a taxa média de juros das operações de crédito 
com recursos livres para pessoas físicas na linha de aquisição de veículos. 
QUADRO 13 – DADOS SOBRE PRODUÇÃO DE AUTOMÓVEIS, SALÁRIO E JUROS
Período Auto Salário Juros Período Auto Salário Juros
janeiro/2015 165.383 2.269 23,84 agosto/2016 149.414 2.124 26,17
fevereiro/2015 165.270 2.275 24,76 setembro/2016 141.286 2.116 26,13
março/2015 203.826 2.259 24,67 outubro/2016 151.948 2.112 25,75
abril/2015 177.807 2.174 24,55 novembro/2016 185.640 2.109 25,85
maio/2015 178.335 2.159 24,81 dezembro/2016 166.216 2.205 25,7
junho/2015 158.494 2.167 24,71 janeiro/2017 149.289 2.408 26,18
julho/2015 191.375 2.152 24,5 fevereiro/2017 170.349 2.427 25,71
agosto/2015 186.323 2.137 24,79 março/2017 200.123 2.377 24,8
setembro/2015 147.031 2.130 25,57 abril/2017 157.755 2.176 24,39
outubro/2015 165.763 2.125 25,89 maio/2017 208.110 2.160 24,25
novembro/2015 143.934 2.122 26,18 junho/2017 173.609 2.151 24,03
dezembro/2015 123.699 2.192 26,01 julho/2017 187.771 2.157 23,79
janeiro/2016 132.206 2.397 27,48 agosto/2017 219.927 2.163 23,22
fevereiro/2016 118.574 2.394 27,56 setembro/2017 203.103 2.169 22,96
março/2016 165.544 2.345 27,01 outubro/2017 209.989 2.167 22,51
abril/2016 142.067 2.125 26,77 novembro/2017 208.540 2.166 22,14
maio/2016 146.224 2.120 26,33 dezembro/2017 180.665 2.243 22,23
junho/2016 147.480 2.099 25,97 janeiro/2018 180.925 2.446 22,74
julho/2016 152.295 2.105 25,99 fevereiro/2018 176.807 2.468 22,47
FONTE: <www.ipeadata.gov.br> e <www.bcb.gov.br>. Acesso em: 27 ago. 2018.
Para essa atividade, a variável dependente é a quantidade de automóveis 
produzidas e as variáveis explicativas são a renda e a taxa de juros. O seguinte 
modelo de regressão foi montado:
t t t tAuto Salario Jurosβ β β ε= + + +1 2 3 2.45
131
No entanto, como nosso interesse era obter a elasticidade da produção 
de automóveis em razão dos rendimentos e da taxa de juros, transformamos os 
dados do Quadro 13 aplicando logaritmos às variáveis e redefinimos o modelo 
2.45 como:
2.46t t t tln Auto lnSalario ln Juros uα α α= + + +1 2 3
Com isso, ao estimarmos o modelo 2.46, α̂2 nos dirá quanto de aumento 
na produção de automóveis teremos, em percentual, quando a renda real 
aumentar 1%. Em relação à variável juros, o coeficiente estimado α̂3 medirá qual 
o percentual de aumento ou redução da produção de automóveis teremos se os 
juros para o financiamento de veículos para pessoa física reduzir ou aumentar 
em 1%. O resultado do modelo 2.46 estimado é o seguinte:
2.47
�
( ) ( ) ( )
t t tln Auto , , lnSalario , ln Juros
, * * * , , * * *
= − −20 1326 0 2450 1 9336
0 0000 0 4764 0 0000
Entre parênteses temos o p – valor e os asteriscos *, ** e ***, respectivamente, 
que indicam significância estatística aos níveis de 10%, 5% e 1%. 
Com base no resultado da regressão, assinale V para as sentenças 
verdadeiras e F para as falsas:
a) ( ) Apenas α̂2 não é estatisticamente significativo, quando testamos a 
hipótese nula, H0: α2 = 0, contra a hipótese alternativa de que H1: α2 ≠ 0.
b) ( ) O modelo 2.46 apresentou R2 = 0,5740. Se estimássemos o modelo 2.45, 
teríamos um R2 = 0,5781. Como o R2 é usado para comprar modelos 
e nos auxilia na escolha entre eles, devemos escolher o modelo 2.45, 
porque apresentou o R2 mais alto.
c) ( ) A estatística F(2,35) = 23,5788 do modelo 2.46, tem p – valor = 0,0000. 
Isso significa que rejeitamos a hipótese nula, H0: α2 = α3 = 0, contra a 
hipótese alternativa de que pelo menos um dos coeficientes estimados é 
estatisticamente diferente de zero.
d) ( ) Como a amostra contém apenas 38 observações, o melhor critério para 
decidir entre o modelo 2.45 e 2.46 é o critério de informação de Akaike. 
Como no modelo 2.45 AIC = 850,8035 e no modelo 2.46 AIC = –62,80213, 
escolhemos o modelo 2.46 como sendo o mais parcimonioso, apesar do 
R2 ser menor nesse modelo.
e) ( ) Empregamos o teste RESET aplicado no modelo 2.46, sob a hipótese 
nula de que a especificação daquele modelo é adequada, apresentou 
p – valor = 0,2893. Isso significa que não devemos usar logaritmos para 
estimar 2.46.
132
133
TÓPICO 3
USANDO VARIÁVEIS EXPLICATIVAS 
QUALITATIVAS
UNIDADE 2
1 INTRODUÇÃO
Até agora, as variáveis explicativas que entraram nos nossos modelos de 
regressão eram quantitativas: anos de estudo, esperança de vida ao nascer em 
anos, renda per capita em R$ e assim por diante. 
E se quisermos saber, por exemplo, se existe diferença na renda recebida 
por homens e mulheres? E se quisermos saber se a renda per capita tem influência 
maior sobre o IDH na região Norte e Nordeste do Brasil do que no restante do 
país? Como faremos para incluir essas variáveis, haja vista que elas não são 
mensuráveis quantitativamente?
Gênero, região geográfica, religião, classe social, entre outras, são categorias 
ditas qualitativas e podem entrar nos modelos de regressão, tanto como uma 
variável dependente – como nos modelos Logit e Probit – quanto na forma de 
variável explicativa, que é o tema desse tópico.
Para fazer isso, empregamos as variáveis binárias, chamadas de dummy, 
que assumem apenas dois valores possíveis, zero ou um. Assim, ao estudar a 
diferença salarial entre homens e mulheres, podemos inserir uma dummy com 
valor igual a zero quando aquela observação se refere a homens, e valor igual 
a um, quando se referir a mulheres. Com esse procedimento simples podemos 
estimar a diferença média de salários e verificar se essa diferença é significante 
do ponto de vista estatístico.
Veremos também que a dummy pode ser empregada para testar quebras 
estruturais, identificando se ao longo do tempo os parâmetros de regressão 
mudaram em resposta a algum evento importante, como uma guerra, recessão, 
quebra na safra agrícola, entre outros.
É possível também usar essa variável para extrair a sazonalidade em 
uma série temporal, o que é muito útil quando queremos saber a tendência do 
comportamento de alguma variável, mas sabemos que ela tem comportamento 
sazonal, como as vendas de fertilizantes, o preço dos hortifrútis, as vendas do 
comércio, entretantos outros exemplos.
A facilidade no emprego dessas variáveis e a sua fácil interpretação tornam a 
dummy uma aliada extremamente importante para o econometrista. Entender como 
e quando usar essa técnica abrirá o caminho para você ampliar ainda mais o campo 
de utilização da econometria no seu dia a dia.
134
UNIDADE 2 | REGRESSÃO MÚLTIPLA
2 ESTIMANDO UM MODELO DE REGRESSÃO COM 
VARIÁVEIS QUALITATIVAS
A título de exemplo, vamos verificar qual a diferença média da renda per 
capita no Brasil, para o ano de 1991. Para isso, vamos usar os dados fornecidos 
pelo <www.atlasbrasil.org.br>, estimando o seguinte modelo de regressão:
i i i i iRDPC D D Dβ β β β ε= + + + +1 2 3 42 3 4 3.1
Em que RDPCi é a renda per capita média, calculada como a razão 
entre o somatório da renda de todos os indivíduos residentes em domicílios 
particulares permanentes e o número total desses indivíduos. As variáveis que 
recebem os nomes D acompanhadas por algarismos são dummies regionais, 
em que D2 = Sul , assumindo valor igual a 1 para os estados dessa região e 0 
para os demais, D3 = Sudeste , tem valor igual a 1 para os estados dessa região 
e 0 para os demais, e D4 = Centro – Oeste com valor igual a 1 para os estados 
dessa região e 0 para os demais.
Perceba que deixamos duas regiões de fora, Norte e Nordeste. O nosso 
objetivo é saber se as pessoas que moram nas regiões Norte e Nordeste têm renda 
per capita menor do que as que moram nas demais regiões do país. Essa renda 
será obtida pela estimação da constante β̂1. Com isso, temos quatro regiões e três 
variáveis dummy. 
Por que não temos quatro regiões e quatro variáveis dummy? A regra 
geral para usarmos variáveis dummy nos modelos de regressão é sempre ter 
uma variável a menos do que a quantidade de categorias estudada. Por exemplo, 
se o objetivo é estudar a diferença salarial entre homens e mulheres, teremos 
duas categorias, gênero masculino e gênero feminino. Nesse caso, trabalhamos 
com uma única variável dummy, que assumirá valor igual a “um” para um dos 
gêneros e “zero” para o outro.
Se quisermos usar uma dummy para cada categoria, por exemplo, 
gênero masculino e gênero feminino, é indispensável estimar o modelo de 
regressão sem o intercepto β1. Lembre-se sempre dessa regra prática, pois 
se você estimar a regressão e mantiver a constante, provocará a chamada 
“armadilha das variáveis binárias”, causando colinearidade perfeita 
(GUJARATI; PORTER, 2011, p. 292).
Como sabemos qual das variáveis atribuiremos o valor 1 e qual assumirá 
valor igual a zero? Essa decisão cabe ao pesquisador escolher. No nosso exemplo, 
como queremos saber se os residentes das regiões Norte e Nordeste têm renda 
menor ou maior do que os das demais regiões, a nossa variável de controle será 
aquelas regiões, Norte e Nordeste.
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
135
O Quadro 14 apresenta os dados que usamos no nosso exemplo. Veja 
como é construída a base de dados quando inserimos variáveis qualitativas. 
Para o primeiro indivíduo, consta estado de Rondônia, que pertence à região 
Norte, D2 = 0, D3 = 0 e D4 = 0. Isso acontece para os demais estados que 
pertencem a essa região e para os do Nordeste. Veja também, que no caso dos 
estados do Sul, D2 = 1, D3 = 0 e D4 = 0, enquanto que os do Sudeste, D2 = 0, 
D3 = 1 e D4 = 0. 
Evidentemente, os estados da região Centro-Oeste recebem valores D2 = 
0, D3 = 0 e D4 = 1. O fato de omitirmos a constante no modelo de regressão fará 
com que ele capture a renda média per capita das regiões Norte e Nordeste, que 
são as regiões ou categorias de base para o nosso exercício.
QUADRO 14 – RENDA PER CAPITA POR UNIDADE DA FEDERAÇÃO – BRASIL, 1991
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 27 ago. 2018.
Rodando o modelo 3.1 por mínimos quadrados ordinários obtemos o 
resultado apresentado no Quadro 15:
Unidade Federação RDPC D2 D3 D4 Unidade Federação RDPC D2 D3 D4
Rondônia 304,90 0 0 0 Sergipe 247,78 0 0 0
Acre 284,96 0 0 0 Bahia 234,57 0 0 0
Amazonas 345,82 0 0 0 Minas Gerais 373,85 0 1 0
Roraima 437,24 0 0 0 Espírito Santo 377,38 0 1 0
Pará 273,22 0 0 0 Rio de Janeiro 608,80 0 1 0
Amapá 378,57 0 0 0 São Paulo 746,22 0 1 0
Tocantins 243,58 0 0 0 Paraná 439,09 1 0 0
Maranhão 156,47 0 0 0 Santa Catarina 449,78 1 0 0
Piauí 167,03 0 0 0 Rio Grande do Sul 507,61 1 0 0
Ceará 219,83 0 0 0 Mato Grosso do Sul 433,21 0 0 1
Rio Grande do Norte 240,33 0 0 0 Mato Grosso 395,34 0 0 1
Paraíba 196,59 0 0 0 Goiás 410,55 0 0 1
Pernambuco 275,49 0 0 0 Distrito Federal 916,00 0 0 1
Alagoas 211,98 0 0 0
136
UNIDADE 2 | REGRESSÃO MÚLTIPLA
A constante β̂1 revela que a renda per capita média das regiões Norte 
e Nordeste é de R$ 263,647. Pelo p – valor constatamos que essa média é 
estatisticamente significativa (por quê?). Se você retornar aos números do Quadro 
14 e calcular a média da região Norte e Nordeste chegará ao mesmo valor do β̂1. 
E como interpretamos os demais coeficientes estimados? Eles representam 
a diferença média de salário para a nossa variável de controle, ou seja, para a região 
Norte e Nordeste. Podemos ver, pelo sinal dos coeficientes estimados, que a renda 
média per capita na região Sul é R$ 201,846 maior do que a das regiões Norte 
e Nordeste. Esse resultado é estatisticamente significativo quando trabalhamos 
com um nível de 5% de significância estatística. Porém, se considerarmos um 
nível de significância de 1%, não podemos rejeitar uma hipótese nula de que 
este coeficiente é estatisticamente igual a zero, pois o p – valor = 0,0199 informa 
a probabilidade de rejeitar a hipótese nula e ela ser verdadeira é de 1,99%. 
Entretanto, cabe ao pesquisador definir o grau de rigorosidade que ele quer 
trazer para a sua pesquisa e consequentemente a decisão de aceitar ou rejeitar a 
hipótese nula.
Perceba que a maior diferença está na região Centro-Oeste. Isso se dá 
porque o Distrito Federal tem uma renda per capita que é mais do que o dobro 
dos demais estados, fazendo a média da região aumentar em relação às demais. 
O resultado dessa região também é estatisticamente significativo, assim como o 
da região Sudeste.
Sabemos que a renda per capita média das regiões Norte e Nordeste é de 
R$ 263,647. Mas, se quisermos saber qual a renda média per capita da região Sul, 
QUADRO 15 – RESULTADO DA ESTIMAÇÃO DO MODELO 3.1 POR MÍNIMOS
QUADRADOS ORDINÁRIOS
Modelo 1: MQO, usando as observações 1-27
Variável dependente: RDPC
 coeficiente erro padrão razão-t p-valor 
 ---------------------------------------------------------
 const 263,647 32,0580 8,224 2,66e-08 ***
 D2 201,846 80,6774 2,502 0,0199 **
 D3 262,915 71,6838 3,668 0,0013 ***
 D4 275,128 71,6838 3,838 0,0008 ***
Média var. dependente 365,7848 D.P. var. dependente 175,1962
Soma resíd. quadrados 378198,3 E.P. da regressão 128,2318
R-quadrado 0,526089 R-quadrado ajustado 0,464274
F(3, 23) 8,510771 P-valor(F) 0,000553
Log da verossimilhança −167,2004 Critério de Akaike 342,4008
Critério de Schwarz 347,5841 Critério Hannan-Quinn 343,9421
Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%.
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 27 ago. 2018.
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
137
como fazemos? Neste caso, basta somar os coeficientes estimados β̂1 e β̂2. Assim, 
chegaremos ao valor de 263,647 + 201,846 = 495,493. Calcule essa média usando 
os valores do Quadro 14 para se certificar de que você chega ao mesmo resultado.
Pelo teste F, verificamos que em conjunto os coeficientes estimados são 
estatisticamente significativos, com F3,23 = 8,5108 e P – valor(F) = 0,0005, e o R2 = 
0,5261 mostra que o modelo tem uma boa qualidade de ajustamento aos dados 
empregados no exercício.
Para encerrar, apresentamos no Quadro 16 a estimação dos parâmetros do 
modelo 3.1 paraos anos de 1991, 2000 e 2010, para fins de comparação:
QUADRO 16 – COMPARANDO O MODELO 3.1 PARA 1991, 2000 E 2010
1991 2000 2010
Constante 263,647(0,0000)***
342,563
(0,0000)***
512,965
(0,0000)***
D2 201,846(0,0199)**
337,507
(0,0008)***
431,712
(0,0014)***
 D3 262,915(0,0013)***
365,307
(0,0001)***
409,255
(0,0008)***
 D4 275,128(0,0008)***
389,907
(0,0000)***
509,020
(0,0000)
F(3,23)
8,5108
(0,0006)***
15,04973
(0,0000)***
12,5734
(0,0000)***
R2 0,5261 0,6625 0,6212
Obs.: p – valor entre parênteses com *, ** e *** indicando significância estatística ao nível de 10%, 
5% e 1%, respectivamente.
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 27 ago. 2018.
Podemos ver que todos os coeficientes estimados nos três modelos são 
estatisticamente significativos e apresentam sinal positivo, indicando que a renda 
per capita média nas regiões Sul, Sudeste e Centro-Oeste é maior do que a renda 
média per capita das regiões Norte e Nordeste.
O bom de se comparar esses três anos é poder verificar a evolução histórica 
tanto da renda média quanto da diferença na renda entre as regiões. Dito de outra 
forma, podemos verificar se há um aumento ou redução na desigualdade entre 
essas regiões ao longo do tempo.
Começando com nossa variável de controle, regiões Norte e Nordeste, de 
1991 até 2010 temos um aumento significativo na renda média. Ela passa de R$ 
263,647 em 1991 para R$ 342,563 em 2000, saltando para R$ 512,965 em 2010. É um 
aumento considerável. A dúvida que fica é: A desigualdade de renda reduziu nesse 
período comparativamente às demais regiões ou ela aumentou?
138
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Quando comparamos os anos 1999 com 2000, vemos que aumentou 
a renda média das regiões Norte e Nordeste, mas as demais regiões também 
tiveram elevação na renda média, em percentual superior ao aumento na renda 
da região de controle. Porém, quando comparamos 2000 com 2010, vemos que há 
um aumento na renda média da região Norte e Nordeste que é superada apenas 
pelo aumento da renda per capita da região Sul. As demais regiões tiveram 
aumento na renda, mas em proporção inferior ao observado na região Norte e 
Nordeste.
Aqui caberia uma investigação mais aprofundada sobre esse tema. 
Poderíamos tentar explicar o que levou a esse aumento na renda per capita, o que 
ocasionou o aumento da desigualdade entre 1999 e 2000 e o que levou à redução 
dessa desigualdade entre 2000 e 2010, bem como quais fatores influenciaram, 
quais as razões, entre outras questões, é papel do pesquisador investigar e tentar 
responder a partir do resultado obtido pela sua pesquisa.
Como você pode ver, apesar de alguns considerarem a econometria um 
ramo da ciência econômica que tem aplicação apenas no mercado financeiro, 
a aplicação em questões sociais e voltadas à avaliação de políticas públicas 
é fundamental. Esse é mais um motivo para você se dedicar cada vez mais ao 
estudo desse conjunto de técnicas que estamos lhe apresentando.
3 OUTRAS APLICAÇÕES COM VARIÁVEIS QUALITATIVAS
As variáveis dummies são extremamente versáteis e têm uma aplicação 
muito ampla dentro da econometria. Além de estimarmos diferenças entre 
categorias diversas, por exemplo, entre regiões geográficas, entre gêneros, ou entre 
vendedores, podemos empregá-las para verificar se há mudanças estruturais nos 
parâmetros de uma regressão ao longo do tempo.
No exemplo apresentado no tópico anterior, usamos dados de corte para 
estimar a relação entre a renda média per capita entre as regiões geográficas do 
Brasil. Vimos que há mudanças nos parâmetros estimados, até mesmo porque as 
dummies eram as únicas variáveis explicativas.
E se tivéssemos um estudo sobre o consumo e a renda e quiséssemos 
saber se um determinado evento foi capaz de alterar a estrutura dos parâmetros 
estimados pela nossa regressão? Nesse caso, teríamos um modelo de regressão 
com variáveis explicativas diversas e incluiríamos uma dummy para capturar o 
efeito desse evento extraordinário que ocorreu.
Para essa análise, propomos a conhecida relação consumo versus renda, 
para o período entre 1997 e 2017, com dados trimestrais obtidos no site do Banco 
Central do Brasil, séries 22109 – PIB trimestral – Dados dessazonalizados – 
Produto Interno Bruto a preços de mercado e 22110 – PIB trimestral – Dados 
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
139
dessazonalizados – Consumo das famílias. Dessa vez, ao invés de usarmos valores 
expressos em R$, estamos usando uma série formada por números-índices, tendo 
como base 100 o ano de 1995.
Queremos desafiá-lo a entrar no site do BCB e obter essas séries de dados 
e assim montar o seu arquivo do Gretl. Acreditamos que você consiga chegar aos 
mesmos resultados que nós chegamos, com a estimação dos próximos modelos 
de regressão.
A figura a seguir mostra os gráficos de consumo e renda do Brasil para o 
período entre 1997 e 2017. Notem que há uma mudança brusca na renda em 2008. 
O que teria provocado essa mudança repentina? Será que esse evento foi capaz de 
alterar a relação consumo versus renda a partir desse período?
GRÁFICO 1 – DADOS SOBRE CONSUMO E RENDA NO BRASIL, 1997 A 2017
FONTE: O autor
Para fazer esse teste, vamos estimar o modelo 3.2, relacionando apenas 
consumo como uma função da renda. Para isso, vamos desconsiderar alguns 
aspectos técnicos que serão abordados apenas quando você estudar os modelos 
de regressão de séries temporais. Por enquanto, vamos dar atenção apenas aos 
aspectos que você já estudou.
140
UNIDADE 2 | REGRESSÃO MÚLTIPLA
t t tConsumo Rendaβ β ε= + +1 2 3.2
O resultado da estimação é apresentado de forma resumida a seguir, com 
p – valor entre parênteses:
3.3
�
( ) ( )
t tConsumo , , Renda
, ,
= − +17 6680 1 1312
0 0000 0 0000
R ,=2 0 9800 ajustadoR ,=
2 0 9798 ( ),F , * * *=1 85 4166 513
Note que os coeficientes estimados são estatisticamente significativos. 
Você deve estar achando estranho que o β̂2 > 1, certo? Como explicamos 
anteriormente, os dados se referem a números-índice e não aos valores em Reais. 
Isso significa que, um aumento de 1 ponto-base na renda faz com que o consumo 
aumente 1,1312 pontos-base. Para uma renda de 100 pontos-base, esperamos que 
o consumo seja de –17,6680 + 1,1312 * 100 = 95,452.
Em agosto de 2007, o mundo se viu às voltas de uma crise financeira que 
iniciou nos Estados Unidos e afetou todas as economias do mundo, tendo o seu 
auge no terceiro trimestre de 2008. 
DICAS
Para mais detalhes sobre a crise do subprime, leia Borça Junior e Torres Filho (2008).
• BORÇA JUNIOR, Gilberto Rodrigues; TORRES FILHO, Ernani Teixeira. Analisando a Crise 
do Subprime. Revista do Bndes, Rio de Janeiro, v. 30, n. 15, p. 129-159, dez. 2008. 
Para o nosso exercício, vamos iniciar a partir do resultado da regressão 
3.3 e aplicar o teste desenvolvido por Chow (1960). Trata-se de um teste baseado 
na estatística F, que testa a estabilidade dos parâmetros de regressão ao longo do 
tempo. A hipótese nula, H0, é que não existe quebra estrutural.
Para implementar o teste você deve, a partir da janela da regressão 
estimada, de onde obtivemos os dados da equação 3.3, clicar em “Testes” e na 
sequência escolher “Teste de Chow”. Você deve preencher os campos como na 
Figura 6:
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
141
FIGURA 6 – ESTIMANDO O TESTE DE CHOW
FONTE: Adaptado de Gretl (2018)
O resultado é apresentado na Figura 7, porém, ao retornar à janela do 
modelo estimado, o Gretl nos apresenta o resultado do teste de forma mais fácil 
de se entender, como mostramos:
FIGURA 7 – RESULTADO DO TESTE DE CHOW NA JANELA DE REGRESSÃO
FONTE: Adaptado de Gretl (2018)
Como a hipótese nula é a de que não há quebra estrutural, e o p – valor é 
muito baixo, menor do que 0,01 (ou 1% de significância estatística), rejeitamos H0 
e concluímos que existe quebra estrutural, o que significa dizer que, a partir do 
quarto trimestre de 2008, as relações entre consumo e renda no Brasil sofreram 
alterações significativas.142
UNIDADE 2 | REGRESSÃO MÚLTIPLA
QUADRO 17 – RESULTADO DO TESTE DE CHOW
Regressão aumentada para o teste de Chow
MQO, usando as observações 1996:1-2017:3 (T = 87)
Variável dependente: Consumo
 coeficiente erro padrão razão-t p-valor 
 ----------------------------------------------------------
 const 15,6480 2,97096 5,267 1,07e-06 ***
 Renda 0,842115 0,0247916 33,97 1,85e-050 ***
 splitdum −47,9868 8,40690 −5,708 1,72e-07 ***
 sd_Renda 0,387381 0,0536757 7,217 2,30e-010 ***
Média var. dependente 138,4844 D.P. var. dependente 29,40045
Soma resíd. quadrados 497,8662 E.P. da regressão 2,449161
R-quadrado 0,993303 R-quadrado ajustado 0,993061
F(3, 83) 4103,289 P-valor(F) 4,36e-90
Log da verossimilhança −199,3301 Critério de Akaike 406,6601
Critério de Schwarz 416,5238 Critério Hannan-Quinn 410,6319
rô 0,766458 Durbin-Watson 0,472046
Teste de Chow para a falha estrutural na observação 2008:4
 F(2, 83) = 82,3846 com p-valor 0,0000
Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%.
FONTE: Adaptado de Gretl (2018)
O problema do teste de Chow é que ele não especifica em qual parâmetro 
ocorreu a quebra estrutural. Pode ter ocorrido na constante, no coeficiente 
angular ou em ambos. Podemos resolver esse problema empregando as variáveis 
dummies.
Começamos estimando o modelo 3.4, em que adicionamos uma variável 
dummy com valor igual a zero de 1996 até o terceiro trimestre de 2008 e assume 
valor igual a 1 a partir do quarto trimestre de 2008.
3.4t t t tConsumo D Rendaβ β β ε= + + + +1 3 2
Para adicionar a dummy no Gretl, basta selecionar no menu “Acrescentar” 
a opção “Dummy para o intervalo de observações”. Na janela que abre, você deve 
dar um nome à nova variável e indicar quando a dummy deve começar e quando 
ela deve terminar. 
O resultado dessa estimação é apresentado a seguir:
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
143
3.5
ajustadoR ,=
2 0 9798
�
( ) ( ) ( )
t t tConsumo , , D , Renda
, * , * * * , * * *
= + +5 8108 12 1238 0 9248
0 0863 0 0000 0 0000
R ,=2 0 9891 , F , * * *=2 84 3811 102
Acadêmico, queremos que você compare esse resultado com 3.3 e perceba 
as estatísticas apresentadas na parte de baixo das duas equações. Perceba que 
o R2 é maior em 3.5 do que em 3.3. Como vimos, a inclusão de uma variável 
explicativa faz com que o modelo se ajuste melhor aos dados, porém, como não 
estamos interessados em analisar qual dos dois modelos é o melhor, partiremos 
para a interpretação direta dos resultados.
A pergunta que nos interessa é se o modelo 3.5 resolveu o nosso problema, 
ou seja, se ele identificou a quebra estrutural do resultado obtido em 3.3. Como 
o coeficiente estimado β̂3 é estatisticamente significativo, podemos concluir que 
sim, que há uma quebra estrutural no intercepto do modelo de regressão estimado 
nesse período. Assim, podemos reescrever 3.3 como:
3.6� t tConsumo , , Renda= +5 8108 0 92481T 1996 até 3T 2008
3.74T 2008 até 3t 2017 � t tConsumo , , Renda= +17 9346 0 9248
Em que o intercepto de 3.7 é dado por β1 + β3. O Gráfico 2 apresenta esse 
deslocamento consolidado em 3.7:
^ ^
144
UNIDADE 2 | REGRESSÃO MÚLTIPLA
GRÁFICO 2 – QUEBRA ESTRUTURAL COM DESLOCAMENTO NO INTERCEPTO
FONTE: O autor
E se a mudança econômica ocorrida em 2008 tivesse alterado também a 
resposta do consumo à mudança na renda? Nesse caso, o coeficiente β̂3 no modelo 
3.8 tem que ser estatisticamente significativo.
3.8Consumot = β1 + β2Rendat + β3 (Dt x Rendat) + εt
Agora a variável dummy é multiplicada pela renda e, com isso, caso seja 
estatisticamente significativo, o coeficiente estimado β̂2, que é a inclinação do 
modelo 3.8, será dado por β̂2 + β̂3 . 
Para acrescentar a variável Dt x Rendat no Gretl, nós selecionamos a no 
menu “Acrescentar” e na sequência “Definir nova variável”. A Figura 8 ilustra esse 
procedimento. O Gretl reconhece os mesmos operadores usados nas fórmulas que 
você usa no Excel, em que * indica multiplicação, / indica divisão, e os operadores 
de + e – indicam adição e subtração.
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
145
FIGURA 8 – ACRESCENTANDO NOVA VARIÁVEL AO MODELO
FONTE: Adaptado de Gretl (2018)
Agora que criamos a nova variável, em que multiplicamos a dummy pela 
renda, podemos estimar o modelo 3.8, incluindo como variáveis explicativas a 
Renda e a nova variável D_Renda. O resultado é apresentado em 3.9:
� ( )
( ) ( ) ( )
t t tConsumo , , Renda , D _ Renda 
, * * * , * * * , * * *
= + +9 6550 0 8918 0 0838
0 0040 0 0000 0 0000
( )ajustado , R , R , F , * * *= = =
2 2
2 840 9907 0 9904 4461 316
3.9
A significância estatística do β̂3 nos mostra que houve quebra estrutural 
na inclinação da reta de regressão, passando a β̂2 + β̂3 = 0,8918 + 0,0838 = 0,9756 , 
como mostra 3.10 e 3.11, e ilustrado no Gráfico 3:
3.101T 1996 até 3T 2008 � t tConsumo , , Renda= +9 6550 0 8918
3.114T 2008 até 3T 2017 � t tConsumo , , Renda= +9 6550 0 9756
A diferença da equação 3.10 para 3.11 está na inclinação. É como se o 
evento de 2008 tivesse sido capaz de mudar as relações de consumo como função 
da renda e, com isso, o acréscimo de uma unidade na renda faz com que o consumo 
aumente, mas não na mesma proporção que aumentava no modelo 3.10.
146
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Como não incluímos a dummy da constante no modelo estimado, as duas 
regressões partem da mesma origem e vão se afastando ao longo do tempo, nunca 
se encontrando. Diferentemente do caso anterior, em que o intercepto mudava e 
as curvas de regressão eram paralelas, podemos dizer que no caso de a mudança 
ocorrer apenas na inclinação, que temos regressões concorrentes. Obviamente, se 
não houvesse quebra estrutural, nem intercepto e nem inclinação, ou seja, se os 
coeficientes estimados das dummies não fossem estatisticamente significativos, 
teríamos regressões coincidindo a origem e a inclinação.
GRÁFICO 3 – QUEBRA ESTRUTURAL COM MUDANÇA NA INCLINAÇÃO
FONTE: O autor
E se juntássemos as duas variações? Podemos testar se houve quebra 
estrutural tanto no intercepto quanto na inclinação da reta de regressão? Para 
verificar isso, estimamos o modelo 3.12:
3.12Consumot = β1 + β3Dt + β2Rendat + β4(Dt x Rendat) + εt
O resultado do modelo 3.12 está expresso em 3.13:
3.13
� ( )
( ) ( ) ( ) ( )
t t t t tConsumo , , D , Renda , D Renda
, * * * * , * * * * , * * * , * * *
= − + + ×15 6480 47 9868 0 8421 0 3874
0 0000 0 0000 0 0000 0 0000
( )ajustado , R , R , F , * * *= = =
2 2
3 830 9933 0 993061 4103 289
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
147
Veja que todos os coeficientes estimados são estatisticamente significativos. 
Portanto, a conclusão final é que a mudança ocorreu tanto no intercepto quanto 
na inclinação da reta de regressão. Com isso, reescrevemos as regressões como 
em 3.14 e 3.15:
3.141T 1996 até 3T 2008 � t tConsumo , , Renda= +15 6480 0 8421
3.154T 2008 até 3T 2017 � t tConsumo , , Renda= − +32 3388 1 2295
O Gráfico 4 nos ajuda a compreender melhor esse resultado. Perceba 
que agora os dois modelos têm pontos de partida distintos e inclinação distintas 
também. Em outras palavras, as regressões são dissemelhantes, indicando que 
após o terceiro trimestre de 2008, as relações entre consumo e renda se alteraram 
de forma significativa.
GRÁFICO 4 – QUEBRA ESTRUTURAL COM MUDANÇA TANTO NO INTERCEPTO QUANTO NA 
INCLINAÇÃO
FONTE: O autor
Mas se todos os modelos estimados apresentaram consistência, qual é o 
modelo que devemos escolher? Afinal de contas, o evento que ocorreu na economia 
no último trimestre de 2008 alterou estruturalmente as relações consumo versus 
renda e, consequentemente, os parâmetros estimados do modelo de regressão.
148
UNIDADE 2 | REGRESSÃO MÚLTIPLA
A resposta é muito simples. O que você precisa fazer é estimar um único 
modelo,ou seja, o modelo 3.12, e verificar se os coeficientes estimados das 
dummies são estatisticamente significativos. Se isso ocorrer, concluímos que há 
uma quebra estrutural provocada pelo evento em estudo, a partir do período 
marcado pela dummy com valor igual a 1.
Vamos a mais um exemplo prático, desta vez extraído de Wooldridge 
(2016). Usaremos o arquivo Wage1, que você pode baixar no site do Gretl, instalar 
no seu computador e utilizá-lo a partir do menu “Arquivo de exemplos”. Para 
isso, proceda da seguinte forma:
1. Acesse <http://gretl.sourceforge.net/pt.html>.
2. No menu à esquerda, selecione dados para Gretl.
3. Em “Conjuntos de Dados de livros de texto”, busque pelo nome 
“Wooldridge”.
4. Baixe o arquivo wooldridge_data.exe.
5. Execute o arquivo para instalar no Gretl a base de dados utilizada no livro 
Introdução à Econometria: uma abordagem moderna.
Após a instalação, você deve abrir o Gretl e selecionar o menu “Arquivo”, 
depois “Abrir dados” e escolher “Arquivos de exemplo”. Na tela seguinte, você 
seleciona a aba correspondente ao Wooldridge e busca o arquivo Wage1. Basta dar 
duplo clique para abrir o arquivo de dados do exemplo que desenvolveremos aqui.
Esse arquivo traz as informações referentes a salário e outras características 
da população americana, no ano de 1976, contendo um total de 526 observações 
(WOOLDRIDGE, 2016, p. 7). As variáveis que usaremos são:
1. wage = salário-hora.
2. educ = anos de educação formal.
3. exper = anos de experiência no mercado de trabalho.
4. female = indicador do gênero feminino.
Começaremos com um modelo de regressão em que o salário-hora é 
explicado pelos anos de educação formal educi e pelos anos de experiência no 
mercado de trabalho experi, em que i representa cada trabalhador individual 
entrevistado para se obter essa base de dados.
3.14wagei = β1 + β2educi + β3experi + εi
Em que β1, β2 e β3 são os parâmetros a serem estimados e εi é o termo de 
erro o qual supomos ter distribuição normal com média zero e variância constante 
εi~N(0, σ2).
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
149
O modelo estimado é apresentado em 3.15:
�
( ) ( ) ( )
i i iwage , , educ , exper
, * * * , * * * , * * *
= − + +3 3905 0 6443 0 0701
0 0000 0 0000 0 0000
( )ajustado , R , R , F , * * *= = =
2 2
2 5230 2252 0 2222 75 9899
3.15
Entre parênteses, temos os p – valor e os três asteriscos indicam significância 
estatística ao nível de 1%. Claramente o modelo apresentado diz que você deve 
estudar mais se quiser ganhar mais! Ele também reconhece que a experiência 
profissional pode garantir um salário maior se comparado com as pessoas que 
têm menos experiência no mercado de trabalho.
A pergunta que queremos responder é: Em 1976, nos Estados Unidos, havia 
discriminação salarial entre homens e mulheres? Para verificar isso, precisamos 
de uma dummy, com valor igual a 1, quando a pessoa entrevistada for mulher, 
e igual a zero, quando for homem. A hipótese com a qual trabalhamos é que 
haja essa diferença de salário e que o coeficiente estimado tenha valor negativo e 
estatisticamente significativo. O modelo a ser estimado é mostrado em 3.16:
3.16wagei = β1 + β2educi + β3experi + β4femalei + εi
Aqui, novamente temos os parâmetros a serem estimados representados 
pelos βk e o termo de erro εi~N(0, σ2). Os resultados estimados estão em 3.17:
3.17
�
( ) ( ) ( ) ( )
i i i iwage , , educ , exper , female
, * * , * * * , * * * , * * *
= − + + −1 7345 0 6026 0 0642 2 1555
0 0218 0 0000 0 0000 0 0000
( )ajustado , R , R , F , * * *= = =
2 2
2 5230 3093 0 3053 77 9197
Perceba que os resultados corroboram a nossa hipótese inicial. Neste caso, 
o fato de ser mulher fazia com que o salário-hora fosse US$ 2,15 menor do que se o 
empregado fosse homem. As demais variáveis apresentaram valores próximos do 
modelo estimado 3.15, e mantiveram a significância estatística, pelo menos ao nível 
de 5% (para o caso da constante com p – valor = 0,218).
Obviamente o resultado deve ser analisado muito mais sob o ponto de 
vista histórico do que sob o ponto de vista numérico. Nos anos 1970, a mulher 
estava conquistando cada vez mais espaço no mercado de trabalho, deixando de 
ser coadjuvante nas finanças domésticas e passando a ter as chamadas jornadas 
duplas, que num primeiro momento eram profissionais empregadas e no segundo 
momento eram donas de casa. 
150
UNIDADE 2 | REGRESSÃO MÚLTIPLA
DICAS
Para uma leitura geral sobre o mercado de trabalho com o enfoque histórico, 
leia o artigo A evolução da mulher no mercado de trabalho, publicado no RH Portal, 
disponível no link <http://www.rhportal.com.br/artigos-rh/a-evoluo-da-mulher-no-mercado-
de-trabalho/>.
Outra aplicação interessante usando variáveis dummies é a 
dessazonalização de uma série de dados temporais. Sabemos que ao longo do 
ano os agricultores adquirem certa quantidade de fertilizantes para usar nas suas 
lavouras. Sabemos também que essa quantidade é maior ou menor, dependendo 
da época do ano.
Em períodos de plantio das principais culturas, como milho, soja, trigo, por 
exemplo, esperamos que haja aumento na venda de fertilizantes e, em períodos 
de colheita, uma redução. Por isso, um gráfico de venda de fertilizantes deve 
apresentar subidas e descidas muito bem-comportadas, como podemos observar 
a seguir:
FIGURA 9 – VENDA DE FERTILIZANTES EM TONELADAS, COM FREQUÊNCIA MENSAL, ENTRE 
JANEIRO DE 1998 E NOVEMBRO DE 2017
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
151
Quando estudamos a venda de fertilizantes, queremos analisar a tendência 
de longo prazo dessa variável que é extremamente importante na estimação da 
produtividade agrícola. Por isso é natural querer retirar a sazonalidade para 
podermos nos concentrar naquilo que realmente interessa, ou seja, a tendência 
temporal.
Podemos observar, através da nossa base de dados, que as vendas de 
fertilizantes aumentam consideravelmente nos meses de julho, agosto, setembro 
e outubro. Também podemos perceber que a venda é sensivelmente menor nos 
meses de março e abril.
Para o nosso experimento, vamos atribuir uma dummy para cada mês 
do ano e assim, teremos 12 variáveis dummies. Parece ser trabalhoso fazer isso, 
correto? Só parece, pois o procedimento é bem simples quando você usa o Gretl.
Com a sua base de dados montada no Gretl, selecione o menu “Acrescentar” 
e na sequência escolha “Dummies sazonais”. Automaticamente o Gretl criará 
uma variável dummy para cada mês do ano, com valores iguais a 1 para o mês 
em questão e zero para os demais. Assim, a variável dm1t terá valor igual a 1 
quando for janeiro de 1998, janeiro de 1999, e assim por diante, e zero quando for 
fevereiro de 1998, março de 1998 etc.
Para retirar a sazonalidade da série, estimaremos o modelo de regressão 
3.18:
3.18fertilt = β1dmt1t + β2dm2t + β3dm3t + β4dm4t + β5dm5t + β6dm6t + β7dm7t + β8dm8t + β9dm9t + β10dm10t + β11dm11t + β12dm12t + εt
Atente-se a duas coisas importantes a serem ditas. Primeiro, o modelo 3.18 
não tem intercepto. Isso se deve ao fato de estarmos usando todas as 12 variáveis 
dummies, uma para cada mês do ano. O segundo ponto que precisa ser ressaltado 
é que podemos alterar 3.18 a fim de conter o intercepto. Se fizermos isso, teremos 
que deixar uma das variáveis dummies de fora. Provavelmente suprimiríamos o 
mês de janeiro e o usaríamos como base ou variável de controle.
O resultado estimado está no Quadro 18. Perceba que o Gretl nos reportou 
um número bem estranho para os coeficientes estimados. Como já citamos, trata-
se de um número científico. A letra “e” está inserida nesse número para indicar 
que tudo o que vem antes dela é multiplicada por 10 elevado à potência que 
aparece após o sinal. Assim, podemos reescrever o número 1,51079e+06 para 
1,51079 x 106 = 1.510.790 , com estimação do modelo 3.18:
152
UNIDADE 2 | REGRESSÃO MÚLTIPLA
QUADRO 18 – RETIRANDO A SAZONALIDADE DE UMA SÉRIE DE DADOS TEMPORAIS
 coeficienteerro padrão razão-t p-valor 
 ----------------------------------------------------------
 dm1 1,51079e+06 131238 11,51 1,87e-024 ***
 dm2 1,40592e+06 131238 10,71 6,14e-022 ***
 dm3 1,27685e+06 131238 9,729 6,37e-019 ***
 dm4 1,12789e+06 131238 8,594 1,37e-015 ***
 dm5 1,60075e+06 131238 12,20 1,19e-026 ***
 dm6 1,89665e+06 131238 14,45 5,30e-034 ***
 dm7 2,33512e+06 131238 17,79 6,24e-045 ***
 dm8 2,79483e+06 131238 21,30 4,93e-056 ***
 dm9 3,02133e+06 131238 23,02 2,70e-061 ***
 dm10 3,09189e+06 131238 23,56 6,67e-063 ***
 dm11 2,38564e+06 131238 18,18 3,56e-046 ***
 dm12 1,52336e+06 134647 11,31 7,94e-024 ***
Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018
E o que fazemos com o modelo estimado? Não precisaremos interpretar 
esse resultado, se essa era a sua preocupação. Como só queremos extrair a 
sazonalidade, para isso basta fazermos �t tfertil fertil− , que o resultado será a 
série livre de sazonalidade.
Você já deve ter entendido que estamos falando dos resíduos da regressão, 
ou seja, �t t tfertilˆ fertilε = − . A obtenção dessa série é muito simples, e a partir da 
janela do modelo estimado pelo Gretl, selecione o menu “Salvar” e depois escolha 
“Resíduos”. O Gretl dará um nome padrão de uhat1 para a série de resíduos 
salvos, o qual poderá ser alterado da maneira que você quiser. 
O Gretl também gera uma tabela com os valores efetivos, previstos e os 
resíduos a partir da janela do modelo estimado. Basta selecionar o menu “Análise” 
e na sequência escolher “Mostrar efetivo, ajustado, resíduos”. Reproduzimos na 
Figura 10 a tela gerada com esses dados:
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
153
FIGURA 10 – VALORES EFETIVOS, AJUSTADOS E RESÍDUOS DA VENDA DE FERTILIZANTES
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018
A Figura 11 apresenta os gráficos dos valores efetivos da variável fertilt e 
seus valores dessazonalizados para fins de comparação e análise. Perceba como 
a série dessazonalizada “Fertil ajustado” apresenta um padrão crescente, porém 
sem as oscilações sazonais tão acentuadas quanto a série original.
Você terá a oportunidade de estudar as séries temporais em Econometria II, 
e verá que as séries de tempo são caracterizadas por um componente sazonal, cíclico, 
tendência e estritamente aleatório.
Em linhas gerais, o estudo das séries temporais requer um vocabulário 
totalmente diferente daquele que usamos em Econometria I, apesar de a intuição 
por trás da estimação permanecer a mesma. Dito de outra forma, também 
testamos hipóteses, testamos a hipótese nula do coeficiente estimado ser igual a 
zero, e fazemos uma série de testes estatísticos, como teremos a oportunidade de 
estudar em breve.
ESTUDOS FU
TUROS
Um dos testes mais importantes é o da existência de correlação serial nos 
resíduos, como veremos na Unidade 3. Abriremos um tópico destinado exclusivamente ao 
estudo desse problema e veremos, além da sua natureza, as formas de superá-lo.
154
UNIDADE 2 | REGRESSÃO MÚLTIPLA
LEITURA COMPLEMENTAR
Conheça a fórmula matemática que explica o sucesso de um político
Luís Artur Nogueira
Dizer que a economia explica o desempenho de um político nas urnas 
não é novidade, mas ainda faltam modelos matemáticos mais elaborados que 
concluam quais elementos têm maior peso na popularidade de um governante.
Com o objetivo de dar uma contribuição a esse debate, a Tendências 
Consultoria está desenvolvendo um modelo econométrico que tem a renda e o 
emprego como suas principais variáveis.
Aos olhos leigos, a fórmula é complexa, mas o raciocínio parece ser 
simples: renda em elevação e desemprego em baixa significam popularidade 
nas alturas. Portanto, brincar com a inflação pode derrubar a avaliação de um 
governante, já que os preços altos corroem o poder de compra da população.
Para elaborar o estudo, os analistas da Tendências utilizaram as pesquisas 
DataFolha no período de março de 1995 a novembro de 2010 (governos FHC e 
Lula). A taxa de aprovação é a soma das avaliações “ótimo” e “bom” dadas pelos 
entrevistados.
FIGURA 11 – DADOS EFETIVOS E DESSAZONALIZADOS DA VARIÁVEL fertil
t
 
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018.
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
155
A primeira constatação é de que a influência das variáveis econômicas 
sobre a avaliação presidencial é dada gradativamente ao longo do tempo, sem 
oscilações bruscas.
“Estimamos uma regressão que associa a taxa de aprovação a seus valores 
passados (aprovt-1 no modelo explicitado abaixo) e aos determinantes econômicos 
defasados (taxa de desemprego – ut-1 – e da renda real – rendat-4 –), levando 
em consideração que a aprovação do governo é feita de maneira retrospectiva. 
Incluímos ainda uma dummy que assume o valor 1 durante o governo Lula e 0 
durante o FHC”, diz relatório da consultoria assinado por Rafael Cortez e Rafael 
Bacciotti.
As estimativas encontradas foram as seguintes:
FONTE: <https://abrilexame.files.wordpress.com/2016/09/original_formula-popularidade-590.
jpg?quality=70&strip=all&strip=info>. Acesso em: 14 jun. 2018.
O modelo conclui que o aumento de 1 ponto percentual na taxa de 
desemprego reduz a aprovação em 1,51 ponto, enquanto que o aumento de 1% 
na renda eleva a aprovação em 0,42 ponto percentual.
“Isso é uma evidência de que os indivíduos punem os governos devido 
ao desemprego em um espaço curto de tempo (a melhor defasagem foi de um 
período), e os aprovam com a sensação do aumento de seu poder de compra em 
período de tempo mais longo (defasagem de quatro períodos)”.
Segue o relatório: “O modelo mostrou que a preservação da renda real e 
o mercado de trabalho são, de fato, os melhores preditores da avaliação de um 
presidente. Isto significa que, no curto prazo, apenas um choque, seja na inflação, 
seja no mercado de trabalho, poderia afetar a avaliação de Dilma”.
A Fórmula da Popularidade
aprovt = -1,70 + 0,70*aprovt-1 - 1,51*ut-1 + 0,42*log(renda)t-4 + 0,10*DLULA
aprovt: aprovação de um político
aprovt - 1: aprovação no período anterior
ut-1: taxa de desemprego defasada em um período
rendat-4: renda real defasada em quatro períodos
DLULA: dummy com valor 1 no governo Lula e 0 no FHC
156
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Em entrevista a EXAME.com, Bacciotti explica que a renda tem um peso 
um pouco maior que o emprego, pois é muito mais fácil a renda variar 1% do que 
o desemprego subir ou cair 1 ponto. “Daí a importância de não se brincar com a 
inflação, que tira poder de compra da população”, diz o economista. 
Não havendo vínculos ideológicos por parte do eleitor, a decisão dele será 
racional e com base no seu bolso. Se a avaliação é positiva, há grandes chances de 
ele optar pela continuidade.
Passada a fase mais aguda de preços altos nos primeiros meses do 
ano, a tendência segue favorável para a popularidade da presidente Dilma. A 
Tendências Consultoria projeta que a taxa de desemprego ainda permanecerá em 
níveis baixos (na média, 6,4% em 2011 ante 6,7% em 2010) e a renda real, embora 
em desaceleração, possui trajetória positiva.
O modelo ainda está sendo aperfeiçoado e a equipe da Tendências 
promete novidades em breve. Um fato, no entanto, é certo. A velha frase “É a 
economia, estúpido”, dita por um assessor de Bill Clinton em 1992, em plena 
eleição presidencial americana, continua valendo e cada vez mais pode ser 
explicada matematicamente.
FONTE: <https://exame.abril.com.br/ciencia/conheca-a-formula-matematica-que-explica-o-
sucesso-de-um-politico/>. Acesso em: 14 jun. 2018.
157
RESUMO DO TÓPICO 3
Neste tópico, você aprendeu que:
• As variáveis dummies são um artifício importante usado pelos econometristaspara uma série de aplicações práticas.
• Pode-se calcular a diferença média da renda per capita entre as regiões com o 
uso das dummies.
• É possível usar as dummies para testar a existência de quebra estrutural na 
relação entre as variáveis dependentes e explicativa, como uma alternativa ao 
teste de Chow.
• As dummies podem ser usadas para estimar a diferença salarial entre homens 
e mulheres, como no exemplo dos Estados Unidos em 1976, em que concluímos 
haver diferença salarial entre homens e mulheres.
• É possível remover o componente sazonal de uma série temporal usando as 
variáveis dummies, o que permite ao econometrista se concentrar nos outros 
elementos que afetam o comportamento dessas séries.
158
Para esta autoatividade, você vai precisar dos dados do Quadro 19. Trata-
se de um levantamento anual produzido pela The Heritage Foundation, intitulado 
Index of Economic Freedom. A amostra contém os 80 melhores ranqueados no 
índice de 2018, de onde foram extraídos dados sobre investimentos externos 
diretos e o score do próprio índice. Além disso, foram acrescentadas quatro 
variáveis dummy, uma para cada região abrangida pela amostra.
AUTOATIVIDADE
QUADRO 19 – INVESTIMENTO EXTERNO DIRETO E LIBERDADE ECONÔMICA PARA PAÍSES 
SELECIONADOS, 2018
País Região IED Score D1Américas
D2
Ásia
D3
Europa
D4
África
Canada América 33.721,14 77,70 1 0 0 0
United States América 391.104,00 75,70 1 0 0 0
Chile América 11.265,71 75,20 1 0 0 0
Uruguay América 953,13 69,20 1 0 0 0
Jamaica América 855,87 69,10 1 0 0 0
Colombia América 13.592,65 68,90 1 0 0 0
Peru América 6.862,89 68,70 1 0 0 0
Saint Vincent and the 
Grenadines América 103,51 67,70 1 0 0 0
Saint Lucia América 94,59 67,60 1 0 0 0
Panama América 5.209,30 67,00 1 0 0 0
Costa Rica América 2.762,14 65,60 1 0 0 0
Mexico América 26.738,61 64,80 1 0 0 0
Dominica América 31,37 64,50 1 0 0 0
Guatemala América 1.180,80 63,40 1 0 0 0
Bahamas América 521,85 63,30 1 0 0 0
El Salvador América 373,45 63,20 1 0 0 0
Hong Kong Ásia 108.125,99 90,20 0 1 0 0
Singapore Ásia 61.596,68 88,80 0 1 0 0
New Zealand Ásia 2.291,63 84,20 0 1 0 0
Australia Ásia 48.190,25 80,90 0 1 0 0
Taiwan Ásia 8.333,00 76,60 0 1 0 0
Malaysia Ásia 9.925,95 74,50 0 1 0 0
Korea, South Ásia 10.826,60 73,80 0 1 0 0
Japan Ásia 11.388,41 72,30 0 1 0 0
Macau Ásia 3.026,70 70,90 0 1 0 0
Vanuatu Ásia 32,39 69,50 0 1 0 0
Kazakhstan Ásia 9.069,31 69,10 0 1 0 0
Thailand Ásia 1.554,16 67,10 0 1 0 0
159
Philippines Ásia 7.912,20 65,00 0 1 0 0
Azerbaijan Ásia 4.500,00 64,30 0 1 0 0
Indonesia Ásia 2.658,09 64,20 0 1 0 0
Brunei Darussalam Ásia -149,64 64,20 0 1 0 0
Tonga Ásia 8,86 63,10 0 1 0 0
Kyrgyz Republic Ásia 466,78 62,80 0 1 0 0
Switzerland Europa -26.340,20 81,70 0 0 1 0
Ireland Europa 22.304,45 80,40 0 0 1 0
Estonia Europa 870,45 78,80 0 0 1 0
United Kingdom Europa 253.825,78 78,00 0 0 1 0
Iceland Europa -484,41 77,00 0 0 1 0
Denmark Europa 950,72 76,60 0 0 1 0
Luxembourg Europa 26.857,37 76,40 0 0 1 0
Sweden Europa 19.583,88 76,30 0 0 1 0
Georgia Europa 1.661,42 76,20 0 0 1 0
Netherlands Europa 91.956,17 76,20 0 0 1 0
Lithuania Europa -207,87 75,30 0 0 1 0
Norway Europa -5.532,74 74,30 0 0 1 0
Czech Republic Europa 6.751,87 74,20 0 0 1 0
Germany Europa 9.528,28 74,20 0 0 1 0
Finland Europa 42,03 74,10 0 0 1 0
Latvia Europa 126,10 73,60 0 0 1 0
Austria Europa -6.088,53 71,80 0 0 1 0
Macedonia Europa 396,51 71,30 0 0 1 0
Romania Europa 4.573,02 69,40 0 0 1 0
Armenia Europa 338,03 68,70 0 0 1 0
Malta Europa 3.575,02 68,50 0 0 1 0
Poland Europa 11.357,85 68,50 0 0 1 0
Bulgaria Europa 776,19 68,30 0 0 1 0
Cyprus Europa 4.137,76 67,80 0 0 1 0
Belgium Europa 33.102,70 67,50 0 0 1 0
Hungary Europa -5.313,59 66,70 0 0 1 0
Kosovo Europa 249,00 66,60 0 0 1 0
Turkey Europa 11.987,00 65,40 0 0 1 0
Slovakia Europa -295,35 65,30 0 0 1 0
Spain Europa 18.658,86 65,10 0 0 1 0
Slovenia Europa 919,21 64,80 0 0 1 0
Albania Europa 1.124,35 64,50 0 0 1 0
Montenegro Europa 226,26 64,30 0 0 1 0
France Europa 28.351,62 63,90 0 0 1 0
Portugal Europa 6.064,56 63,40 0 0 1 0
160
Italy Europa 28.954,82 62,50 0 0 1 0
Serbia Europa 2.298,78 62,50 0 0 1 0
United Arab Emirates África 8.985,71 77,60 0 0 0 1
Qatar África 773,90 72,60 0 0 0 1
Israel África 12.323,70 72,20 0 0 0 1
Bahrain África 281,91 67,70 0 0 0 1
Jordan África 1.538,87 64,90 0 0 0 1
Mauritius África 349,42 75,10 0 0 0 1
Botswana África 10,46 69,90 0 0 0 1
Rwanda África 409,79 69,10 0 0 0 1
South Africa África 2.270,42 63,00 0 0 0 1
FONTE: Adaptado de <https://www.heritage.org/index/>. Acesso em: 29 ago. 2018.
1 Com base nos dados apresentados no Quadro 19, estimamos o seguinte 
modelo de regressão por mínimos quadrados ordinários:
3.19IEDi = β1 + β2Scorei + ui
Em que IED é o investimento externo direto, em milhões de US$, 
Score é o índice de liberdade econômica, cuja metodologia para construção do 
índice pode ser obtida em <https://www.heritage.org/index/pdf/2018/book/
methodology.pdf>, e ui é o termo de erro o qual supomos que tenha distribuição 
normal, com média zero e variância constante. 
Os resultados estão abaixo com p – valor entre parênteses:
�
( ) ( )
i iIED . . , Score
, ,
= − +163 061 2 551 54
0 0164 0 0081
3.20
R ,=2 0 0865 , F ,=1 78 7 3878 ( )p valor F ,− = 0 0081
 Com base nos resultados reportados em 3.20, informe qual ou quais 
coeficientes estimados é/são estatisticamente significativos e em qual nível de 
significância.
2 Suponha que queiramos estimar o valor do IED médio por região geográfica. 
Neste caso, construa um modelo econométrico capaz de obter tal medida.
3 Decidimos ampliar o nosso estudo e verificar se os países teriam preferência 
no destino do fluxo de investimentos externos diretos apenas pelo fato de 
pertencerem ao continente americano. Para isso, alteramos o modelo 3.19 
para incluir a Dummy D2i, que assume valores iguais a 1 quando se tratar de 
um país localizado nas Américas e zero caso esteja localizado em outro país.
161
3.21IEDi = β1 + δ1D1i + β2Scorei + ui
Os resultados estão logo abaixo com p – valor entre parênteses:
3.22
�
( ) ( ) ( )
i i iIED . . , D . , Score
, , ,
= − + +190 629 25 857 0 1 2 868 93
0 0060 0 0798 0 0032
R ,=2 0 1224 , F ,=1 77 5 3720 ( )p valor F ,− = 0 0065
 Com base nesses resultados, responda:
a) Informe se os coeficientes estimados são estatisticamente significativos e em 
qual nível de significância estatística.
b) Como você interpreta o coeficiente estimado da dummy?
c) Com base nos resultados obtidos em 3.22, os países localizados nas Américas 
tiveram preferência pela destinação dos investimentos externos diretos?
4 Estimamos um último modelo de regressão, incluindo as demais variáveis 
dummy com o objetivo de verificar se a região geográfica é determinante 
para o direcionamento dos investimentos externos diretos. O modelo 
estimado foi:
3.23i i i i i iIED D D D Score uβ δ δ δ= + + + + +1 1 2 31 2 3
O resultado da estimação encontra-se abaixo, com p – valor entre 
parênteses:
�
( ) ( ) ( ) ( ) ( )
i i i i iIED . . , D . , D . , D . , Score
, , , , ,
= − + + + +197 970 33 713 5 1 7 174 44 2 10 137 6 3 2 861 37
0 0057 0 1235 0 7362 0 5998 0 0039
R ,=2 0 1257 , F ,=1 75 2 6967 ( )p valor F ,− = 0 0370
 Em relação aos resultados obtidos, responda:
a) Por que usamos apenas três dummies se tínhamos a nossa disposição quatro 
variáveis dummy?
b) Os coeficientes estimados apresentaram p – valor alto para as três dummies, 
indicando que nenhum dos coeficientes é estatisticamente significativo 
aos usuais níveis de 1%, 5% e 10% de significância estatística. O que esse 
resultado representa em relação ao objetivo de verificar se a região geográfica 
é determinante para o direcionamento dos investimentos externos diretos?
162
163
UNIDADE 3
MODELOS DE REGRESSÃO 
GENERALIZADOS
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você será capaz de:
• identificar a natureza dos problemas existentes quando as premissas bási-
cas do modelo clássico de regressão linear são relaxadas;• examinar suas consequências em relação à validade dos modelos estima-
dos nas outras unidades;
• utilizar métodos específicos para detecção dos problemas e apresentar 
medidas corretivas que possam gerar estimadores com as propriedades 
estatísticas desejáveis.
Esta unidade está dividida em três tópicos. No decorrer da unidade você en-
contrará autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – MULTICOLINEARIDADE
TÓPICO 2 – HETEROSCEDASTICIDADE
TÓPICO 3 – AUTOCORRELAÇÃO
164
165
TÓPICO 1
MULTICOLINEARIDADE
UNIDADE 3
1 INTRODUÇÃO
Na Unidade 1 fomos apresentados ao modelo clássico de regressão linear, 
em que estudamos o método de mínimos quadrados ordinários, que é a base 
de toda análise econométrica. Aprendemos os conceitos básicos e construímos 
modelos de regressão simples. Na Unidade 2 ampliamos esses modelos, 
introduzindo múltiplas variáveis explicativas, melhorando a sua capacidade 
de previsão e explicação da variável dependente, trazendo os modelos mais 
próximos da realidade.
Em todos os exemplos que trabalhamos até agora supomos que as hipóteses, 
apresentadas na Unidade 1 e revistas na Unidade 2, estavam presentes e eram 
válidas, o que nos permitiu estimar parâmetros que carregam as propriedades 
estatísticas desejáveis de consistência, eficiência e ausência de tendenciosidade.
Para relembrar, listamos as hipóteses do modelo clássico de regressão 
linear:
• Hipótese 1 – O modelo de regressão é linear nos parâmetros y = Xβ + ε.
• Hipótese 2 – A média condicional do termo de erro é zero E[εi | xj1,xj2,...,xjk] = 0.
• Hipótese 3 – Não há correlação ou colinearidade perfeita entre as variáveis 
explicativas X (full rank).
• Hipótese 4 – Os erros são homoscedásticos e não são correlacionados 
(disturbâncias esféricas) Var[εi|X] = σ2I e Cov[εi,εj|X] = 0 para todo i = 1, 2, ..., n
 e i ≠ j
• Hipótese 5 – A matriz X é não estocástica: em amostras repetidas, os valores de 
X são fixados.
• Hipótese 6 – O vetor de erros ε tem distribuição normal, com média zero e 
variância constante: ε|X~N[0, σ2I].
Sabemos que em um mundo perfeito, todas as hipóteses se confirmariam. 
Porém, no mundo real, enfrentamos diariamente uma série de problemas para 
construir modelos econométricos que sejam capazes de nos revelar a verdade 
sobre os fatos que estamos estudando, sem que para isso precisemos torturar as 
informações. Em outras palavras, nem sempre as hipóteses vistas nas unidades 1 
e 2 serão confirmadas. 
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
166
O objetivo da Unidade 3 é relacionar duas importantes hipóteses do 
modelo de regressão linear clássico, a ausência de colinearidade entre as variáveis 
explicativas (no caso do modelo de regressão múltipla), homoscedasticidade e 
ausência de correlação serial entre os resíduos de um modelo de regressão com 
dados de séries temporais, ou seja, as hipóteses 3 e 4 listadas anteriormente.
No primeiro tópico veremos o relaxamento da hipótese de ausência de 
colinearidade, por isso o chamaremos de “o problema da multicolinearidade”. No 
tópico dois veremos a situação em que os resíduos não têm a mesma variância, ou 
seja, eles são heteroscedásticos. No último tópico abordaremos o caso em que os 
resíduos passados carregam informações suficientes para influenciar os resíduos 
presentes, ou seja, são autocorrelacionados.
2 CONCEITO DE MULTICOLINEARIDADE
A colinearidade entre variáveis explicativas não é uma questão que nos 
incomoda quando estimamos um modelo de regressão simples, com apenas uma 
variável explicativa. O problema ocorre quando precisamos estimar um modelo 
com múltiplas variáveis exógenas. Nesse caso, se duas ou mais dessas variáveis 
tiverem alguma inter-relação, estaremos violando uma das hipóteses do modelo 
clássico de regressão linear.
Maddala (2003, p. 143) define a multicolinearidade como sendo “a situação 
na qual as variáveis explicativas são altamente intercorrelacionadas ...”. O termo 
colinearidade tem origem com Ragnar Frisch (1934).
Para entender como isso funciona na prática, suponha o seguinte modelo 
de regressão representado por 1.1:
1.1Yi = β1X1i + β2X2i + β3X3i + εi
Em que X1i = 1 para todo i, X3i = 2X1i + 3X2i e εi~N(0, σ2). Através desse 
exemplo adaptado de Maddala (2003, p. 143), podemos obter certas combinações 
dos parâmetros βk, tais como β1 + 2β3, e β2 + 3β3. Porém, não conseguimos 
obter os valores individuais dos parâmetros β1, β2 e β3, caracterizando assim a 
multicolinearidade perfeita.
O Quadro 1 apresenta uma simulação de dados com colinearidade baseado 
na equação 1.1. Você pode importar esses dados para o Gretl e tentar estimar a 
regressão, porém o Gretl omitirá a variável X3i em razão da colinearidade perfeita 
que existe entre ela e X2i.
TÓPICO 1 | MULTICOLINEARIDADE
167
QUADRO 1 – EXEMPLO DE COLINEARIDADE
Obs. Yi X1 X2 X3
1 3 1 2 8
2 5 1 4 14
3 7 1 6 20
4 9 1 8 26
6 12 1 10 32
7 15 1 12 38
8 18 1 14 44
9 21 1 16 50
10 23 1 18 56
FONTE: O autor
Alternativamente, você poderá querer estimar de forma manual os 
coeficientes da regressão. Para fazer isso, lembre-se de que estamos lidando com 
matrizes de dados. Portanto, temos no Quadro 1 o vetor coluna da variável Yi e a 
matriz de variáveis Xi. Vimos na Unidade 2 que os parâmetros beta são gerados 
através da equação β = (X'X)–1X'y. Para resolver essa equação, primeiro invertemos a 
matriz (X'X) e depois pós multiplicamos o resultado pela pós multiplicação de X'y.
O grande problema é que só conseguiremos inverter a matriz (X'X) se ela 
for não singular, ou seja, se tiver determinante diferente de zero. Procure retornar 
ao material da Unidade 2 e veja como obter a multiplicação e posteriormente o 
determinante dessa matriz. Compare o seu cálculo com o resultado a seguir:
1.2( ) ′
 
 =  
  
9 90 288
90 1140 3600
288 3600 11376
X X
O determinante da matriz 1.2 é igual a zero, e consequentemente não 
conseguimos obter a sua inversa. Como resultado prático, não é possível estimar 
o vetor de parâmetros β em 1.1.
O caso em 1.1 não é regra geral, mas uma exceção. Na prática, encontraremos 
situações em que as variáveis explicativas possuem algum tipo de intercorrelação. 
Isso é perfeitamente natural quando usamos dados coletados em bancos de 
dados. Quando estivermos fazendo um estudo com dados controlados, gerados 
de forma artificial, dificilmente nos depararemos com a multicolinearidade.
Gujarati e Porter (2011, p. 331) descrevem a existência de quatro tipos 
de colinearidade através de um diagrama de Ballentine. São elas: a) baixa 
colinearidade; b) colinearidade moderada; c) colinearidade alta; e d) colinearidade 
muito alta.
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
168
Devemos nos preocupar com as opções “c” e “d”, pois, muitas vezes, 
a baixa colinearidade e colinearidade moderada podem ser resultantes de um 
banco de dados mal construído. Dito de outra forma, podemos estar diante do 
problema da micronumerosidade, situação em que a quantidade de informações 
coletadas é muito pequena para estimarmos o modelo econométrico.
Outra situação que gera colinearidade entre variáveis explicativas é a 
sua construção. Elas podem ser mal especificadas, gerando colinearidade entre 
elas. De qualquer forma, vale salientar que, caso tenhamos colinearidade perfeita 
ou muito alta, os coeficientes estimados das variáveis Xi são indeterminados 
e terão desvios padrão muito altos. Do mesmo modo, a situação em que a 
multicolinearidade não é perfeita pode gerar erros padrão grandes, o que resulta 
em coeficientes estimados menos precisos (GUJARATI; PORTER, 2011, p. 332).
Por esses motivos, iremos considerar apenas a existência ou não da 
colinearidade, sem nos aprofundarmos em calcular o seu tamanho ou grau. 
Em termos práticos, representando o modelo de regressão na forma matricial, 
sabemos que:
1.3y = Xβ + ε
Em que β = (X'X)–1X'y e ε|X~N[0,σ2I].
O problema da multicolinearidade é justamente o fato de não conseguirmos 
inverter a matriz (X'X). Como há colunas quesão expressas em termos de outra, 
ou outras, a matriz formada por esta combinação não possui posto de coluna 
completo, ou seja, não é full rank. 
Portanto, quanto mais correlacionadas forem as variáveis explicativas, 
maior será essa variância, e em uma situação extrema, uma variável explicativa Xi 
poderá ser escrita como uma combinação linear das demais variáveis explicativas 
(GREENE, 2012, p. 130).
Se houver uma combinação perfeita entre duas variáveis, dizemos que a 
colinearidade é perfeita. Com isso, os coeficientes de regressão das variáveis X são 
indeterminados e seus erros padrão, infinitos. Por outro lado, se a colinearidade 
não for perfeita, será possível obter os estimadores para os parâmetros beta, 
porém, os coeficientes de regressão terão erros padrão muito grandes e, como 
consequência, perdemos a precisão da nossa estimativa (GUJARATI; PORTER 
2011, p.332).
TÓPICO 1 | MULTICOLINEARIDADE
169
1.4Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t
3 DETECÇÃO DA MULTICOLINEARIDADE
Queremos apresentar a você alguns procedimentos práticos para detectar 
a presença da multicolinearidade. Para isso, vamos adaptar o trabalho de 
Longley (1967) à economia brasileira, com dados do período entre 1992 e 2014, 
e com algumas modificações nas variáveis. Nesse artigo, Longley comparou 
a programação computacional usada para estimar os modelos de mínimos 
quadrados ordinários, com as calculadoras de mesa, estimando regressões com 
dados macroeconômicos como os que usaremos a seguir. O nosso objetivo é 
verificar a existência de multicolinearidade em um modelo próximo ao dele e 
com variáveis parecidas.
 
Basicamente, queremos estimar o seguinte modelo de regressão:
Em que Yt é o número de pessoas ocupadas, em milhões de pessoas; X2t é 
o deflator implícito do PIB em percentual; X3t é o PIB, em US$ milhões correntes; 
X4t é a população desocupada, em milhões de pessoas; X5t é a população em 
idade ativa, em milhões de pessoas; e X6t é uma variável de tendência temporal, 
assumindo valor igual a 1 para 1992, igual a 2 para 1993 e assim por diante.
Propositalmente, essas variáveis são intercorrelacionadas. Por exemplo, 
o deflator do PIB, X2t, nada mais é do que a razão entre o PIB nominal e o PIB 
real. Como temos X3t representando o PIB, essas duas variáveis são colineares. As 
variáveis X4t e X5t também são colineares, uma vez que a população desocupada 
faz parte da população em idade ativa.
A base de dados foi obtida no site do Ipeadata e no do Banco Central do 
Brasil, e pode ser vista no Quadro 2:
QUADRO 2 – ADAPTAÇÃO DOS DADOS DE LONGLEY (1967) PARA A ECONOMIA BRASILEIRA
Ano Y X2 X3 X4 X5 X6
1992 61.229,43 969,01 387.294,94 4.747,77 113.295,18 1
1993 62.390,58 1.996,15 429.685,27 4.554,01 115.658,04 2
1994 2.240,17 543.086,59 3
1995 65.386,63 770.733,14 4.668,84 120.600,21 4
1996 64.299,69 18,46 851.019,12 5.283,79 123.377,66 5
1997 65.576,72 7,73 883.281,56 6.057,90 125.081,92 6
1998 66.139,77 4,92 863.872,29 7.144,59 127.732,73 7
1999 69.181,06 8,01 599.289,51 8.062,11 133.172,80 8
2000 5,61 655.707,37 9
2001 73.068,66 8,23 559.562,59 8.174,78 140.421,76 10
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
170
2002 75.563,62 9,80 508.101,18 8.280,25 143.133,84 11
2003 76.421,21 14,09 559.465,40 8.950,36 145.761,09 12
2004 79.103,30 7,75 669.339,54 8.524,17 148.010,17 13
2005 80.945,16 7,43 892.033,25 9.202,79 150.859,82 14
2006 82.744,29 6,77 1.107.131,34 8.411,57 153.801,64 15
2007 84.119,03 6,44 1.396.797,40 8.245,22 156.439,29 16
2008 86.632,36 8,78 1.693.147,00 7.316,40 159.219,53 17
2009 87.409,36 7,31 1.672.624,76 8.699,57 161.606,53 18
2010 8,42 2.209.750,92 19
2011 88.689,31 8,32 2.614.482,35 6.977,32 166.210,05 20
2012 90.213,01 7,94 2.463.548,92 6.507,01 168.070,91 21
2013 90.385,60 7,50 2.468.456,41 6.957,62 170.001,90 22
2014 92.869,85 7,85 2.454.846,01 7.571,69 172.180,43 23
FONTE: Adaptado de <www.ipeadata.gov.br> e <www.bcb.com.br>. Acesso em: 30 ago. 2018
Digamos que, ao construir o modelo, não sabemos se as variáveis são 
correlacionadas entre si. Por isso, analisaremos a matriz de correlação antes de 
estimar o modelo econométrico. Caso encontremos correlações de valor superior 
a |0,80|, podemos supor que essas variáveis apresentam colinearidade. Se a 
correlação for menor que |0,50|, aparentemente não teremos que nos preocupar 
com colinearidade.
Na tela principal do Gretl, vá até o menu e selecione “Ver”, na sequência 
escolha “Matriz de correlação” e selecione as variáveis Xkt, clicando em “ok” para 
confirmar. Reproduzimos no Quadro 3 o resultado dessa análise:
QUADRO 3 – MATRIZ DE CORRELAÇÃO DOS DADOS DO MODELO 1.4
Coeficientes de Correlação, usando as observações 1992 – 2014
(valores ausentes ignorados)
 X2 X3 X4 X5 X6
 1,0000 -0,3638 -0,6516 -0,5537 -0,5811 X2
 1,0000 0,0775 0,8229 0,8676 X3
 1,0000 0,5898 0,5461 X4
 1,0000 0,9968 X5
 1,0000 X6
FONTE: O autor
A matriz de correlação apresentada no Quadro 3 deve ser analisada com 
cautela. Ela até pode indicar a existência de colinearidade entre duas variáveis, caso o 
coeficiente de correlação seja maior do que |0,80|, porém, podemos ter colinearidade 
entre variáveis, mesmo na presença de coeficientes de correlação baixos, como no 
caso em estudo. Mas, só saberemos isso se tivermos em mãos as informações a priori, 
obtidas diretamente da teoria subjacente ao modelo de regressão.
TÓPICO 1 | MULTICOLINEARIDADE
171
Sabemos que X2t e X3t são colineares, assim como X4t e X5t. Apesar disso, 
a correlação entre X2t e X3t é de -0,3638. Além disso, X2t tem correlação acima de 
|0,50| comparativamente a X4t, X5t e X6t. A variável X3t tem correlação acima de 
|0,80|em comparação a X5t e X6t Por sua vez, X4t tem correlação acima de |0,50| 
se comparada a X2t, X5t e X6t. E ainda, a variável X5t tem correlação maior que 
|0,50| quando comparada às demais variáveis, sendo maior que |0,80| quando 
comparada a X3t e X6t. O mesmo pode ser visto quanto a X6t, que apresenta 
correlação acima de |0,50| em relação a todas as variáveis e acima de |0,80| 
quando comparada a X3t e X5t.
Os resultados da análise da matriz de correlação levantam a suspeita da 
existência de colinearidade entre algumas variáveis. Como veremos adiante, 
o problema que estamos enfrentando pode ter origem em uma amostra muito 
pequena, ou uma quantidade muito grande de parâmetros a serem estimados 
comparativamente ao tamanho da amostra.
Supondo que deixemos a matriz de correlação de lado, apesar da suspeita 
de multicolinearidade, passemos a estimar o modelo de regressão. Os resultados 
da estimação do modelo 1.4 estão no Quadro 4. 
Podemos perceber que as informações ausentes no Quadro 2 foram 
devidamente tratadas pelo Gretl. Devemos lembrar da regra que apresentamos 
na Unidade 1, em que falamos que precisamos ter pelo menos 20 graus de 
liberdade ao estimarmos um modelo de regressão. Como nosso modelo tem 23 
observações, sendo quatro delas eliminadas pela existência de “buracos” na nossa 
base de dados, ficamos com um total de 19 observações úteis. Assim, nos restou 
apenas 13 graus de liberdade.
Os coeficientes estimados mostraram pouca significância estatística 
quando analisados individualmente. Apenas a variável X5t é estatisticamente 
significativa ao nível de 1%, e a variável X2t só é significativa a 10%. Por outro 
lado, o R2 é igual a 99,49%, indicando que os dados aderem perfeitamente ao 
modelo de regressão, ou seja, 99,49% das mudanças em Yt, população ocupada, 
são explicadas pelo modelo 1.4.
Aqui fica claro que, na presença de colinearidade entre variáveis 
explicativas, os erros padrão são muito grandes quando comparados aos valores 
dos coeficientes estimados. Por esse motivo, perceba que as estatísticas t são 
muito pequenas, gerando p – valoralto, o que não nos permite rejeitar a H0: βk 
= 0. Apesar de termos desvios padrão grandes, e consequentemente variâncias 
grandes, continuaremos usando Mínimos Quadrados Ordinários, porque eles 
ainda são os melhores estimadores lineares não tendenciosos, mesmo na presença 
de colinearidade (GUJARATI; PORTER, 2011, p. 334).
As razões t muito baixas são ótima pista da existência de multicolinearidade. 
A implicação direta, como discutimos no parágrafo anterior, é que as variáveis 
explicativas têm pouca significância estatística. Mesmo assim, o R2 é alto e a 
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
172
estatística F nos diz que podemos rejeitar a hipótese nula de que, em conjunto, os 
coeficientes são estatisticamente iguais a zero. Isso é uma tremenda contradição, 
não é mesmo?
A própria construção equivocada do nosso modelo já indicava que 
teríamos um resultado ruim. Por isso, precisamos prestar muita atenção tanto na 
especificação do modelo quanto na das variáveis. Não basta colocá-las em uma 
tabela, importar os dados para o Gretl e estimar a regressão achando que teremos 
resultados consistentes pelo simples fato de estarmos empregando o método de 
mínimos quadrados ordinários. A consistência depende muito mais da técnica do 
que de qualquer outra coisa.
QUADRO 4 – RESULTADO DA ESTIMAÇÃO DO MODELO 1.4
Modelo 1: MQO, usando as observações 1992-2014 (T = 19)
Observações ausentes ou incompletas foram ignoradas: 4
Variável dependente: Y
 coeficiente erro padrão razão-t p-valor
 ----------------------------------------------------------------
 const −29423,6 23807,9 −1,236 0,2384 
 X2 1,31718 0,669248 1,968 0,0708 *
 X3 −0,000186111 0,00149242 −0,1247 0,9027 
 X4 −0,310180 0,493459 −0,6286 0,5405 
 X5 0,798048 0,215887 3,697 0,0027 ***
 X6 −557,120 688,356 −0,8093 0,4329 
Média var. dependente 77735,90 D.P. var. dependente 10508,29
Soma resíd. quadrados 10158809 E.P. da regressão 883,9948
R-quadrado 0,994889 R-quadrado ajustado 0,992923
F(5, 13) 506,1060 P-valor(F) 2,05e-14
Log da verossimilhança −152,2593 Critério de Akaike 316,5185
Critério de Schwarz 322,1851 Critério Hannan-Quinn 317,4775
Excluindo a constante, a variável com maior p-valor foi 3 (X3)
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância 
estatística.
FONTE: O autor
Continuando a nossa análise, e por suspeitar que existe a presença de 
multicolinearidade, podemos aplicar alguns procedimentos estatísticos mais 
robustos para confirmar se existe ou não esse problema.
Uma das coisas que podemos fazer é estimar uma regressão colocando 
cada variável Xkt como variável dependente, contra as demais variáveis Xkt como 
variáveis explicativas. Do resultado dessas regressões, que chamaremos de 
“auxiliares”, salvaremos os R2, que servirão para construir um teste F, com k – 2 e 
n – k + 1 graus de liberdade.
TÓPICO 1 | MULTICOLINEARIDADE
173
A equação 1.5 apresenta a estatística F, a qual segue Gujarati e Porter 
(2011, p. 346):
1.5
( )
( ) ( )
i k
i k
x .x x x
i
x .x x x
R / k
F
R / n k
…
…
−
=
− − +
2 3
2 3
2
2
2
1 1
Em que n é o tamanho da amostra, k o número de variáveis explicativas 
incluindo o intercepto e R2xj.x2x3...xk é o coeficiente de determinação da variável 
Xi em relação às demais variáveis explicativas.
A estimação de cada regressão auxiliar fica para você fazer como exercício 
e os resultados compilados são apresentados no Quadro 5. Neste exemplo, k = 5, 
k – 2 = 3 e n – k + 1 = 19 – 5 + 1 = 15:
QUADRO 5 – COEFICIENTES DE DETERMINAÇÃO DAS REGRESSÕES AUXILIARES
 Variável dependente R2 Fi
X2t 0,6048 ( )X
, / ,F ,
,, /
= = =
−2
0 6048 3 0 2016 7 6654
0 02631 0 6048 15 
X3t 0,9679 ( )X
, / ,F ,
,, /
= = =
−3
0 9679 3 0 3226 153 619
0 00211 0 9679 15 
X4t 0,9078 ( )X
, / ,F ,
,, /
= = =
−4
0 9078 3 0 3026 49 6066
0 00611 0 9078 15 
X5t 0,9973 ( )X
, / ,F
,, /
= = =
−5
0 9973 3 0 3324 1662
0 00021 0 9973 15 
X6t 0,9979 ( )X
, / ,F
,, /
= = =
−6
0 9979 3 0 3326 3326
0 00011 0 9979 15 
FONTE: O autor
Recorrendo à tabela de distribuição F(3,15), encontramos o valor crítico ou 
tabelado de 4,1528, ao nível de significância de 5%. Se o Fcalculado > Ftabela, rejeitamos 
a hipótese nula de que não há colinearidade entre a variável Xit e as demais 
variáveis Xit, ao nível de significância estabelecido (5%, como no nosso exemplo). 
Dito de outra forma, Fcalculado > Ftabela quer dizer que a colinearidade existe. 
Podemos ver, com base nos resultados do Quadro 5, que todas as 
estatísticas F calculadas são maiores que as da tabela de distribuição, revelando 
através desse procedimento que a multicolinearidade existe entre as variáveis 
explicativas inseridas no modelo. É como se todas elas fossem endógenas, quando 
no modelo clássico supomos a existência apenas de uma variável endógena, que 
é a variável dependente.
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
174
Gujarati e Porter (2011, p. 347) apresentam outra regra prática para 
analisar o Quadro 5. Trata-se da regra prática de Klein, a qual diz que devemos 
nos preocupar com a colinearidade somente se o R2 de todas as regressões 
auxiliares for maior do que o R2 do modelo de regressão original. Seguindo isso, 
vimos no Quadro 4 que o R2 = 0,9949. Apenas as regressões auxiliares de X5t e X6t 
apresentam R2 maior do que da regressão original. 
Essa regra prática contradiz um pouco o que vimos anteriormente. Por esse 
motivo, devemos evitar os atalhos e nos ater às técnicas devidamente comprovadas, 
como veremos a seguir.
Uma das medidas de multicolinearidade mais comuns na literatura é o 
Fator de Inflação da Variância – FIV –, que mede a velocidade do aumento da 
variância e covariância. A partir dessa estatística é possível estimar a tolerância, 
denominada TOL (GUJARATI; PORTER, 2011, p. 337). O cálculo é feito por:
1.6J
J
FIV
r
=
− 2
1
1
1.7
j
TOL
FIV
=
1
Em que J se refere à Jésima variável X. Assim, FIVJ e rj2 são, respectivamente, 
o Fator de Inflação da Variância e o coeficiente de determinação da Jésima variável 
X. Caso o FIVj > 10, podemos dizer que há uma alta colinearidade entre a vaiável 
Xjt e as demais.
Para aplicar o teste, partimos do modelo de regressão estimado (Quadro 
4), em que selecionamos o menu “Análise” e escolhemos a opção “Colinearidade”. 
Os resultados estão no Quadro 6.
TÓPICO 1 | MULTICOLINEARIDADE
175
QUADRO 6 – TESTES DE COLINEARIDADE
Fatores de Inflação da Variância (FIV)
Valor mínimo possível = 1,0
Valores > 10,0 podem indicar um problema de colinearidade
 X2 2,531
 X3 31,114
 X4 10,843
 X5 372,769
 X6 485,148
VIF(j) = 1/(1 - R(j)^2), em que R(j) é o coeficiente de correlação 
múltipla entre a variável j e a outra variável independente
Diagnósticos de colinearidade de Belsley-Kuh-Welsch:
 --- proporções de variância ---
 lambda cond const X2 X3 X4 X5 X6
 4,750 1,000 0,000 0,001 0,000 0,000 0,000 0,000
 1,011 2,168 0,000 0,323 0,000 0,000 0,000 0,000
 0,211 4,748 0,000 0,077 0,021 0,003 0,000 0,000
 0,027 13,361 0,001 0,255 0,060 0,008 0,000 0,008
 0,002 55,296 0,005 0,316 0,707 0,989 0,004 0,033
 0,000 438,119 0,994 0,027 0,211 0,000 0,996 0,958
 lambda = autovalores de X'X, maior para o menor
 cond = índice condicional
 nota: as colunas de proporção da variância somam 1
FONTE: O autor
Perceba que, no Quadro 6, a variável X2t não apresenta problema de 
colinearidade com as demais. A variável X4t é levemente colinear, pois apresenta 
FIVX4t = 10,843 e nossa regra diz que, quando o FIVj > 10, temosproblemas de 
colinearidade. As demais possuem valores extremamente altos para a estatística 
FIVJ.
A TOL pode ser facilmente obtida e seus resultados são apresentados 
no Quadro 7, corroborando a conclusão que chegamos até o momento. Valores 
próximos de zero indicam a presença de colinearidade. Esperaríamos uma TOL 
perto de 1 para dizer que não existe colinearidade perfeita entre as variáveis.
Finalmente, outra estatística de teste que pode ser implementada é o índice 
condicional ou número de condição. Para ver esse teste, teremos que voltar para o 
Quadro 6. O Gretl reporta o resultado desse teste automaticamente e é derivado 
de Belsley, Kuh e Welsch (1980, p. 96), cujas definições algébricas fogem em muito 
ao escopo desse livro de estudos. Por esse motivo nos limitaremos à interpretação 
dos resultados obtidos.
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
176
QUADRO 7 – ESTIMATIVA DA TOLERÂNCIA (TOL) – COM OS DADOS DO QUADRO 1.6 E 
EQUAÇÃO 1.7
Variável dependente FIVJ =
1
j
TOL
FIV
X2t 2,531 0,3951
X3t 31,114 0,0321
X4t 10,843 0,0922
X5t 372,769 0,0027
X6t 485,148 0,0021
FONTE: O autor
A interpretação desse teste é bem simples. Se o índice condicional for alto, 
digamos, acima de 30, e a proporção da variância for alta (maior do que 0,5) para 
dois ou mais coeficientes estimados, podemos concluir que a variável em questão 
apresenta problemas de colinearidade (BELSLEY; KUH; WELSCH, 1980, p. 112).
A título de exemplo, estamos reproduzindo o diagnóstico de colinearidade 
do Quadro 6 no Quadro 8 para destacar essa análise. Note que as variáveis 
X5t e X6t apresentam índice condicional de 55,296 e 438,119, respectivamente. 
Concomitantemente, a proporção da variância para X5t é alta quando comparada 
às variáveis X3 e X4. Da mesma forma, a proporção da variância de X6t é alta 
quando comparada a X5t e o próprio X6t .
QUADRO 8 – DIAGNÓSTICO DE COLINEARIDADE (A PARTIR DO QUADRO 6)
Diagnósticos de colinearidade de Belsley-Kuh-Welsch:
 --- proporções de variância ---
 lambda cond const X2 X3 X4 X5 X6
 4,750 1,000 0,000 0,001 0,000 0,000 0,000 0,000
 1,011 2,168 0,000 0,323 0,000 0,000 0,000 0,000
 0,211 4,748 0,000 0,077 0,021 0,003 0,000 0,000
 0,027 13,361 0,001 0,255 0,060 0,008 0,000 0,008
 0,002 55,296 0,005 0,316 0,707 0,989 0,004 0,033
 0,000 438,119 0,994 0,027 0,211 0,000 0,996 0,958
 lambda = autovalores de X'X, maior para o menor
 cond = índice condicional
 nota: as colunas de proporção da variância somam 1
FONTE: O autor
TÓPICO 1 | MULTICOLINEARIDADE
177
4 O QUE FAZER NA PRESENÇA DE MULTICOLINEARIDADE?
Do que vimos até agora, resta a grande dúvida: O que fazer se detectarmos 
a presença de colinearidade entre as variáveis explicativas? De longe não há 
um consenso na literatura econométrica sobre esse assunto, motivo pelo qual 
são poucos os manuais de econometria que destacam um capítulo inteiro para 
analisar essa questão.
Para entendermos bem o que devemos fazer na presença de 
multicolinearidade é necessário compreender melhor o que acontece com os 
estimadores de mínimos quadrados. Gujarati e Porter (2011, p. 334) nos dizem 
que “[...] mesmo se a multicolinearidade for muito alta, como no caso da quase 
multicolinearidade, os estimadores de MQO ainda conservarão a propriedade 
de melhores estimadores lineares não viesados”. Aqui o autor está se referindo a 
uma situação em que a colinearidade não é perfeita, mas quase.
A superação desse problema passa por diversas técnicas, dentre as quais, 
não fazer nada também é uma delas. Isso se justifica se levarmos em consideração 
a preservação da propriedade de melhor estimador linear não tendencioso. 
Porém, você pode não se sentir confortável não fazendo nada, porque sabe que os 
estimadores perdem a eficiência em razão de ter uma variância muito alta, gerando 
intervalos de confiança amplos, nos induzindo a cometer um erro do tipo II.
Normalmente, o problema surge quando temos uma amostra muito 
pequena ou quando o número de graus de liberdade é baixo. Nesses casos, 
podemos resolver a questão simplesmente aumentando o número de observações. 
No exemplo que desenvolvemos na seção anterior, tínhamos apenas 19 observações 
válidas, resultando em 13 graus de liberdade em razão dos 6 parâmetros estimados. 
Isso ocorreu porque tínhamos uma base de dados anual (23 anos), em que quatro 
observações não estavam disponíveis para todas as variáveis. Nesse caso optamos 
por deixar o Gretl resolver o problema para nós, e o que ele fez foi excluir da 
regressão a linha inteira em que haviam dados ausentes, reduzindo a nossa base.
Uma medida alternativa seria fazer uma média móvel para tapar esses 
buracos. Com isso talvez não resolvêssemos a questão da multicolinearidade, 
mas não perderíamos os graus de liberdade, que são tão importantes para dar 
um sentido empírico ao estudo. Outra saída seria obter dados trimestrais em vez 
de dados anuais, para o mesmo período de análise. Isso nos daria um total de 92 
observações. Assim, lembrando das propriedades assintóticas dos estimadores, 
sabemos que em amostras grandes, ( )k kE β̂ β≅ . Trata-se de procedimento simples, 
porém depende da existência de dados nessa frequência, o que nem sempre é 
possível de encontrar.
Outra forma de ampliar o tamanho da amostra é trabalhar com a combinação 
de dados de corte e séries temporais. Temos aí o chamado painel de dados, que 
permite fazer uma análise cruzada das informações. Essa técnica é discutida na 
disciplina de Econometria II, a qual ampliará ainda mais o leque de conhecimento 
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
178
e consolidará tudo o que aprendemos em Econometria I, apresentando a você uma 
série de modelos econométricos que lhe ampliará as possibilidades de aplicação. 
Por ora, basta sabermos que esta é uma das saídas possíveis.
Redefinir as variáveis também é uma opção. Maddala (2003, p. 147) nos 
alerta que “as intercorrelações podem mudar com a redefinição das variáveis 
explicativas”. No exemplo citado no seu livro, ele trabalha com a renda corrente, 
renda permanente e renda transitória como variáveis explicativas. Claramente a 
renda corrente é uma soma da renda permanente com a transitória, gerando o 
problema da colinearidade entre essas variáveis. Em uma transformação em que 
você combina duas variáveis é possível estimar uma combinação de parâmetros 
e, a partir do resultado, obter o parâmetro da equação original.
Além disso, talvez queiramos excluir uma das variáveis explicativas, 
o que pode ser feito se não estivermos interessados na estimação de todos os 
parâmetros do modelo. Porém, essa solução pode gerar um problema ainda 
maior, o do viés ou erro de especificação (GUJARATI; PORTER, 2011, p. 351). Se 
na teoria econômica o consumo depende da renda corrente, renda permanente 
e renda transitória, ao excluirmos uma dessas variáveis estaremos especificando 
um modelo de forma incorreta.
Para finalizar a questão da multicolinearidade, vamos estimar novamente 
no nosso modelo, redefinindo-o a fim de tentarmos corrigir o problema. Para isso, 
vamos reescrever o modelo 1.4 da seguinte forma:
1.8Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t + εt
1.9Yt = β1 + β2X2t + β3X3t + β4X4t + β6X6t + εt
1.10Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + εt
1.11Yt = β1 + β2X2t + β3X3t + β4X4t + εt
A fim de solucionar o problema de multicolinearidade, usaremos o 
modelo 1.8 como comparação, porque é o nosso modelo original, usaremos os 
modelos 1.9 eliminando a variável X5t, 1.10 eliminando X6t, mas mantendo X5t e 
1.11 eliminando X5t e X6t. 
Escolhemos essas formas funcionais porque nos quadros 6 e 8 detectamos 
que as variáveis X5t e X6t apresentam problemas de multicolinearidade mais forte 
do que as demais variáveis incluídas no modelo.
TÓPICO 1 | MULTICOLINEARIDADE
179
No Quadro 9 apresentamos os resultadosdos modelos estimados. 
Adicionalmente transcrevemos algumas estatísticas úteis aos resultados obtidos. 
Temos agora a soma dos quadrados dos resíduos, pois o método de mínimos 
quadrados requer exatamente isso, ou seja, escolher parâmetros de regressão que 
sejam capazes de minimizar essa soma. Esperaríamos que o melhor modelo fosse 
aquele que apresentasse o menor número dessa estatística.
O R2, você já está habituado a ver nos nossos resultados e o R2 ajustado também. 
Sabemos que ao analisar dois modelos de regressão que não têm o mesmo número 
de variáveis explicativas, devemos comparar o R2 ajustado , pois sabemos que a 
inclusão de variáveis explicativas melhora a qualidade do ajustamento, medido 
pelo R2 . Assim, pela definição do R2 ajustado , que penaliza essa inclusão, podemos 
escolher o melhor modelo.
A título de comparação entre modelos, estamos também adicionando os 
critérios de informação de Akaike e de Schwarz, definidos na Unidade 2 como:
1.12
1.13
Critério de informação
Akaike
Schwarz
Equação
( )AIC l ˆ kθ= − +2 2
( ) nˆBIC l k lnθ= − +2
Retorne à Unidade 2 para revisar a explicação que demos a respeito dessas 
duas estatísticas. Ambos os critérios punem a inclusão de variáveis explicativas, 
mas em termos técnicos, são estatísticas mais robustas para a escolha de modelos 
de regressão do que o R2ajustado. A regra aqui é selecionar o modelo de regressão 
que apresenta o menor valor para essas duas estatísticas.
O teste F também é reportado no Quadro 9, e como sabemos, ele testa a 
hipótese de que, em conjunto, todos os coeficientes estimados são estatisticamente 
iguais a zero, contra a hipótese alternativa de que pelo menos um dos coeficientes 
é estatisticamente diferente de zero. E como falamos em graus de liberdade, esse 
número também está reportado.
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
180
QUADRO 9 – REFORMULANDO O MODELO PARA RESOLVER O PROBLEMA DA 
MULTICOLINEARIDADE
Coeficiente 
estimado Modelo 1.8 Modelo 1.9 Modelo 1.10 Modelo 1.11
Constante −29.423,6(0,2384)
57.777,8
(0,0000)***
−10.404,5
(0,0154)**
28.442,2
(0,0000)***
X2t
1,3172
(0,0708)*
1,8125
(0,0649)*
1,3738
(0,0554)*
4,3362
(0,0372)**
X3t 
−0,0002
(0,9027)
−0,0024
(0,2144)
−0,0009
(0,4288)
0,0119
(0,0000)***
X4t 
−0,3102
(0,5405)
−0,2051
(0,7674)
−0,380577
(0,4408)
4,63809
(0,0000)***
X5t 
0,7980
(0,0027)***
0,6291
(0,0000)***
X6t 
−557,120
(0,4329)
1.902,93
(0,0000)***
R2 0,9949 0,9895 0,9946 0,9435
R2ajustado 0,9929 0,9865 0,9931 0,9322
Soma dos 
resíduos 
quadrados
10.158.809 20.837.187 10.670.691 112.000.000
Akaike 316,5185 328,1681 315,4525 358,1619
Schwarz 322,1851 332,8903 320,1747 361,9397
F 506,1060*** 330,3606*** 648,4462*** 83,5450***
Graus de 
liberdade 13 14 14 15
Obs.: p – valor entre parênteses e *, ** e *** indicam significância estatística ao nível de 10%, 5% 
e 1%.
FONTE: O autor
Já tínhamos visto os resultados do modelo 1.8 no Quadro 4, e vimos 
através dos diversos testes apresentados nessa seção que há a presença de 
multicolinearidade entre as variáveis. Lembrando que a variável dependente 
é a quantidade de pessoas ocupadas, e queremos saber se essa variável pode 
ser explicada pelo deflator implícito do PIB, pelo próprio PIB, pela população 
desocupada e a população em idade ativa.
Incluímos ainda uma variável de tempo para capturar a tendência 
determinística da série temporal, como você terá a oportunidade de estudar em 
Econometria II. Por estarmos trabalhando com séries variantes no tempo, algumas 
técnicas precisam ser empregadas para evitar erros de especificação, porém 
optamos por manter o exemplo o mais simples possível, a fim de que você possa 
compreender a teoria e aplicar na prática aquilo que aprendeu até este momento. 
Deixaremos as discussões envolvendo técnicas de séries temporais para o futuro.
TÓPICO 1 | MULTICOLINEARIDADE
181
No modelo 1.8, temos poucos coeficientes estimados estatisticamente 
significativos. Pelos testes de multicolinearidade, verificamos que pode haver 
esse problema entre as variáveis (veja os quadros 5, 6 e 7). Como não sabemos 
a natureza desse problema, suspeitamos que seja a especificação incorreta das 
variáveis do modelo, e com isso o próprio modelo pode estar especificado de 
forma incorreta.
Para testar a especificação do modelo, ou melhor dizendo, se ao menos 
a forma funcional está corretamente especificada, podemos empregar o teste 
RESET de Ramsey, visto na Unidade 2. Basicamente ele consiste em um processo 
de várias etapas, com a inclusão da variável dependente estimada na forma 
quadrática e cúbica como variável explicativa.
Com isso podemos testar a hipótese nula de que o modelo está corretamente 
especificado, contra a hipótese alternativa de que o modelo não está. Dito de outra 
forma, fazemos:
1.14
H0: E(Yt|X2t, X3t, X4t, X5t, X6t) = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t
H1: E(Yt|X2t, X3t, X4t, X5t, X6t) = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t
Para rodar o teste estimamos um modelo de regressão como em 1.8, salvamos 
o R2 e depois estimamos outros modelos com a inclusão da variável dependente 
estimada na forma quadrática e cúbica e também salvamos o R2 . Com esses resultados 
implementamos um teste F da seguinte forma:
1.15
( )
( ) ( )
novo velho
calculado
novo
R R /
F
R / n
−
=
− −
2 2
2
número de novos regressores 
1 número de parâmetros do novo modelo
Esse teste segue uma distribuição F com grau de liberdade no numerador, 
sendo o número de novos regressores, e o denominador é dado por n – número 
de parâmetros do novo modelo.
O resultado para o modelo 1.8 está descrito no Quadro 10 e é facilmente 
implementado a partir da tela do modelo estimado no Gretl, selecionando o 
menu “Testes”, na sequência “RESET de Ramsey”, e na janela que abrir você 
pode marcar “Todas as variantes”:
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
182
QUADRO 10 – TESTE DE ESPECIFICAÇÃO DE RESET PARA O MODELO 1.8
Teste RESET para especificação (quadrados e cubos)
Estatística de teste: F = 11,344045,
com p-valor = P(F(2,11) > 11,344) = 0,00212
Teste RESET para especificação (apenas quadrados)
Estatística de teste: F = 1,381340,
com p-valor = P(F(1,12) > 1,38134) = 0,263
Teste RESET para especificação (apenas cubos)
Estatística de teste: F = 0,951401,
com p-valor = P(F(1,12) > 0,951401) = 0,349
FONTE: O autor
Conforme o Quadro 10, podemos rejeitar a hipótese nula de que o modelo 
1.8 está corretamente especificado se considerarmos quadrados e cubos. Há, 
portanto, uma pista para o problema da multicolinearidade. Talvez não tenhamos 
esse problema afinal, mas especificamos incorretamente o nosso modelo.
Voltemos ao Quadro 9 e vamos analisar o resultado do modelo 1.9. Perceba 
que a exclusão de X5t, ou seja, a população em idade ativa, não traz nenhuma 
melhora significativa nos critérios de seleção. O R2ajustado diminuiu, enquanto a 
soma dos quadrados dos resíduos, o Akaike e o Schwarz aumentaram. Portanto, 
apesar de aumentarmos o número de graus de liberdade com a exclusão de 
uma variável explicativa, os resultados não estão melhores do que estariam se a 
mantivéssemos no modelo. O teste RESET para quadrados e cubos para o modelo 
1.9 apresentou um F = 19,7932 com p – valor = 0,0002, indicando que este modelo 
não está corretamente especificado. 
Dessa forma, podemos partir para o próximo modelo, 1.10, o qual inclui 
novamente X5t e exclui X6t. Aqui temos uma ligeira melhora nos critérios de 
seleção quando comparados com os modelos precedentes. Porém, o que tem nos 
incomodado é o fato de que os coeficientes estimados individualmente continuam 
com baixa significância estatística e R2 alto, indicando que o problema pode não 
ter sido solucionado. O teste RESET para quadrados e cubos nos faz rejeitar a 
hipótese nula de que o modelo está corretamente especificado, com um F = 8,4952 
e um p – valor = 0,0050. Em resumo, 1.10 ainda não é o modelo que queremos para 
avançar nos nossos estudos.
Finalmente estimamos o modelo 1.11, em que excluímos tantoa variável X5t 
quanto X6t. Agora os coeficientes estimados são todos estatisticamente significativos. 
Apesar disso, todos os critérios de seleção tiveram piora nos seus resultados, mas 
o teste RESET com F = 2,4287 e p – valor = 0,127 indica que não podemos rejeitar a 
hipótese nula de que o modelo está corretamente especificado.
E agora, o que devemos fazer? A resposta para essa dúvida é crucial para o 
desenrolar do nosso estudo. Por esse resultado, a exclusão da população em idade 
TÓPICO 1 | MULTICOLINEARIDADE
183
ativa e a tendência temporal melhoraram a qualidade dos coeficientes estimados 
das outras variáveis explicativas. Além disso, o fato de o modelo estar corretamente 
especificado, nos faz querer escolher 1.11 em detrimento dos demais.
Afinal, será que esse modelo é capaz de resolver o problema da 
multicolinearidade? Veja o Quadro 11, nele apresentamos o teste de colinearidade 
para o modelo 1.11. Ao que tudo indica, com essa nova especificação, o problema 
foi superado. E quanto aos demais modelos, eles resolvem o problema da 
colinearidade? Vamos deixar você verificar essa dúvida com os dados disponíveis. 
Você concluirá que, entre os quatro modelos apresentados, o único que não tem 
multicolinearidade é 1.11.
QUADRO 11 – TESTES DE COLINEARIDADE PARA O MODELO 1.11
Fatores de Inflação da Variância (FIV)
Valor mínimo possível = 1,0
Valores > 10,0 podem indicar um problema de colinearidade
 X2 2,121
 X3 1,222
 X4 1,877
VIF(j) = 1/(1 - R(j)^2), em que R(j) é o coeficiente de correlação 
múltipla
entre a variável j e a outra variável independente
Diagnósticos de colinearidade de Belsley-Kuh-Welsch:
 --- proporções de variância ---
 lambda cond const X2 X3 X4
 2,854 1,000 0,002 0,006 0,023 0,002
 0,953 1,730 0,000 0,413 0,014 0,000
 0,185 3,924 0,008 0,048 0,803 0,021
 0,008 19,254 0,991 0,533 0,160 0,976
 lambda = autovalores de X'X, maior para o menor
 cond = índice condicional
 nota: as colunas de proporção da variância somam 1
FONTE: O autor
Isso certamente nos faz questionar a validade dos critérios de seleção 
que apresentamos nessa seção. Na verdade, ao escolher o modelo de regressão, 
devemos ser parcimoniosos, ou seja, escolher aquele que apresenta o conjunto 
mais equilibrado de estatísticas, com a menor quantidade de problemas e a 
melhor qualidade de ajuste. 
Além disso, um resultado ruim pode ser bom do ponto de vista empírico! 
Apesar de contraditório, se a teoria econômica por traz do estudo do desemprego 
disser que é obrigatório usar as variáveis X5t e X6t, o nosso resultado refutaria essa 
teoria e a partir dela poderíamos lançar uma proposição alternativa a essa teoria. 
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
184
A única coisa que temos que evitar são as estimações ad hoc, ou seja, por tentativa 
e erro. 
Ao selecionar o modelo 1.11, partimos dos quadros 5, 6 e 7, que já nos 
indicavam que estas duas variáveis estavam prejudicando os resultados do 
nosso modelo de regressão. Da mesma forma, o teste RESET confirmou que a 
escolha por 1.11 é a melhor escolha, considerando que dessa forma o modelo está 
corretamente especificado.
LEITURA COMPLEMENTAR
Métodos Quantitativos em Contabilidade: A Contabilometria
Carlos Cesar D'Arienzo
O raciocínio do Prof. Iudícibus segue a série de cuidados (estatísticos e 
econômicos) nomeados por Barbancho (1970, p. 34) quanto ao uso inapropriado 
da Econometria para todos os fins nos campos das Ciências Econômicas e apesar 
de todos os seus avanços como técnica, ao enumerá-los:
Ordem Estatística: dificuldade de dar tratamento a alguns tipos 
de modelos não lineares; autocorrelação observada entre os termos 
residuais; erros de observações nas variáveis; amostras pequenas e ou não 
representativas; intercorrelação entre as variáveis explicativas, impedindo 
o pleno conhecimento da verdadeira relação (multicolinearidade).Ordem 
Econômica: dificuldade de incorporar aos modelos fatores subjetivos 
como atitudes, opiniões, expectativas, intenções; problema de classificação 
de variáveis em endógenas e exógenas, ou seja, dificuldade de estabelecer 
a direção do efeito das variáveis; problema de especificação da teoria e 
dos erros (grifo do autor).
Contudo, deve-se entender que o profissional de Contabilidade, disposto a 
trabalhar com elementos de Contabilometria, necessita desenvolver conhecimentos 
de Elementos de Técnicas Computacionais, Economia e Administração, além de 
conhecimentos específicos de Matemática e Estatística, tais como: funções, derivadas, 
máximos e mínimos de funções, limites, integrais, determinantes, matrizes, séries, 
medidas de tendência central e de dispersão, amostragem, probabilidade, teste de 
hipótese, correlação, análise de regressão e análise de variância.
O Prof. Iudícibus adverte quanto ao uso puro e simples da Econometria 
como suporte à Contabilometria em sua fase nascente, notadamente em relação 
às diferenças (às vezes sutis) entre as Teorias Econômicas e Contábeis, sobre, por 
exemplo, a natureza dos Custos de Produção.
As advertências expostas pelo Professor Iudícibus (1982), referentes à 
comparação entre Teorias Contábeis e as Econômicas, são compartilhadas por 
Vasconcellos e Oliveira (2000, p. 149).
TÓPICO 1 | MULTICOLINEARIDADE
185
O Prof. Iudícibus (1982, p. 45) prossegue em suas observações quanto 
às limitações da analogia envolvendo Econometria e as especulações sobre a 
nascente Contabilometria:
[...] precisamos verificar se a definição de Econometria dada linhas 
acima poderia ser transplantada para a Contabilidade. Assim, 
Contabilometria seria: a análise, quantitativa de 'fenômenos 
contábeis' reais baseada no desenvolvimento concomitante da teoria 
e da observação, relacionados através de métodos apropriados de 
inferência. Bem, temos, aparentemente, um problema aqui. A rigor, 
deveríamos ter 'fenômenos contábeis reais' para sermos exatamente 
simétricos com a definição de Econometria. Talvez nem tivéssemos 
Contabilidade se dependêssemos apenas de genuínos fenômenos 
contábeis reais, pois a maior parte dos 'fatos contábeis' decorre 
de fenômenos econômicos (transações) reais ou, na apreciação de 
relatórios periódicos, da agregação de vários fatos ocorridos em vários 
momentos de tempo. É preciso ressaltar, todavia, que os dois conjuntos 
(fenômenos econômicos e fatos contábeis) não são isomórficos.
Nesse sentido, Barre (1964, p. 27) adverte sobre a tentativa de isolarem-
se ramos da Ciência: "[...] Autonomia não significa independência e implica 
colaboração e convergência de esforços". Afinal, é a organização do Conhecimento 
e a avaliação das precedências das teorias e técnicas, que fornecem a base para o 
trabalho científico, mesmo de disciplinas nascentes ou ainda incipientes, caso da 
Contabilometria.
FONTE: <http://www.administradores.com.br/artigos/economia-e-financas/metodos-quantitativos-
em-contabilidade-a-contabilometria-7/60532/>. Acesso em: 17 jun. 2018.
186
Neste tópico, você aprendeu que: 
• Ao estimar um modelo de regressão múltiplo, se violarmos a hipótese 3 
do modelo clássico de regressão linear, nos deparamos com o problema da 
colinearidade ou multicolinearidade, ou seja, as colunas da matriz de variáveis 
explicativas, X, são correlacionadas, deixando de ser independentes.
• O problema da colinearidade está relacionado ao banco de dados, e pode ser 
gerado pelo próprio pesquisador, e mesmo assim os estimadores de mínimos 
quadrados mantêm a propriedade desejável de melhores estimadores lineares 
não tendenciosos.
• Para detectar o problema de colinearidade estimamos do Fator de Inflação 
da Variância e adotamos o procedimento proposto por Belsley, Kuh e Welsch 
(1980), que gera um resultado mais preciso.
• Para superar o problema, devemos ampliar a base de dados e/ou testar formas 
funcionais alternativas, usando os critériosde informação já discutidos na 
Unidade 2 como base para a escolha do modelo mais parcimonioso.
RESUMO DO TÓPICO 1
187
Para esta atividade, vamos usar os dados originais de Longley (1967). 
Para isso, abra o Gretl e acesse o menu “Arquivo”, “Abrir dados”, “Arquivo de 
exemplos...”. Selecione a aba “Gretl” e procure por “longley”, dando um duplo 
clique. Através deste arquivo, temos dados anuais para o período entre 1947 e 
1962 e se referem a:
AUTOATIVIDADE
Variável: Descrição.
employt: Número de pessoas empregadas, em milhares.
prdeflt: Deflator implícito do PNB.
gnpt: Produto Nacional Bruto (PNB).
unempt: Número de pessoas desempregadas, em milhares.
armfrct: Número de pessoas nas forças armadas.
popt: Número de pessoas com mais de 14 anos de idade.
yeart: 
Variável que assume valor igual a 1947 para o primeiro ano da série, 1947, e assim 
sucessivamente até 1962.
1 Plote a matriz de correlação dos dados, a partir da tela inicial do Gretl, 
no menu “Ver”, “Matriz de correlação”, selecionando apenas as variáveis 
explicativas. Com base na informação apresentada, você diria que existe 
problema de colinearidade entre algumas variáveis? Quais são as variáveis 
que aparentam ter colinearidade?
2 Com base nos dados e nas informações do quadro apresentado, estime o 
seguinte modelo de regressão, apresentando os resultados dos coeficientes 
estimados, os erros padrão e os p – valor, indicando para quais variáveis os 
estimadores são estatisticamente significativos:
employt = β1 + β2prdeflt + β3gnpt + β4unempt + β5armfrct + β6popt + β7yeart + ut
3 Volte à tela do modelo estimado e faça a análise de colinearidade a partir 
do menu “Análise” e depois “Colinearidade”, plotando os resultados. Esses 
resultados confirmam a suspeita de colinearidade apresentada pela matriz 
de correlação da Questão 1? Quais variáveis são colineares?
4 Estime os seguintes modelos de regressão e avalie se a multicolinearidade 
persiste:
employt = β1 + β2unempt + β3armfrct + β4yeart + ut (1)
employt = β1 + β2unempt + β3armfrct + ut (2)
188
189
TÓPICO 2
HETEROSCEDASTICIDADE
UNIDADE 3
1 INTRODUÇÃO
Neste tópico, veremos o que acontece com os parâmetros do modelo de 
mínimos quadrados ordinários quando violamos a hipótese de homoscedasticidade 
dos resíduos. Veremos quais as implicações desse problema, estudaremos formas 
de detectá-lo e como superá-lo.
A homoscedasticidade pressupõe que Var[εi|X] = σ2, para i = 1, 2, ..., n 
é um número finito e constante para cada termo de erro. Por sua vez, os erros 
heteroscedásticos apresentam Var[εi|X] = σi2 , para cada i = 1, 2, ..., n.
Para entender esse conceito de forma prática, imagine que você coletou 
dados sobre consumo e renda em vários bairros da sua cidade. Nessa coleta, você 
entrevistou famílias das mais variadas rendas e padrões de consumo. Há famílias 
que praticamente gastam toda a sua renda, enquanto outras gastam uma pequena 
parcela. Isso ocorre porque há uma variabilidade muito grande de padrões de 
vida na cidade.
GRÁFICO 1 – DISTRIBUIÇÃO CONDICIONAL DOS TERMOS DE ERRO
FONTE: O autor
190
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Se tirarmos a média do consumo para cada faixa de renda, E(Y|Xi), e 
conectarmos essas médias traçando uma reta, teremos a chamada reta de regressão, 
ou curva de regressão, vista na Unidade 1. No Gráfico 1 representamos essa reta de 
regressão associada à equação Yi = β1 + β2Xi. 
Analogamente, se analisarmos empresas de diferentes tamanhos e 
calcularmos a renda média de cada uma delas, e se além da renda média 
obtivermos uma medida de dispersão, por exemplo, o desvio padrão, veremos 
que a dispersão em torno do valor médio aumenta conforme o tamanho da 
empresa aumenta. Esperamos que empresas com quatro funcionários tenham 
uma dispersão em torno do valor médio muito menor do que aquelas com mais 
de 300 empregados.
Isso ocorre porque, ao trabalharmos com dados de corte, temos que ter 
em mente que estamos lidando com indivíduos, ou seja, com agentes econômicos 
individuais. Esses agentes podem ser pessoas, empresas, países, municípios etc., 
e cada um deles tem características próprias, ou seja, são heterogêneos.
Se todos os agentes fossem iguais, teríamos sempre um desenho 
semelhante ao do Gráfico 1. Dito de outra forma, a dispersão em torno do valor 
médio na população seria a mesma para cada indivíduo. É exatamente essa 
homogeneidade que caracteriza a homoscedasticidade, cuja origem vem do grego 
e tem um sentido de espalhamento homogêneo em torno do valor médio.
Mas, por estarmos lidando com indivíduos heterogêneos, esperamos que 
desenhos como o do Gráfico 1 sejam mais exceção do que regra. Por esse motivo, e 
como uma das hipóteses do modelo clássico de regressão linear supõe que os erros 
sejam homoscedásticos, tomaremos o máximo de cuidado para que a estimação do 
nosso modelo de regressão não viole essa hipótese do modelo clássico. Caso seja 
violada, adotaremos medidas corretivas adequadas para cada situação.
2 A NATUREZA DA HETEROSCEDASTICIDADE
Na construção dos nossos modelos econométricos, partimos de casos 
simples, como:
2.1Yi = β1 + β2Xi + εi
Em que Yi é a variável dependente, Xi é a variável explicativa, β1 o intercepto 
dessa equação linear (normalmente sem significado econométrico importante), 
β2 o coeficiente angular (ou quanto varia Yi se Xi variar uma unidade) e εi é o 
termo de erro aleatório, com função densidade de distribuição normal, E(εi|Xi) = 
0, Var(εi|Xi) = E(εi2|Xi) = σ2 e Cov(εi, εi–j|Xi, Xi–j) = 0.
TÓPICO 2 | HETEROSCEDASTICIDADE
191
2.2y = Xβ + ε
Se usarmos o método de mínimos quadrados ordinários em 2.1, 
obteremos os melhores estimadores lineares não tendenciosos dentro da classe 
dos estimadores lineares não tendenciosos. Em outras palavras, os estimadores 
serão BLUE (ver as hipóteses do modelo clássico na Unidade 1 e o teorema de 
Gauss-Markov).
Isso se aplica tanto ao modelo 2.1, estudado na Unidade 1, quanto ao 
modelo 2.2, que trata do caso geral ou do modelo de regressão múltiplo, visto na 
Unidade 2:
No caso de 2.2, aplicando as hipóteses do modelo clássico, ( )X X X' yβ̂ −′= 1 , 
E(ε|X) = 0 e E[εε'|X] = σ2I. Porém, se violarmos a hipótese de homoscedasticidade 
dos resíduos, ou seja, na presença de heteroscedasticidade, Var[εi|X] = E[εε'|X] 
= σi2, para cada i = 1, 2, ..., n. Neste caso, ainda estamos supondo que os erros são 
não correlacionados, mas, no Tópico 3, essa hipótese será revista. Em termos de 
matrizes, podemos escrever:
2.3
n n
E |X
ω σ
ω σ
εε σ σ
ω σ
  
  … …    = Ω = =    
  
    
′
 
2
1 1
2
2 2 2 2
2
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
 
         
 
Em que n é o número de observações e E[εε'|X] = σ2Ω. Para o modelo 
clássico, a homoscedasticidade implica que a matriz Ω tem valor igual a 1 na 
diagonal principal, ou seja, ω1 = 1, i = 1, 2, ..., n, e nesse caso, fazemos E[εε'|X] = 
σ2I. Caso os erros sejam heteroscedásticos, a matriz Ω tem valores diferentes para 
cada posição da sua diagonal principal, e assim escrevemos E[εε'|X] = σ2ωi = σi2.
O Gráfico 2 nos ajuda a ter uma ideia visual da heteroscedasticidade. 
Perceba que, à medida que as variáveis dependente e explicativa se tornam 
cada vez maiores, fica mais difícil prever uma em função da outra, porque a 
variabilidade ou dispersão se torna cada vez maior.
192
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
GRÁFICO 2 – EXEMPLO DE HETEROSCEDASTICIDADE
FONTE: O autor
Teremos a oportunidade de verificar isso na prática através de um 
exemplo com dados reais da economia brasileira. Dessa forma, procuraremos 
apresentar não apenas técnicas para detectar a sua presença, mas também 
alternativas para superá-la.
3 DETECTANDO O PROBLEMA DA HETEROSCEDASTICIDADE
Na Unidade 2, nós usamos o arquivo Wage1, fornecido por Wooldridge 
(2016) paraverificar se havia discriminação em relação ao gênero feminino em 
1976. Vamos voltar agora a esse exemplo, estimando um modelo com apenas uma 
variável explicativa, representado a seguir:
2.4wagei = β1 + β2educi + εi
Em que β1 e β2 são os parâmetros a serem estimados, εi é o termo de erro, 
o qual supomos ter distribuição normal com média zero e variância constante, 
εi~N(0, σ2), wagei é o salário-hora recebido pelos trabalhadores e educi os anos de 
educação formal de cada trabalhador.
Vamos começar a nossa análise com o gráfico de dispersão entre as 
variáveis dependente e explicativa, conforme o Gráfico 3:
TÓPICO 2 | HETEROSCEDASTICIDADE
193
GRÁFICO 3 – GRÁFICO DE DISPERSÃO ENTRE wage
i
 e educ
i
FONTE: O autor
À medida que a renda e o tempo de educação formal aumentam, a dispersão 
em torno do valor médio também aumenta. Notou? Sabemos que os indivíduos são 
heterogêneos e já esperávamos um comportamento parecido com esse.
Estimando o modelo de regressão 2.4 por mínimos quadrados ordinários, 
obtivemos os resultados do Quadro 12.
QUADRO 12 – RESULTADO DA ESTIMAÇÃO DE 2.4 POR MÍNIMOS QUADRADOS ORDINÁRIOS
Modelo 1: MQO, usando as observações 1-526
Variável dependente: wage
 coeficiente erro padrão razão-t p-valor 
 ----------------------------------------------------------
 const −0,904852 0,684968 −1,321 0,1871 
 educ 0,541359 0,0532480 10,17 2,78e-022 ***
Média var. dependente 5,896103 D.P. var. dependente 3,693086
Soma resíd. quadrados 5980,682 E.P. da regressão 3,378390
R-quadrado 0,164758 R-quadrado ajustado 0,163164
F(1, 524) 103,3627 P-valor(F) 2,78e-22
Log da verossimilhança −1385,712 Critério de Akaike 2775,423
Critério de Schwarz 2783,954 Critério Hannan-Quinn 2778,764
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1%, respectivamente.
FONTE: O autor
194
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Perceba que a constante não é estatisticamente significativa, enquanto β̂2 
é estatisticamente diferente de zero. O R2 é baixo, mas, se não conhecêssemos 
um pouco de econometria, olharíamos o Quadro 12 e acreditaríamos que de um 
modo geral, o resultado encontrado é bom.
Precisamos verificar se não há problemas de heteroscedasticidade, ou 
seja, devemos investigar se os resíduos estimados são homoscedásticos. Como 
vimos anteriormente, em 2.3, precisamos verificar se a matriz E[εε'|X] = σ2ωi. Se 
ωi = 1 para cada i = 1, 2, ..., n, não temos com o que nos preocupar, porque neste 
caso os erros são homoscedásticos.
O problema é que só teremos acesso a σ2ωi, se tivermos a nossa disposição 
toda a população de dados. Como estamos usando apenas uma amostra, não 
podemos examinar essa matriz diretamente. Por isso, aplicaremos alguns testes, 
tanto formais quanto informais, tendo em mente que o estimador de βk é um 
estimador consistente, mesmo na presença de heteroscedasticidade.
Para fazer isso, usaremos os resíduos estimados, porque na presença de 
heteroscedasticidade, o método de mínimos quadrados ordinários gera resíduos 
que imitarão, mesmo que de forma imprecisa por causa da variabilidade amostral, a 
heteroscedasticidade dos verdadeiros erros populacionais (GREENE, 2012, p. 315).
Vimos no Gráfico 3 que a renda aumenta à medida que os anos de 
educação formal aumentam. Por isso, agora que estimamos o modelo por 
mínimos quadrados ordinários, o próximo passo é plotar um gráfico dos resíduos 
quadrados contra a variável explicativa e ver se detectamos algum padrão de 
comportamento. Se os resíduos são homoscedásticos, não devemos observar 
nenhum padrão de comportamento, mas a aleatoriedade dos dados.
GRÁFICO 4 – GRÁFICO DE DISPERSÃO ENTRE iû
2 e educi
FONTE: O autor
TÓPICO 2 | HETEROSCEDASTICIDADE
195
O Gráfico 4 apresenta o gráfico de dispersão dos resíduos quadrados contra a 
variável educi. Para obter a série de iû
2, você deve selecionar o menu “Salvar”, na janela 
do modelo estimado, e na sequência escolher “Resíduos quadrados”. Na tela inicial 
do Gretl, você deve selecionar o menu “Ver”, depois escolher “Gráfico das variáveis” 
e depois “X-Y em dispersão”. Você informa a variável educi no eixo X e iû
2 no eixo Y.
O que essa figura nos revela? Se o gráfico de dispersão apresentasse um 
comportamento parecido com o que vemos até os sete anos de educação formal, 
poderíamos supor que não há problemas de heteroscedasticidade, porque aquele 
comportamento é totalmente aleatório. Porém, à medida que os anos de educação 
aumentam, temos um aumento da dispersão, o que levanta a suspeita de que os 
resíduos não são homoscedásticos.
O problema de usar esse método é que ele não é muito preciso e deixa margem 
para interpretação. A pergunta que fica é: Qual é o padrão que deveríamos encontrar? 
A resposta é simples e pode ser vista no Gráfico 5. Como podemos ver, esperamos 
encontrar resíduos bem-comportados, sem um padrão definido. Caso tenhamos 
qualquer coisa diferente disso, podemos suspeitar da presença de heteroscedasticidade.
GRÁFICO 5 – PADRÃO DE RESÍDUOS HOMOSCEDÁSTICOS
FONTE: O autor
A visualização gráfica é um método informal, de fácil e rápida 
implementação, mas que pode nos induzir ao erro. Há outros métodos mais 
eficientes e, com o uso do software, devem ser escolhidos em detrimento de 
qualquer conclusão tomada com a simples observação gráfica.
Dentre os testes formais que podem ser implementados, os manuais 
de econometria geralmente apresentam o teste de Park, Glejser, coeficiente de 
correlação de Spearman, Goldfeld-Quandt, Breusch-Pagan-Godfrey, teste geral 
de heteroscedasticidade de White, além de outros.
196
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
FIGURA 1 – EDITOR DE SCRIPTS DO GRETL
FONTE: Adaptado de Gretl (2018)
Nesse Livro de Estudos trabalharemos com os três mais empregados na 
literatura, começando com o teste de Goldfeld-Quandt. O problema é que para 
esse teste não temos rotina pronta no Gretl. Um pouco de esforço manual será 
requerido para executar o teste.
O teste de Goldfeld-Quandt requer um procedimento em etapas, que 
pode ser visto em Hill, Griffiths e Judge (2010, p. 284) e que resumiremos a seguir:
1. Ordene os dados em ordem crescente de acordo com os valores de educi, e 
então divida a amostra em duas partes iguais.
2. Estime um modelo de regressão para cada uma das subamostras, e obtenha σ̂ 21 
e σ̂ 22 a partir dos erros estimados.
3. Testamos a hipótese nula, H ˆ: σ̂ σ=2 20 1 2, resíduos homoscedásticos, contra a 
hipótese alternativa, H ˆ: σ̂ σ≠2 21 1 2, resíduos heteroscedásticos. Para aplicar 
o teste de hipótese, calculamos GQ
ˆ
ˆ
σ
σ
=
2
1
2
2
, que segue uma distribuição F com 
N1 – K1 graus de liberdade no numerador e N2 – K2 graus de liberdade no 
denominador, em que T1 e T2 é o tamanho das subamostras e K1 e K2 é a 
quantidade de parâmetros beta estimados em cada regressão.
Para evitar cometer erros nesses procedimentos, podemos abrir o “Editor 
de Scripts” do Gretl e digitar os comandos do Quadro 13:
TÓPICO 2 | HETEROSCEDASTICIDADE
197
No script do Quadro 13, temos as linhas de comando necessárias para 
testar a hipótese de que os resíduos são homoscedásticos, seguindo os passos 
descritos. Começamos obtendo uma subamostra, estimamos uma regressão por 
MQO e salvando o �σ 1. Note que não salvamos a variância da primeira subamostra, 
mas o desvio padrão. O resultado obtido é o mesmo se usássemos a variância, 
e implementar o teste dessa forma é mais prático, motivo pelo qual estamos 
procedendo dessa maneira.
Depois repetimos o procedimento para a segunda subamostra e 
finalizamos calculando a estatística de Goldfeld-Quandt, gerando inclusive o p 
– valor, para facilitar a nossa interpretação. Para executar o comando, selecione o 
botão executar (Figura 2, adiante) ou digite CTRL + R.
QUADRO 13 – TESTE DE GOLDFELD-QUANDT
# TOMAR A PRIMEIRA SUB AMOSTRA
smpl educ > median(educ) --restrict
# ESTIMARA PRIMEIRA SUB AMOSTRA POR MQO
ols wage const educ
# SALVAR O ERRO PADRÃO DA PRIMEIRA SUB AMOSTRA
scalar stdL = $sigma
# SALVAR O NÚMERO DE GRAUS DE LIBERDADE DA PRIMEIRA SUB AMOSTRA
scalar df_L = $df
# RESTAURAR A AMOSTRA COMPLETA
smpl full
# TOMAR A SEGUNDA SUB AMOSTRA
smpl educ < median(educ) --restrict
# ESTIMAR A SEGUNDA SUB AMOSTRA POR MQO
ols wage const educ
# SALVAR O ERRO PADRÃO DA SEGUNDA SUB AMOSTRA
scalar stdS = $sigma
# SALVAR O NÚMERO DE GRAUS DE LIBERDADE DA SEGUNDA SUB AMOSTRA
scalar df_S = $df
# CALCULAR A ESTATÍSTICA DE GQ
scalar fstatistic = stdL^2/stdS^2
# OBTER O P-VALOR DA ESTATÍSTICA
pvalue F df_L df_S fstatistic
# RESTAURAR A AMOSTRA COMPLETA
smpl full
FONTE: O autor
198
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
# CALCULAR A ESTATÍSTICA DE GQ
? scalar fstatistic = stdL^2/stdS^2
Escalar fstatistic substituído = 3,98399
# OBTER O P-VALOR DA ESTATÍSTICA
? pvalue F df_L df_S fstatistic
F(210, 114): área à direita de 3,98399 = 1,28023e-014
(à esquerda: 1)
Sob a hipótese nula de que erros homoscedásticos, com p – valor = 1,28023e 
– 014, ou seja, 0,0000, podemos rejeitar H0 em favor da hipótese alternativa e 
concluir que temos problema de heteroscedasticidade nos resíduos da regressão. 
Em termos práticos, isso significa que o resultado obtido a partir da 
estimação do modelo 2.4 por mínimos quadrados ordinários não pode ser usado 
para previsão e controle. Afinal, na presença de heteroscedasticidade, as estatísticas 
de teste, que usamos para verificar se os betas estimados são estatisticamente 
significativos, podem ser enganosas (HILL; GRIFFITHS; JUDGE, 2010, p. 284).
FIGURA 2 – EXECUTANDO O SCRIPT PARA O TESTE DE GOLDFELD-QUANDT
FONTE: Adaptado de Gretl (2018)
O Gretl abrirá uma janela com o resultado de cada uma das linhas digitadas 
nesse Script. O que nos interessa são as linhas destacadas abaixo:
TÓPICO 2 | HETEROSCEDASTICIDADE
199
O outro teste formal que podemos usar é o teste de Breusch-Pagan, e para 
tal considere o seguinte modelo de regressão:
2.5Yi = β1 + β2Xi + εi
2.6σi2 = f(γ + δZi)
Em que a variância do erro heteroscedástico é σi2, dada por:
Em que Zi pode ser a variável explanatória Xi ou quaisquer outras variáveis 
explanatórias diferentes de Xi. A implementação do teste é simples, e a partir 
da estimação de 2.5 por mínimos quadrados ordinários, obtemos os resíduos, 
elevando-os ao quadrado para estimar i
N
ˆ
ˆ εσ
∑
=
2
2 , que é o estimador de máxima 
verossimilhança da variância populacional, σ2.
Feito isso, estimamos a regressão:
2.7i i i
ˆ
ˆ
Z
ε
γ δ υ
σ
= + +
2
2
Como define Pindyck e Rubinfeld (2004, p. 177), se εi em 2.5 tem distribuição 
normal, obtemos a soma dos quadrados explicada pela regressão dividida por 
dois, SQE
2
, e comparamos a uma tabela de distribuição Qui-Quadrado com o 
número de graus de liberdade igual ao número de variáveis explicativas Zi em 
2.7, sob a hipótese nula de que os resíduos são homoscedásticos.
No Gretl é fácil implementar o teste. A partir da janela do modelo estimado, 
vista no Quadro 11, selecionamos o menu “Testes”, na sequência escolhemos 
“Heteroscedasticidade” e depois “Breusch-Pagan”. O resultado é mostrado no 
Quadro 14.
200
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 14 – RESULTADO DO TESTE BREUSCH-PAGAN PARA O MODELO 2.4
Teste de Breusch-Pagan para a heteroscedasticidade
MQO, usando as observações 1-526
Variável dependente: 'uhat^2' escalada
 coeficiente erro padrão razão-t p-valor 
 ---------------------------------------------------------
 const −1,01959 0,521836 −1,954 0,0513 *
 educ 0,160760 0,0405665 3,963 8,43e-05 ***
 Soma dos quadrados explicada = 104,032
Estatística de teste: LM = 52,016231,
com p-valor = P(Qui-quadrado(1) > 52,016231) = 0,000000
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância 
estatística.
FONTE: O autor
Como a hipótese nula é da existência de homoscedasticidade, percebemos 
que com um p – valor = 0,000000, podemos rejeitá-la a favor da hipótese alternativa 
de que os erros são heteroscedásticos.
Lembrando que o teste de Breusch-Pagan supõe que os resíduos de 2.4 
têm distribuição normal. Deixaremos para você confirmar essa hipótese, e que 
essa é uma restrição forte, portanto, caso não tenha distribuição normal, não 
podemos empregar esse teste.
Caso os resíduos em 2.4 não tenham distribuição normal, devemos 
empregar o teste de White, que é mais robusto do que o teste de Breusch-Pagan, 
ao mesmo tempo em que se assemelha a ele.
Para entender o teste de White, partimos do modelo 2.5, e em vez de 
estimarmos a regressão 2.7, estimaremos a regressão 2.8:
2.8i i iˆ Zε γ δ υ= + +
2
A partir do resultado dessa regressão, obtemos o R2 e o multiplicamos 
pelo tamanho da amostra, para compará-lo à tabela Qui-Quadrado com o número 
de graus de liberdade igual à quantidade de variáveis explicativas Zi em 2.8. A 
hipótese nula desse teste é que os erros são homoscedásticos.
O resultado do teste aplicado ao modelo 2.4 está no Quadro 14 e foi obtido 
a partir do menu “Testes”, “Heteroscedasticidade” e “Teste de White”, na janela 
do modelo estimado (Quadro 11).
TÓPICO 2 | HETEROSCEDASTICIDADE
201
QUADRO 15 – RESULTADO DO TESTE DE WHITE
Teste de White para a heteroscedasticidade
MQO, usando as observações 1-526
Variável dependente: uhat^2
 coeficiente erro padrão razão-t p-valor
 --------------------------------------------------------
 const 21,1175 12,8198 1,647 0,1001 
 educ −4,12530 2,12211 −1,944 0,0524 *
 sq_educ 0,254284 0,0885068 2,873 0,0042 ***
 R-quadrado não-ajustado = 0,044184
Estatística de teste: TR^2 = 23,240557,
com p-valor = P(Qui-quadrado(2) > 23,240557) = 0,000009
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância 
estatística.
FONTE: O autor
Podemos ver no Quadro 15 que a hipótese de homoscedasticidade 
é rejeitada (leia o p – valor). Com isso, empregamos três testes estatísticos e 
chegamos à mesma conclusão. Os resíduos do modelo 2.4 são heteroscedásticos. 
Na prática, poderíamos empregar apenas o teste de White, que além de ser o mais 
empregado em verificações empíricas, é também o mais robusto.
Há uma série de outros testes que podem ser empregados para verificar a 
existência de homoscedasticidade. Pindyck e Rubinfeld (2004), Gujarati e Porter 
(2011), Maddala (2003), entre outros, apresentam os testes de Goldfeld-Quandt, 
Park, Glejser e Koenker-Bassett. Porém, optamos por seguir Greene (2012, p. 315), 
apresentando os testes de White e Breucsh-Pagan, e acrescentando o teste de 
Goldfeld-Quandt.
4 RESOLVENDO O PROBLEMA DA HETEROSCEDASTICIDADE 
– O MÉTODO DOS MÍNIMOS QUADRADOS 
GENERALIZADOS
Agora que sabemos que o nosso modelo estimado tem problema de 
heteroscedasticidade, precisamos saber o que fazer para gerar estimadores não 
tendenciosos, consistentes e eficientes. Antes de apresentar as técnicas empregadas 
para superar o problema da heteroscedasticidade, é importante sabermos por quê 
devemos nos preocupar com a sua existência. Vimos na Unidade 2 que:
2.9y = Xβ + u
202
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Em 2.9 aplicamos o método de mínimos quadrados ordinários e obtemos 
a estimativa do vetor de parâmetros β:
2.10( ) 'X X X yβ̂ −′= 1
Vimos também na Unidade 2 que, o estimador em 2.10 é obtido por 
amostragem e deve ser não tendencioso. Dito de outra forma, à medida que 
obtemos diversas amostras, em média o valor estimado do parâmetro tende ao 
verdadeiro valor encontrado na população:
2.11E β̂ β  = 
Além de não viesado, ele também é eficiente, ou seja, tem variância 
mínima:
2.12( )Var X Xβ̂ σ −  =  ′
12
Também vimos que, pelas propriedades dos estimadores de mínimos 
quadrados, a matriz de variância e covariância é dada por:
2.13E |X Iεε σ  = ′ 
2
E pode ser escrita como:
2.14E |Xεε σ  = Ω′
2
Emque a matriz Ω tem em sua diagonal principal ωi, e supondo que os 
erros são homoscedásticos, ωi = 1, para cada i = 1, 2, ..., n, ou seja, é a mesma 
matriz identidade que geralmente representamos por I, quando assume valor de 
1 para cada elemento da diagonal principal.
Já sabemos que se a hipótese da homoscedasticidade não se confirmar, 
dizemos que estamos diante do problema da heteroscedasticidade, ou seja, a 
variância dos erros não é um número finito e constante, como gostaríamos, e essa 
violação de uma das hipóteses básicas do modelo de regressão traz as seguintes 
implicações, conforme Hill, Judge e Griffiths (2010, p. 276):
TÓPICO 2 | HETEROSCEDASTICIDADE
203
2.10( ) 'X X X yβ̂ −′= 1
Sabemos por definição que y = Xβ + ε, podemos fazer a substituição em 
2.10 para obter:
2.15( ) ( )ˆ X X X Xβ β ε−′ ′= +1
2.16( ) ( )Xˆ X X X X X Xβ β ε− −= ′ ′+′ ′1 1
Por definição, (X'X)–1 X'X = I, logo,
2.17( )Xˆ X Xβ β ε−′= ′+ 1
1. Os estimadores do vetor de parâmetros β permanecem não tendenciosos, 
porém agora são ineficientes (deixam de ser os melhores estimadores lineares 
não tendenciosos).
2. Como as variâncias estimadas dos parâmetros são tendenciosas, os erros 
padrão são incorretos, nos levando a estimar intervalos de confiança e fazer 
testes de hipótese enganosos.
A ineficiência pode ser vista facilmente a partir de 2.10:
Assim, 
2.18( )Xˆ X Xβ β ε−′− ′= 1
Podemos obter a variância de β̂1 como:
2.19( ) ( )
''
Var E E Xˆ X Xˆ ˆ X X Xβ β β β β ε ε
− −        = − − =       ′   
′ ′

′
 
1 1
E finalmente,
2.20( ) ( )'Var E[ X X ]ˆ X 'X X Xβ εε− −  = ′ ′
1 1
204
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Em termos de 2.14, escrevemos E[εε'] = Ω, e, portanto:
2.21( ) ( )Var X X ' X X Xˆ Xβ − − ′= Ω ′
1 1
Em 2.11 e 2.17, vemos claramente que, na presença de heteroscedasticidade, 
se ε tem distribuição normal:
2.22( ) ( )~ N , X X X X Xˆ Xβ β − − Ω  ′ ′ ′
1 1
Se os erros forem homoscedásticos, sabemos que em 2.21, (X'X)–1X'X = I, 
portanto, ( )Var X Xβ̂ −  = Ω  ′
1
, com Ω = σ2I. Mas, se os erros forem heteroscedásticos, 
a variância é dada por 2.21, com Ω tendo na sua diagonal principal ωi assumindo 
valores diferentes de 1. Claramente, o resultado em 2.21 é bem diferente daquele 
que obteríamos na presença de erros homoscedásticos, ou seja, ( )Var X Xβ̂ σ −  =  ′
12 . 
Feitas essas considerações iniciais, devemos agora corrigir esse problema, 
e assim, estimaremos β, usando o método de mínimos quadrados ponderados. O 
primeiro passo é identificar a sua origem, mas, para isso, precisamos conhecer σi2, 
ou seja, os valores de ωi na matriz Ω.
Supondo que conhecemos σi2, podemos aplicar o método de mínimos 
quadrados ponderados seguindo os seguintes procedimentos:
2.23Yi = β1 + β2X2i + εi
2.24Yi = β1X1i + β2X2i + εi
Cujos erros εi são heteroscedásticos, apresentando Var(εi) = σi2. Seguindo 
Gujarati e Porter (2011, p. 376), podemos reescrever 2.23 como:
Em que X1i = 1 para cada i = 1, 2, ..., n. Devemos dividir 2.24 pela raiz 
quadrada de σi2 (ou seja, o seu desvio padrão) para obter:
2.25
ε
β β
σ σ σ σ
     
= + +     
     
1 2
2
i i i i
i i i i
Y X X
TÓPICO 2 | HETEROSCEDASTICIDADE
205
Para melhor visualizarmos, podemos reescrever como:
2.26β β ε= + +1 1 2 2
* * * * * *
i i i iY X X
Estimar 2.26 por mínimos quadrados ordinários é o que chamamos de 
estimação por mínimos quadrados ponderados. Isso significa que ponderamos as 
variáveis pelo desvio padrão σi. Porém, isso só é possível se realmente tivermos 
acesso a toda a população, ou seja, se soubermos o valor de σi . 
Como na prática não temos esse acesso, podemos usar outros ponderadores. 
Caso o desenho do gráfico de dispersão dos resíduos e da variável explicativa 
revelar que a variância de εi seja algum padrão, por exemplo, ε σ  = 
2
i iVar X , 
ε σ  = 
2 2
i iVar X ou ε σ  = 
2
i iVar X , fazemos a transformação dos dados de forma 
que o novo termo de erro tenha variância constante.
Isso é fácil de se observar porque:
2.27
ε
ε σ σ
    = → = 
2 2 i
i i
i
Var
Var X
X
2.28
ε
ε σ σ
    = → = 
2 2 2
2
i
i i
i
Var
Var X
X
2.29
ε
ε σ σ
    = → = 
2 2 i
i i
i
Var
Var X
X
Para saber qual o padrão da variância heteroscedástico, você pode plotar 
os resíduos quadrados contra a variável explicativa, Xi. 
Como aplicação prática, vamos retomar o nosso modelo 2.4:
2.4β β ε= + +1 2i i iwage educ
Primeiramente rodamos o modelo por mínimos quadrados ordinários 
e salvamos os resíduos quadrados, como fizemos no Gráfico 4. Podemos notar 
que é difícil identificar um padrão bem definido e, portanto, como exercício, 
tentaremos a opção 2.29, escolhendo educi como peso para o modelo 2.4.
206
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
2.30β β ε= + +1 2
1 1i i
i
i i i i
wage educ
 
educ educ educ educ
Ou, de forma mais simples:
2.31β β ε= + +1 2
* * * *
i i iwage educ
Em que β β ε ε= = = =1 1
1 1* * * *i i
i i i i
i i i i
wage educ
wage , , educ e 
educ educ educ educ
.
A estimação é feita através do menu “Modelo”, “Outros modelos 
lineares” e “Mínimos quadrados ponderados”. A Figura 3 apresenta a tela com a 
especificação do modelo 2.31.
Você deve ter em mente que o Gretl tem uma rotina pronta para estimar 
pelo método de mínimos quadrados ponderados. Ele usa como padrão a raiz 
quadrada do peso que você escolher, ou seja, se o peso for Xi, o Gretl usará 
= 1 iW / X . Infelizmente o programa não tem uma rotina pronta para você 
montar os pesos da forma como quiser. Porém, ainda assim é possível fazer isso 
através da digitação de script específico no console do Gretl.
Começamos pela tela inicial do Gretl, em que você deve escolher o menu 
“Acrescentar” e depois selecionar “Definir nova variável”. Escreva na janela que 
abriu a expressão W = 1/educ. 
Depois de definido o peso, podemos estimar a equação 2.30:
TÓPICO 2 | HETEROSCEDASTICIDADE
207
FIGURA 3 – ESPECIFICAÇÃO DO MODELO POR MÍNIMOS QUADRADOS PONDERADOS
FONTE: Adaptado de Gretl (2018)
Preencha as informações conforme a Figura 3 e clique em “Ok” para 
estimar o modelo. Os resultados são apresentados no Quadro 16, os quais você 
deve comparar com o Quadro 12. Perceba que agora a constante é positiva, 
diferente do resultado obtido anteriormente, porém, permanece estatisticamente 
não significativo ao nível de 10%.
Em termos numéricos, o coeficiente estimado da variável educi sofreu 
pequena redução e permanece estatisticamente significativo ao nível de 1%. 
Vamos deixar para você comparar os critérios de informação de Akaike e Schwarz.
208
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 16 – SEQUÊNCIA DE COMANDOS PARA ESTIMAÇÃO POR MÍNIMOS QUADRADOS 
PONDERADOS
Modelo 2: WLS, usando as observações 1-526 (n = 524)
Observações ausentes ou incompletas foram ignoradas: 2
Variável dependente: wage
Variável usada como peso: W
 coeficiente erro padrão razão-t p-valor 
 ----------------------------------------------------------
 const 0,300476 0,556291 0,5401 0,5893 
 educ 0,444437 0,0455620 9,755 9,21e-021 ***
Estatísticas baseadas nos dados ponderados:
Soma resíd. quadrados 448,2860 E.P. da regressão 0,926707
R-quadrado 0,154179 R-quadrado ajustado 0,152558
F(1, 522) 95,15159 P-valor(F) 9,21e-21
Log da verossimilhança −702,6360 Critério de Akaike 1409,272
Critério de Schwarz 1417,795 Critério Hannan-Quinn 1412,610
Estatísticas baseadas nos dados originais:
Média var. dependente 5,905134 D.P. var. dependente 3,697024
Soma resíd. quadrados 5996,897 E.P. da regressão 3,389441
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância 
estatística.
FONTE: O autor
A dúvida que fica é se esse procedimento resolveu o problema da 
heteroscedasticidade. Podemos aplicar novamente o teste de White para verificarisso, porém, na tela do modelo de mínimos quadrados ponderados não será 
possível rodar uma rotina pronta com o teste. Teremos que fazer isso de forma 
manual.
Para fazer isso, volte à tela do modelo 2.31, selecione o menu “Salvar” 
e depois “Resíduos quadrados”. Na tela inicial do Gretl, selecione o menu 
“Acrescentar” e na sequência escolha “Definir nova variável”. Na tela que abrir, 
você escreve a fórmula educ_b = educ/sqrt(educ). Essa variável educ_b é a variável 
educi*, a qual não foi preciso criar antes porque o Gretl fez de forma automática 
para rodar o modelo 2.31.
Agora você deve clicar sobre essa variável e selecionar o menu “Acrescentar” 
e depois “Quadrados das variáveis selecionadas”. Feito isso, rode o modelo 2.8, 
redefinido conforme 2.32, pelo método de mínimos quadrados ordinários:
TÓPICO 2 | HETEROSCEDASTICIDADE
209
2.32ε γ δ δ υ= + + +2 21 2
* *
i i i iˆ educ educ
Os resultados estão no Quadro 17:
QUADRO 17 – TESTE DE WHITE PARA O MODELO DE MÍNIMOS QUADRADOS PONDERADOS
Modelo 3: MQO, usando as observações 1-526 (n = 524)
Observações ausentes ou incompletas foram ignoradas: 2
Variável dependente: usq2
 coeficiente erro padrão razão-t p-valor
 ---------------------------------------------------------
 const 75,2348 46,9679 1,602 0,1098 
 educ_b −55,3531 27,9810 −1,978 0,0484 **
 sq_educ_b 10,4315 4,16927 2,502 0,0127 **
Média var. dependente 11,44446 D.P. var. dependente 30,67728
Soma resíd. quadrados 470027,3 E.P. da regressão 30,03604
R-quadrado 0,045035 R-quadrado ajustado 0,041369
F(2, 521) 12,28477 P-valor(F) 6,12e-06
Log da verossimilhança −2524,876 Critério de Akaike 5055,752
Critério de Schwarz 5068,537 Critério Hannan-Quinn 5060,759
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância 
estatística.
FONTE: O autor
Para testar a hipótese nula de que os erros são homoscedásticos, 
multiplicamos o R2 pelo tamanho da amostra e comparamos o resultado com 
uma tabela Qui-Quadrado, com dois graus de liberdade (número de regressores 
menos a constante). O resultado está em 2.33:
2.33= =2 524 0 045035 23 59834n.R * , ,
Recorrendo a uma tabela de distribuição Qui-Quadrado ou ao menu 
“Ferramentas” e “Tabelas estatísticas” do Gretl, vemos que o valor crítico para 
1% de significância estatística é 10,5966. Portanto, rejeitamos a hipótese nula 
de homoscedasticidade, ou seja, o nosso procedimento não foi suficiente para 
resolver o nosso problema.
Gujarati e Porter (2011, p. 399) sugerem uma transformação logarítmica para 
resolver o problema de heteroscedasticidade. A vantagem de se usar logaritmos 
é o fato de que essa técnica comprime as escalas e isso pode ser suficiente para 
resolver o nosso problema. A questão é que não pode haver valores negativos 
ou zeros. Nesse caso, o Gretl gera valores ausentes. Felizmente, o próprio Gretl 
desconsidera esses valores na hora de rodar a regressão, portanto, contanto que 
210
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
tenhamos uma base suficientemente grande, pode valer a pena perder alguns 
graus de liberdade, mas corrigir o problema da heteroscedasticidade.
Na tela inicial, selecione as variáveis wage e educ. No menu, escolha 
“Acrescentar” e depois “Logaritmo das variáveis selecionadas”. Rode o modelo 
2.34 por mínimos quadrados ordinários:
β β ε= + +1 2i i ilnwage lneduc 2.34
O resultado está no Quadro 18, já com o teste de White. Veja que os 
coeficientes estimados são ambos estatisticamente significativos ao nível de 5% 
de significância estatística. O coeficiente β2ˆ mede a elasticidade do salário em 
relação aos anos de educação, ou seja, um aumento de 1% no tempo de educação 
proporciona uma renda 0,82% maior.
QUADRO 18 – ESTIMAÇÃO DO MODELO LOGARÍTMICO POR MÍNIMOS QUADRADOS 
ORDINÁRIOS
Modelo 4: MQO, usando as observações 1-526 (n = 524)
Observações ausentes ou incompletas foram ignoradas: 2
Variável dependente: l_wage
 coeficiente erro padrão razão-t p-valor 
 ----------------------------------------------------------
 const −0,444677 0,217849 −2,041 0,0417 **
 l_educ 0,825207 0,0864488 9,546 5,19e-020 ***
Média var. dependente 1,624714 D.P. var. dependente 0,531916
Soma resíd. quadrados 125,9833 E.P. da regressão 0,491271
R-quadrado 0,148615 R-quadrado ajustado 0,146984
F(1, 522) 91,11881 P-valor(F) 5,19e-20
Log da verossimilhança −370,0842 Critério de Akaike 744,1684
Critério de Schwarz 752,6914 Critério Hannan-Quinn 747,5061
Teste de White para a heteroscedasticidade -
 Hipótese nula: sem heteroscedasticidade
 Estatística de teste: LM = 8,134
 com p-valor = P(Qui-quadrado(2) > 8,134) = 0,0171287
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância 
estatística.
FONTE: O autor
Pelo teste de White, não podemos rejeitar a hipótese nula de que os 
resíduos são homoscedásticos ao nível de 1% de significância estatística. Com isso, 
superamos o problema da heteroscedasticidade para o modelo usado nesse tópico.
211
Neste tópico, você aprendeu que:
• A heteroscedasticidade é um fenômeno comum dos dados de corte por causa da 
heterogeneidade dos indivíduos, ou seja, pessoas, famílias, firmas, estados etc.
• Na presença de heteroscedasticidade, os estimadores obtidos por mínimos 
quadrados ordinários, apesar de serem lineares, não tendenciosos e consistentes, 
deixam de ser os melhores estimadores lineares não tendenciosos e deixam de 
ter variância mínima.
• Para detectar a presença de heteroscedasticidade foram desenvolvidos 
métodos informais (visualização através de gráficos) e formais (através de 
testes estatísticos).
• Plotando um gráfico de dispersão dos quadrados dos resíduos contra a variável 
explicativa, devemos procurar a existência de algum padrão de comportamento. 
Se os resíduos forem homoscedásticos, o gráfico de dispersão terá os pontos 
totalmente aleatórios, enquanto na presença de heteroscedasticidade esses 
pontos seguirão algum padrão de comportamento.
• Dentre os testes formais que podem ser implementados para verificar a existência 
de resíduos heteroscedásticos podemos destacar os testes de Goldfeld-Quandt, 
Breusch-Pagan-Godfrey e o teste geral de heteroscedasticidade de White.
• A hipótese nula desses testes é que os resíduos são homoscedásticos.
• Ao detectar a presença de heteroscedasticidade teremos que usar outro método 
econométrico para estimar os parâmetros da regressão. Nesse caso, usamos o 
método dos mínimos quadrados generalizados.
RESUMO DO TÓPICO 2
212
AUTOATIVIDADE
Para essa autoatividade, você voltará aos dados do arquivo Wage1.gdt, 
usado no Tópico 2. Vamos modificar o modelo 2.4, incluindo a variável exper 
junto à variável educ como variáveis explicativas do modelo:
Estimamos o modelo de regressão 2.35, e obtivemos os seguintes 
resultados:
2.35β β β ε= + + +1 2 3i i i iwage educ exper
Modelo 1: MQO, usando as observações 1-526
Variável dependente: wage
 coeficiente erro padrão razão-t p-valor 
 ----------------------------------------------------------
 const −3,39054 0,766566 −4,423 1,18e-05 ***
 educ 0,644272 0,0538061 11,97 2,28e-029 ***
 exper 0,0700954 0,0109776 6,385 3,78e-010 ***
Média var. dependente 5,896103 D.P. var. dependente 3,693086
Soma resíd. quadrados 5548,160 E.P. da regressão 3,257044
R-quadrado 0,225162 R-quadrado ajustado 0,222199
F(2, 523) 75,98998 P-valor(F) 1,07e-29
Log da verossimilhança −1365,969 Critério de Akaike 2737,937
Critério de Schwarz 2750,733 Critério Hannan-Quinn 2742,948
Obs.: *, ** e *** representam significância estatística ao nível de 10%,5% e 1% de significância 
estatística.
1 Salve os resíduos quadrados, gerados por essa regressão e plote um gráfico 
de dispersão, colocando no eixo Y os resíduos quadrados e no eixo X a 
variável wage.
2 Volte ao modelo estimado e rode o teste de Breusch-Pagan para a 
heteroscedasticidade. Com base no resultado desse teste, informe se os 
resíduos são homoscedásticos ou heteroscedásticos.
3 Rode agora o teste de White. O resultado desse teste é o mesmo encontrado 
no teste de Breusch-Pagan?
4 Faça uma última modificação no modelo, incluindo a Dummy female como 
variável explicativa, transformando os dados variável dependente, wage, em 
logaritmos. Rode a regressão e o teste de White. Qual o resultado do teste de 
heteroscedasticidade após essa transformação?
213
TÓPICO 3
AUTOCORRELAÇÃO
UNIDADE 3
1 INTRODUÇÃO
Na Unidade 3 estamos relaxando três premissas do modelo clássico de 
regressão linear, tornando-o mais próximo daquilo que o econometrista enfrenta 
diariamente. Começamos estudando a multicolinearidade, depois vimos a 
heteroscedasticidade e agora falaremos de correlação serial ou autocorrelação.
A multicolinearidade pode ocorrer tanto em dados de corte quanto 
em séries temporais. Em função da heterogeneidade dos dados de corte, a 
heteroscedasticidade ocorre com mais frequência neste tipo de dados, mas isso 
não significa que não ocorra também em séries temporais. A correlação serial, 
por sua vez, ocorre exclusivamente em séries de tempo e ocorre com frequência, 
motivo pelo qual devemos dar uma atenção especial a isso.
A ideia por trás da autocorrelação é o fato de que as séries temporais sofrem 
determinados choques que alteram a sua trajetória. Em modelos de regressão, 
esses choques são capturados pelos resíduos e sua influência pode ser carregada 
por vários períodos. Assim, um choque nos preços em janeiro, por exemplo, afeta 
em partes a inflação medida naquele mês. No entanto, no mês seguinte os agentes 
econômicos revisam o seu preço com base na inflação passada e sua expectativa 
para o futuro. Com isso, o choque de janeiro também irá influenciar a inflação de 
fevereiro, e de forma cumulativa a de março, e assim sucessivamente.
Essa característica é comum das séries macroeconômicas e ainda mais 
nas séries financeiras, tais como retorno de ações, taxa de câmbio, juros, inflação, 
entre outros. A saída neste caso é aplicar o método dos mínimos quadrados 
generalizados que vimos no tópico anterior.
Queremos alertá-lo novamente que em Econometria I não estamos sendo 
tão rigorosos com as séries temporais como estamos sendo com os dados de corte. 
O estudo de séries temporais é uma área muito específica dentro da econometria, 
dado a natureza particular dessas séries. Por esse motivo, você estudará esse tema 
com muito mais rigor em Econometria II, e então terá a oportunidade de revisar 
tudo o que aprendeu em Econometria I, porque o conhecimento nesse ramo da 
ciência econômica é cumulativo e sempre utilizado.
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
214
2 A NATUREZA DA CORRELAÇÃO SERIAL
Suponha o seguinte modelo de regressão linear:
3.1β β ε= + +1 2 2t t tY X
Em que Yt é a variável dependente, β1 e β2 são os parâmetros do modelo, 
X2t a variável explicativa e εt o termo de erro (que em séries temporais chamamos 
de inovações), o qual pelas hipóteses do modelo clássico, E[εt|X] = 0, Var[εt|X] = 
σ2 e a cov[εt, εt–1] = 0 para todo t ≠ 0.
A autocorrelação ocorre quando relaxamos a hipótese de covariância 
igual a zero. Neste caso, precisamos descobrir qual o processo gerador da série 
de erros. Como exemplo, podemos supor que os erros foram gerados por um 
processo autorregressivo de primeira ordem, AR(1), como em 3.2.
3.2ε ρε υ−= +1t t t
Perceba que, neste caso, o termo de erro, εt, depende do seu valor no 
período anterior, mais um componente aleatório com distribuição normal, média 
zero, variância constante e não autocorrelacionado. Em séries temporais, quando 
vt tem variância igual a 1, nós dizemos que vt é um ruído branco, ou white noise, 
e essa condição nos permite suprimir |X das nossas equações, porque neste caso, 
E[ε|X] = E[ε].
Vamos voltar a 3.2 e recuar um período no tempo:
3.3ε ρε υ− − −= +1 2 1t t t
Substituindo 3.3 em 3.2 temos:
3.4( )ε ρ ρε υ υ− −= + +2 1t t t t
3.5ε ρ ε ρυ υ− −= + +
2
2 1t t t t
Podemos continuar avançando no passado e substituindo recursivamente 
as equações. No final, veremos que o termo de erro da equação 3.1 tem uma certa 
persistência ou inércia, medida por ρ das equações 3.2 a 3.5. Conforme Hill, 
Judge e Griffiths (2010, p. 303), chamamos ρ de “[...] parâmetro autorregressivo 
que determina quão rapidamente o efeito de um choque se dissipa”.
TÓPICO 3 | AUTOCORRELAÇÃO
215
 É importante impor uma restrição a esse parâmetro. Como teremos a 
oportunidade de estudar em Econometria II, um processo autorregressivo, como 
3.2, para não se tornar um processo explosivo, ρ deve ser menor do que 1 em 
módulo. Dito de outra forma, –1 < ρ < 1, ou, .
Outra característica importante é que, apesar de serem autocorrelacionados, 
os erros continuam com média zero. Porém,
3.6( ) υε
σ
ε σ
ρ
= =
−
2
2
21t
Var
Veja que a variância dos resíduos da equação 3.2, σ 2v, está relacionada 
à variância dos resíduos da equação 3.1, εσ
2. Como em 3.2 os erros tv são 
homoscedásticos, em 3.1 os erros também serão, como pode ser visto em 3.6.
A covariância em 3.1, na presença de correlação serial, será dada por:
3.7εε ε σ ρ−  = 
2 k
t t kCov ,
Em que k representa a distância de tempo entre os erros.
A autocovariância é melhor representada com o auxílio da álgebra 
matricial. Conforme Greene (2012, p. 949), podemos representar 3.7 por E[εε'] = 
σ2Ω. Como Ω é uma função de |t – k|, podemos definir a autocovariância como:
3.8t t k t k t t ,t k k kCov , Cov ,ε ε ε ε σ γ γ− + − −   = = Ω = =   
2
Se σ2Ωt,t = Υ0, a correlação entre εt e εt – k é a autocorrelação de εt, dada por:
3.9
ε ε γ
ε ε ρ ρ
γε ε
−
− −
−
    = = = = 
       0
t t k k
t t k k k
t t k
Cov ,
Corr ,
Var Var
Por simplificação, reescrevemos 3.9 como:
3.10εε γ σ  = Γ = = Ω′
2
0E R
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
216
Assim, Γ é a matriz de autocovariância, R é a matriz de autocorrelação e 
o coeficiente de autocorrelação é dado por 
γ
ρ
γ
−
=
0
t k
tk , que decai gradualmente ao 
longo do tempo. Agora podemos representar a matriz de variância e covariância 
como:
3.11υ
ρ ρ ρ ρ
ρ ρ ρ ρ
σ
εε σ ρ ρ ρ ρ
ρ
ρ
ρ ρ ρ ρ
−
−
−
− − −
 …
 
… 
   = = Ω = …   −
… 
 … 
′
2 3 1
2 2
2
2 2 3
2
1 2 3
1
1
1
1
1
   
T
T
T
T T T
E
Perceba que na diagonal principal continuamos com números 1, 
garantindo a variância constante e homoscedástica. As demais posições deveriam 
ser preenchidas por zeros, mas agora temos valores representando a correlação 
entre períodos, ou seja, as autocorrelações.
O que quisemos apresentar a você é o caso simples em que o termo de 
erro na equação 3.1 segue um padrão autorregressivo de primeira ordem, AR(1). 
Porém, como você terá a oportunidade de estudar em Econometria II, esse 
processo pode seguir outros padrões, por exemplo, AR(2) , AR(3) , AR(p) . Mas 
também poderia ser um processo de média móvel, representada por MA(1) para 
o caso de ordem 1, ou MA(q) no caso de ordem q. Poderia, ainda, ser um processo 
ARMA(p, q), cujas matrizes seriam diferentes de 3.11, porém estamos omitindo 
nesse Livro de Estudos para não nos alongarmos desnecessariamente.
Para finalizar nossa análise, lembre-se de que, no Tópico 2, representamos 
a regressão pelo modelo 2.9, e a estimativa do vetor dos parâmetros por 2.10. 
Vimos também que os estimadores β̂ permaneciam não tendenciosos na presença 
de heteroscedasticidade, porém ineficientes, como visto na equação 2.21:
2.21( ) ( )β − −  = Ω ′  ′
1 1
Var Xˆ X X' X X X
No caso de correlação serial, o problema permanece por causa de Ω. 
Assim, as consequências da heteroscedasticidade e dacorrelação serial são 
as mesmas, ou seja, geram parâmetros não viesados, mas ineficientes e com 
variâncias viesadas. Por esse motivo não estimamos os parâmetros do modelo 
de regressão por Mínimos Quadrados Ordinários, mas por Mínimos Quadrados 
Generalizados.
TÓPICO 3 | AUTOCORRELAÇÃO
217
E por que os erros são autocorrelacionados? Muitos são os motivos que 
levam o modelo a gerar séries de erros correlacionados, dentre os quais podemos 
citar a inércia, muito comum em séries financeiras, e os ciclos econômicos, comuns 
em séries macroeconômicas. Porém, não podemos descartar a possibilidade do 
nosso modelo estar especificado de forma incorreta, quer seja pela sua forma 
funcional, ou pela omissão de uma variável estritamente relevante ou a inclusão 
de uma variável irrelevante como variável explicativa.
3 DETECTANDO O PROBLEMA DA CORRELAÇÃO SERIAL
Existem alguns testes estatísticos que podemos empregar para fins de 
verificação da existência de autocorrelação. Esses testes são baseados na hipótese 
de que se os termos de erro populacional são correlacionados, então podemos 
detectá-los quando estimamos por mínimos quadrados ordinários (GREENE, 
2012, p. 962).
Para ver como funcionam esses testes, começaremos com o modelo 3.12:
3.12β β β ε−= + + +1 2 1 3t t t tArea Pr eco Time
Em que Areat se refere à área colhida de milho no ano t, em hectares, 
Precot – 1 se refere à cotação internacional do milho em US$/tonelada no ano 
imediatamente anterior, t – 1, Timet é uma variável de tendência temporal, β1, 
β2 e β3 são os parâmetros do modelo e εt é o termo de erro, o qual esperamos que 
tenha distribuição normal, com média zero e variância constante.
Os dados anuais foram obtidos no IpeaData e estão disponíveis no Quadro 
19, referente ao período de 1957 até 2015:
QUADRO 19 – DADOS SOBRE COTAÇÃO INTERNACIONAL DO MILHO E ÁREA PLANTADA 
NO BRASIL
Data Preço Área Time Data Preço Área Time
1957 55,8683 6.095.085 1 1987 75,5225 13.503.431 31
1958 49,7358 5.790.350 2 1988 106,9500 13.169.003 32
1959 50,7842 6.189.107 3 1989 111,3690 12.931.784 33
1960 49,5717 6.681.165 4 1990 109,2810 12.023.771 34
1961 47,7008 6.885.740 5 1991 107,4730 13.580.647 35
1962 48,6533 7.347.881 6 1992 104,2120 13.886.814 36
1963 53,7708 7.957.633 7 1993 102,0410 12.876.384 37
1964 54,7217 8.105.894 8 1994 107,7800 14.522.806 38
1965 55,2475 8.771.318 9 1995 123,4530 14.182.486 39
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
218
1966 58,0025 8.703.169 10 1996 164,5230 12.505.585 40
1967 54,1642 9.274.327 11 1997 117,1720 12.825.504 41
1968 47,5058 9.584.754 12 1998 101,6170 11.234.423 42
1969 51,9658 9.653.757 13 1999 90,2942 12.418.490 43
1970 58,2642 9.858.108 14 2000 88,2192 12.648.005 44
1971 58,2975 10.550.489 15 2001 89,6092 12.912.390 45
1972 55,7375 10.538.943 16 2002 99,3342 12.304.986 46
1973 97,4692 9.923.570 17 2003 105,1870 13.343.992 47
1974 132,3770 10.672.450 18 2004 111,7780 12.864.838 48
1975 119,5480 10.854.687 19 2005 98,4057 12.249.101 49
1976 112,2640 11.117.570 20 2006 121,5890 12.997.372 50
1977 95,3692 11.797.411 21 2007 163,2590 14.010.838 51
1978 100,7490 11.124.827 22 2008 223,2480 14.747.249 52
1979 115,5780 17.378.885 23 2009 165,5420 14.144.321 53
1980 125,7160 11.451.297 24 2010 186,0070 12.963.080 54
1981 130,6030 11.520.336 25 2011 291,7810 13.605.369 55
1982 108,0990 12.619.531 26 2012 298,4100 15.065.288 56
1983 135,9830 10.705.979 27 2013 258,9570 15.708.367 57
1984 135,8200 12.018.446 28 2014 192,8810 15.843.121 58
1985 112,3310 11.798.349 29 2015 169,7850 15.406.010 59
1986 87,7917 12.465.836 30
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018.
A estimação do modelo 3.12 está no Quadro 20, adiante. Perceba que 
fizemos a estimação com uma base de dados contendo 59 observações, porém, 
usando a variável Preço defasada um período, nossa base reduz de 59 para 58 
observações. Mesmo assim, como temos uma base grande, reduzimos as chances 
de termos uma regressão espúria por conta da micronumerosidade, ou seja, por 
termos uma amostra com poucos graus de liberdade.
Para estimar 3.12 usando uma variável explicativa defasada, no menu 
principal do Gretl selecione “Modelo”, e na sequência “Mínimos Quadrados 
Ordinários”. Na tela que abrir, informe a variável Area como dependente e 
escolha as variáveis Preco e Time como variáveis explicativas. Após elencar todas 
as variáveis, na parte de baixo da tela de especificação do modelo, selecione 
“defasagens”, e na tela que abrir, para a variável Preco informe 1, como na Figura 
4, que o Gretl se encarregará de transformar a sua variável Precot na variável 
Precot – 1.
TÓPICO 3 | AUTOCORRELAÇÃO
219
FIGURA 4 – ESPECIFICAÇÃO DO MODELO COM DEFASAGEM
FONTE: O autor
Volte sua atenção ao Quadro 20 novamente. Observe que no modelo 
estimado, o coeficiente ˆ , que mede a mudança na área plantada quando a cotação 
internacional do milho no ano anterior sofre variação, não é estatisticamente 
significativo. Esperávamos uma correlação positiva e estatisticamente significativa 
entre a variável Área e Preço, indicando que os produtores brasileiros modificam 
suas estratégias de plantio em função da cotação internacional do grão na safra 
anterior. Dito de outra forma, quanto maior o preço no ano anterior, maior será 
o incentivo ao produtor aumentar a sua área plantada, visando a um lucro maior 
(sofisma da composição).
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
220
QUADRO 20 – ESTIMAÇÃO DO MODELO 3.12 POR MÍNIMOS QUADRADOS ORDINÁRIOS
Modelo 1: MQO, usando as observações 1958-2015 (T = 58)
Variável dependente: Area
 coeficiente erro padrão razão-t p-valor 
 ---------------------------------------------------------------
 const 7.679.350 400.854 19,16 0,0000 ***
 Preco_1 6.641,16 4.796,75 1,385 0,1718 
 time 109.708 16.137,1 6,798 0,0000 ***
Média var. dependente 11755470 D.P. var. dependente 2528447
Soma resíd. quadrados 1,01e+14 E.P. da regressão 1352490
R-quadrado 0,723912 R-quadrado ajustado 0,713872
F(2, 55) 72,10579 P-valor(F) 4,25e-16
Log da verossimilhança −899,5708 Critério de Akaike 1805,142
Critério de Schwarz 1811,323 Critério Hannan-Quinn 1807,549
rô 0,441231 Durbin-Watson 1,056431
Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018.
Por outro lado, as outras duas variáveis são estatisticamente significativas. 
Isso levanta a suspeita de que talvez o modelo não esteja corretamente especificado, 
ou que podemos ter algum outro problema, porque intuitivamente, esperaríamos 
uma relação positiva e estatisticamente significativa entre o preço e a área colhida 
dessa commodity. 
Podemos começar a nossa análise comparando os resíduos com o tempo. 
Para isso, na tela do modelo estimado escolha “Gráficos”, na sequência selecione 
“Gráfico dos resíduos” e depois escolha “Comparado com o tempo”. O resultado 
é apresentado no Gráfico 6.
Veja no gráfico o comportamento dos resíduos no tempo. Os valores 
começam com uma série negativa e com tendência de alta. Em determinado 
momento, 1967, os valores se tornam positivos e “andam de lado”, porém isso 
dura até 1978 e em 1979 temos um dado bem discrepante. Se olharmos a tabela, 
veremos que há um saldo na área colhida de 11 milhões de hectares em 1978 
para 17 milhões de hectares em 1979. Trata-se de um dado discrepante, motivado 
provavelmente por um erro de medição ou informação incorretamente compilada.
TÓPICO 3 | AUTOCORRELAÇÃO
221
GRÁFICO 6 – GRÁFICO DOS RESÍDUOS COMPARADOS COM O TEMPO
FONTE: O autor
Podemos começar então o nosso trabalho, resolvendo esse problema de 
dado discrepante. Para isso, substitua o valor da área plantada de 1979 pela média 
dos anos 1978 e 1980. Esse valor é obtido por:
3.13( )+ =11 124 827 11 451 297

Mais conteúdos dessa disciplina