Buscar

Livro-Texto Unidade II_ECONOMETRIA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

55
ECONOMETRIA
Unidade II
5 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM)
O modelo de regressão linear simples (MRLS), no qual a variável Y é explicada pela variável X, foi 
a base inicial da disciplina. Agora, iremos introduzir o modelo de regressão linear múltipla (MRLM), no 
qual a variável Y pode ser explicada por mais de uma variável, pressupondo uma relação linear entre 
cada uma das variáveis independentes e a variável dependente.
O modelo de regressão múltipla, por exemplo, com k variáveis independentes, é expresso na equação:
yi = α + β1X1i + β2X2i + β3X3i + ... + βkXki + ei, i = 1, ..., n
Em que:
y é a variável dependente;
x1, x2, . . . , xk são as variáveis independentes;
k é o número de variáveis independentes no modelo;
i denota as n observações da amostra.
Os parâmetros β1, β2, β1 ... βk são desconhecidos, e teremos que estimá-los utilizando, novamente, 
o método dos mínimos quadrados ordinários (MMQO), que busca os valores dos β’s que minimizam a 
soma dos quadrados dos erros.
5.1 Hipóteses
Para estimarmos os parâmetros desconhecidos do nosso modelo em questão, precisamos elaborar 
algumas hipóteses. São elas:
• Linearidade:
yi = α + β1X1i + β2X2i + β3X3i + ... + βkXki + ei, i = 1, ..., n
• Exogeneidade:
E[ei | x11, x21, x31, ... xki] = 0. A exigência de que o erro e a variável explicativa sejam não correlacionados.
56
Unidade II
• Homocedasticidade:
Var[ei | x11, x21, x31, ... xki] = E[ei
2 | x1i, x2i, x3i, ... xki] = σ
2. A variância do erro é constante, igualdade de 
variâncias, ou homocedasticidade. Requer que a variância dos erros (ei) seja constante em relação a todos 
os valores de X, isto é, a variabilidade dos valores de Y é a mesma quando X é um valor baixo ou quando 
X é um valor elevado. A igualdade das variâncias é importante para se realizar inferências em relação aos 
parâmetros α, βs. Havendo problemas na não confirmação da hipótese de homocedasticidade, podemos 
utilizar os modelos de mínimos quadrados ponderados ou as transformações de dados.
• Não autocorrelação dos erros:
Cov[ei, ej | xi, xj] = E[ei, ej | xi, xj] = 0. O erro de uma observação não pode estar correlacionado com 
o erro de outra observação. Portanto, covariância é igual a zero (o resultado em qualquer experimento 
não tem efeito no termo do erro de qualquer outro experimento). Os erros (ei) devem ser independentes 
entre si.
Devemos incluir mais uma hipótese:
Não existe colinearidade perfeita entre as variáveis explicativas. Ou seja, uma variável explicativa 
não é função linear perfeita da outra. Não podemos ter, por exemplo, x1 = 3x2 ou x3 = 2x1 + 
x2
3
. 
 Observação
O pressuposto da normalidade requer que os erros (ei) sejam 
normalmente distribuídos para cada um dos valores de X. A análise 
de regressão é relativamente robusta em relação a afastamentos do 
pressuposto da normalidade, isto é, desde que a distribuição dos erros 
em cada um dos níveis de X não seja extremamente diferente de uma 
distribuição normal, inferências em relação aos parâmetros α, βs não 
serão seriamente afetadas.
Ao desenvolvermos um modelo de regressão múltipla, desejamos utilizar somente aquelas 
variáveis independentes que reduzam significativamente o erro ao prevermos o valor de uma 
variável dependente.
No modelo de regressão linear simples, a inclinação β1 representa a alteração na média aritmética de 
Y para cada unidade de alteração em X e não leva em consideração nenhuma outra variável. Entretanto, 
no modelo de regressão linear múltipla com duas variáveis independentes, a inclinação β1 representa a 
alteração na média aritmética de Y para cada unidade de alteração em X1, levando-se em consideração o 
efeito de X2. A equação a seguir define o modelo de regressão múltipla com duas variáveis independentes:
yi = α + β1X1i + β2X2i + ei, i = 1, ..., n
57
ECONOMETRIA
Em que:
α = intercepto de Y;
β1 = inclinação de Y em relação à variável X1, mantendo-se constante a variável X2;
β2 = inclinação de Y em relação à variável X2, mantendo-se constante a variável X1;
ei = erro aleatório em Y para a observação i.
 Observação
Os quatro pressupostos de regressão: LINI (Linearidade, Independência 
dos erros, Normalidade de erros e Igualdade de variâncias).
A partir do resultado dos diversos testes, encontramos uma especificação de modelo que resista bem 
a todos eles e pareça fazer sentido do ponto de vista da teoria e da experiência prévia do pesquisador – 
nesta etapa atingimos o objetivo de uma representação “exata” da relação entre determinadas variáveis 
no qual podemos utilizá-lo para fins de controle ou de formulação de políticas.
Os procedimentos de teste partem da definição de uma “hipótese nula” a ser testada (estimar a 
probabilidade, na suposição de que a hipótese nula é verdadeira). Os testes de regressão são de três 
tipos: de coeficientes, de resíduos e de estabilidade:
• Teste de coeficientes: tipos de testes sobre os coeficientes de uma regressão:
— Variável omitida: determina se uma ou mais variáveis omitidas de uma regressão deveriam 
ter sido incluídas ou não (através de uma regressão auxiliar incluindo as variáveis omitidas).
— Variável redundante: determina se uma ou mais variáveis da regressão podem ser excluídas 
sem maiores consequências. A hipótese nula é que os coeficientes das variáveis selecionadas 
na regressão não são todos estatisticamente diferentes de zero. Se a hipótese for rejeitada, as 
variáveis não são redundantes, isto é, não podem ser excluídas da regressão sem comprometer 
o nível de explicação da variável dependente.
• Teste de resíduos: tipos de testes sobre os resíduos de uma regressão:
— Normalidade: em geral, os testes existentes para modelos de regressão só são válidos em 
amostras pequenas quando se assume que os distúrbios aleatórios têm distribuição normal, 
mas há sempre que se ter cuidados com a possibilidade de viés em amostras pequenas.
58
Unidade II
— Correlograma do resíduo (do resíduo quadrado): esta opção apresenta as autocorrelações 
e autocorrelações parciais dos resíduos (ao quadrado) da equação estimada para um número 
especificado de defasagens.
— Heterocedasticidade: uma das hipóteses do modelo de regressão é a de homocedasticidade, isto 
é, a de que a variância teórica do termo de distúrbio aleatório, condicional em relação às variáveis 
independentes, seja constante. Caso contrário, se a variância muda ao longo de diferentes intervalos 
de tempo ou em função de variáveis independentes, temos o caso de heterocedasticidade 
que acaba invalidando todos os testes de hipóteses baseados em estatísticas t (Student), F 
(Snedecor) e qui-quadrado.
• Teste de estabilidade: tipos de teste para avaliar se os parâmetros da regressão são estáveis ao 
longo do intervalo de estimativa:
— Teste Chow: a estabilidade dos parâmetros é verificada dividindo-se o intervalo da amostra em 
duas partes e estimando-se novamente os parâmetros em cada subamostra. O teste compara a 
soma dos quadrados dos resíduos da regressão original com a soma dos quadrados dos resíduos 
das novas regressões feitas a partir das subamostras. Caso haja uma diferença significativa 
nas estimativas, pode-se concluir que houve, a partir do ponto de quebra da amostra, uma 
mudança estrutural no relacionamento entre as variáveis do modelo.
— Teste de estabilidade Ramsey RESET: é um teste geral para erros de especificação que podem 
ter diversas origens, como variáveis independentes omitidas, forma funcional incorreta, erros 
de medida em variáveis, erros de simultaneidade e inclusão de valores defasados da variável 
dependente quando os resíduos têm correlação serial.
Já discutimos a modelagem e os pressupostos tratados em regressão simples. Na regressão 
múltipla, devemos atentar para que as variáveis independentes não sejam correlacionadas entre si 
(a utilização de variáveis que explicam a mesma coisa, o que prejudica a performance do modelo). 
Isso implica a ocorrência de multicolinearidade, algo indesejável na construção de um modelo 
econométrico.O problema é que os valores dos βs associados às variáveis independentes podem 
estar viesados; assim, comprometem as projeções do modelo e as conclusões e até mesmo não 
permitem realizar os testes de regressão.
O procedimento simples e prático de verificar a ocorrência de problemas que envolvem a correlação 
entre variáveis (multicolinearidade) se dá pela obtenção da matriz de correlação entre as variáveis que 
compõem o modelo de regressão linear múltipla.
A solução desse sistema (modelagem da regressão linear múltipla) se torna mais complexa do que a 
estimação do parâmetro β do modelo de regressão linear simples.
Depois de atendidos os pressupostos (hipóteses) do MRLM pelo MMQO e estando ele já estimado, 
seguiremos para o processo de concepção do modelo econométrico. Entre os diversos softwares 
existentes no mercado, contaremos com o apoio da planilha Excel através da ferramenta Análise 
59
ECONOMETRIA
de Dados, pois não há necessidade de elaborarmos os procedimentos de cálculos algébricos que são 
complexos. Faz-se necessário, portanto, avaliar a adequação do modelo aos dados. Os parâmetros mais 
relevantes para diagnóstico de modelos de regressão são R2, estatística t-Student, estatística F-Fisher, 
p-valor e o coeficiente (β) de cada variável independente.
 Observação
Entre os softwares existentes, encontramos gratuitamente o pacote 
econométrico que realiza análise de regressão Gretl, porém os mais conhecidos 
e completos são: EViews, SPSS, SAS, TSP, Minitab, R Statistics e SAP APO.
Vamos elaborar tais procedimentos com base em uma regressão múltipla padrão, aquela em que as variáveis 
independentes são acrescidas uma a uma, cada uma delas sendo avaliada conforme o quanto adiciona ao poder 
preditivo do modelo – poder de explicação do comportamento, da variação encontrada na variável dependente. 
De forma direta, é o grau de variação alcançado no coeficiente de determinação R2(∆%R2), decorrente da retirada 
de uma variável do conjunto de variáveis independentes consideradas no modelo.
Veja a seguir um exemplo de análise de regressão – complexo agroindustrial canavieiro – seguindo 
o passo a passo na sua elaboração.
Teoria 
econômica
Modelo 
econométrico
Estimação 
do modelo Previsão
Modelo 
matemático Dados
Teste de 
hipóteses
Aplicação 
do modelo
Figura 18 – Primeiro passo para a elaboração de um modelo econométrico
Essa é a análise de regressão de um modelo, em caráter exploratório, utilizando conceitos e técnicas 
econométricas, para melhor compreender de que maneira está se processando a expansão da indústria 
açucareira brasileira voltada para o mercado interno e basicamente para o mercado externo, no período 
entre 2005 e 2015.
O complexo agroindustrial canavieiro (cuja matéria-prima é a cana-de-açúcar e os produtos finais 
são açúcar e álcool) é a mais antiga atividade econômica do Brasil.
O governo Collor, em março de 1990, desregulamentou o setor sucroalcooleiro, que por mais de 
três décadas esteve sob tutela do estado, vindo este a ser o marco inicial para a sua entrada em um 
regime de livre-mercado (condições mais competitivas, em especial o mercado de açúcar, por ser uma 
commodity internacional).
A expectativa, principalmente pelo aumento acentuado das exportações brasileiras, era de que os 
preços internos do açúcar no mercado doméstico passassem a ter correlação muito forte com os preços 
do mercado externo.
60
Unidade II
Teoria 
econômica
Modelo 
econométrico
Estimação 
do modelo Previsão
Modelo 
matemático Dados
Teste de 
hipóteses
Aplicação 
do modelo
Figura 19 – Segundo e terceiro passos para a elaboração de um modelo econométrico
Utilizando as técnicas de regressão linear pelo método dos mínimos quadrados, vamos analisar as hipóteses 
com o intuito de extrair o máximo proveito possível dos dados a nossa disposição – neste caso, em especial, a 
hipótese da sustentabilidade da expansão açucareira e a existência de relações significativas da evolução da 
produção de açúcar (variável dependente), tendo como variável explicativa (independente) os preços dos mercados 
externo e interno dos produtos finais da cana-de-açúcar (açúcar e etanol, respectivamente). Contextualizados 
nesse modelo básico, conduzimos nossa investigação seguindo os procedimentos clássicos metodológicos da 
Econometria (vide figura da metodologia de pesquisa econométrica anteriormente apresentada).
Nossa hipótese básica de trabalho está focada na existência de correlação entre a evolução da 
produção de açúcar (Y) e as demais variáveis explicativas (X) em questão: a evolução de produção do 
etanol hidratado e os preços do mercado externo de açúcar.
 Observação
O sucesso de qualquer análise econométrica, segundo Gujarati (2000), 
depende basicamente da disponibilidade de dados apropriados e confiáveis, 
com respeito à natureza e fontes adequadas.
Após o modelo ter sido ajustado por metodologia adequada de regressão linear, é necessário 
desenvolver os critérios adequados para que nossas expectativas teóricas estejam satisfeitas 
(teoria e empiria: inferência estatística ou teste de hipótese do coeficiente de correlação e dos 
parâmetros do modelo).
Teoria 
econômica
Modelo 
edonometrico
Estimação 
do modelo Previsão
Modelo 
econométrico Dados
Teste de 
hipóteses
Aplicação 
do modelo
Figura 20 – Quarto passo para a elaboração de um modelo econométrico
Apresentamos na tabela a seguir, elaborada a partir de dados do IBGE, a evolução da produção de 
açúcar e do etanol hidratado no Brasil e o preço do açúcar VHP no mercado externo. O açúcar VHP 
– do inglês very high polarization (polarização muito alta) – é utilizado como matéria-prima para a 
produção de açúcar refinado ou em outros processos de industrialização, podendo ser usado para o 
consumo, mas geralmente é exportado a vários países a fim de ser transformdo em diferentes tipos 
de açúcar para consumo.
61
ECONOMETRIA
 Observação
O etanol anidro é misturado em 27% à gasolina. Já o etanol hidratado 
é usado diretamente no tanque dos veículos.
Partimos da premissa verdadeira de que o preço do mercado externo (dólar) é o grande formador de 
preço do mercado interno.
Tabela 10 – Produção de açúcar e etanol hidratado e preços do açúcar VHP 
(mercado externo) no período de 2005 a 2015 (Brasil)
Produção de açúcar Preço do açúcar VHP
mil toneladas US$/saca de 50 quilos
n Ano Yi Xi
1 2005/06 26.420,0827 8,8975
2 2006/07 30.223,6000 14,4450
3 2007/08 31.279,7000 10,1283
4 2008/09 31.620,2000 11,1508
5 2009/10 33.074,7000 14,5258
6 2010/11 38.168,4000 19,6842
7 2011/12 38.271,8000 25,2400
8 2012/13 38.336,8761 23,3375
9 2013/14 37.878,2633 17,5258
10 2014/15 35.560,1797 16,4067
11 2015/16 33.489,1427 13,1275
A relação da produção de açúcar no Brasil (Y) com o preço do açúcar VHP no mercado externo (X) 
tende a verificar a sensibilidade do incremento de produção aos preços praticados, isto é, o quanto a 
variável preço no mercado externo explica a variação ou incremento da produção de açúcar. O que 
se espera é que aumentos de preço no produto provoquem aumento na produção – como o açúcar 
para exportação é negociado em dólar, isso representa mais reais para os vendedores no momento da 
conversão de moedas –, o que explica a prioridade dada ao alimento em detrimento do etanol. Além disso, 
a alta do açúcar está relacionada à elevação dos custos de produção no país e à queda de produtividade 
das lavouras ligadas à baixa de investimentos do setor sucroenergético. O comportamento do mercado 
internacional, pelo lado tanto da oferta como da demanda, influencia o comportamento dos preços – 
por exemplo, problemas climáticos na Índia, um dos principais produtores mundiais de açúcar, tendem a 
encarecer os produtos no mercado internacional. Com uma liquidez maior, o etanol terá uma produção 
elevada, e isso diminui a produção de açúcar, contribuindo com o déficit do mercado internacional.
62
Unidade II
A elevação do preço do açúcar afeta diretamente o custo de alimentos como pães e doces,já 
que o açúcar é o segundo item mais usado como matéria-prima da padaria, pois compõe quase 
todos os produtos.
O aumento na energia elétrica e nos combustíveis é um dos fatores que mais impulsionaram o preço 
do açúcar.
Teoria 
econômica
Modelo 
econométrico
Estimação 
do modelo Previsão
Modelo 
matemático Dados
Teste de 
hipóteses
Aplicação 
do modelo
Figura 21 – Quinto e sexto passos para a elaboração de um modelo econométrico
Entre os modelos de regressão que foram testados e analisados, usando o software Excel (opções 
Análise de Dados e Regressão), conforme metodologia de investigação econométrica, serão apresentados 
a seguir os procedimentos metodológicos de apenas dois modelos, sendo os mais significativos no que 
se refere à regressão simples e à regressão múltipla. Repare que a tabela a seguir, apresentada pelo Excel, 
fornece os mesmos valores já calculados (pelas fórmulas) anteriormente.
63
ECONOMETRIA
Ta
be
la
 1
1 
– 
An
ál
ise
 d
a 
va
riâ
nc
ia
 d
o 
m
od
el
o 
de
 r
eg
re
ss
ão
 (A
no
va
): 
pr
od
uç
ão
 d
e 
aç
úc
ar
 (Y
)
Re
su
m
o 
do
s r
es
ul
ta
do
s
 IN
VF
(0
,0
5;
1;
9)
 =
 5
,1
2 
(c
on
su
lta
 ta
be
la
 F
)
Es
ta
tís
tic
a 
de
 re
gr
es
sã
o
(V
al
or
 c
rít
ic
o 
de
 F
)
R 
m
úl
tip
lo
0,
87
78
 =
 ra
iz
 q
ua
dr
ad
a 
de
 R
2
F(
α;
 g
l_
I; 
gl
_I
I)
R-
qu
ad
ra
do
0,
77
05
 =
 c
oe
fic
ie
nt
e 
de
 d
et
er
m
in
aç
ão
: R
2 
= 
1 
- 
(S
QE
 / 
SQ
T)
R-
qu
ad
ra
do
 a
ju
st
ad
o
0,
74
50
 =
 1
 -
 (1
 -
 R
2)
 * 
(n
 -
 1
) /
 (n
 -
 k
 -
 1
)
Er
ro
-p
ad
rã
o
2.
00
5,
91
37
 =
 e
rr
o-
pa
dr
ão
 d
a 
re
gr
es
sã
o 
= 
ra
iz
 q
ua
dr
ad
a 
da
 v
ar
iâ
nc
ia
 e
st
im
ad
a 
(re
sid
ua
l)
Ob
se
rv
aç
õe
s
11
 =
 n
 é
 o
 n
úm
er
o 
de
 o
bs
er
va
çõ
es
 ( 
ta
m
an
ho
 d
a 
am
os
tr
a)
An
ov
a 
(a
ná
lis
e 
de
 v
ar
iâ
nc
ia
)
 
gl
SQ
M
Q
F
F 
de
 si
gn
ifi
ca
çã
o
 
(g
ra
us
 d
e 
lib
er
da
de
)
(s
om
a 
de
 q
ua
dr
ad
os
)
(m
éd
ia
 d
e 
qu
ad
ra
do
s)
(F
-F
ish
er
/S
ne
de
co
r)
 
Re
gr
es
sã
o
1
12
1.
58
1.
70
4,
10
12
1.
58
1.
70
4,
10
30
,2
2
0,
00
03
82
(v
ar
ia
çã
o 
ex
pl
ic
ad
a)
(g
l I
 =
 k
 : 
nº
 v
ar
iá
ve
is 
in
de
pe
nd
en
te
s o
u 
nu
m
er
ad
or
 
do
 te
st
e 
F)
(S
QR
)
(M
QR
 =
 S
QR
 / 
k)
(M
QR
 / 
M
QE
)
Pr
ob
. (
F c
rít
ic
o >
 F
)
Re
síd
uo
9
36
.2
13
.2
08
,5
6
4.
02
3.
68
9,
84
(v
ar
ia
çã
o 
in
xe
pl
ic
ad
a)
(g
l I
I =
 n
-k
-1
 : 
de
no
m
in
ad
or
 
do
 te
st
e 
F)
(S
QE
)
M
Q
E 
= 
SQ
E 
/ (
n-
k-
1)
 
(v
ar
iâ
nc
ia
 e
st
im
ad
a)
 IN
VT
(0
,0
5;
9)
 =
 2
,2
6 
(c
on
su
lta
 ta
be
la
 t)
2,
26
22
To
ta
l
10
15
7.
79
4.
91
2,
66
(v
al
or
 c
rít
ic
o 
de
 t-
St
ud
en
t)
 
gl
 I 
+ 
gl
 II
 =
 k
 +
 (n
-k
-1
) =
 
n 
- 
1
(S
QT
)
 
t (
α;
 g
l_
I)
 
 
Co
efi
ci
en
te
s
Er
ro
-p
ad
rã
o
St
at
 t
va
lo
r-
P
95
%
 in
fe
rio
re
s
95
%
 su
pe
rio
re
s
 
 
(d
os
 c
oe
fic
ie
nt
es
)
(te
st
e 
t-
St
ud
en
t c
al
cu
la
do
)
Pr
ob
. (
t c
rít
ic
o >
 t)
(li
m
ite
s d
o 
in
te
rv
al
o 
de
 c
on
fia
nç
a)
In
te
rs
eç
ão
 (α
)
23
.5
08
,9
8
2.
00
7,
15
11
,71
0,
00
00
00
9
18
.9
68
,5
0
28
.0
49
,4
6
Pr
eç
o 
aç
úc
ar
 V
HP
 (X
1)
 
(β
)
66
3,
29
12
0,
67
5,
50
0,
00
03
81
7
39
0,
33
93
6,
26
 Y
 =
 α
 +
 β
X 
+ 
e 
>>
>>
> 
Y 
= 
23
.5
08
,9
8 
+ 
66
3,
29
X
64
Unidade II
Descrição e comentários:
Tabela 12 – Resumo dos resultados
Estatística de regressão
R múltiplo 0,8778 = raiz quadrada de R2
R-quadrado 0,7705 = coeficiente de determinação: R2 = 1 - (SQE / SQT)
R-quadrado ajustado 0,7450 = 1 - (1 - R2) * (n - 1) / (n - k - 1)
Erro-padrão 2.005,9137 = erro-padrão da regressão = raiz quadrada da variância estimada (residual)
Observações 11 = n é o número de observações (tamanho da amostra)
5.2 Covariância e coeficiente de correlação 
A covariância mede a força do relacionamento entre duas variáveis em termos absolutos 
através da seguinte equação:
( ) ( )
x média de X (y média de Y)
Cov X, Y
n 1
− × −
=
−
∑
Tabela 13 – Covariância (força do relacionamento entre X e Y em termos absolutos)
(a) (b) (a) x (b)
Seq. Ano Xi Yi (Xi - média de X) (Yi - média de y) (Xi - média de X) x (Yi - média de y)
1 2005/06 8,8975 26.420,0827 -6,96 -7.609,28 52.985,92
2 2006/07 14,4450 30.223,6000 -1,42 -3.805,76 5.388,32
3 2007/08 10,1283 31.279,7000 -5,73 -2.749,66 15.762,42
4 2008/09 11,1508 31.620,2000 -4,71 -2.409,16 11.347,14
5 2009/10 14,5258 33.074,7000 -1,34 -954,66 1.274,47
6 2010/11 19,6842 38.168,4000 3,82 4.139,04 15.824,93
7 2011/12 25,2400 38.271,8000 9,38 4.242,44 39.790,57
8 2012/13 23,3375 38.336,8761 7,48 4.307,52 32.205,87
9 2013/14 17,5258 37.878,2633 1,67 3.848,90 6.408,43
10 2014/15 16,4067 35.560,1797 0,55 1.530,82 835,57
11 2015/16 13,1275 33.489,1427 -2,73 -540,22 1.476,59
Média 15,86 34.029,36 0,00 00 183.300,23
Desvio-
padrão 5,2569 3972,3408
( ) 183.300,23Cov X, Y 18.330,02
10
= =
65
ECONOMETRIA
O coeficiente de correlação mede o grau de relação entre duas variáveis. A correlação (representada 
por r) está sempre entre -1 e 1. O valor -1 corresponde à correlação negativa perfeita e o valor de +1 
corresponde à correlação positiva perfeita; já o coeficiente de correlação (zero) indica que as duas 
variáveis não estão correlacionadas linearmente:
X Y
Cov(X,Y) 18.330,02
r 0,8778
5,2569 3.972,3408
= = ≅
σ σ ×
O R múltiplo = 0,8778 representa o coeficiente de correlação múltiplo. Lembre-se de que na 
regressão linear simples o R múltiplo representa o coeficiente de correlação simples (r), que mede 
o grau de relacionamento linear entre duas variáveis, e nos modelos de regressão linear múltipla o R 
múltiplo representa o coeficiente de correlação múltiplo (r), que mede o grau de relacionamento 
linear entre uma variável e um conjunto de outras variáveis. As técnicas de análise de correlação e 
regressão estão intimamente ligadas.
Vamos descrever e testar a significância da correlação entre duas variáveis quando os dados são 
apresentados como pares ordenados, onde X é a variável independente ou explicativa e Y é a variável 
dependente ou resposta. O gráfico de pares ordenados (x, y) é chamado de diagrama de dispersão, que 
pode ser usado para determinar se existe uma correlação linear entre as duas variáveis. O que se espera 
é que aumentos de preço no produto provoquem aumento na produção.
Veja os dados a seguir, extraídos de pesquisas do IBGE:
41.000
39.000
37.000
35.000
m
il 
to
ne
la
da
s
33.000
31.000
29.000
27.000
25.000
0 5 10 15 20 25
US$/saca de 50 kg
30
Figura 22 – Diagrama de dispersão: preço do açúcar VHP X produção do açúcar (período 2005-2015)
Para facilitar o cálculo do coeficiente de correlação, podemos utilizar uma tabela:
66
Unidade II
Tabela 14 – Produção e preços do açúcar (Brasil)
Produção de 
açúcar
Preço do açúcar 
VHP (mercado)
mil toneladas US$/saca de 50 quilos
Ano Y X XY X2 Y2
2005/06 26.420,0827 8,8975 235.072,7 79,17 698.020.769,9
2006/07 30.223,6000 14,4450 436.579,9 208,66 913.465.997,0
2007/08 31.279,7000 10,1283 316.811,2 102,58 978.419.632,1
2008/09 31.620,2000 11,1508 352.591,6 124,34 999.837.048,0
2009/10 33.074,7000 14,5258 480.437,6 211,00 1.093.935.780,1
2010/11 38.168,4000 19,6842 751.313,1 387,47 1.456.826.758,6
2011/12 38.271,8000 25,2400 965.980,2 637,06 1.464.730.675,2
2012/13 38.336,8761 23,3375 894.686,8 544,64 1.469.716.069,1
2013/14 37.878,2633 17,5258 663.848,1 307,15 1.434.752.832,5
2014/15 35.560,1797 16,4067 583.424,0 269,18 1.264.526.380,1
2015/16 33.489,1427 13,1275 439.628,7 172,33 1.121.522.677,6
∑ 374.322,9 174,47 6.120.374,1 3.043,6 12.895.764.620,1
O cálculo será o seguinte:
( ) ( )2 22 2
n xy x y
r
n x x n y y
−
=
− −
∑ ∑ ∑
∑ ∑ ∑ ∑
( ) ( )2 2
11 6.120.374,1 174,47 374.322,9
11 3.043,6 174,47 11 12.895.764.620,1 374.322,9× − ×
=
× − × × −
2.015.998,74 2.015.998,74
0,8778
55,13 41.662,3 2.296.842,6
= = ≅
×
5.3 Teste de hipótese para um coeficiente de correlação populacional
Precisamos determinar se existe evidência suficiente para decidir que o coeficiente de correlação 
populacional ρ é representativo em um nível especificado de significância α (por exemplo, α = 0,01 
significa que em 1% das vezes podemos dizer que o coeficiente de correlação populacional é significante 
quando ele realmente não é, ou seja, é o erro que podemos cometer).
Utiliza-se o teste de hipótese para ρ, que pode ser monocaudal ou bicaudal. O nosso interesse é no 
teste bicaudal, a seguir especificado:
67
ECONOMETRIA
H0 : ρ = 0 (não existe correlação significativa)
H0 : ρ ≠ 0 (existe correlação significativa){
A estatística de teste padronizada é:
2r
r r
t 
1 r
n 2
= =
σ −
−
A distribuição amostral para r é uma distribuição t de Student com n - 2 graus de liberdade.
No exemplo que envolve as duas variáveis, utilizamos onze pares de dados para obtermos r = 0,8778. 
Vamos testar a significância desse coeficiente de correlação utilizando α = 0,01:
H0 : ρ = 0 (não existe correlação significativa);
H0 : ρ ≠ 0 (existe correlação significativa).
A distribuição amostral para r = 0,8778 é uma distribuição t com n - 2 graus de liberdade. Temos 
11 - 2 = 9. Uma vez que o teste é bicaudal, α = 0,01 e g. l. = 6, os valores críticos são -2,26 e 2,26 e as 
regiões de rejeição são t < - 2,26 e t > 2,26. Com base no teste t, a estatística teste padronizada é:
( )2 2r
r r 0,8778 0,8778
t 5,55
0,06381 r 1 0,8778
n 2 9
= = = = ≅
σ − −
−
O gráfico a seguir mostra a posição das regiões de rejeição e a estatística teste padronizada:
-tc tc t
-2,26 +2,26
α
2
α
2
Figura 23 – Região crítica para o teste t
 
68
Unidade II
 Rejeitamos a hipótese nula, visto que t calculado está na região de rejeição. Ao nível de 1%, há 
evidência suficiente para concluir que existe uma correlação linear significante entre o preço e a 
produção de açúcar.
 Observação
Correlação e causalidade: é possível que a relação das variáveis tenha 
sido causada por uma terceira variável, ou por uma combinação de 
muitas outras variáveis, mas neste caso a causalidade se confirma com a 
base teórica.
5.4 Coeficiente de determinação (r2)
O coeficiente de determinação mede o grau de ajustamento da reta de regressão aos dados 
observados. Indica a proporção da variação total da variável dependente, que é explicada pela variação 
da variável independente. 
A equação que permite calcular o coeficiente de determinação é a seguinte:
( )
( )
2
2
2
Y média de Y Variação explicada
r
Variação totalY média de Y
ˆ −
= =
−
∑
∑
Veja a tabela, elaborada a partir de dados do IBGE:
Tabela 15 – Coeficiente de correlação
Seq. Ano Xi Yi Ŷ (Ŷ - média de Y)2 (Y - média de Y)
2
1 2005/06 8,8975 26.420,0827 29.410,6 21.332.649,59 57.901.079,59
2 2006/07 14,4450 30.223,6000 33.090,2 881.931,18 14.483.798,45
3 2007/08 10,1283 31.279,7000 30.227,0 14.457.678,27 7.560.622,37
4 2008/09 11,1508 31.620,2000 30.905,2 9.760.054,52 5.804.045,12
5 2009/10 14,5258 33.074,7000 33.143,9 784.102,72 911.373,03
6 2010/11 19,6842 38.168,4000 36.565,3 6.431.240,57 17.131.663,78
7 2011/12 25,2400 38.271,8000 40.250,5 38.702.492,56 17.998.309,11
8 2012/13 23,3375 38.336,8761 38.988,6 24.593.847,00 18.554.707,08
9 2013/14 17,5258 37.878,2633 35.133,7 1.219.660,35 14.514.067,64
10 2014/15 16,4067 35.560,1797 34.391,4 131.078,22 2.343.413,26
11 2015/16 13,1275 33.489,1427 32.216,4 3.286.969,12 291.833,23
Média 15,86 34.029,36 ∑ 121.581.704,10 157.794.912,66
69
ECONOMETRIA
( )
( )
2
2
2
Y média de Y 121.581.704,10
r 0,7705
V157.794.912,66Y média de Y
ˆ −
= = ≅
−
∑
∑
Esse resultado nos mostra que 77,05% das variações da variável dependente y podem ser explicadas 
por variações da variável independente x.
A análise de correlação se dedica a inferências estatísticas das medidas de associação linear que 
se seguem:
• coeficiente de correlação simples: mede a “força” ou “grau” de relacionamento linear entre 
duas variáveis;
• coeficiente de correlação múltiplo: mede a “força” ou “grau” de relacionamento linear entre 
uma variável e um conjunto de outras variáveis.
As técnicas de análise de correlação e regressão estão intimamente ligadas.
O R-quadrado = 0,7705 é um coeficiente de correlação múltiplo (R múltiplo = 0,8778) ao quadrado. 
Representa o coeficiente de determinação (r2), é a razão entre a variação explicada (SQR) e a variação 
total (SQT). Portanto, r2 é uma medida descritiva da qualidade do ajustamento obtido, indicando a 
proporção real da variância explicada para os preditores usados no modelo em análise:
( )
( )
2
egi2
2
oti
SQRy y 121.581.704,10
r 0,7705
SQRT 157.794.912,6y y
ˆ
6
−
= = = ≅
−
∑
∑
Teremos uma relação de quanto o modelo de regressão está sendo útil para explicar toda a 
variabilidade que aparece em cada uma das observações (é a porcentagem da variância total de y que é 
explicada pela variável x). Veja o gráfico com dados do IBGE:
45.000
40.000
m
il 
to
ne
la
da
s
35.000
30.000
25.000
0 5 10 15 20 25
US$/saca de 50 kg
30
y = 663,29x + 23509
R2 = 0,7705
Figura 24 – Ajuste da reta de regressão: preço do açúcar VHP X produção do açúcar (período 2005-2015)
70
Unidade II
Anteriormente calculamos o coeficiente de correlação (r). O quadrado desse coeficiente é o 
coeficiente de determinação (r2). Para um número fixo n de observações, quanto melhor for o ajuste 
dos dados, tanto maior será o valor de r2. Portanto, r2 pode ser visto como uma medida descritiva da 
qualidade do ajuste obtido – isto é, a variável independente (X: preço) explica 77% das variações da 
produção de açúcar.
O R-quadrado ajustado = 0,7450 é uma medida semelhante ao coeficiente de determinação (r2), 
porém ajustada para refletir tanto o número de variáveis independentes (k) no modelo quanto o tamanho 
da amostra (n). Ao considerar modelos de regressão múltipla, esse procedimento evita uma característica 
do R-quadrado que tende a aumentar sempre que adicionamos novas variáveis independentes, mesmo 
que a sua contribuição seja pouca para o poder explicativo da regressão. Utilizar o R-quadrado ajustado 
é de extrema importância quando se está comparando dois ou mais modelos de regressão que 
estão prevendo a mesma variável dependente, mesmo tendo um número diferente de variáveis 
independentes. Veja:
2 2
aj
n 1
r 1 (1 r )
n k 1
− = − − × − − 
Onde:
n = 11 (número de observações);
k = 1 (número de variáveis independentes na equação de regressão).
2 2
aj
n 1 10
r 1 (1 r ) 1 1 0,7705) 0,7450
n k 1 9
−   = − − × = − − × =   − −   
No erro-padrão = 2.005,9137, quando um valor de ŷ é previsto a partir de um valor de x, a 
previsão é uma estimativa pontual. Pretendemos, agora, calcular uma estimativa intervalar para um 
valor previsto y. Primeiramente devemos calcular o erro-padrão da estimativa Se, que é o desvio-padrão 
dos valores de yi, observados em torno do valor y previsto para um dado valor de xi. Intuitivamente 
sabemos que quanto maior é a dispersão entre uma série de números ou população, maior será a 
dificuldade de se ajustar uma reta aos pontos. A dispersão pode ser estimada pela dispersão dos dados 
amostrais em relação à reta de regressão. O erro-padrão da estimativa (Se) é uma medida que avalia o 
grau de precisão da reta de regressão. O erro-padrão da estimativa é dado por:
( )2i i
e
ˆy y
s
n 2
−
=
−
∑
em que n é o número de pares ordenados no conjunto de dados.
71
ECONOMETRIA
Veja a tabela a seguir, que apresenta dados do IBGE:
Tabela 16 – Erro-padrão da estimativa
Produção de 
açúcar
Preço do açúcar 
VHP (mercado)
mil toneladas US$/saca de 50 quilos
Ano Yi Xi Ŷ (Y - Ŷ)2 (X - X)
2
2005/06 26.420,0827 8,8975 29.410,6 8.943.375,88 48,49
2006/07 30.223,6000 14,4450 33.090,2 8.217.663,21 2,00
2007/08 31.279,7000 10,1283 30.227,0 1.108.107,36 32,86
2008/09 31.620,2000 11,1508 30.905,2511.153,51 22,18
2009/10 33.074,7000 14,5258 33.143,9 4.783,50 1,78
2010/11 38.168,4000 19,6842 36.565,3 2.569.776.79 14,62
2011/12 38.271,8000 25,2400 40.250,5 3.915.219,38 87,97
2012/13 38.336,8761 23,3375 38.988,6 424.714,03 55,90
2013/14 37.878,2633 17,5258 35.133,7 7.532.403,18 2,77
2014/15 35.560,1797 16,4067 34.391,4 1.366.032,30 0,30
2015/16 33.489,1427 13,1275 32.216,4 1.619.979,43 7,47
∑ 374.322,9 174,47 374.322,9 36.213.208,56 276,35
Usando n = 11 e ∑(yi - ŷi)
2 = 36.213.208,56, o erro-padrão da estimativa é:
( )2i i
e
y y 36.213.208,56
s 2.005,9137
n 2 9
ˆ−
= = =
−
∑ 2
Temos como erro-padrão da estimativa 2.006. Isso significa que o desvio-padrão da produção de 
açúcar para um preço específico no mercado externo é de cerca de 2.006 mil toneladas.
Esse valor deve ser interpretado como um desvio-padrão; portanto, é medido na mesma unidade da 
variável dependente y.
Com base nas fórmulas a seguir, podemos calcular, então, os coeficientes de regressão:
xy
xx
S
b 
S
=
y x
a y bx b
n n
= − = −∑ ∑
72
Unidade II
Em que, com base nos dados da tabela do resumo dos resultados, calculamos:
i i i ix 174,47 y 374.322,9 x y 6.120.374,1= = =∑ ∑ ∑
∑xi
2 = 3.043,6 ∑yi
2 = 12.895.764.620,1
( ) ( )i i
xy i i
x y
S x y
n
= −
∑ ∑∑
( )
xy
174,47 374.322,9
S 6.120.374,1 183.272,61
11
×
= − =
( )2i2
xx i
x
S x 
n
= − =
∑∑
( )2
xx
174,47
S 3.043,6 276,35
11
= − =
( )2i2
yy i
y
S y
n
= −
∑∑
( )2
yy
374.322,9
S 12.895.764.620,1 157.794.912,7
11
= − =
}Yi
Ŷi
Xi
X
Y
Linha dos mínimos quadrados
Ŷ = a + bX
Valores ajustados
Desvio: Yi - Ŷi
X
Figura 25 – Plano cartesiano
73
ECONOMETRIA
( ) ( )2 22
n xy x y 11 6.120.374,1 174,47 374.322,9 2.015.998,74
b 663,29
3.039,8211 3.043,6 174,47n x x
− × − ×
= = = ≅
× −−
∑ ∑ ∑
∑ ∑
y x 374.322,9 174,47 
a y bx b 663,29
n n 11 11
34.029,35 10.520,38 23.508,98
= − = − = − × =
= − ≅
∑ ∑
Tabela 17 – Coeficientes estimados
 Coeficientes Erro-padrão Stat t valor-P 95% inferiores
95% 
superiores
 (dos coeficientes)
(teste t-Student 
calculado) Prob. (tcrítico > t)
(limites do intervalo de 
confiança)
Interseção (α) 23.508,98 2.007,15 11,71 0,0000009 18.968,50 28.049,46
Preço do açúcar 
VHP (X1) (β)
663,29 120,67 5,50 0,0003817 390,33 936,26
 Y = α + βX + e >>>>> Y = 23.508,98 + 663,29X
Portanto, a equação da reta de regressão é:
ŷ = 23.508,98 + 663,29X
 Observação
A reta de regressão passa sempre pelo ponto (x , y). A inclinação da reta b 
deve ter sempre o mesmo sinal que os dados no coeficiente de correlação r.
5.5 Erro-padrão do coeficiente linear (ou do intercepto)
O erro-padrão do intercepto (coeficiente linear da reta α) indica aproximadamente a distância 
entre os coeficientes estimados α̂ e o coeficiente linear populacional α, devido à dispersão dos dados 
amostrais. Assim, quanto menor for o erro Sα̂, melhor será a precisão da estimativa. Note a equação:
( )2
ˆ e
xx
média X1
S S
n Sα
 
= + 
 
74
Unidade II
Onde:
Se= erro-padrão da estimativa = 2.005,9137;
n = número de observações = 11;
média X = média da variável independente X = 15,8609.
( )2i2
xx i
x
S x 
n
= − =
∑∑
( )2
xx
174,47
S 3.043,6 276,3472
11
= − =
Portanto:
2 2
ˆ e
xx
1 (média X) (15,8609)
S S 2.005,9137 0,0909 2.007,15
n S 276,3472α
 
= + = × + ≅  
5.6 Erro-padrão do coeficiente angular
Analogamente ao Sα̂ , o erro do coeficiente S β̂ é a medida aproximada da distância entre a estimativa 
β̂ e o coeficiente angular populacional β̂ . Veja:

e
xx
S
S
Sβ
=
 

2.005,9137
S 120,67
276,3472β
= ≅
5.7 Inferências sobre o coeficiente angular
Em algumas situações, mesmo não havendo relacionamento (causalidade) entre as variáveis na 
população, os dados amostrais podem sugerir a existência de relação. Isso ocorre quando, devido a 
fatores aleatórios, os dados extraídos da população dispõem-se de forma que seja possível traçar uma 
reta em que se ajustam esses pontos. Por essa razão, sempre é preciso verificar se o modelo linear obtido 
é realmente significativo (base teórica, a lógica de causa e efeito). 
75
ECONOMETRIA
Y
β̂ = 0
X
α̂
Figura 26 – Reta ajustada (constante)
O gráfico mostra o não relacionamento entre X e Y. Portanto, para que possamos verificar se as 
variáveis na população são mesmo relacionadas, devemos testar as seguintes hipóteses: 
H0 : β = 0 (não há associação entre X e Y);
H1 : β ≠ 0 (teste bilateral).
Diferentes tipos de testes podem ser empregados para esse propósito. Uma das maneiras consiste 
em elaborar um intervalo de confiança para o coeficiente angular β. Esse intervalo é definido como:
β̂ - t . S β̂ < β < β̂ + t . S β̂
Onde:
β̂ = estimativa do coeficiente angular da reta = 663,29;
t = valor crítico, distribuição de probabilidade (t de Student) = 2,26;
S β̂ = erro-padrão do coeficiente angular β = 120,67;
n = número de observações;
k = número de variáveis independentes X.
Temos:
β̂ = 663,29 t0,05; 9 = 2,26 Sβ̂ = 120,67 n = 11 k = 1
Estabelecendo um grau de confiança de 95%, isto é, um nível de significância de 5% (α = 0,05), e calculando os 
graus de liberdade, o que é obtido pela expressão n – k – 1 (9), obtemos o valor do t crítico (tα; n – k – 1 = t0,05; 9 = 2,26) 
usando a distribuição t de Student – veja a tabela da distribuição t-Student (bilateral) no AVA.
76
Unidade II
Então podemos calcular o intervalo de confiança para β com 95% de confiança: ICβ (95%):
ICβ(95%): 663,29 - 2,26 x 120,67 < β < 663,29 + 2,26 x 120,67
ICβ(95%): 390,33 < β < 936,26
Estimamos que o coeficiente angular β pertence ao intervalo [390,33; 936,26] com um nível de 
confiança de 95%.
Se o intervalo de confiança para β incluir o zero, não poderemos rejeitar a hipótese nula. Caso o 
intervalo definido não inclua o zero, rejeitamos a hipótese nula, admitindo um de erro (5%), de que há 
relação significativa entre as variáveis. 
No nosso cálculo, o intervalo definido não inclui o zero. Podemos, portanto, rejeitar a hipótese nula 
(H0 : β = 0), concluindo, com um nível de confiabilidade de 95%, que há relação significativa entre as 
variáveis na população.
Outra maneira de testarmos a hipótese nula (β = 0) é analisar a significância do coeficiente de regressão. 
Para isso, comparamos, em termos relativos, o valor da estimativa β̂ com seu desvio-padrão Sβ̂:


t
Sβ
β − β
=
Onde:
β̂ = estimativa do coeficiente angular β;
β = coeficiente angular da população;
S β̂ = erro-padrão e β̂. 
Como a hipótese nula β = 0, essa equação resulta em: 


t
Sβ
β
=
 Observação
O Excel dispõe da função estatística INVT, por meio da qual pode ser 
obtido o valor do t crítico. No nosso caso, INVT(α; n - k - 1) = INVT(0,05; 9) 
retorna o valor 2,26.
77
ECONOMETRIA
O valor t de Student pode ser interpretado como o número de desvios-padrões que o estimador 
β̂ dista do ponto zero. Quanto maior for essa distância, maior será a chance de β̂ ser diferente de 0, 
portanto, garantindo a existência do modelo de regressão (relação entre X e Y).


663,29
t 5,50
S 120,67β
β
= = =
O valor de t crítico calculado no item anterior é de 2,26. Assim, concluímos que devemos rejeitar 
a hipótese nula H0, pois o valor em módulo do t teste é maior do que o valor t crítico da tabela 
(t = |5,50 | = 5,50 > 2,26).
-2,26 +2,260
Região de não 
rejeição ou 
aceitação
Região de 
rejeição
α
2
α
2
Valor crítico Valor crítico
Região de 
rejeição
5,50
t
Figura 27 – Região crítica para o teste t
Para calcular a probabilidade (valor - P) de obtermos uma estatística t igual ou superior a esse valor, 
vamos utilizar a função estatística do Excel (DISTT).
Para o nosso caso, valor - P = DISTT (teste; graus de liberdade; caudas).
Onde:
• teste = t teste (Stat-t deve ser inserido com seu valor em módulo, isto é, positivo);
• graus de liberdade = n - k - 1 (graus de liberdade dos resíduos, sendo n o número de observações 
e k o número de variáveis independentes);
• caudas = o teste do valor-P bicaudal deve ser sempre igual a 2.
78
Unidade IINível de significância do teste α (erro permitido):
• valor - P = DISTT (5,50; 9; 2) retorna o valor 0,0003817, de modo que:
— se o valor - P for ≤ α, rejeitaremos a hipótese nula;
— se o valor - P for > α, aceitaremos a hipótese nula.
O erro permitido é de 5% (α = 0,05). Assim, o valor-P é bem menor que 0,05. Significa rejeitarmos a 
hipótese nula (H0 : β = 0) de que não há associação entre X e Y.
5.8 Teste de hipótese
É importante também aplicarmos o teste de hipótese ao nosso modelo de regressão.
A hipótese nula é: os valores de x não têm qualquer relacionamento com os valores de y. Veja:
H0 : β = 0;
H1 : β ≠ 0 (teste bilateral).
A hipótese nula é confirmada pela equação Ŷi = a + bXi + ei, quando se constata que não haverá 
qualquer relação entre x e y se o verdadeiro valor do coeficiente angular for zero.
( )
( )
2
i
2
i
b
t 
y y / (n 2)
x x
ˆ
− β
=
− −
−
∑
∑
A equação tem distribuição t com n - 2 graus de liberdade. Assim, decorre que, se β = 0, então a 
estatística será:
( )
( )
2
i
2
i
b
t 
y y / (n 2)
x x
ˆ
=
− −
−
∑
∑
Podemos calcular o valor dessa estatística. Testamos a existência do efeito de regressão entre duas 
variáveis em estudo. A hipótese nula é de não existência de regressão, enquanto a hipótese alternativa 
é aquela que contempla a regressão.
Assim, o teste de hipótese será delineado:
79
ECONOMETRIA
Tabela 18 – Teste de hipótese (H0 : β = 0)
Hipótese nula H0 : β = 0
Valor da estatística de teste ( )
( )
obs 2
i
2
i
b
t
y y / (n 2)
x
ˆ
x
=
− −
−
∑
∑
Hipótese alternativa Intervalo de rejeição (nível α)
H1 : β ≠ 0 tobs > tn - 2;
No teste para β, calculamos a região crítica (RC) ao nível de significância de 5%. Podemos calcular 
o valor dessa estatística:
( )
( )
2
i
2
i
b 663,29
t 5,50
36.213.208,56 / (11 2)y y / (n 2)
276,35x x
ˆ
= = =
−− −
−
∑∑
∑
Para um teste bilateral no nível de significância de 5%, o valor crítico de uma distribuição t com 
9 graus de liberdade é 2,26. Como 5,50 está na região de rejeição, bem acima do valor crítico, podemos 
rejeitar com segurança a hipótese nula de que o coeficiente angular seja zero.
-tc tc t
-2,26 +2,26
α
2
α
2
Figura 28 – Região crítica para o teste t
Teoria 
econômica
Modelo 
econométrico
Estimação 
do modelo Previsão
Modelo 
matemático Dados
Teste de 
hipóteses
Aplicação 
do modelo
Figura 29 – Sétimo e oitavo passos para a elaboração de um modelo econométrico
80
Unidade II
Exemplo: podemos usar essa equação para prever a expectativa de produção de açúcar com base no 
preço a seguir: US$ 15,00.
Solução: devemos substituir cada renda em x na equação. Calculando o valor previsto ŷ:
ŷ = 23.508,98 + 663,29X = 23.508,98 + 663,29 x 15,00 = 33.458,33
Quando o preço for de US$ 15,00, a produção de açúcar chegará a 33.458 mil toneladas.
Os valores previstos têm sentido somente para valores de x no intervalo de dados (8,00 a 25,00 dólares) 
ou próximos a eles.
5.9 Intervalos de previsão
Uma vez que as equações de regressão são determinadas usando dados amostrais e supõe-se que 
x e y tenham uma distribuição normal bivariada, podemos construir um intervalo de previsão para o 
verdadeiro valor de y.
 Observação
Duas variáveis terão uma distribuição normal bivariada se, para cada 
valor fixo de x, os valores correspondentes de y tiverem distribuição 
normal e, para cada valor fixo de y, os valores correspondentes de x 
forem normalmente distribuídos.
Para construir o intervalo de previsão, usa-se uma distribuição t de Student com n - 2 graus de liberdade.
Portanto, dada uma equação de regressão linear ŷ = a + bx e x0, um valor específico de x, podemos 
construir um intervalo de previsão c para y:
ŷ - E < ŷ < ŷ + E
Em que:
( )
2
0
c e 22
n(x x)1
E t S 1 
n n x x
−
= + +
−∑ ∑
A estimativa pontual é ŷ, e o erro máximo de estimativa é E. A equação anterior define o intervalo 
de previsão para uma resposta individual, Y, em um determinado valor, x0.
81
ECONOMETRIA
Exemplo: construa um intervalo de previsão de 95% para as mil toneladas de açúcar produzidas 
quando o preço no mercado externo for de US$ 15,00.
Solução: temos que n = 11. O número de graus de liberdade é:
g.l. = n - 2 = 11 - 2 = 9
Tendo a equação de regressão e x0 = 15,00 (valor específico de x):
ŷ = 23.508,98 + 663,29X
Então a estimativa pontual é:
ŷ = 23.508,98 + 663,29 x 15,00 = 33.458,33
ŷ = 33.458,33
Com base na distribuição de probabilidade t de Student – veja a tabela da distribuição t-Student 
(bilateral) no AVA –, o valor crítico é:
tc = 2,26
O erro-padrão da estimativa é:
se = 2.005,9137
Baseados nesses valores, o erro máximo da estimativa é:
( )
2
0
c e 22
n(x x)1
E t S 1 
n n x x
−
= + +
−∑ ∑
21 11 (15 15,86)
E (2,26 2.005,91) 1 
11 3.039,82
× −
= × × + +
E = 4.850,5
Utilizando ŷ = 33.458,33 e E = 4.850,5, o intervalo de confiança é:
ŷ - E < ŷ < ŷ + E 
82
Unidade II
Limite inferior (ŷ - E) Limite superior (ŷ + E)
33.458,33 + 4.850,5 = 28.607,8 33.458,33 + 4.850,5 = 38.308,8
28.608 < ŷ < 38.309
Portanto, pode-se ter 95% de confiança de que, se o preço do açúcar no mercado externo for de 
US$ 15, a produção em mil toneladas estará entre R$ 28.608 e 38.309 mil toneladas.
 Observação
Quanto maior for a diferença entre x e x, maior será o intervalo de previsão.
220
y
180
140
100
60
200
160
120
80
40
20
0 2 10
x̂ = 14
Em xp = x̂ a 
amplitude do 
intervalo de 
confiança é menor
Os limites de intervalo 
de confiança 
dependem de Xp
Limite superior
Limite inferior
ŷ = 
60 +
 5x
186 14 224 12 208 16 24 26
x
Figura 30 – Intervalos de confiança da média de y para determinados valores de x
5.10 Anova (análise de variância)
É a análise dos pressupostos básicos e validação dos testes estatísticos no grau de ajustamento de 
um modelo de regressão.
Veja os dados a seguir, extraídos de pesquisas do IBGE:
83
ECONOMETRIA
Tabela 19 – Resultado de resíduos
Observação Previsto(a) prod. açúcar (Y) Resíduos Resíduos padrão
1 29.410,63 -2.990,55 -1,57
2 33.090,25 -2.866,65 -1,51
3 30.227,03 1.052,67 0,55
4 30.905,25 714,95 0,38
5 33.143,86 -69,16 -0,04
6 36.565,35 1.603,05 0,84
7 40.250,49 -1.978,69 -1,04
8 38.988,58 -651,70 -0,34
9 35.133,74 2.744,52 1,44
10 34.391,41 1.168,77 0,61
11 32.216,36 1.272,78 0,67
Premissas da regressão (MMQO) e o grau de ajuste do modelo econométrico:
Quadro 2 – Premissas da regressão
Linearidade Teste A relação entre X e Y é linear
Independência dos erros ou
autocorrelação residual Durbin-Watson
Os valores dos erros são 
estatisticamente independentes. Os 
resíduos devem estar distribuídos 
aleatoriamente em torno da reta 
de regressão e não devem estar 
correlacionados entre si.
Normalidade dos erros Kolmogorov-Smirnov Os erros são normalmente distribuídos para cada valor de X.
Igualdade de variâncias ou 
homocedasticidade Pesaran-Pesaran
A variância dos erros é constante para 
todos os valores de X.
Pelo diagrama de dispersão, é possível visualizar se as relações entre as variáveis X e Y são lineares 
através de uma reta ajustada aos pontos observados. Entre as causas de autocorrelação, se erramos 
na escolha da equação a ser ajustada aos pontos observados e em vez de escolhermos uma relação 
não linear optamos por ajustar uma reta, o gráfico dos resíduos irá mostrar uma tendência positiva 
(ou negativa), significando que uma outra função (não linear) deveria ser escolhida. Outra situação é 
a seguinte: se por acaso uma variável explicativa (X) de grande importância for omitida do modelo, a 
tendência dessa variável passará a constar, a refletir no comportamento do resíduo.
84
Unidade II
0
X
Resíduos
Figura 31 – Diagrama de dispersão dos resíduos
 Observação
A autocorrelação serial se baseia na ideia de que os resíduos contêm mais 
informação sobre a variável dependente do que aquilo que foi “filtrado” 
pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser 
sistematizado. Exemplos de autocorrelação são normalmente encontradosem trabalhos que utilizam séries de tempo como dados de análise.
6 AVALIAÇÃO DO CONTEÚDO INFORMACIONAL DOS RESÍDUOS
A análise de resíduos revela:
• se a presunção de normalidade da distribuição dos resíduos se confirma;
• se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em torno da 
reta de regressão é uniforme;
• se há ou não uma variável não identificada que deve ser incluída no modelo;
• se a ordem em que os dados foram coletados (por exemplo, tempo da observação) tem algum 
efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no modelo;
• se a presunção de que os resíduos não são correlacionados está satisfeita.
Premissas dos testes estatísticos em relação:
85
ECONOMETRIA
Dados Resíduos São aleatórios com 
distribuição normal?
São independentes entre si?
Têm valor esperado = 0?
Possuem variância 
constante?
Modelo linear nos 
parâmetros
Figura 32 – Premissas dos testes: dados e resíduos
Portanto, antes de utilizarmos o modelo de regressão, é necessário verificarmos se essas premissas 
são verdadeiras para os dados que estão sendo analisados. Uma vez que os dados foram coletados ao 
longo de um período consecutivo de 11 anos, além de verificarmos os pressupostos de linearidade, 
normalidade e igualdade das variâncias, é necessário investigar o pressuposto da independência dos 
erros (autocorrelação dos resíduos).
Inicialmente, iremos ressaltar uma representação gráfica que é obtida plotando os pares (xi, ei). 
Obtido o gráfico dos resíduos, precisamos saber como identificar possíveis causas que comprometem a 
confiabilidade do modelo. A situação ideal para os resíduos é estarem distribuídos aleatoriamente em 
torno do zero, sem nenhuma observação muito discrepante.
0 Bom padrão
x
y - ŷ
Re
sí
du
o
Figura 33 – Diagrama de resíduos: situação ideal
A análise de resíduos nos permite:
• descobrir se as hipóteses do modelo de regressão linear são válidas para o caso em questão;
• analisar se a correlação entre as duas variáveis é ou não forte, na qual utilizamos a relação 
 
egSQR
SQT
 ou es(1 SQR )
SQT
− .
86
Unidade II
Tomemos, pois, os resíduos das produções de açúcar em relação ao preço do mercado externo. 
Podemos analisar a evolução dos resíduos para saber se a variância σ2 é ou não constante ao longo do 
intervalo x, além de apresentar distribuição normal em torno da reta de regressão.
Temos, a seguir, os resíduos para cada valor de x observado e os gráficos de resíduos para analisarmos 
a consistência das hipóteses do modelo de regressão, a partir de dados do IBGE:
Tabela 20 – Variância residual
Produção de 
açúcar
Preço do açúcar 
VHP (mercado)
mil toneladas US$/saca de 50 quilos
Ano Yi Xi Ŷ (Y - Ŷ)2 (X - X)
2
2005/06 26.420,0827 8,8975 29.410,6 8.943.375,88 48,49
2006/07 30.223,6000 14,4450 33.090,2 8.217.663,21 2,00
2007/08 31.279,7000 10,1283 30.227,0 1.108.107,36 32,86
2008/09 31.620,2000 11,1508 30.905,2 511.153,51 22,18
2009/10 33.074,7000 14,5258 33.143,9 4.783,50 1,78
2010/11 38.168,4000 19,6842 36.565,3 2.569.776,79 14,62
2011/12 38.271,8000 25,2400 40.250,5 3.915.219,38 87,97
2012/13 38.336,8761 23,3375 38.988,6 424.714,03 55,90
2013/14 37.878,2633 17,5258 35.133,7 7.532.403,18 2,77
2014/15 35.560,1797 16,4067 34.391,4 1.366.032,30 0,30
2015/16 33.489,1427 13,1275 32.216,4 1.619.979,43 7,47
∑ 374.322,9 174,47 374.322,9 36.213.208,56 276,35
Assim, a variância residual (estimada) é:
2 esSQR 36.213.208,56S 4.023.689,84
n 2 9
= = =
−
Uma maneira simples de obtermos informações importantes sobre um modelo de regressão consiste 
em elaborarmos um gráfico dos resíduos para cada ponto dos dados observados (Xi, Yi). Portanto, 
calculamos o resíduo:
Outra maneira de obtermos informações preciosas sobre um modelo de regressão consiste em fazer 
um gráfico dos resíduos. Para cada ponto dos dados (Xi e Yi), calculamos o resíduo. A equação da reta 
estimada é a seguinte:
Ŷ = 23.508,98 + 663,26X
87
ECONOMETRIA
Resíduo (ei) = (Y - Ŷ)
Resíduo (ei) = (Y - 23.508,98 + 663,29X)
A seguir, calculamos a tabela dos resíduos, de acordo com números IBGE:
Tabela 21 – Resíduos
Seq. Ano Xi Yi Ŷ = 23.508,98 + 663,29X Resíduo(ei)
1 2005/06 8,8975 26.420,0827 29.410,6 -2.990,55
2 2006/07 14,4450 30.223,6000 33.090,2 -2.866,65
3 2007/08 10,1283 31.279,7000 30.227,0 1.052,67
4 2008/09 11,1508 31.620,2000 30.905,2 714,95
5 2009/10 14,5258 33.074,7000 33.143,9 -69,16
6 2010/11 19,6842 38.168,4000 36.565,3 1.603,05
7 2011/12 25,2400 38.271,8000 40.250,5 -1.978,69
8 2012/13 23,3375 38.336,8761 38.988,6 -651,70
9 2013/14 17,5258 37.878,2633 35.133,7 2.744,52
10 2014/15 16,4067 35.560,1797 34.391,4 1.168,77
11 2015/16 13,1275 33.489,1427 32.216,4 1.272,78
Vamos elaborar o gráfico de dispersão, com os valores de Xi dispostos no eixo horizontal e os resíduos 
ei ao longo do eixo vertical. Temos: 
-4.000,0 Preço açúcar VHP (x1)
-3.000,0
-2.000,0
-1.000,0 5,0 10,0 15,0 20,0 25,0 30,0
0
Re
sí
du
os 1.000,0
2.000,0
3.000,0
4.000,0
Figura 34 – Preço açúcar VHP (x1) plotagem de resíduos
Como podemos observar, os resíduos não se concentram acima ou abaixo da linha horizontal. Eles se 
distribuem aleatoriamente ao longo da reta, pressupondo-se portanto que não há haja autocorrelação. 
Para verificar se de fato não há correlação, utilizaremos o teste Durbin-Watson.
88
Unidade II
Na plotagem dos resíduos, para que os dados atendam às premissas, o gráfico anterior deve 
mostrar uma faixa horizontal centrada em torno do zero, sem mostrar uma tendência positiva 
ou negativa, ou seja, os resíduos devem estar distribuídos aleatoriamente em torno de zero, sem 
nenhuma observação discrepante.
Existe um tópico dentro dos estudos econométricos que trata especificamente da análise dos resíduos, 
um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com 
base nos resíduos.
µ
0
x
µ
0
x
µ
0
x
µ
0
x
Figura 35 – Plotagem dos resíduos
Conhecido como autocorrelação residual, existente nos exemplos dos gráficos anteriores, 
esse pressuposto é às vezes violado quando os dados são coletados ao longo do tempo (períodos 
sequenciais), e podem existir concentrações de resíduos com o mesmo sinal (autocorrelação positiva, 
a mais frequente) ou quando os resíduos tendem a alternar de sinal – de positivo para negativo, 
depois para positivo, e assim sucessivamente (autocorrelação negativa, mais rara) –, se existe de 
fato um padrão cíclico.
89
ECONOMETRIA
µ
0
x
Figura 36 – Resíduos
Como podemos observar no gráfico anterior, os resíduos não estão concentrados nem acima nem 
abaixo da linha horizontal. Eles se encontram distribuídos aleatoriamente ao longo da reta, pressupondo-se 
portanto que não haja autocorrelação. Para verificar se de fato não há correlação, utilizaremos o teste 
Durbin-Watson. 
O modelo pressupõe que:
• a correlação entre os resíduos seja zero;
• o efeito de uma observação seja nulo sobre a outra;
• não haja causalidade entre os resíduos e a variável X e, por consequência, a variável Y.
A estatística de Durbin-Watson analisa a dispersão dos resíduos em torno da sua média. É um teste 
utilizado para detectar se há presença significativa de autocorrelação entre os resíduos em um modelo 
de regressão. O coeficiente de Durbin-Watson mede a correlação entre cada um dos resíduos e o resíduo 
da observação anterior:
• H0: não existe correlação serial dos resíduos.
• H1: existe correlação serial dos resíduos.
Segue-se a fórmula:
( )n 2i i 1i 2
n 2
ii 1
e e
DW
e
−=
=
−
=
∑
∑
onde ei é o resíduo para o período de tempo i.
90
Unidade II
Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são eficientes 
e apresentam maior erro-padrão.
São possíveis causas em séries temporais:
• inércia;
• viés de especificação:
— falta de variáveis;
— forma funcional incorreta.
• defasagem nos efeitos das variáveis;
• manuseio dos dados: interpolação/extrapolação.
A solução é formularcorretamente a relação funcional ou tornar a série estacionária.
Construímos a planilha, a partir de dados do IBGE, para proceder aos cálculos:
Tabela 22 – Cálculo do teste Durbin-Watson
Seq. Ano Xi observado Yi observado Yi previsto ei = (Yi prev - Yiob) ei
2 ei - 1 ei - ei - 1 (ei - ei - 1)
2
1 2005/06 8,8975 26.420,0827 29.410,6 -2.990,55 8.943.375,88
2 2006/07 14,4450 30.223,6000 33.090,2 -2.866,65 8.217.663,21 -2.990,55 123,90 15.351,48
3 2007/08 10,1283 31.279,7000 30.227,0 1.052,67 1.108.107,36 -2.866,65 3.919,31 15.361.018,06
4 2008/09 11,1508 31.620,2000 30.905,2 714,95 511.153,51 1.052,67 -337,72 114.052,62
5 2009/10 14,5258 33.074,7000 33.143,9 -69,16 4.783,50 714,95 -784,11 614.832,96
6 2010/11 19,6842 38.168,4000 36.565,3 1.603,05 2.569.776.79 -69,16 1.672,22 2.796.303,61
7 2011/12 25,2400 38.271,8000 40.250,5 -1.978,69 3.915.219,38 1.603,05 -3.581,74 12.828.887,70
8 2012/13 23,3375 38.336,8761 38.988,6 -651,70 424.714,03 -1.978,69 1.326,99 1.760.903,66
9 2013/14 17,5258 37.878,2633 35.133,7 2.744,52 7.532.403,18 -651,70 3.396,22 11.534.332,52
10 2014/15 16,4067 35.560,1797 34.391,4 1.168,77 1.366.032,30 2.744,52 -1.575,75 2.482.983,50
11 2015/16 13,1275 33.489,1427 32.216,4 1.272,78 1.619.979,43 1.168,77 104,01 10.818,14
∑ 0,00 36.213.208,56 -1.272,78 4.263,33 47.519.484,24
Quando resíduos sucessivos são positivamente correlacionados, o valor de DW se aproxima de 0. Se os 
resíduos não forem correlacionados, o valor de DW estará próximo de 2. Se existir uma autocorrelação 
negativa, caso mais raro, DW será maior do que 2 (podendo aproximar de seu valor máximo, que é 4). 
Para os dados da produção de açúcar, os resultados mostram que a estatística de Durbin-Watson (DW) 
é igual a 1,31, conforme fórmula a seguir:
91
ECONOMETRIA
( )n 2i i 1i 2
n 2
ii 1
e e 47.519.484,24
DW 1,31
36.213.208,56e
−=
=
−
= = ≅
∑
∑
Para determinarmos se a autocorrelação é grande o suficiente para que se conclua que existe uma 
correlação positiva, devemos comparar o valor de DW calculado (DW = 1,31) aos valores críticos da 
estatística de Durbin-Watson encontrados na tabela a seguir. Os valores críticos dependem do nível de 
significância do teste (α) e de (n), o tamanho da amostra, e de (k), o número de variáveis independentes 
no modelo de regressão.
Tabela 23 – Tabela Durbin-Watson
 K = 1 K = 2
n di du di du
6 0,610 1,400 
7 0,700 1,356 0,467 1,896
8 0,763 1,332 0,559 1,777
9 0,824 1,320 0,629 1,699
10 0,879 1,320 0,697 1,641
11 0,927 1,324 0,758 1,604
12 0,971 1,331 0,812 1,579
13 1,010 1,340 0,861 1,562
14 1,045 1,350 0,905 1,551
15 1,077 1,361 0,946 1,543
16 1,106 1,371 0,982 1,539
17 1,133 1,381 1,015 1,536
18 1,158 1,391 1,046 1,535
19 1,180 1,401 1,074 1,536
20 1,201 1,411 1,100 1,537
Tabela 24 – Critérios de avaliação Durbin-Watson
Autocorrelação 
positiva
Região não 
conclusiva
Ausência de 
autocorrelação
Região não 
conclusiva
Autocorrelação 
negativa
0 di du 4 - du 4 - di 4
O primeiro valor, di = 0,927, representa o valor crítico inferior. Caso DW = 1,31 esteja abaixo de di, 
conclui-se que existem evidências de autocorrelação positiva entre os resíduos (MMQ não é apropriado).
O segundo valor, du = 1,324, representa o valor crítico superior de DW, acima do qual se conclui que 
não existe nenhuma evidência de autocorrelação positiva entre os resíduos.
92
Unidade II
Caso DW se posicione entre di e du, fica-se impossibilitado de se chegar a uma conclusão definitiva, 
que é o nosso caso.
Como DW de 1,31 situa-se dentro desse intervalo, podemos aceitar a hipótese da ausência de 
autocorrelação residual e, consequentemente, utilizar o método dos mínimos quadrados. 
6.1 Avaliando a homocedasticidade 
Se o gráfico da plotagem de probabilidade normal for aproximadamente linear, poderemos assumir 
que os resíduos tenham distribuição normal. Veja a tabela e o gráfico com dados do IBGE:
Tabela 25 – Resultados de probabilidade
Percentil Prod. açúcar (Y)
4,55 26.420,08
13,64 30.223,60
22,73 31.279,70
31,82 31.620,20
40,91 33.074,70
50,00 33.489,14
59,09 35.560,18
68,18 37.878,26
77,27 38.168,40
86,36 38.271,80
95,45 38.336,88
41.000
39.000
37.000
35.000
Pr
od
. a
çú
ca
r (
m
il 
to
ne
la
da
s)
33.000
31.000
29.000
27.000
25.000
0 20 40 60 80
Percentil da amostra
100
Figura 37 – Plotagem de probabilidade normal
Quando o pressuposto da homocedasticidade está satisfeito, significa que a variância dos resíduos 
é igual a uma constante para todos os valores de X. A variância dos resíduos é indicada pela largura da 
dispersão dos resíduos, quando o valor de x aumenta. Se essa largura aumentar ou diminuir quando o 
valor de x aumentar, a variância não será constante. Esse problema é denominado heterocedasticidade. 
A violação do pressuposto da homocedasticidade compromete a eficiência das estimativas do modelo de 
93
ECONOMETRIA
regressão. A seguir, encontram-se dois gráficos que vão demonstrar a diferença entre homocedasticidade 
e hetorocedasticidade.
0 0
x x
Resíduos Resíduos
Figura 38 – Resíduos: homocedasticidade e heterocedasticidade
No gráfico (à esquerda), os resíduos parecem aleatórios (sem padrão): observamos uma variância 
constante à medida que x cresce. No gráfico (à direita), observamos que a variância residual está 
crescendo à medida que a variável x cresce.
O teste de Pesaran-Pesaran consiste em detectar a presença de heterocedasticiade com base nos 
resultados da regressão em que a variável dependente representa os valores dos quadrados dos resíduos 
(e2) e a variável independente é constituída pelos valores estimados da variável dependente (ŷ). 
Veja a tabela a seguir, elaborada a partir de dados do IBGE:
Tabela 26 – Resíduos
Seq. Ano Yi projetado ei
2
1 2005/06 29.410,6 8.943.375,9 
2 2006/07 33.090,2 8.217.663,2 
3 2007/08 30.227,0 1.108.107,4 
4 2008/09 30.905,2 511.153,5 
5 2009/10 33.143,9 4.783,5 
6 2010/11 36.565,3 2.569.776,8 
7 2011/12 40.250,5 3.915.219,4 
8 2012/13 38.988,6 424.714,0 
9 2013/14 35.133,7 7.532.403,2 
10 2014/15 34.391,4 1.366.032,3 
11 2015/16 32.216,4 1.619.979,4 
94
Unidade II
 Observação
No teste de Pesaran-Pesaran podemos optar por regredir o quadrado 
 
dos resíduos padronizados ( )
2
2 i i
i_padronizado
i
(e média e )
e
desvio padrão de e
 −
=  − 
 
 
como função do quadrado dos valores estimados padronizados 
 
( )
2
2 i i
i_padronizado
i
(y média y )
Y
desvio padrão de y
ˆ ˆˆ
ˆ
 −
=  − 
. É uma regressão simples com 
 
o quadrado dos resíduos padronizados como variável dependente e o 
quadrado dos valores estimados padronizados como variável independente.
-4.000,000
Yi observado
-3.000,000
-2.000,000
-1.000,000 27.00025.000 29.000 31.000 33.000 35.0000 37.000 39.000 41.000
0
Re
sí
du
os 1.000,000
2.000,000
3.000,000
5.000,000
4.000,000
6.000,000
Figura 39 – Yi observado: plotagem de resíduos
Graficamente, observamos que os valores estão bem dispersos. Podemos concluir que há 
homocedasticidade. Usando a ferramenta de regressão do Excel, vamos calcular a regressão 
desses dados:
Tabela 27 – Análise de variância (Anova)
Estatística de regressão
R múltiplo 0,1363
R-quadrado 0,0186
R-quadrado ajustado -0,0905
Erro-padrão 3.512.278,65
Observações 11
95
ECONOMETRIA
Anova
 gl SQ MQ F
F de 
significação
Regressão 1 2.100.943.198.308,7 2.100.943.198.308,7 0,1703 0,689495411
Resíduo 9 111.024.911.656.028,0 12.336.101.295.114,3
Total 10 113.125.854.854.337,0 
 Coeficientes Erro-padrão Stat t valor-P 95% inferiores
95% 
superiores
Inferior 95,0%
Superior 
95,0%
Interseção 7.765.397,31 10.891.091,76 0,7130 0,493914 -16.871.963,94 32.402.758,56 -16871963,94 32402758,56
Yi projetado -131,45 318,53 -0,4127 0,689495 -852,03 589,12 -852,0261707 589,1186329
O coeficiente de determinação, ou R-quadrado, nos diz que há pouca correlação entre as variáveis e 
o valor-P = 0,3189 ou 31,89% (e o F de significação) > 5%.
Portanto, podemos aceitar a hipótese nula (β = 0) e a ausência de heterocedasticidade.6.2 Avaliando a normalidade
Os testes de significância e os intervalos de confiança das estimativas do modelo de regressão são 
baseados no pressuposto da normalidade, isto é, que os resíduos apresentam distribuição normal. A 
violação da normalidade gera estimativas não eficientes, de maior erro-padrão, e suas causas podem 
estar ligadas a alguns aspectos relacionados ao modelo, tais como omissão de variáveis explicativas 
importantes, inclusão de variável explicativa irrelevante para o modelo e utilização de relação matemática 
incorreta (forma funcional) para análise entre as variáveis do modelo. 
Utilizaremos o teste não paramétrico do Kolmogorov-Smirnov para avaliar a normalidade e testar a 
proximidade ou a diferença entre a frequência observada e a esperada.
Hipóteses:
H0: distribuição normal;
H1: distribuição não é normal.
A estatística do teste de Kolmogorov-Smirnov usa a distribuição D, cuja estatística de teste 
é a seguinte:
Dn = máx(i / n - Zi) 
Onde:
n = tamanho da amostra, sendo i = 1, 2, 3 ... n;
96
Unidade II
Zi = probabilidade acumulada da distribuição normal padronizada, considerando os valores 
i
i
e
h
n
= , onde ei são os resíduos ordenados de forma crescente e Se é o desvio-padrão dos ei, onde 
 Zi = DISTNORMP(hi), calculado pela função no Excel.
Se Dn ≤ Dcrítico, aceita a hipótese nula.
Geralmente, quando Dn for menor que 0,3, isso indica que a distribuição está apropriada (aproxima 
de uma normal). Para realização do teste, procedemos da seguinte maneira:
Dn = máx(D
+, D-)
O valor do Dcrítico é obtido a partir da tabela a seguir. Os parâmetros são: 
• o valor do nível significância, que é de 5% (α = 0,05);
• o tamanho da amostra. Em nosso caso, n = 11.
Se Dn é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com (1 - α)100% 
de confiança. Caso contrário, não rejeitamos a hipótese de normalidade.
A tabela de valores críticos para a estatística do teste de Kolmogorov-Smirnov é dada a seguir:
Tabela 28 – Teste de Kolmogorov-Smirnov
 Nível de Significância (α)
n 0,2 0,1 0,05 0,01
5 0,45 0,51 0,56 0,67
10 0,32 0,37 0,41 0,49
15 0,27 0,3 0,34 0,4
20 0,23 0,26 0,29 0,36
25 0,21 0,24 0,27 0,32
30 0,19 0,22 0,24 0,29
35 0,18 0,2 0,23 0,27
40 0,17 0,19 0,21 0,25
45 0,16 0,18 0,2 0,24
50 0,15 0,17 0,19 0,23
Valores maiores
1 07,
n
122,
n
136,
n
166,
n
97
ECONOMETRIA
Construindo a planilha de cálculo, temos:
Tabela 29 – Calculo Kolmogorov-Smirnov
i Ano ei hi = ei / s Zi i / n D = (i / n - Zi)
1 2005/06 -2.990,55 -1,5715 0,0580 0,0909 0,0329
2 2006/07 -2.866,65 -1,5064 0,0660 0,1818 0,1158
3 2007/08 1.052,67 0,5532 0,7099 0,2727 -0,4372
4 2008/09 714,95 0,3757 0,6464 0,3636 -0,2828
5 2009/10 -69,16 -0,0363 0,4855 0,4545 -0,0310
6 2010/11 1.603,05 0,8424 0,8002 0,5455 -0,2548
7 2011/12 -1.978,69 -1,0398 0,1492 0,6364 0,4871
8 2012/13 -651,70 -0,3425 0,3660 0,7273 0,3613
9 2013/14 2.744,52 1,4422 0,9254 0,8182 -0,1072
10 2014/15 1.168,77 0,6142 0,7305 0,9091 0,1786
11 2015/16 1.272,78 0,6688 0,7482 1,0000 0,2518
∑ 0,00
Desvio-padrão (s) 1.902,98
Portanto, como o valor de Dn = 0,4871 é maior que o Dcrítico = 0,41 (da tabela) para um nível de 
confiança de 95%, concluímos que os resíduos não se comportam seguindo uma distribuição normal 
de probabilidades. 
Para a identificação da normalidade nos resíduos, compara-se a distribuição dos resíduos 
com a curva normal através do teste de Jarque-Bera envolvendo a estatística qui-quadrado com 
2 graus de liberdade:
JB = n . [A2/6 + (C-3)2/24]
Onde:
A = assimetria;
C = curtose.
Neste nosso caso, temos:
n = número de observações (n = 11);
A = assimetria (A = - 0,3757);
C = curtose (C = - 0,9185).
98
Unidade II
Calcula-se a estatística JB:
2 2 2 2A (C 3) ( 0,3757) ( 0,9185 3)
JB n 11 7,3
6 24 6 24
   − − − −
= × + = × + ≅   
      
Consultando a tabela da distribuição qui-quadrado (vide tabela da distribuição qui-quadrado no 
AVA), obtemos JBcrítico = estatística qui-quadrado (
2
0,05; 2 X ) ao nível de significância de 5% e com 
2 graus de liberdade = 0,10.
Se JBcalculado ≤ JBcrítico, aceitará a hipótese nula. Portanto, rejeitamos a hipótese nula, ou seja, a 
distribuição dos resíduos não se comporta como uma distribuição de probabilidade normal.
 Observação
Os resíduos devem apresentar distribuição normal.
x = x1
x = x2
x
y
Figura 40 – Resíduos, distribuição de probabilidade normal
 Observação
Os resíduos devem apresentar a mesma variância para cada 
observação de X.
99
ECONOMETRIA
6.3 Intervalo de confiança para a regressão: duas alternativas
Quando calculamos o valor de ŷ considerando um valor para a variável X, há duas alternativas que 
levam ao mesmo resultado para ŷ, mas que produzem resultados diferentes com relação ao intervalo de 
confiança. Essas duas alternativas e as fórmulas de cálculo de seus desvios-padrões para o cálculo dos 
intervalos são as seguintes:
Alternativa 1: considerando ŷ como valor médio para dado X:
( )2
média de y e
xx
x média x1
S S .
n S
−
= +
Alternativa 2: considerando ŷ como valor individual para dado X:
( )2
 y e
xx
x média x1
S S . 1
n S
−
= + +
Os intervalos de confiança para essas duas situações estão descritos a seguir:
ICŷmédio = ŷ ± t . Smédia de y
ICŷindividual = ŷ ± t . Sy
Vamos retomar o nosso caso inicial (da produção de açúcar) para demostrarmos o cálculo dos 
dois intervalos de confiança, estimando ŷ: produção de açúcar a partir de X: preço em dólar no 
mercado externo.
Construamos um intervalo de previsão de 95% para as mil toneladas produzidas de açúcar quando 
o preço no mercado externo for de US$ 15.
Solução:
Temos que n = 11. O número de graus de liberdade é:
g.l. = n - 2 = 11 - 2 = 9
Tendo a equação de regressão e x0 = 15,00 (valor específico de x):
ŷ = 23.508,98 + 663,29X
100
Unidade II
Então a estimativa pontual é:
ŷ = 23.508,98 + 663,29 x 15,00 = 33.458,33
ŷ = 33.458,33
Com base na distribuição de probabilidade t de Student – veja a tabela da distribuição t-Student 
(bilateral) no AVA –, o valor crítico é:
tc = 2,26
O erro-padrão da estimativa é:
se = 2.005,9137
( )2i2
xx i
x
S x 
n
= − =
∑∑
( )2
xx
174,47
S 3.043,6 276,35
11
= − =
Alternativa 1: considerando ŷ como valor médio para dado X:
2 2
média de y e
xx
1 (x média x) 1 (15 15,86)
S S . 2.005,9137 613,66
n S 11 276,35
− −
= + = × + =
Alternativa 2: considerando ŷ como valor individual para dado X:
2 2
 y e
xx
1 (x média x) 1 (15 15,86)
S S . 1 2.005,9137 1 2.097,68
n S 11 276,35
− −
= + + = × + + =
Os intervalos de confiança para essas duas situações estão descritos a seguir:
ICŷmédio = ŷ ± t . Smédia de y = 33.458,33 ± 1.386,87
ICŷindividual = ŷ ± t . Sy = 33.458,33 ± 4.740,76
101
ECONOMETRIA
6.4 Variação em torno de uma reta de regressão
Vamos compreender os três tipos de variação em torno de uma reta de regressão. São eles:
Tabela 30 – Tipos de variação em torno da reta
Variação total = Variação explicada + Variação inexplicada
∑(yi - y)
2 = ∑(ŷi - y)
2 + ∑(yi - ŷi)
2
Soma do quadrado total = Soma do quadradoda regressão +
Soma do quadrado
do resíduo
SQTot = SQReg + SQRes
Syy bSxy = b
2Sxx + Syy - bSxy = Syy - b
2Sxx
• Variação total: é a soma dos quadrados das diferenças entre o valor y de cada par ordenado e a 
média de y.
• Variação explicada: é a soma dos quadrados das diferenças entre cada valor previsto de y e a 
média de y (explicada pela relação X e Y).
• Variação inexplicada: é a soma dos quadrados das diferenças entre cada valor de y de cada par 
ordenado e cada valor de y previsto correspondente (não pode ser explicada pela relação x e y e 
isso ocorre devido ao acaso ou a outras variáveis).
{ {{Desvio totalyi - y
y
x
(xi ; y)
(xi ; yi)
(xi ; ŷi)
y
Desvio 
explicado
ŷi - y
x
Desvio 
inexplicado
yi - ŷi
Figura 41 – Desvios para cada par de ponto (xi, yi)
Uma propriedade importante é a de que a variabilidade total poderá ser decomposta em duas partes:
• uma, devidaaos possíveis efeitos aleatórios (não controlados) que recaiam sobre cada experimento, 
que será definida como variabilidade residual;
102
Unidade II
• outra, a variabilidade atribuída ao efeito da regressão, se este realmente existir.
Podemos conduzir a análise de variância da regressão linear simples, conforme a tabela a seguir:
Tabela 31 – Análise da variância
Causas de variação Graus de liberdade Soma de quadrados Quadrados médios
Regressão 1 b∑xiyi b∑xiyi
Resíduo n - 2 ∑yi
2 - b∑xiyi (∑yi
2 - b∑xiyi) / (n - 2)
Total n - 1 ∑yi
2
Considerando o exemplo anterior, obtemos a seguinte tabela de análise de variância:
Tabela 32 – Análise de variância
Causas de variação Graus de liberdade Soma de quadrados Quadrados médios F
Regressão 1 121.581.704,10 121.581.704,10 30,22
Resíduo 9 36.213.208,56 4.023.689,84
Total 10 157.794.912,66
Tabela 33 – Análise de variância (Anova)
Anova (análise de variância)
 gl SQ MQ F F de significação
 (graus de liberdade)
(soma de 
quadrados)
(média de quadrados) (F-Fisher/Snedecor) 
Regressão 1 121.581.704,10 121.581.704,10 30,22 0,000382
(variação explicada)
(gl I = k : nº variáveis 
independentes ou numerador 
do teste F)
(SQR) (MQR = SQR / k) (MQR / MQE) Prob. (Fcrítico > F)
Resíduo 9 36.213.208,56 4.023.689,84
(variação 
inexplicada)
(gl II = n-k-1 : denominador do 
teste F)
(SQE) MQE = SQE / (n-k-1) 
(variância estimada)
2,2622
Total 10 157.794.912,66
 gl I + gl II = k + (n-k-1) = n - 1 (SQT) 
Ao nível de significância de 5% e para 1 e 9 graus de liberdade, o valor crítico de F é 5,2 (vide tabela 
da distribuição F de Fisher-Snedecor no AVA). O valor de F calculado (30,22), sendo superior ao valor 
crítico, é significativo ao nível de 5%. Consequentemente, rejeitamos a hipótese H0 : β = 0 em favor da 
hipótese alternativa H1 : β ≠ 0 a esse nível de significância.
103
ECONOMETRIA
 Resumo
Esta unidade abordou o modelo de regressão linear múltipla. Nesse 
modelo, a variável dependente pode ser explicada por mais de uma variável, 
partindo do princípio de que há uma relação linear entre as variáveis 
independentes e dependentes. Ainda nesse modelo, os parâmetros são 
desconhecidos e sua estimativa utiliza o método dos mínimos quadrados 
ordinários, que procuram os valores dos parâmetros que minimizem a 
soma dos quadrados dos erros. Aprendemos que, para a estimativa dos 
parâmetros desconhecidos, é necessário o uso das hipóteses de linearidade, 
exogeneidade, homocedasticidade, não autocorrelação dos erros e da não 
existência de colinearidade perfeita entre as variáveis explicativas.
A unidade tratou também dos diferentes tipos de testes sobre os 
coeficientes de uma regressão. São eles o da variável omitida e o da variável 
redundante. Quanto aos testes dos resíduos, eles estão divididos entre os 
da normalidade, do resíduo quadrado e da heterocedasticidade. Ainda 
temos os diferentes testes de estabilidade, que servem para avaliar se os 
parâmetros da regressão são estáveis ao longo do intervalo de estimativa. 
Quanto ao modelo de regressão múltipla, um problema deve ser evitado: 
o da multicolinearidade, em que a obtenção da matriz de correlação entre 
as variáveis que compõem o modelo de regressão linear múltipla ajuda em 
sua identificação.
Contribuição relevante da unidade foi a apresentação dos passos para 
a elaboração de um modelo econométrico agora relacionado à análise de 
regressão múltipla. A elaboração inicia pela teoria econômica, seguida da 
escolha do modelo matemático e do modelo econométrico. A próxima etapa 
é a da busca e tratamento dos dados, seguida da estimação do modelo de 
regressão. O teste de hipótese deve ser efetuado para que se possa passar à 
próxima etapa – a da previsão – e, por fim, à aplicação do modelo.
Para medir a força do relacionamento entre duas variáveis em termos 
absolutos, aprendemos o que vem a ser covariância e o coeficiente 
de correlação. O teste de hipótese para um coeficiente de correlação 
populacional também foi apresentado no sentido de determinar se 
existe evidência suficiente para que seja possível decidir se o coeficiente 
de correlação populacional é representativo a determinado nível de 
significância. De igual importância, temos o coeficiente de determinação, 
que mede o grau de ajustamento da reta de regressão aos dados observados 
e indica a proporção da variação total da variável dependente, que é 
explicada pela variação da variável independente. A unidade avançou para 
104
Unidade II
o tratamento do erro-padrão do coeficiente linear e do coeficiente angular, 
bem como das inferências sobre o coeficiente angular. A importância 
do teste de hipóteses no modelo de regressão também foi objeto de 
investigação da unidade.
 Exercícios
Questão 1. (Enade 2009) Considere o modelo de regressão linear múltipla, com variável dependente 
y e variáveis explicativas X1, X2, ..., Xk, que pode ser expresso como: 
yt = β1 + β2 X2t + β3 X3t + . . .+ βk Xkt + εt
no qual εt significa o fator de erro e t = 1, 2, ..., no índice relativo às observações amostrais.
É correto afirmar que o modelo clássico de regressão linear ou modelo de Gauss de regressão linear 
supõe que
A) a relação linear entre pelo menos duas variáveis explicativas seja exata.
B) a variância dos erros varie na amostra: E E para t zt z� �
2 2� � � � � �
C) o valor esperado do fator de erro seja diferente de zero: E t�� � � 0
D) os erros não sejam correlacionados: E para t zt z� �� � � �0
E) os valores das variáveis explicativas, X2, X3,..., Xk variem de amostra para amostra. 
Resposta correta: alternativa D.
Análise das alternativas
A) Alternativa incorreta.
Justificativa. É pressuposto que a relação entre duas ou mais variáveis explicativas não 
apresente nenhuma relação linear exata.
B) Alternativa incorreta.
Justificativa. O modelo supõe que a variância dos erros seja constante, ou seja, que tenhamos 
erros independentes.
105
ECONOMETRIA
C) Alternativa incorreta.
Justificativa. É suposto pelo modelo que o valor esperado para o fator de erro seja zero.
D) Alternativa correta.
Justificativa. Tal como na regressão linear simples, é um pressuposto do modelo que os erros 
sejam independentes, ou seja, não correlacionados. 
E) Alternativa incorreta.
Justificativa. É esperado que os valores das variáveis explicativas sejam fixos.
Questão 2. (Enade 2006) Considere o modelo autorregressivo AR(1) dado por:
yt = ρ · yt-1 + vt
 
onde E(v ) Q, var (v )t t� � � � ��v t se E v v s t e E
2 0( ) , (.) a esperança incondicional.
É correto afirmar que
A) se -1<ρ<1, o processo y é não estacionário.
B) se lρl>1, o processo é estacionário.
C) a variância incondicional de y é dada por �
�
�
v
v2
2
21
�
�
 , se lρl < 1.
D) o processo não é autorregressivo, mas de média móvel.
E) um ρ negativo significa que yt guarda pouca relação com o seu passado.
Resposta correta: alternativa C. 
 
Análise das alternativas
A) Alternativa incorreta.
Justificativa: o modelo pressupõe a condição -1 < ρ < 1 em sua própria especificação, pois tal 
condição garante que a variância da série de tempo seja um valor positivo e finito. Tal restrição é 
intuitivamente chamada de condição de estacionariedade.
106
Unidade II
B) Alternativa incorreta.
Justificativa: na alternativa, apresenta-se a mesma expressão -1 < ρ < 1, mas na forma de 
módulo. Precisaríamos ter o módulo do coeficiente ρ menor do que 1 para que fosse observada 
a estacionariedade.
C) Alternativa correta.
Justificativa: é a correta definição da variância do modelo, valendo ressaltar a mesma 
advertência feita na análise da alternativa (B) acerca da condição -1 < ρ < 1, agora corretamente 
observada (|ρ| < 1). 
D) Alternativa incorreta.
Justificativa: na análise de séries de tempo, é aplicável o modelo de médias móveis, que guarda 
relação com o próprio modelo autorregressivo. Todavia, sua especificação é distinta da apresentada na 
questão, uma vez que, conforme nas médias móveis a série yt resulta da combinação linear dos choques 
aleatórios

Outros materiais