Buscar

APrevisaoComoModelodeRegressao

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 67 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 67 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 67 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

A Previsão com o Modelo de Regressão.................................................................................... 1 
1. Introdução ao Modelo de Regressão .............................................................................. 1 
2. Exemplos de Modelos Lineares ..................................................................................... 2 
3. Derivação dos Mínimos Quadrados no Modelo de Regressão ...................................... 6 
4. A Natureza Probabilística do Modelo de Regressão...................................................... 9 
5. Propriedades Estatísticas dos Estimadores................................................................... 13 
6. Critérios de Avaliação dos Estimadores....................................................................... 14 
7. Obtenção da Média e o Desvio Padrão dos Melhores Estimadores Lineares Não 
Tendenciosos ou “Best Linear Unbiased Estimators” (BLUEs) .......................................... 16 
8. Aplicação de Testes de Hipóteses e Intervalos de Confiança aos EstimadoresErro! 
Indicador não definido. 
9. O Coeficiente de Ajustamento ou Determinação: Erro! Indicador não definido. 
10. Interpretação da Variação em Y em termos da Análise de VariânciaErro! Indicador 
não definido. 
11. O Modelo de Regressão Múltipla......................... Erro! Indicador não definido. 
12. Considerações Adicionais: a Correlação Parcial.................................................34 
13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos ................36 
14. O Modelo de Regressão Múltipla com Variáveis Explanatórias Estocásticas......36 
15. Violação dos Pressupostos Básicos do Modelo de Regressão Clássico..............37 
16. O Problema da Multicolinearidade .....................................................................38 
17. O Problema de Heteroscedasticidade..................................................................40 
18. O Problema da Correlação Serial ......................... Erro! Indicador não definido. 
19. A Previsão com o Modelo de Regressão.............. Erro! Indicador não definido. 
 
Leituras recomendadas (Pindyck e Rubinfeld(1976)): 
1. Variáveis instrumentais e mínimos quadrados em dois estágios (Leitura 
recomendada) (Pindyck e Rubinfeld) 
2. Tópicos avançados em estimação de uma equação singular (Leitura 
recomendada) 
3. Modelos de escolha qualitativa (Leitura recomendada) (Pindyck e Rubinfeld) 
Referências Bibliográficas: 
• Kmenta, Jan, “Elementos de Econometria”, Ed. Atlas. 
• Thomas, J. J. (1978), “Introdução à Análise Estatística para Economistas”, 
Zahar Editores. 
• Pindyck, R. S. e Rubinfeld, D. L. (1976), “Econometric Models and Economic 
Forecasts”, McGraw-Hill Kogakusha Ltd., Tokyo. 
• Pindyck, R.S. e Rubinfeld, D.L. (1991), “Econometric Models and Economic 
Forecasts”, Mcgraw-Hill International Editors. 
• Bowerman, B.L. e O`Connel, R.T. (1987), “Times Series Forecasting-Unified 
Concepts and Computer Implementation”, Duxbury Press, Boston. 
• Levenbach, H. e Cleary, J.P. (1984), “ The Modern Forecaster: The Forecasting 
Process Through Data Analysis”, Lifetime Learning Publications, Belmonnt, 
Califórnia. 
 1
A Previsão com o Modelo de Regressão 
 
1. Introdução ao Modelo de Regressão 
 
A teoria da Regressão permite que se estabeleçam relações entre variáveis que se 
interrelacionam cujas informações estão disponíveis (dados pré-coletados), relações às quais 
associam-se os modelos de regressão. Dessa forma, os economistas e os administradores 
procuram compreender a natureza e o funcionamento de sistemas econômicos que são 
descritos por meio dessas variáveis. Por exemplo, o volume do comércio internacional pode 
ser modelado como uma função linear do produto interno bruto dos países. As vendas de um 
produto podem ser estimadas por uma relação entre a variável que as representa e variáveis 
relativas aos preços desse produto e de seus concorrentes no mercado e aos respectivos gastos 
relativos com propaganda. Uma vez estabelecida essa relação pelo modelo de regressão, é 
preciso avaliar a confiança que nela se pode colocar, realizando testes estatísticos. 
Temos dois tipos básicos de informação a considerar: 
(1) • Informação descrevendo as mudanças assumidas por uma variável através 
do tempo (dados de séries temporais) 
(2) • Informação descrevendo as atividades de pessoas, firmas etc. num dado 
instante de tempo (dados de corte transversal) 
Para esses dois tipos de informação é possível estabelecer relações que descrevem as 
situações observadas por meio de modelos de regressão. 
Ou seja, dado um conjunto finito de observações X e Y, por meio do modelo de 
regressão é buscado estabelecer relações entre X e Y. Esse conjunto finito de observações 
corresponde a uma amostra representativa do universo de informações ou população, a qual 
permitiria estabelecer a verdadeira relação entre X e Y (Figura 1). 
 
Amostra População (verdadeira relação entre X e Y) 
 
Figura 1- Relação entre a amostra e a população ou universo de informações 
 
 2
Tome-se por hipótese que exista a relação linear li entre X e Y. No diagrama de 
dispersão da Figura 2 são representadas as linhas l1 e l2 que se procurou ajustar ao conjunto de 
pares ordenados (X, Y) do conjunto amostral, assim como os desvios (positivos e negativos) 
em relação a l2 . 
Figura 2 - Diagrama de dispersão e desvios em relação à linha ajustada 
Definem-se desvios como os valores, segundo Y, das diferenças entre os valores 
observados e os valores sobre a linha li ajustada ao conjunto de pares (X, Y). Como regra 
estabelece-se que a melhor linha li corresponde àquela cujo somatório dos desvios tende a 
zero (é minimizado). A melhor linha ajustada define o modelo de regressão e pode ser obtida 
pela derivação de mínimos quadrados ordinários, apresentada mais à frente. 
2. Exemplos de Modelos Lineares 
 
(A) Modelagem de Tendência e Sazonalidade através de Funções do Tempo 
Seja por exemplo o modelo Yt = St + Tt , onde Tt representa a tendência no período 
t. Por outro lado, St representa a sazonalidade no período t, sendo L o comprimento da 
sazonalidade. Exemplos de situações onde a tendência é modelada, em que β0, β1 e β2 são os 
parâmetros do modelo, são: 
 
 3
 
 Modelo 
∗ Tendência inexistente, ou constante 
horizontal 
Tt = β0 
∗ Tendência linear Tt = β0 + β1t 
∗ Tendência quadrática (Figura 3) Tt = β0 + β1t + β2t2 
Tt
t 
Tt
t 
que se transforma em: 
Tt = β0 + β1t + β2v, 
fazendo v=t2, o que torna 
possível transformação do grau 
da relação. 
Tt
t 
Tt
t 
 
 
Figura 3- Gráficos de dados com tendência quadrática 
Em algumas situações observa-se sazonalidade ou seja, os valores observados variam 
de forma característica por período de tempo t ao longo do comprimento da sazonalidade. 
Assim, pode-se escrever que: 
St = t1),(L1)(Lt2,2t1,1 SSSSSS Xβ...XβXβ −−+++ 
 
Variáveis “dummies” 
Define-se cada variável “dummy” por: 
t1,S
X = 
 
t2,S
X = 
 
 
t1),-(LSX = 
1 se t é o período sazonal 2 
0 senão 
1 se t é o período sazonal 1 
0 senão 
1 se t é o período sazonal (L-1) 
0 senão 
 4
 
Observa-se que o período sazonal L corresponde ao período base da representação de St 
(poderia ser outro qualquer, definindo-o a priori). 
 
(B) Exemplos de Transformação Linear 
Seja o modelo: 
• y = ea+bx ⇒ = (a + bx) ⇒ y = a + bx (transformação 
linear). 
 Substituindo-se x = 1/t, obtém-se a curva S ou curva do aprendizado (Figura 4): 
 
 Figura 4- Gráfico da curva do aprendizado 
• Modelo recíproco 
bxa
1Y += ⇒ Y
1 = a + bx ⇒ y=a+bx(transformação linear) 
• Modelo semilogarítmico 
Y = a + b log x ⇒ Y = a + bv (transformação linear) 
 
Da mesma forma: 
Y = α0 + α1 x12 + α2 log x2 ⇒ Y = α0 + α1 V1 + α2 V2 
 
V1 V2 
Seja a equação não linear nas variáveis independentes: 
Y = α0 x1α1 x2α2 
Esta equação é não linear nos coeficientes, mas linearizável, por meio de aplicação 
de logaritmos. 
y 
logey 
1 
logee 
v 
t 
 
 5
Seja o exemplo das vendas de um produto introduzido no mercado e com vendas, 
posteriormente, em expansão. Esta situação é típica do modelo que representa a curva do 
aprendizado do tipo Y = ea – (b/t), pois observa-se o começo lento, crescimento forte e período 
de saturação (Figura 5). 
 
 
 
 
 
 
 
 
Resultados do ajuste do modelo ao 
conjunto de observações: 
Parâmetros (a) 20.7867 
 (b) -21.0389 
R2 = 0.953, Fteste = 442.6 
 
Dados 
tempo(t) vendas(Y) 1/t Loge(vendas) 
1 0.023 1 -3.77226 
2 0.157 0.5 -1.851151 
3 0.329 
4 0.48 
5 1.205 
6 1.748 
7 1.996 
8 2.509 
9 2.366 
10 2.94 
11 2.8714 
12 2.9346 
13 3.1346 
14 3.24 
15 3.148 
16 3.522 
17 3.54 
18 3.31 
19 3.547 
20 3.374 
21 3.3745 
22 3.401 
23 3.6971 
24 3.493 
Figura 5- Exemplo de situação típica da curva do aprendizado (vendas de T.V. 
a cores, Makridakis e Wheelwright, Forecasting, pág. 203) 
 (C) Uso do tempo como uma das variáveis explanatórias 
Situações-Exemplo: 
1) Qt = γ Ltα Ktβ A(t) εt 
 
 
2) Inclusão da variável tempo em modelo “pouco aderente” 
Yt = β1 + β2 x2t + β3t + εt, sendo que o termo β3t modela o efeito líquido de 
conjunto de variáveis excluídas. O efeito da inclusão desse termo é estatístico. 
Y = e1,478 – (5,786/t) 
função de 
produção 
mudança 
técnica 
funcional de t
ex.: A(t) = eδt
 6
3. Derivação dos Mínimos Quadrados no Modelo de Regressão 
 
A derivação dos mínimos quadrados permite testes estatísticos sobre o 
ajustamento entre X e Y, da forma Y = a + bX, sendo, por hipótese, Y a variável 
dependente e X a variável independente. 
Y = a + bX 
 ⇓ ⇓ 
Variável dependente Variável independente 
 
Figura 6 – Linha de mínimos quadrados ajustada ao conjunto amostral 
 
Define-se o resíduo ou desvio (εi) como εi = iY – iYˆ , onde iYˆ = a + bXi , e N 
corresponde ao número de observações amostrais. 
Busca-se obter Min ∑ −−
=
N
1i
2
ii )bXa(Y ou seja, a minimização do somatório dos N 
desvios ao quadrado (Figura 6). 
Dessa forma, define-se o sistema de equações normais: 
 0)bXa(Y
a
2
ii =−−∑∂
∂ ⇒ ... ⇒ ∑ Yi = a N + b∑Xi (I) 
0)bXa(Y
b
2
ii =−−∑∂
∂ ⇒ ... ⇒ ∑ Xi Yi = a ∑Xi + b∑Xi2 (II) 
que multiplicadas, respectivamente, por ∑ Xi e N, são reescritas: 
equações normais 
εi 
-2 ∑iεi = 0 
-2 ∑Xiεi = 0 
 7
(I) ∗ ∑ Xi ⇒ equações ⇒ (∗∑Xi) ∑Yi = (∗∑Xi) (a N + b ∑Xi) 
 (II) ∗ N normais (∗ N) ∑Xi Yi = (∗ N) (a ∑Xi + b ∑Xi2) 
Fazendo (II) – (I), pode-se obter os parâmetros (a e b) do modelo de regressão: 
b = 
2
i
2
i
iiii
)X(XN
YXYXN
∑−∑
∑∑−∑ 
 
a = 
N
Xb
N
Y ii ∑−∑ 
 
onde se definem as médias amostrais Y e X . 
Se Y = X = 0 isto significa a = 0, e 
 
b = 2
2
N)(
N)(...
÷
÷ ⇒ b = 
2
i
2
i
iiii
/N)X(Σ
N
X
/N)Y(Σ/N)X(ΣN)/YX(
−∑
−∑ , que pode ser escrito: 
b = 
2
2
i
ii
X-
N
X
YX/N)YX(
∑
−∑ 
Tomando-se a situação onde X = Y = 0 ⇒ b = 
/N)X(
/N)YX(
2
i
ii
∑
∑
. 
Esses resultados sugerem a conveniência de escrever a estimativa de mínimos 
quadrados por meio de variáveis que representam desvios em relação às médias, sejam 
essas nulas ou não. Dessa forma, deve-se obter a transformação: xi = Xi - X e yi = Yi - Y , 
pois x = 
N
Σxi = 0 = y (são nulas as médias das variáveis que correspondem à uma 
transformação de defasagem em relação às médias das variáveis originais, pois: 
0
N
XN
N
X
N
)X(Xx ii =−∑=−∑= ). 
Assim, reescrevem-se as estimativas dos parâmetros de mínimos quadrados da 
relação linear ajustada entre X e Y, antes da transformação, como: 
X
Y
 “inclinação” 
 
“coeficiente linear” 
“intercepto” 
 
“constante” 
Y X 
X 
 8
 
 
 
onde o significado dessas estimativas de a e b é: 
b → 
dX
dY razão da variação (marginal) em Y com a variação em X. 
a → Y = a, quando Xi = 0 ⇒ tal conclusão em geral não diz muita coisa sobre o 
evento observado, sendo apenas um valor para o intercepto da relação linear do ajuste 
feito. Para que essa informação tenha significado para a situação modelada, deve-se ter 
informação próxima de X = 0. 
Na Tabela 1 a seguir exemplifica-se a obtenção dos valores de a e b, sendo os 
gráficos da linha ajustada representados na Figura 7. 
 
Tabela 1- Obtenção das estimativas dos parâmetros 
(introduzir planilha EXCEL) 
Y X 
4.0 21.0 
3.0 15.0 
3.5 15.0 
2.0 9.0 
3.0 12.0 
3.5 18.0 
2.5 6.0 
2.5 12.0 
 
Calcula-se: X = 13.5 e Y = 3.0 
 
∑xi = 0 
∑yi = 0 
∑xiyi = 19.50 
∑xi2 = 162.00 
b = 2
i
ii
Σx
yΣx = 0,120 
a = 1,375 
Yˆ = 1,375 + 0,12 X 
(R2 = 0.77; F1,6 = 21.2) 
 
b = 2
i
ii
Σx
yΣx 
 
a = XbY − 
 9
 Regressão transformada 
Figura 7- Exemplo do ajustamento da linha de regressão e da linha de regressão 
transformada 
 
Exercício (casa) 
Prove que a linha de regressão estimada passa sobre o ponto de média ( X , Y ). 
Sugestão: mostre que X e Y satisfazem à equação Y = a + bX, sendo a e b 
definidos como: b = 
2
i
2
i
iiii
)X(XN
YXYXN
∑−∑
∑∑−∑ e a = 
N
Xb
N
Y ii ∑−∑ 
4. A Natureza Probabilística do Modelo de Regressão 
 
Para que se possa avaliar a qualidade da relação linear ajustada às informações 
amostrais das variáveis, é preciso realizar testes estatísticos no modelo de regressão. Por 
exemplo, como realizar esses testes estatísticos no modelo de regressão de mínimos 
quadrados com uma variável independente e uma variável dependente? Para isso, é 
preciso, em primeiro lugar, reconhecer a natureza probabilística do modelo de regressão. 
Seja o exemplo da Figura 8, no qual observa-se que para um mesmo valor de X 
(renda) existem vários valores de Y (gastos com alimentação). Isto se explica porque, 
embora a renda de grupos de indivíduos esteja, por exemplo, em torno de R$ 60.000/ano, o 
meio e fatores aleatórios fazem existir uma significativa oscilação nos gastos com 
alimentação nessa faixa de renda. 
 10
 
Renda dos 
Indivíduos 
Meio/ 
Fatores aleatórios 
Gastos com 
alimentação 
 
Figura 8- Relação entre amostra de renda dos indivíduos e seus gastos com 
alimentação 
 Dessa forma, definem-se as variáveis aleatórias Yi e Xi e, por hipótese, a 
verdadeira relação linear entre elas, como Yi = α + βXi + εi (Figura 9). 
Yi = α + β Xi + εi “TRUE MODEL” 
 
 
 
 
 
(população) 
erro aleatório 
variável 
aleatória 
“Fixados” 
 
(distribuição de 
probabilidade) 
(omissão de variáveis explicativas) 
(erro de coleta de dados) 
 
Figura 9- A verdadeira relação linear ou “true model” entre as variáveis aleatórias 
 
O valor esperado E(Yi) = E(α + βXi + εi) = α + βX corresponde ao verdadeiro 
modelo, representado na Figura 10 a seguir. Embora Xi ´s tenham seus valores fixados, são 
variáveis aleatórias com distribuição de probabilidades. 
 
Figura 10 – Natureza probabilística das variáveis do modelo de regressão 
X 
observados 
Y
εi 
 11
 
Assim, são pressupostos básicos do modelo clássico de regressão linear a duas 
variáveis:(i) Relação linear entre Y e X como descrita em Yi = α + βXi + εi 
(ii) Xi`s não-estocásticos e fixados (será relaxado mais tarde) 
(iii) a) O erro εi tem (zero) e E(εi)2 = σ2 (constante), para 
todas as observações. 
b) εi`s não correlacionados estatisticamente, de forma que: E (εi εj) = 0, 
para i ≠ j. 
No caso de (iii), supondo-se E (εi) = α`, sendo α` um valor constante qualquer, 
pode-se escrever: Yi = α + βXi + εi + (α` - α`) = (α + α`) + βXi + (εi - α`), definindo-se 
assim um novo coeficiente α*. 
Obtém-se E (εi*) como: E (εi - α`) = E (εi ) – E (α`) = E (εi ) - α` = 0 (!), 
 
constante α` 
ou seja: E (εi*) = 0, mantendo válidas as suposições do modelo de regressão clássico. 
As suposições (ii) (a) e (b) tratam de garantir a homocedasticidade (variância do 
erro aleatório constante) e a ausência de correlação serial. No caso contrário, tem-se a 
presença de heteroscedasticidade e correlação serial (Figuras 11 e 12): 
1) Presença de heteroscedasticidade: E(εi2) não é constante e igual a σ2 
2) Erros correlacionados → correlação serial ou autocorrelação, 
onde E (εi εj) ≠ 0 (existe um padrão na disposição dos dados em 
relação à linha ajustada) 
E (εi) = 0 
εi* α* 
 12
Variância decresce ou cresce (heteroscedasticidade) 
Figura 11- Exemplos de heteroscedasticidade 
 
Correlação serial negativa Correlação serial positiva 
Figura 12- Exemplos de correlação serial 
Às afirmações acima deve-se acrescentar as seguintes observações: 
* Corolário de (ii) e iii (a) 
E (Xi εi) = Xi E (εi) = 0, ou seja: erro aleatório não correlacionado com Xi, onde 
Xi`s são valores fixados. 
* E (∑ εi) = ∑ E (εi) = 0, que se refere a uma amostra de erros de uma população, 
sendo que esses erros são não-correlacionados. 
Além disso, são válidas as seguintes suposições do modelo de regressão em 
termos da distribuição de probabilidade da variável Y: 
 13
 (iii) (a`) Y → E (Yi) = α + βX 
VAR (Yi) = σ2 , sendo α, β e σ2 a determinar. 
 (b`) Yi`s → não correlacionados 
5. Propriedades Estatísticas dos Estimadores 
 
Assume-se que: 
(iii) c) O termo do erro é normalmente distribuído (erros de medida e omissão 
de variáveis pequenos e independentes entre si). 
Yi → combinação dos εi`s, normalmente distribuída, sendo: Yi = α + βXi +εi. 
Assim, a linha de regressão estimada XβˆαˆYˆ += deve estar próxima ao 
verdadeiro modelo Y = α + βX, onde as estimativas de α e β, os estimadores βˆeαˆ , são 
variáveis aleatórias ou seja, tem E ( αˆ ), VAR( αˆ ), E ( βˆ ) e VAR ( βˆ ) (Figura 13). Para que 
se possa entender melhor este ponto supõe-se que se tenha N valores fixados de Xi, em 
uma determinada amostra (A1), de forma que se tenha Yi valores associados a esses N 
valores de Xi. Com esses valores de X e Y, estima-se β → )βˆ( . 
 
E )βˆ( e VAR )βˆ( , 
E )αˆ( e VAR )αˆ( . 
 
 
 
 
 
 
Figura 13- A natureza probabilística dos estimadores βˆeαˆ 
β / )βˆ( 
α / )αˆ( 
A1 A2 
X1 
população Yi 
Yi ↔ Xi 
N 
 14
Toma-se outra amostra de pares de valores Xi e Yi, obtendo novos N valores de Yi 
associados aos N valores de Xi, com os quais estima-se um novo β → )βˆ( . Note-se que os 
εi`s são diferentes, sempre. Com esse procedimento, pode-se obter uma distribuição de 
estimativas de β )βˆ( , sendo: βˆ = 2
i
ii
x
yx
∑
∑ com respectivos valor esperado e variância, aos 
quais aplica-se os testes estatísticos. O mesmo raciocínio se estende ao estimador αˆ . 
6. Critérios de Avaliação dos Estimadores 
 
São exemplicados a seguir quatro critérios de avaliação dos estimadores. 
1) Ausência de tendenciosidade (viés = 0) 
Define-se o viés como: Viés = E )βˆ( - β, onde β é o verdadeiro parâmetro 
(Figura 14). 
 
 
Figura 14- Exemplo de viés 
Quando N → número grande, 
N
Xi∑ é estimador não-viesado da verdadeira média 
da população. Da mesma forma, observa-se que: 
1N
)X(X 2i
−
∑ − é estimador não-viesado da 
verdadeira variância da população, em cujo denominador tem-se N-1, pois X foi fixado 
para estabelecer os desvios. 
2) Eficiência 
 15
βˆ é um estimador não-viesado eficiente se a VAR )βˆ( é menor que a variância de 
qualquer outro estimador não-viesado. 
Maior eficiência implica que são mais fortes as afirmações estatísticas sobre os 
estimadores. Quando a variância é igual a zero (0), isto implica que se está tratando do 
parâmetro verdadeiro da regressão. 
3) Erro Quadrático Médio Mínimo (MSE) 
MSE )βˆ( = E 2β)-βˆ( = E [ 2β)]βˆ()βˆ-βˆ( −+ = ... = VAR )βˆ( + [viés )βˆ( ]2, sendo 
E )βˆ( = βˆ . 
Observa-se uma interrelação (“trade-off”) entre viés e variância para se obter 
maior precisão ou seja, o “trade-off” de maior precisão entre o viés e a variância 
implicando pequena variância e algum viés. 
4) Consistência 
Este critério diz respeito a quando o tamanho da amostra N tender a ser grande 
(Figura 15) verificar-se propriedades assintóticas, definidas pelo limite em probabilidade 
de βˆ ou p lim βˆ : 
p lim βˆ ⇔ lim Prob 1 δ) |)βˆ-β| (( =< , de forma que: p lim βˆ = β. 
N → ∞ 
δ > 0, pequeno 
 
Figura 15- Exemplo das propriedades assintóticas com aumento do tamanho 
amostral 
 
Na prática, o critério de estimação é a consistência ou seja: estimador viesado mas 
consistente pode não ser igual ao valor de β na média mas aproxima-se dele para N muito 
Prob βˆ
βˆβ
N muito grande 
Pequeno N 
 16
grande. Como exemplo, usa-se N no denominador para obter estimador da variância 
populacional, de forma a ter ∑ −
N
)X(X 2i como um estimador viesado mas consistente da 
variância populacional (base das estimações robustas). 
Como alternativa para a consistência pode-se ter por critério: 
MSE → 0 quando N → ∞, o que significa que se tem um estimador não-viesado 
assintóticamente cuja variância → 0 quando N → ∞. 
7. Obtenção da Média e o Desvio Padrão dos Melhores Estimadores Lineares 
Não Tendenciosos ou “Best Linear Unbiased Estimators” (BLUEs) 
 
Considerando-se que βˆeαˆ são os estimadores de mínimos quadrados do modelo 
de regressão Yi = α + βXi + εi, pelo Teorema de Gauss-Markov se estabelece que “ βˆeαˆ 
são os melhores (mais eficientes) estimadores lineares não tendenciosos de α e β” no 
sentido de que esses estimadores tem variância mínima em relação aos estimadores não 
tendenciosos de α e β, ou seja: βˆeαˆ são BLUEs. 
O Teorema não se aplica a estimadores não-lineares. É possível que existam 
estimadores não-lineares não tendenciosos e com variância menor que a dos estimadores 
de mínimos quadrados. Além disso, um estimador tendencioso pode ter variância menor 
que os estimadores de mínimos quadrados. Estimadores ditos robustos, não-lineares e 
tendenciosos, com mínimos MSE, tem sido estudados e utilizados em aplicações práticas 
(embora não sejam objeto do presente estudo). 
Como já visto, os estimadores βˆeαˆ são variáveis aleatórias, com respectivas 
média e variância. Considerando-se que XXx ii −= e YYy ii −= , pode-se escrever 
E (yi) = βxi e βˆ = ∑ ∑ 2iii x/yx , onde é definida a constante ci = ∑ 2i
i
x
x de forma que 
βˆ = ∑
=
N
1i
iiyc . 
Assim: 
βˆ = ∑ ∑ ∑+∑=+= iiiiiiiii εcβxc)εβx(cyc (I) 
Obtém-se: 
 17
E )βˆ( = )E(εcβxc iiii ∑+∑ 
 
* E )βˆ( = βxcββxc iiii =∑=∑ , logo βˆ é estimador não tendencioso, 
onde 1x
x
xxc i2
i
i
ii =⎥⎦
⎤⎢⎣
⎡
∑∑=∑ (II) 
De modo similar: 
VAR )βˆ( = E 2 β) -βˆ( 
Substituindo (I) em VAR )βˆ( , tem-se que VAR )βˆ( = E 2iiii ]βεcβxc[ −∑+∑ . 
β -βˆ 
Observa-se que β -βˆ = =−∑+∑ βεcβxc iiii ( iiii εcβ1)xc ∑+−∑ 
De (II) tem-se que 1xc ii =∑ , logo 
β -βˆ = iiεc∑ , sendo ( β -βˆ )2 = ( iiεc∑ )2 
∴ VAR )βˆ( = E ( β -βˆ )2= E [ iiεc∑ ]2 
 VAR )βˆ( = E [( 11εc )
2 + ( 22εc )
2 + ...] + E [(2c1c2ε1ε2) + ...] 
Ora, E (εiεj) = 0, i ≠ j, assim: 
VAR )βˆ( = E ( 11εc )
2 + E ( 22εc )
2 + ... = 
= c12 E (ε1)2 + c22 E (ε2)2 + ... = 
= c12 σ12 + c22 σ22 + ... = σ2∑ci2, pois, na presença de 
homocedasticidade, E (εi)2 = cte = σi2 = σ2. 
Ora, ∑ci2 = ∑=∑
∑
2
i
22
i
2
i
x
1
)x(
x , logo: 
VAR )βˆ( = σ2 / ∑xi2 , xi = Xi - X 
De forma similar pode-se obter que: 
E )αˆ( = α 
0 
 18
VAR )αˆ( = ⎥⎦
⎤⎢⎣
⎡
−∑
∑
2
i
2
i2
)X(XN
X
σ 
COV ( βˆ,αˆ ) = 2
i
2
x
σX
∑
− 
É preciso remarcar que se βˆ =∑ iiyc é uma combinação linear de variáveis yi e se 
yi é normalmente distribuída, βˆ é uma variável aleatória normalmente distribuída, o que 
implica que os testes de hipótese são válidos para βˆ . Além disso, observa-se que, de 
acordo com o Teorema do Limite Central, se o tamanho da amostra cresce, a distribuição 
da média amostral de uma variável independentemente distribuída tende para a 
normalidade. Com isso pode-se afirmar que, mesmo no caso dos yi não serem 
normalmente distribuídos, a distribuição de βˆ é, ainda assim, assintóticamente normal. 
Ou seja, para amostras de grande tamanho: 
⎥⎦
⎤⎢⎣
⎡
∑ 2i
2
x
σ
β,N~βˆ , de onde extrai-se o critério amostral: maior variância na amostra 
de Xi leva a menor variância de βˆ . 
⎥⎦
⎤⎢⎣
⎡
∑
∑
2
i
2
i2
xN
X
σα,N~αˆ , cuja variância reduz-se a σ2/N se X = 0 na amostra. 
2
i
2
x
σX )βˆ,αˆ( COV ∑−= , onde se observa que, se X > 0, superestimar αˆ corresponde 
a subestimar βˆ e vice-versa. 
Observa-se que: 2σ é o verdadeiro valor da variância do erro. Utiliza-se S2 como 
estimador não-viesado 2σˆ de 2σ ou seja: S2 = 2σˆ = 
2N
)Xβˆαˆ(Y
2N
εˆ 2ii
2
i
−
−−∑=−
∑ . 
8. Aplicação de Testes de Hipóteses e Intervalos de Confiança aos Estimadores 
 
Define-se o intervalo de confiança como o intervalo de valores que contém, com 
uma determinada probabilidade (1-n.s.), ou um nível de significância estatística (n.s.), os 
verdadeiros parâmetros da regressão. Nele se baseiam os testes de hipóteses estatísticas. 
 19
Em geral estabelece-se a hipótese nula ou seja, de que o efeito não está presente. Para o 
modelo ser explicativo, a hipótese nula deve ser rejeitada. Ao associar-se ao conjunto 
amostral um modelo de regressão, é objetivo analisar os dados de forma a testar o modelo 
ajustado e avaliar a adequação de novos modelos. Desta forma, realizam-se os testes de 
hipóteses, tendo resultados que podem levar a uma seqüência de testes de modelos. Ou 
seja: 
(a) Informação inconsistente com o modelo: 
Rejeição do modelo; novo modelo é considerado. 
(b) Informação consistente com o modelo: 
Modelo aceito até que novas hipóteses ou nova informação permitam novos 
testes. 
Os testes são aplicados a um nível de significância (n.s.). Por exemplo, o que 
significa: nível de significância de 5%? Significa que, se a hipótese nula for rejeitada neste 
nível, é fato que ela estava correta pelo menos 5% das vezes. O nível de significância pode 
ser compreendido como o índice de erro aceito ao estabelecer o modelo de regressão (ou 
erro Tipo 1). 
O teste estatístico para rejeitar a hipótese nula associada ao coeficiente da 
regressão baseia-se usualmente na distribuição t de “Students”. Essa distribuição é 
relevante pois nela utiliza-se a estimativa amostral da variância do erro, ao invés de seu 
valor verdadeiro (na população). 
Para compreender a formação dos intervalos de confiança e o procedimento do 
teste, inicialmente obtém-se a estatística t com N-2 graus de liberdade (considerando-se o 
modelo com dois estimadores) como: 
tN-2 = 1/22
iβˆ )xS/(
ββˆ
S
ββˆ
∑
−=− , com a qual se obtém a padronização do valor estimado 
βˆ . 
Constrói-se em torno de estatística tN-2 um intervalo de confiança tal que: 
-tc < tN-2 < tc , que tem (1-n.s.)% de probabilidade de conter o verdadeiro valor do 
parâmetro, onde tc corresponde ao valor tabelado da estatística t de “Students” para um 
nível de significância (n.s.) ou probabilidade (1-n.s.), com N-2 graus de liberdade (N é o 
tamanho da amostra e 2 representa o número de estimadores). 
 20
Assim, seja por exemplo a probabilidade de 95% de que o valor padronizado 
pertença ao intervalo de confiança: 
Prob (- tc < tN-2 < tc) = 0,95 por exemplo, onde tc = 1,96, com N – 2 graus de 
liberdade, N tendendo a um número grande. 
Prob 0,95t
)xS/(
ββˆt c1/22
i
c =⎥⎥⎦
⎤
⎢⎢⎣
⎡ <∑
−<− significa que há 95% de probabilidade de 
que β está contido no intervalo entre βˆ ± tc 1/22
i )x(
S
∑ = βˆ ± tc S βˆ . 
Da mesma forma, estabelece-se o intervalo: 
αˆ ± tc S αˆ = αˆ ± tc ∑
∑
1/22
i
1/22
i
)x(N
)X(S 
O teste de hipótese é definido de forma que: 
Ho = hipótese nula β = 0, 
Hipótese alternativa β ≠ 0. 
Nesse caso, sendo o valor padronizado: 
βˆ
S
ββˆ− , se β = 0 ⇒ c
βˆ
t
S
βˆ ≥ , sendo tc = 1,96, por exemplo. 
1.96 
condição de rejeição de Ho 
Como regra prática: a 5% n.s., se 2
Sˆ
βˆ
β
> → rejeito Ho. 
Deve ser remarcado que não rejeitar Ho não significa aceitá-la. O procedimento 
de teste nos fala sobre a situação de rejeitar a hipótese nula (e aceitar a estimativa de β) 
quando na verdade a hipótese nula é verdadeira em n.s. % das vezes. 
São exemplos de testes de hipóteses para situações com presença de sazonalidade: 
Caso 1 
 21
Ct = β1 + β2 Yt + εt não há variação do tipo sazonal, logo não 
há teste de hipótese para avaliar a 
presença de sazonalidade. 
Caso 2 
Ct = β1 + β2 Yt + α Dt + εt , onde Dt representa a variação sazonal. 
 
 
E (Ct) = β1 + β2 E (Yt) 
ou 
E (Ct) = (β1 + α) + β2 E (Yt) 
Caso 3 
Ct = β1 + β2 Yt + γ (Dt Yt) + εt 
E (Ct) = β1 + β2 Yt 
ou 
E (Ct) = β1 + (β2 + γ) Yt 
Caso 4 
Ct = β1 + β2 Yt + α Dt + γ (Dt Yt) + εt 
 
 
9. O Coeficiente de Ajustamento ou Determinação: 
 
Os resíduos de uma regressão dão uma medida da qualidade do ajustamento. 
Como regra, tem-se que: 
0 
paz 
1 
guerra 
σ2 constante 
teste: α=0, verifica se a 
mudança é significativa entre 
diferentes períodos. 
Os testes para α=0 e para 
γ=0 avaliam se há mudança 
significativa entre diferentes 
períodos sazonais. 
teste: γ=0, verifica se a 
mudança é significativa e 
altera a taxa de mudança em 
Ct associada a Yt. 
 22
Grandes resíduos → ajuste ruim 
Pequenos resíduos → bom ajuste 
Observe-se que os resíduos têm unidade relativa ao problema. Intuitivamente, ao 
obter-se 2
y
2
σ
)resíduo( tem-se a geração de parâmetros para comparações. É esse raciocínio 
que inspira a definição de uma medida de qualidade do ajustamento ou aderência, o 
coeficiente de ajustamento R2 (ou coeficiente de determinação). 
Seja a Figura 16 a seguir, onde se tem a representação da linha ajustada a um 
conjunto de observações de X e Y. 
 
Figura 16- Obtenção dos desvios entre a variável observada, a linha ajustada e o seu valor 
médio 
 
Analisando o valor Y, pode-se obter a variação total de Y como o somatório do 
quadrado dos desvios das observações em relação à média amostral: 
Variação (Y) = ∑ − 2i )Y(Y , onde: 
)YYˆ()Yˆ(YYY iiii −+−=− , 
De forma que: 
 
 
 23
∑ ∑ ∑ −−+−+−=∑ − )YYˆ()Yˆ(Y2)YYˆ()Yˆ(Y)Y(Y iii2i2ii2i 
 
 
 
 
 
De forma simbólica, escreve-se: 
TSS = ESS + RSS 
 
 Regressão 
 Erro 
Total 
 
Dividindo-se os dois lados da equação por TSS (a variação total de Y): 
1 = 
TSS
RSS
TSS
ESS + 
Define-se o coeficiente de ajustamento R2 como a relação entre a variação de Y 
explicada pela regressãoe a variação total. Assim, 
 , sem , 0 ≤ R2 ≤ 1. 
Observe-se que R2 é função dos parâmetros estimados. Na Figura 17 são 
representadas duas situações-limite para o valor de R2: ajustamento perfeito (a), e caso em 
que a relação linear não se ajusta aos dados amostrais (b). 
 
Figura 17 – Exemplos de situações-limite do ajustamento 
iyˆ 
0 
⇓ 
 
variação 
residual 
de Y 
(não explicada) 
(ESS) 
⇓ 
 
variação 
total de 
Y 
(TSS) 
⇓ 
 
variação 
explicada 
de Y 
(RSS) 
ii xβˆyˆ = 
iiεxβˆ2∑ 
iεˆ 
R2 = 1 - 
TSS
RSS
TSS
ESS = 
 24
Uma outra maneira de se obter R2 é mostrada a seguir. Seja: 
XXx;YYy iiii −=−= 
ii xβˆyˆ = 
iii εˆyˆy += ∑ ∑ ∑ ∑++= ii2i2i2i εˆyˆ2εˆyˆy 
 
 
⇓ 
 
⇓ = 0 
(nas equações normais da regressão) 
 
∑ 2iy = + 2iεˆ∑ + ( 00βˆ2 = ), onde 
2
i
2 xβˆ ∑ = ∑ 2iy - 2iεˆ∑ . 
Lembrando que o coeficiente de ajustamento é função de 2i
2
i yeyˆ , ou seja, as 
variações 2i )YYˆ( − e 2i )Y(Y − , e considerando-se a relação anterior obtida: 
R2 = ∑
∑=∑
∑= 2
i
2
i2
2
i
2
i
y
x
βˆ
y
yˆ
TSS
RSS => R2 = 1 - ∑
∑
2
i
2
i
y
εˆ 
 
10. Interpretação da Variação em Y em termos da Análise de Variância 
 
As medidas relativas a TSS, RSS e ESS devem ser convertidas em variâncias, por 
sua divisão pelos graus de liberdade associados ao processo de sua obtenção. Assim, 
 Variância total em Y = 
1N
TSS
− 
 
 Variância explicada em Y = 
1
RSS 
(explicado)
(total) 
média
Resíduo da 
regressão 
∑ ii εˆxβˆ2 
∑ ii εˆxβˆ2 
2
i
2 xβˆ ∑ 
 25
 
Variância residual em Y = 
2N
ESS
− 
βˆ,Xouβˆ,αˆ 
Define-se a relação de variâncias: 
explicadanãovariância
explicadavariância
− , como uma boa 
medida (complementar ao coeficiente de determinação) da qualidade do ajustamento, 
permitindo que se avalie a existência de relação linear em Y e X. Essa medida permite que 
se aplique o teste estatístico da equação de regressão. O teste da equação de regressão que 
testa a existência de relação linear entre Y e X baseia-se na estatística F de “Snedecor” 
associada à essa relação de variâncias. 
Assim, obtém-se a estatística F1,N-2, com 1 e N-2 graus de liberdade, como: 
F1,N-2 = explicadanãovariância
explicadavariância
− = 2ESS/N
RSS/1
− , 
 
que segue a distribuição F com 1, N-2 graus de liberdade no numerador e no denominador, 
respectivamente. 
F1, N-2 = 2
2
i
2
S
xβˆ ∑ ⇔ F1, N-2 = 0 → somente quando 01
RSS = , 
onde S2 = 
2-N
εˆ 2i∑ 
 
Como orientação, 
 
 
 
Dessa forma, estabelece-se o teste da equação de regressão onde: 
Hipótese Nula (H0): Relação linear não explicada (F1, N-2 = 0) 
 
Xi 
S2
F1, N-2 pequenos
 
 
 Relação linear fraca 
 
 Relação linear forte 
 
 
F1, N-2 grandes 
 26
Os valores da distribuição F estão tabelados, onde se obtém valores de Fcrítico (Fc). 
Dessa forma, 
 Tabela F1, N-2 → Fc 
 n.s. % 
 1, N-2 graus de liberdade 
 
11. O Modelo de Regressão Múltipla 
 
O caso geral de modelo de regressão múltipla significa que existem várias 
variáveis Xi explicativas da variação em uma outra (Yi). Assim, escreve-se o modelo de 
regressão múltipla a k variáveis ou parâmetros: 
Yi = β1 X1i + β2 X2i + ... + βk Xki + εi 
onde X1i = 1 
i = 1,2,…, N β1, β2, ... βk são os coeficientes parciais da regressão. 
São válidas as seguintes suposições para o modelo: 
i) A especificação do modelo é linear 
ii) X`s não-estocásticos. Não há relação linear exata entre os X`s (senão: 
multicolinearidade). 
iii) E (εi) = 0 
E (εi)2 = σ2 
E (εi . εj) = 0, i ≠ j 
εi ~ N [0, σ2] 
Por simplicidade, considere-se o modelo a 2 variáveis independentes: 
Yi = β1 + β2 X2i + β3 X3i + εi ⇒ 3i32i21i XβˆXβˆβˆYˆ ++= 
E (Yi) = β1 + β2X2i + β3X3i 
E (Yi)2 = σ2 
Os coeficientes da regressão podem ser obtidos por: 
22 Sσˆ = 
se F1, N-2 > Fc rejeito Ho 
se F1, N-2 < Fc não posso rejeitar 
 27
33221 XβˆXβˆYβˆ −−= 
∑ ∑ ∑
∑ ∑ ∑ ∑
−
−=
2
3i2i
2
3i
2
2i
3i2ii3i
2
3ii2i
2 )xx()x()x(
)xx()yx()x()yx(
βˆ 
∑ ∑ ∑
∑ ∑ ∑ ∑
−
−=
2
3i2i
2
3i
2
2i
3i2ii2i
2
2ii3i
3 )xx()x()x(
)xx()yx()x()yx(
βˆ 
sendo que as estimativas das variâncias podem ser obtidas por: 
 ...S2
jβˆ
= =−
−=− ∑ ∑ ∑
∑ ∑ ∑ ∑
22
3i2i
2
3i
2
2i
2
3i2i
2
3i
2
2i
2
3i
2
2
22 ])xx(x.x[
])xx(xx[xσ
])βE[(b 
 j = 1, ..., k 
 k = 3 ∑ ∑ ∑
∑
−= 23i2i23i22i
2
3i
2
)xx(xx
xσ
 
 22 bβˆ = E[(b3 - β3)2] = ... ∑ ∑ ∑
∑
−= 23i2i23i22i
2
2i
2
)xx(xx
xσ
 
33 bβˆ = 
Pode-se demonstrar também que: 
,
])xx(xx[ N
)XX(XX[σ
])βE[(b 2
3i2i
2
3i
2
2i
2
3i2i
2
3i
2
2i
2
2
11 ∑−∑∑
∑−∑∑=− sendo .βˆb 11 = 
Cov (b2, b3) = 2
3i2i
2
3i
2
2i
3i2i
2
)xx(xx
xxσ
∑−∑∑
∑−
 
(a) A Significância dos Coeficientes do Modelo de Regressão Múltipla 
A derivação das estatísticas dos estimadores no modelo de regressão múltipla é 
obtida através da Álgebra Matricial. Apresenta-se a seguir sumário dos resultados mais 
relevantes: 
i) Os estimadores de mínimos quadrados de βj, j = 1, ... , k são BLUEs 
 Quando o erro ~ N (0, σ2), estes estimadores são também os estimadores de 
máxima verossimilhança. 
 28
ii) S2 = 
kN
εˆ 2i
−
∑
 é uma estimativa consistente e não-viesada de σ2. 
iii) Quando o erro é normalmente distribuído, testes t podem ser aplicados pois 
os valores padronizados dos parâmetros βj seguem essa distribuição de probabilidade de 
forma que: 
jβˆ
jj
S
ββˆ −
 ~ tN-k, j = 1, ..., k 
(b) Avaliação da Qualidade do Ajustamento: Teste F, R2 e R2 Corrigido 
Seja: 
Yi = β1 + β2 X2i + ... + εi, com k variáveis ou k parâmetros 
Yi - Y = )YYˆ()Yˆ(Y ii −+− 
 ⇓ Total = Residual + Explicada 
∑ 2i2ii2i )YYˆ()Yˆ(Y)Y-(Y −∑+−∑= ⇒ 
O coeficiente de ajustamento: 
R2 = 
)Y(Y
εˆ
1
)Y(Y
)YYˆ(
TSS
RSS
i
2
i
2
i
2
i
−∑
∑−=−∑
−∑= 
 mede a qualidade do ajustamento 
Algumas questões se impõem ao uso isolado do R2 como medida do ajustamento. 
Entre elas: 
1) Em sua obtenção parte-se do pressuposto da boa especificação 
2) R2 → depende do número de variáveis independentes. 
A adição de variável independente pode não ser adequada, mas não 
deve baixar R2 
Além disso, o uso isolado do R2 tem valor limitado, pois pode ocorrer bom ajustamento 
(leia-se aqui: bom R2) do modelo global porque variáveis independentes estão fortemente 
correlacionadas entre si, com baixos valores de t e altos desvios padrão individuais. 
TSS = ESS + RSS 
 29
Para avaliar a significância do R2 realiza-se o teste F k-1, N-k , com k-1 e N-k graus 
de liberdade no numerador e denominador, respectivamente, representando o número de 
variáveis independentes e o grau de variação não explicada. Para realizar o teste de 
hipótese Fk-1, N-k, obtém-se: 
 
 
Define-se medida complementar da qualidade do ajustamento: R2 corrigido ou 2R , 
que é obtido, por definição, em função de variâncias. 
kN
εˆ
S
2
i2
−=
∑ 
2R = 1 - 
var(Y)
)εˆvar( 
1N
)Y(Y 2i
−
∑ − 
Note-se que: 
Variação não explicada 
R2 = 1 - ∑ −
∑
2
i
2
i
)Y(Y
εˆ é igual a 1 - 
1)-(N var(Y)
k)(NS2 − 
Variação total 
Assim, pode-se derivar a relação entre R2 e 2R : 
2R = 1 – (1 – R2) 
kN
1N
−
− (N>k), para a qual: 
1. k = 1 ⇔ R2 = 2R 
2. k > 1, R2 ≥ 2R , sendo que 2R pode ser negativo. 
2R é sensível à informação usada para estimar k parâmetros. 
 
 
 
Fk-1, N-k = 1k
kN
R1
R2
2
−
−
− 
 30
(c) Comparando Modelos de Regressão 
Seja o 2R obtido por: 
 
2R = 1 - 
Var(Y)
)εˆVar( -, onde (1 - 2R ) = 2
Y
2
S
S e S2 = (1 - 2R ) 2YS . 
 
A equação de S2 permite concluir que S2 decresce se 2R aumenta, pois 2YS 
(variância de Y) depende de Yi e Y e independe do modelo formulado. 
Neste ponto são necessárias algumas considerações. Por exemplo, R2 ≈ 1 indica 
bom modelo explicativo. Mas qual é seu valor na previsão? 
Para nortear essa resposta, deve ser destacado que R2 deve aumentar ao adicionar-
se uma variável explicativa pouco importante ao modelo, mas se esse aumento ocorrer com 
um decréscimo em 2R e um aumento em S2 (impacta a variância do erro de previsão; 
significa perda de precisão do modelo de previsão), essa variável não deve constar da 
formulação definitiva do modelo. 
Nota-se que a adição de uma variável explicativa (k cresce) irá diminuir a 
variação não explicada em Y (ESS = ∑ −
=
N
1i
2
i ))Yˆ(Y , entretanto a variância S
2 = 
kN
ESS
− 
poderá diminuir ou aumentar (depende da variação do numerador e do denominador). 
 
(d) Construindo Modelos de Regressão com o Método de Máxima Melhoria em 
R2 (MAXR) 
O Método da Máxima Melhoria em R2 é composto de etapas sucessivas para 
ajustar modelo composto de n variáveis explicativas aos dados: 
Y ↔ Xi ... Xn 
S2
2
YS
 31
Etapas: 
1) Avaliação dos coeficientes de ajustamento dos modelos a 2 variáveis: 
 11,11 XbˆaˆYˆ += → 21R 
 . 
 . 
 . 
21,22 XbˆaˆYˆ += → 22R 
 . 
 . 
 . 
nn1,n XbˆaˆYˆ += → 2nR 
Assim, 
t1xbˆaˆYˆ += modelo a duas variáveis 
2) Modelos a 3 variáveis: 
pp2,t1 XbˆXbˆaˆYˆ ++= , novo modelo, onde Xp é a variável associada ao maior R2 
(valor abaixo do R2 do modelo escolhido na etapa anterior). 
Estratégia: 
“Troca-se” cada variável no modelo (Xt e Xp) com cada variável fora do modelo, 
de forma a saber se haverá uma troca de variável (entre as dentro e as fora do 
modelo) que irá melhorar o R2 do modelo. 
Resultado: 
Novo modelo a três variáveis. 
3) Modelos a 4 variáveis: 
Toma-se o melhor modelo a três variáveis e adiciona-se uma nova variável 
(aquela associada ao maior R2 na etapa 1, por exemplo). Procede-se à troca entre 
as três variáveis de dentro com as de fora do modelo. A composição com maior 
R2 ⇒ novo modelo a 4 variáveis. 
4) Repete-se o procedimento, até obter o modelo a n variáveis. 
Busca do maior R2: 
t1XbˆaˆYˆ += 
t1,1 bˆbˆ = do modelo com o maior R2 
 32
Exercício 1 - Regressão 
Estabeleça, com suas palavras, um paralelo entre o método MAXR e o processo 
de comparação de modelos a partir de R2, R 2 e S2, considerando-se o modelo de vendas 
do detergente Fresh (30 observações semanais) (Bowerman e O´Connel, 1987), onde: 
Yt ≡ centenas de milhares de embalagens vendidas em cada período de observações t; 
xt1 ≡ preço (US$) do detergente Fresh no período t; 
xt2 ≡ o preço médio dos detergentes competidores (US$); 
xt3 ≡ o gasto em propaganda no período t (em centenas de milhares de US$); 
xt4 ≡ xt2 – xt1 ≡ diferença de preços entre a média do mercado e o Fresh; 
xt5 ≡ 
t1
t2
x
x
 ≡ razão entre preços (alternativa a xt4). 
O modelo a quatro variáveis independentes (ou a 5 variáveis): 
 
Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + εt tem as seguintes estatísticas associadas: 
1. ESS = 1,0644 
2. Variação Explicada = 12,3942 
3. R2 = 9209,0
4586,13
3942,12
TotalVariação
ExplicadaVariação == 
4. S2 = 0426,0
25
0644,1
530
0644,1
kN
ESS ==−=− 
5. =⎥⎦
⎤⎢⎣
⎡
−
−⎥⎦
⎤⎢⎣
⎡
−
−−=
kN
1N
1N
1kRR 22 
= 9083,0
530
130
130
159029,0 =⎥⎦
⎤⎢⎣
⎡
−
−⎥⎦
⎤⎢⎣
⎡
−
−− 
O mesmo que 
kN
1N)R(11R 22 −
−−−= N > k 
Adicionando-se a variável independente xt4 x2t3 
v3 
v1 (⇒ linearizado) ...)
v2 
 33
Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + β5 xt4 x2t3 + εt 
1. ESS decresce para 1,0425 
2. Variação explicada pelo modelo cresce para 12,4161 
3. R2 (cresce) = 9225,0
4586,13
4161,12 = 
4. S2 (cresce) = 0,0434
630
1,0425
npN
ESS =−=− 
5. 0,8701R 2 = 
Embora R2 cresça, S2 cresce e 2R diminui, logo o poder preditivo decresce, 
desaconselhando a manter a nova variável independente no modelo. 
 34
Exemplo: DATA (QUATERLY, 1954-1 até 1971-4, em US$) 
 
Função de con.s.umo (Ct) 
 
Variáveis independentes: yt renda disponível, Ct-1 con.s.umo no período anterior. 
 
Modelo III → St = Yt - Ct ⇒ variável dependente representando renda disponível 
após con.s.umo (“savings function”). 
 St = α3 + β3Yt + ε3t 
 
 Coeficientes Valores Estatístico t 
Modelo 
I 
1αˆ 
1βˆ 
R2 = 0,9977 
14,51 
0,88 
ESS = 966,50 
7,03 
173,06 
SER = 3,72 
Modelo 
II 
2αˆ 
2βˆ 
2yˆ 
R2 = 0,9989 
5,52 
0,31 
0,65 
ESS = 440,70 
3,06 
4,85 
8,78 
SER = 2,55 
Modelo 
III 
3αˆ 
3βˆ 
R2 = 0,8961 
-14,51 
0,12 
ESS = 966,5 
-7,03 
24,57 
SER = 3,72 
 
 
12. Considerações Adicionais: a Correlação Parcial 
 
As correlações parciais variam no intervalo [-1,1]. Elas são medida de 
importância relativa das variáveis independentes no modelo. 
Seja: i3i32i21i εXβXββY +++= . 
σ 
Cresceu 
pois não 
há 
multicoli-
nearidade 
disposição 
ao con.s.umo
Abaixou em relação ao 
R2 mod. I
)65,01(
31,0
−
 = 0,88 
significante 
mod I Ct = α1 + β1 yt + ε1t 
mod II Ct = α2 + β2 yt + γ2Ct-1 + ε2t 
 35
O coeficiente de correlação parcial entre Y e X2 mede o efeito de X2 em Y sem 
levar em conta outra variável do modelo. 
Os passos para sua obtenção são: 
1. Regressão Y em X3 321 XαˆαˆYˆ += 
2. Regressão X2 em X3 3212 XγˆγˆXˆ += 
3. Remover influência de X3 em Y e X2 
Assim, obtém-se: Y* = Y – Yˆ 
 X2* = X2 - 2Xˆ 
4. A correlação parcial entre X2 e Y é a correlação simples entre Y* e X2*. 
 Conhecendo-se a definição de correlação parcial, pode-se derivar a relação entre a 
correlação parcial e a correlação simples (
2YX
r , 
3YX
r , 
3YX
r ), de forma que: 
32 .XYX
r 
2YX
r 
32 .XYX
r = 1/22
YX
1/22
XX
XXYXYX
)r(1)r(1
r.rr
332
3232
−−
−
, onde: 
3YX
r 
32 .XYX
r é o coeficiente de correlação parcial 
32 .XX
r 
É possível também derivar a seguinte relação entre o coeficiente de ajustamento 
R2, que mede a múltipla correlação no modelo, e a correlação parcial: 
32 X
2
YX .r = 
3
3
YX
2
YX
22
r1
rR
−
− ou 1-R2 = )r(1)r(1 323 .XYX2YX2 −− 
Observa-se uso freqüente do coeficiente de correlação parcial como apoio nas 
escolhas do procedimento de composição do modelo de regressão denominado “Stepwise” 
(as variáveis adicionadas ao modelo devem maximizar 2R ). Esse coeficiente dá medida do 
impacto de cada variável independente sobre a variável dependente, sendo particularmente 
útil com grande número de variáveis independentes. 
 36
13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos 
 
 É importante saber se a estabilidade estrutural do modelo se mantém ao longo do 
tempo em que se obtém informações de suas variáveis. O teste de Chow é um teste da 
estatística F que permite avaliar se um modelo adequado a um conjunto de informações 
continua válido para valores mais recentes amostrais. 
 O procedimento do teste é o seguinte: 
• Combinar todas as (N1 + N2) informações e ajustar um modelo de regressão a esse 
conjunto amostral. Calcular a soma do quadrado dos resíduos (ESS0) com N1 + N2– k 
graus de liberdade, onde k é o número de parâmetros estimados (incluindo o termo 
constante). 
• Ajustardois modelos aos N1 e N2 subconjuntos amostrais, que não precisam ser de 
mesmo tamanho, calculando as respectivas somas do quadrado dos resíduos (ESS1 e 
ESS2), com graus de liberdade N1-k e N2-k. 
• Adicionar as somas do quadrado dos resíduos desses dois subconjuntos amostrais e 
subtrair essa adição do valor ESS0 inicialmente calculado (modelo ajustado ao conjunto 
total de dados). 
• Calcular a estatística F: 
)2N N/()(
/)}({
 2121
210
kESSESS
kESSESSESS
F −++
+−= , com k e N1 + N2– k graus de liberdade. 
• Se o valor da estatística F for significativo a n.s. % , a hipótese de que não existe 
significativa diferença entre os modelos deve ser rejeitada e pode-se concluir que o 
modelo completo é estruturalmente instável. 
Observe-se que: S2 = 
kN
ESS
− , onde ESS é soma do quadrado dos resíduos e S
2 é a 
estimativa amostral da variância do erro para amostras de tamanho N. 
14. O Modelo de Regressão Múltipla com Variáveis Explanatórias Estocásticas 
 
Suposição: X´s ~ distribuição de probabilidade. 
São pressupostos: 
1. A distribuição de cada variável explanatória é independente dos verdadeiros 
parâmetros de regressão. 
 37
2. Cada variável explanatória é distribuída independente dos verdadeiros erros no 
modelo. 
Pode-se afirmar que as propriedades dos estimadores de mínimos quadrados 
ordinários (MQO) de consistência e eficiência permanecem para grandes amostras, não 
sendo afetadas na condição de que os valores das variáveis independentes e os erros sejam 
independentes um do outro. Os parâmetros de regressão estimados são estimados 
condicionados a determinados valores de X`s. Sob os pressupostos acima, continuam a ser 
estimadores de máxima verossimilhança. 
15. Violação dos Pressupostos Básicos do Modelo de Regressão Clássico 
 
É preciso determinar quando os pressupostos são violados e quais os 
procedimentos de estimação são adequados nesses casos. 
Sejam exemplos de violação: 
1) Em relação à forma funcional: 
Yi = β1 + β2X2i + ... + βk Xki + εi 
 erro de especificação 
 erro de construção do modelo 
2) Em relação às variáveis explanatórias: 
X`s média e variância finitas não correlacionadas com erros 
(variável estocástica) 
erros de medida solução através de variáveis instrumentais 
não existe relação linear entre X´s 
forte relação linear entre variáveis explanatórias (multicolinearidade) 
3) Em relação ao pressuposto de normalidade dos resíduos: 
εi ~ N (0, σ2) e distribuídos independentemente 
E (εi) ≠ 0 muda intercepto (α*) 
ausência de normalidade: os estimadores de MQO permanecem não-
viesados e consistentes mas nada se pode dizer sobre a verossimilhança. 
 38
Nesse caso diz-se que os testes são aproximadamente válidos ou seja, são 
válidos quando o tamanho da amostra N → ∞. 
Outras violações são os casos de heteroscedasticidade e correlação serial, 
discutidos a seguir. 
16. O Problema da Multicolinearidade 
 
Uma forma de detectar multicolinearidade é através da porcentagem de variação 
explicada (RSS/TSS) associada a alguma variável sendo introduzida no modelo de 
regressão. Se a porcentagem RSS/TSS decrescer, a multicolinearidade explica este fato. 
Como regra prática, quando o coeficiente de correlação simples entre duas 
variáveis aleatórias independentes for ≥ 0,7, isso significa indício de problema de 
multicolineariedade. 
A multicolinearidade é um problema associado à amostra de dados. A presença 
da multicolinearidade implica que há pouca informação na amostra para dar confiança na 
interpretação da situação em análise. 
Se existe multicolineariedade, os resultados da regressão podem estar errados. 
Passos para avaliar a multicolineariedade: 
Passo no 1: Testar nova amostra de dados. 
Há indicação de multicolineariedade, por exemplo, quando o teste t indica 
insignificância estatística dos estimadores e R2 ou estatística F são altos. 
Passo no 2: Nessa situação, a matriz de correlação deve ser investigada. 
Todas as variáveis independentes altamente correlacionadas devem ser retiradas 
exceto uma. Embora essa seja uma solução, há perda de valor dos estimadores dos 
parâmetros. 
É importante ressaltar que: 
1. É possível haver variáveis independentes altamente correlacionadas (altos 
coeficientes de correlação) e a regressão não ter problemas de multicolinearidade. 
2. Se o teste t indicar significância do estimador, é sinal que a 
multicolinearidade não é séria para fins de previsão. 
 39
Entretanto na presença de multicolinearidade os parâmetros individuais não são 
valores satisfatórios. 
O exame dos desvios padrão dos coeficientes pode indicar se a multicolinearidade 
está causando problemas. Assim, se vários coeficientes tem altos desvios padrão e, ao 
retirar-se duas ou mais variáveis do modelo, observa-se baixarem os desvios padrão, a 
multicolinearidade é provavelmente a origem disto. 
Uma outra regra prática, válida para o caso de duas variáveis independentes: 
Se a correlação simples entre duas variáveis independentes for maior que a 
correlação de pelo menos uma delas com a variável dependente, a multicolinearidade é um 
problema. 
A multicolinearidade é um problema computacional que se amplia quando duas 
ou mais variáveis independentes estão altamente correlacionadas (nos cálculos aparece a 
indeterminação 0/0). 
(a) Explicação do Problema 
Considere-se o modelo: 
i3i32i21i εXβXββY +++= , i = 1, ..., N 
No caso extremo, por exemplo, tem-se: 3i2i δXγX += , uma relação exata. Se 
essa relação for conhecida: não há problema. 
Essa relação pode ser reescrita: 3i2i δxx = , fazendo 22i2i XXx −= e 
33i3i XXx −= , por exemplo. Dessa forma, 
0
0
)x(δ)x(δ
xxyδxxyδ
βˆ 22
3i
222
3i
2
2
3i3ii
2
3i3ii
2 =∑−∑
∑∑−∑∑= e 
0
0...βˆ3 == indeterminação. 
Var )βˆ( 2 = )r(1x
σ
)xx(xx
xσ
23
22
2i
2
2
3i2i
2
3i
2
2i
2
3i
2
−∑=∑−∑∑
∑
, onde r23 é o coeficiente de 
correlação simples entre X2 e X3, de forma que: 
r23 = 
2
1
2
3
2
2
32
)xx(
xx
∑
∑
 (Thomas, (1978), págs. 132, 217). 
 40
Como r23 → ± 1 (alta correlação), e Var )βˆ( 2 → ∞ e Var )βˆ( 3 → ∞, a aplicação 
dos mínimos quadrados falha neste caso. 
O problema da multicolinearidade é razoavelmente fácil de reconhecer, mas 
difícil de resolver, pois exige soluções como a retirada de variáveis explicativas do 
modelo, o que não deve ser feito sob risco de retirar-se importante variável por causa de 
seu baixo valor de t. Quando o modelo é projetado para a previsão, muitas vezes é 
preferível manter no modelo as variáveis que a teoria indica que explicam a variável 
independente e que sejam fáceis de prever. Uma vez que a multicolinearidade tenha sido 
resolvida, deve-se verificar se outros pressupostos do modelo clássico foram violados. 
17. O Problema de Heteroscedasticidade 
 
A heteroscedasticidade ocorre quando as variâncias são variáveis. Seja por 
exemplo os gastos de indivíduos de renda baixa e alta. É esperado que exista uma 
impossibilidade de variar no caso de renda baixa e uma grande variabilidade nos gastos de 
indivíduos de renda alta, com excedente em relação aos gastos obrigatórios mensais 
(Figura 18). 
 
 
 
 
 
 Figura 18- Variabilidade nos gastos de indivíduos de acordo com a renda 
Em conjuntos de dados de séries temporais, é raro observar-se a 
heteroscedasticidade, pois a relação é com tempo. Entretanto, ela é frequente em conjuntos 
de dados de corte transversal, como o exemplo citado acima. 
Na presença de heteroscedasticidade, assume-se; 
 εi ~ N (0, σ2i) 
 Var(εi) = E(εi2) = σ2i 
Gastos de indivíduos 
de renda 
baixa 
alta41
Em presença de σ2i, o procedimento de MQO dá maior peso, naturalmente, às 
observações com maiores variâncias, o que leva a estimadores não-viesados e consistentes, 
mas que não são eficientes (variâncias do MQO não são as mínimas). 
Na derivação de βˆ , onde ii XβˆαˆYˆ += ou, com a transformação de variáveis, 
ii xβˆyˆ = , iii εβxy += , logo iii εyˆy += , 
2
i
ii
x
yx
βˆ ∑
∑= ⇒ β + 2
i
ii
x
εx
∑
∑ 
E )βˆ( = β + β
x
)εxE(
2
i
ii =∑
∑ , logo 2iσ não importa na derivação do valor esperado. 
Entretanto, na derivação de Var )βˆ( = 2
i
2
x
σ
∑ , σ
2 não pode ser concluído. O uso da 
expressão Var )βˆ( = 2
i
2
x
σ
∑ para obtenção da variância do estimador leva a estimativas 
tendenciosas das verdadeiras variâncias e a aplicação dos testes a resultados incorretos. 
 Dessa maneira são definidos procedimentos para a correção e teste da 
heteroscedasticidade. 
(a) Procedimentos para correção da heteroscedasticidade 
Caso 1: Variâncias são conhecidas 
Var(εi) = σi2 conhecidas a priori. 
Uso dos Mínimos Quadrados Ponderados (caso especial dos mínimos quadrados 
generalizados). Seja o modelo a duas variáveis: 
ii XβˆαˆYˆ += 
min 
2
i
ii
σ
XβˆαˆY
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −−∑ ou min 
2
i
ii
σ
xβˆy
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −∑ 
∴ βˆ = 
2*
i
*
i
*
i
)(x
yx
∑
∑ , 
i
i*
i σ
xx = e 
i
i*
i σ
yy = , 
onde primeiro obtém-se a transformação das variáveis dividindo-as por σi, para 
em seguida subtraí-las dos seus valores médios. 
 42
No caso do modelo de regressão múltipla, obtém-se: 
i
i*
i σ
YY = , 
i
ji*
ji σ
X
X = , 
i
i*
i σ
ε
ε = , j = 1, ..., k 
*
i
*
2i2
*
1i1
*
i ε...XβXβY +++= , onde 
i
*
1i σ
1X = ou seja, a equação ajustada não tem 
intercepto, sendo que: Var(εi*) = Var ⎥⎦
⎤⎢⎣
⎡
i
i
σ
ε = 1
σ
σ
σ
)Var(ε
2
i
2
i
2
i
i == . 
Caso 2: Variâncias desconhecidas mas estimadas nas amostras 
Seja a Tabela 2, onde são tabulados os gastos com a casa de indivíduos, agrupados 
em grupos de acordo com a variação nesses gastos, com as faixas de renda familiar 
variando entre R$ 5.000,00 e R$20.000,00. Após proceder à análise dos dados em que 
observa-se que os gastos variam diferentemente por cada uma das faixas de renda, obtém-
se as variâncias desses gastos por grupo, o que é apresentado na Tabela 3. 
Tabela 2 
Grupos (Yi) gastos com a casa 
($1.000) 
(Xi) renda familiar 
($1.000) 
1 1,8 2,0 2,0 2,0 2,1 5,0 
2 3,0 3,2 3,5 3,5 3,6 10,0 iii εβXαY ++= 
3 4,2 4,2 4,5 4,8 5,0 15,0 
4 4,8 5,0 5,7 6,0 6,2 20,0 
 
Yi = 890,0 + 0,237 Xi 
(4,4) (15,9) 
estimativa de MQO 
R2 = 0,93 F = 252,7 
Análise do Dados (plotar) 
Heteroscedasticidade 
 
As variâncias estimadas por grupo representam uma possibilidade de correção 
para o Caso 2. A correção sugerida sege a correção do Caso 1, por exemplo. 
Tabela 3- 
Variâncias estimadas por grupo 
1 9.800 
2 50.400 
3 102.400 
4 302.400 
 
A correção sugerida segue a correção do Caso 1. 
 43
Caso 3: Variâncias do erro variam diretamente com uma variável 
independente 
Assume-se: Var(εi) = C Xi2 
uma das variáveis independentes 
≠ 0 
Por exemplo: Var(εi) = 22iXC em ikik2i21i εXβ...XββY ++++= 
onde a transformação das variáveis do modelo define o novo intercepto: 
2
2i
2i2 β
X
Xβ = . 
Aplica-se os mínimos quadrados ponderados com as variáveis: 
21
i*
i X
YY = 
21
ji*
ji X
X
X = 
21
i*
i X
ε
ε = 
onde: Var(εi*) = Var 
2i
i
X
ε = C
X
)Var(ε
2
2i
i = 
A estimação com dados do exemplo do Caso 2 permite obter: 
*
i
i
**
i
i ε
X
1
αβ
X
Y ++= 
ii
i
X
1752,90,249
X
Y += 
R2 = 0,76 F = 58,7 
Houve transformação na variável 
dependente (R2 não deve ser comparado 
ao anterior). 
(b) Testes para Verificar Heteroscedasticidade 
Hipótese Nula (Ho): σ12 = σ22 = ... = σN2, em N observações (Homocedasticidade) 
Hipótese Alternativa: Heteroscedasticidade 
Teste 1: Teste de Bartlett (a partir dos dados amostrais). 
Passos do teste: 
 44
1. Estima-se Sg2 = ⎥⎥⎦
⎤
⎢⎢⎣
⎡
gN
1 ∑ −
=
Ng
1i
2
i )Y(Y para cada grupo de observações, g = 1, 2, ..., G, 
onde: Sg2 = 2gσˆ 
2. Teste S, sendo S = 
∑ −−+
∑ ∑−
=
= =
G
1g
g
G
1g
G
1g
2
gg
2
gg
(1/N)])(1/N[]1)(G[1/31
SlogN]S/N)(N[logN
 
3. Na situação de homocedasticidade ⇒ S ~ Qui-quadrado com (G-1) graus de liberdade 
 Hipótese Nula: Variâncias iguais em todos os grupos 
Se S > Scrítico (tabela χ2) ⇒ rejeito Ho 
4. Rejeição de Ho ⇒ modificação de MQO 
No exemplo do Caso 2: S = 10,7 Scrítico, 3 graus de liberdade = 7,81, 5% n.s. 
 
Teste 2: Teste de Goldfeld-Quandt 
Hipótese Nula: Homocedasticidade 
Hipótese Alternativa: σi2 = C Xi2 
 45
Procedimentos gerais do teste: 
Linha de regressão com dados 
associados às baixas variâncias 
* Cálculo de duas linhas de regressão + 
linha de regressão com dados associados 
às grandes variâncias 
Assim: 
1. Ordenação dos dados de acordo com a magnitude de uma das variáveis independentes 
(relacionada à magnitude da variância do erro). 
2. Omite-se d informações centrais (d ≈ 1/5 N), e ajusta-se 2 regressões aos 
2
dN − dados 
e k
2
d)(N −− graus de liberdade. 
3 Calcula-se ESS1 (menores valores) e ESS2. 
 
4. Pressupõe-se 
 
1
2
ESS
ESS ⇒ distribuição F[N-d-2k)/2 graus de liberdade no numerador e no denominador] 
Se 
1
2
ESS
ESS > Fcrítico ⇒ rejeito Ho 
Ao utilizar-se maiores valores de d, melhora-se o teste. 
Erros normalmente distribuídos 
Erros não correlacionados serialmente 
 46
Seja o mesmo exemplo anterior (em que d = 0): 
1. Rendas menores ($5.000 e $10.000) 
Yi = 600,00 + 0,276 Xi 
(3,1) (11,3) 
R2 = 0,94 ESS1 = 3,0 x 105 
2. Rendas maiores ($15.000 e $20.000) 
Yi = 1.540,0 + 0,20 Xi 
(1,4) (3,1) 
R2 = 0,55 ESS2 = 20,2 x 105 
 
 
 Teste 3: Teste de White 
O procedimento do teste de White determina que, em um primeiro passo, se avalie 
o ajustamento entre os resíduos da regressão original estimada e as variáveis explanatórias 
formuladas conforme o modelo: 
ε 2i = γ+ φ X 2i + δ Z 2i + θ Xi Zi + νi, 
que permite não-linearidades e para o qual se obtém o coeficiente de ajustamento 
ou determinação R2, 
sendo que Zi e Xi correspondem às variáveis explanatórias da regressão original 
das quais se suspeita serem a origem da heteroscedasticidade. 
Em seguida é obtida a estatística Qui-quadrado para o teste, em que se calcula o 
valor: 
χ 2 = N R2, onde N é o tamanho da amostra que ajustou a regressão que deu 
origem aos resíduos ε 2i . 
Se N R2 for um valor significativo com p graus de liberdade e (1-n.s.)% de 
probabilidade significa que o modelo sugerido para relacionar o quadrado dos resíduos e as 
p variáveis explanatórias indica heteroscedasticidade (no modelo formulado, p=3). 
6,7
ESS
ESS
1
2 = 
Fcrítico = 6,03 
(8,8) graus de liberdade 
6,7 > 6,3, logo, rejeito Ho 
 47
 
 
Por exemplo, se Xi for a única variável da qual se suspeita ser a origem da 
heteroscedasticidade, deve-se calcular a estatística χ 2 para o modelo: 
a) ε 2i = γ+ φ X 2i + νi , e avaliar sua significância com 1 grau de liberdade, ou 
b) Sugere-se que o modelo inclua as variáveis explanatórias X i e X
2
i , e o teste 
seja feito com 2 graus de liberdade. 
 
 48
Exemplo 
Considere-se o modelo de regressão estimado: 
1t61t51t41t36t21t PβˆEβˆIβˆISβˆDIβˆβˆDSˆ −−−−− +++++= (highly trended time-series). 
N = 88 grausde liberdade = 82 
S = 263,4 R2 = 0,93 0,92R 2 = 
Soma dos (Resíduos2) = 5,7 x 106 F5,82 = 220,6 
 
Coeficiente Valor Desvio Padrão t Média 
Coeficientes parciais 
(de correlação) 
1βˆ 12.091,0 2.321,0 5,2 1,0 
2βˆ 0,109 0,06 1,8 15.507,9 0,19373 
3βˆ -1.690,3 483,6 -3,5 1,96 -0,36010 
4βˆ -76,2 65,6 -1,2 5,28 -0,12719 
5βˆ 5.585,6 974,4 5,7 2,96 0,53486 
6βˆ -175,6 34,4 -5,1 105,1 -049147 
(coef. corr. parcial)2 = (0,53)2 = 0,28 da variância da variável dependente SD. 
 
Exercício: Questão 1 escolher uma série sazonal e estimar seus parâmetros, R2, 
testes, ... 
 
 49
18. O Problema da Correlação Serial 
 
Na análise de dados de séries temporais, principalmente, é freqüente a correlação 
entre os termos de erro em períodos de tempo adjacentes. A presença de correlação serial 
de 1ª ordem significa que os erros em um período estão correlacionados diretamente aos 
erros no período seguinte. Por exemplo, a previsão superestimada de taxa de vendas para 
um período provavelmente induz a superestimativas dos períodos seguintes (exemplo de 
correlação serial positiva). A correlação serial entre termos de erro é positiva, na maioria 
das séries temporais. Isto deve-se, por exemplo, ao efeito de variáveis omitidas ou erros de 
medida. 
Como regra geral, a presença de correlação serial não afeta a não-tendenciosidade 
e a consistência dos estimadores de mínimos quadrados (MQO) mas afeta a eficiência 
(variância). No caso de correlação serial positiva a “perda” de eficiência é mascarada pelo 
fato de que as estimativas dos desvios padrão obtidas (pelo MQO) são menores que os 
verdadeiros desvios padrão (desvio padrão viesado para menos). Com isso os parâmetros 
da regressão podem ser considerados mais precisos do que realmente são. Além disso, o 
intervalo de confiança é mais estreito, fazendo com que a hipótese nula seja rejeitada 
quando ela não deveria sê-lo. 
Intuitivamente, as duas situações da Figura 19 ocorrem: 
Figura 19- Exemplos de ajustamentos de modelos de regressão a dados 
serialmente correlacionados (positivamente) 
No caso de correlação serial positiva, R2 é melhor do que deveria ser. Como 
representado na Figura 19, são observadas duas situações de ajustamento ao longo do 
 50
conjunto amostral: (a) βˆ < β e (b) βˆ > β . Na média, entretanto, há ausência de viés (ou 
seja, os estimadores estão corretos). Entretanto, a medida do sucesso da estimação estará 
super avaliada se a variância estimada for utilizada em testes. 
Desta forma, devem ser introduzidas medidas de correção e de teste sobre a 
presença da correlação serial dos erros ou autocorrelação. 
a) Correção para a autocorrelação: 
Assume-se erros ~ N (0, σε2) mas E (εt εt-1) ≠ 0 
T...,1,t,εXβ...XββY tktk2t21t =++++= 
Assume-se que os erros correlacionem-se serialmente conforme: 
1ρ0,vερε t1tt ≤≤+= − Processo autoregressivo de 1ª ordem, 
onde 0)vE(v);σN(0,~v 1tt
2
vt =− e 0)εE(v tt = . 
O efeito do erro num determinado instante de tempo sobre os demais períodos 
decresce no tempo. Isto é fácil de observar por meio das covariâncias dos erros. Assim, 
se: 
 Var (εt) = E (ε2t) = E [(ρ εt-1 + vt)2] = 
= E[ρ2ε2t-1 + v2t + 2 (ρεt-1 . vt)] = ρ2 Var (εt-1) + Var (vt) = ρ2 Var (εt) + Var (vt) 
Var (εt) = σ2ε = 2v
2
ρ1
σ
− , 
Cov (εt, εt-1) = E (εt, εt-1) = 
= E [(ρ εt-1 + vt) . εt-1] = E [ρ ε2t-1 + vt . εt-1] = ρ E (ε2t-1) = ρ Var(εt) = ρ σ2ε , 
de forma similar obtém-se: 
Cov (εt, εt-2) = E (εt, εt-2) = ρ2 σ2ε 
Cov (εt, εt-3) = E (εt, εt-3) = ρ3 σ2ε 
São válidas as seguintes observações adicionais no estudo de correlação serial: 
1. Sobre o termo de erro para o primeiro período: Não há dados sobre valores 
anteriores que o influenciaram. Assim, assume-se: ε1 ~ N (0, )
ρ1
σ
2
v
2
− 
 51
2. Assume-se a seguinte expressão para obtenção de ρ: ρ = 
ε
2
1tt
σ
)ε,(εCov − , 
sendo 2
1
1t
2
1
tε
2 )Var(ε)Var(εσ −= 
(I) Correção na hipótese: ρ conhecido a priori 
Neste caso, é feito um ajustamento do procedimento de regressão por mínimos 
quadrados, aplicando o método das diferenças generalizadas para recálculo das variáveis, 
de forma que: 
1tt
*
t YρYY −−= 
Assim: 
 Yt = .... 
 Yt-1 = β1 + β2 X2t-1 + ... + βk Xkt-1 + εt-1 
Essa equação é multiplicada por ρ x (-1), de forma que se obtém: 
*
tY = β1(1-ρ) + β2 X*2t + ... + βk X*kt + vt , onde vt não são correlacionados entre si, sendo: 
Y*t = Yt - ρYt-1, X*2t = X2t - ρX2t-1, vt = εt - ρεt-1 
var(εt) = 2v
2
ρ1
σ
− 0 ≤ ρ < 1 . 
Observa-se que o intercepto do modelo original (β1) deve ser calculado a partir do 
intercepto obtido para a equação transformada *tY . 
Quando: 
ρ = 1 ⇒ “primeira diferença”. Obtém-se. ∑−= k
2
ii1 XβˆYβˆ , pois nessa situação 
o intercepto é nulo. Ou seja: Y*t = β2 X*2t + ... + βkX*kt + vt 
Y*t = Yt – Yt-1, X*2t = X2t – X2t-1, vt = εt - εt-1 
(II) Correção na hipótese: ρ não é conhecido a priori 
Neste caso são sugeridos três procedimentos alternativos: 
 
- O Procedimento de Cochrane - Orcutt 
 52
1º passo: Estimação do modelo original por mínimos quadrados. 
 Definição de “erros estimados” (resíduos) 
2º passo: Utilização dos resíduos como dados de base para a estimação. 
 t1tt vεˆρεˆ += − 
parâmetro estimado )ρˆ( 
3º passo: Uso do parâmetro estimado )ρˆ( para compor as diferenças 
generalizadas. 
1tt
*
t YρˆYY −−= 
1ktkt
*
kt XρˆXX −−= 
4º passo: Estimar parâmetros da equação transformada 
 Y*t = β1(1- ρˆ ) + β2X*2t + ... + vt 
 k321 βˆ,...,βˆ,βˆ,βˆ 
5º passo: Definir e obter: 
 ktk2t21tt Xβˆ...XβˆβˆYεˆˆ −−−−= 
6º passo: Estimar parâmetro da regressão. 
t1tt εˆˆρεˆˆ v+= − 
Nova estimativa de ρ 
7º passo: Pare o procedimento ou continue até que, 
1º, 2º estimativas de ρ foram obtidas 
por exemplo: 
ρ - ρanterior ≤ 0,01 ou 0,005 
Problema: valor obtido pela minimização da soma dos quadrados dos resíduos 
pode ser mínimo local (x mínimo global). 
 
- O Procedimento de Hildreth-Lu 
 53
Os passos do procedimento são os seguintes: 
1º passo: Escolha de valores alternativos para ρ ⇒ escolhido em um conjunto 
de valores entre 0 e 1. 
 
 
 
Por exemplo 
ρ= ρ 
 
 
2º passo: Para cada ρ , estimar Y*t = β1 (1- ρ ) + β2X*2t + ... + vt e calcular a 
soma dos quadrados dos resíduos 
3º passo: ρ ótimo ⇒ menor soma dos quadrados dos resíduos. 
4º passo: Pare o procedimento (estabelecendo critério de parada) ou continue 
estabelecendo nova variação de valores em torno do ρ ótimo, recomeçando no 
1º passo. 
Esse procedimento pode garantir máxima verossimilhança. Como precaução, no 
entanto, deve-se ter atenção na escolha de valores dos coeficientes para definir ρ ótimo de 
forma que sejam bem espaçados e deve-se também variar o conjunto inicial. 
- O Procedimento de Durbin 
1º passo: A partir das diferenças generalizadas do modelo linear: 
Yt - ρ Yt-1 = β1 (1-ρ) + β2 (X2t - ρX2t-1) + ... + vt, que permite obter: 
Yt = β1 (1-ρ) + ρ Yt-1 + β2X2t - ρβ2X2t-1 +...+ βkXkt - ρβkXkt-1 + vt, 
estima-se ρˆ aplicando a estimação de mínimos quadrados (ρˆ é o coeficiente 
estimado para a variável Yt-1). 
2º passo: Substitui-se ρˆ na equação: 
Yt - ρˆ Yt-1 = β1 (1- ρˆ ) + β2 (X2t - ρˆ X2t-1) +...+ βk (Xkt - ρˆ Xkt-1) + vt 
0 
0,1 
0,2 
0,3 
0,4 
0,5 
0,6 
0,7 
0,8 
0,9 
1,0 
 54
 
 
Com esse conjunto de variáveis estima-se novo conjunto de parâmetros (mais 
eficiente que o anteriormente obtido). 
(b) Testes para correlação serial 
Hipótese nula ⇒ ρ = 0 
Hipótese Alternativa ⇒ ρ ≠ 0 (ou ρ > 0 ou ρ < 0) 
O teste mais popular para a correlação serial é o teste de Durbin-Watson. 
Existem testesalternativos, como o teste de Durbin, que se aplicam a situações 
específicas observados na amostra e modeladas (ver Durbin, J. (1970), “Testing for Serial 
Correlation in Least-Squares Regression When Some of the Regressors are Lagged 
Variables”, Econometrica, vol. 38, pp.410-421; Siegel, S. (1956), “Nonparametric 
Statistics for the Behavioral Sciences”, Mc Graw-Hill e Theil. H. (1965), “The Analysis of 
Disturbances in Regression Analysis”, Journal of the American Statistical Association, 
Vol. 60, pp. 1067-1079). 
(b1) Teste de Durbin-Watson 
No teste de Durbin-Watson, é calculada a estatística DW, cujo valor permite 
concluir sobre a presença ou não de significativa correlação serial. São procedimentos do 
teste: 
Sejam 1tt εˆ,εˆ − ⇒ resíduos da aplicação de MQO 
Calcula-se: DW = 
∑
∑ −
=
= −
T
1t
2
t
T
2t
2
1tt
εˆ
)εˆεˆ(
 , situando essa estatística de acordo com valores 
tabelados conforme a Figura 20. 
O teste não pode ser usado (por definição) quando o modelo de regressão inclui, 
como variável explanatória, a variável dependente defasada. 
Observa-se que, quando(Figura 20): 
tεˆ próximos a 1-tεˆ (autocorrelação positiva) ⇒ baixos DW 
Nova Variável 
Dependente 
Nova Variável 
Independente 
Nova Variável 
Independente 
 55
tεˆ opostos a 1-tεˆ (autocorrelação negativa) ⇒ altos DW 
Caso DW = 2 ⇒ correlação serial de 1ª ordem: ausente. 
 
 
dL e dU ⇒ obtidos na Tabela DW, a 5% n.s, k’ variáveis, onde k’= k-1 
(exclui-se o intercepto) e de acordo com o tamanho (T) da amostra. 
4 – dL < DW < 4: rejeito Ho; há correlação serial negativa. 
4 – dU < DW < 4 – dL: inconclusivo. 
2 < DW < 4 - dU: não há. 
dU < DW < 2: não há. 
dL < DW < dU: inconclusivo. 
0 < DW < dL: há correlação positiva. 
Figura 20- Variação de valores para a avaliação da presença de correlação 
serial 
As regiões de indeterminação do teste devem-se à seqüência de resíduos ser 
influenciada pelas variáveis independentes. Por outro lado, a análise do modelo de 
regressão a duas variáveis leva à conclusão que DW ≈ 2 (1 - ρˆ ) podendo este resultado ser 
obtido a partir da relação DW = 
∑
∑
=
=
−−
T
1t
2
t
T
2t
2
1tt
εˆ
)εˆεˆ(
 inicial. 
Exemplo: 
 COAL = 12,262 + 92,34 FIS + 118,57 FEU- 48,90 PCOAL + 118,91 PGAS 
(Demanda) (3,51) (6,46) (7,14) (-3,82) (3,18) 
R2 = 0,692 F(4,91) = 51,0 DW = 0,95 (DW< dL, logo há correlação positiva) 
Hildreth-Lu ⇒ ρ = 0,6 
 56
COAL* = 16,245 + 75,29 FIS* + 100,26 FEU*- 38,98 PCOAL* + 105,99 PFAS* 
(3,3) (4,4) (3,7) (-2,0) (2,0) 
DW = 2,07 ⇒ Ho aceita (2<DW< 4-dU) nas condições: 5% n.s., 96 observações e 
4 variáveis independentes, para os valores de dL = 1,58 e dU = 1,75 tabelados. 
 
(b2) O teste de Durbin 
Este teste aplica-se ao caso em que a variável dependente defasada é variável 
independente no modelo. 
Para isto calcula-se a estatística h que vai testar a presença de correlação serial no 
caso citado. Essa estatística é definida por: 
h = ρˆ { N/(1-N VAR ( βˆ )}1/2 para N VAR ( βˆ ) <1, onde: 
ρˆ = (1-1/2 DW), 
VAR ( βˆ ) é a variância estimada do coeficiente da variável defasada Y t-1. 
O teste é válido para amostras de grande tamanho (N>30) (embora na prática seja 
aplicado também em amostras pequenas). A estatística é testada como um desvio da 
distribuição normal. Se h > 1,645, rejeita-se a hipótese nula de que os resíduos não tem 
correlação serial a 5 % de nível de significância. 
19. A Previsão com o Modelo de Regressão 
 
O modelo de regressão de uma equação (singular) é base para dois tipos de 
previsão: (a) as previsões pontuais, às quais associam-se intervalos de confiança, dando 
origem a (b) previsões de intervalos de confiança da previsão, construídos de forma a que 
se observe uma margem de erro em torno da previsão pontual, definindo bandas de (1-
n.s.)% de confiança (n.s. é o nível de significância). 
As previsões são guias para as decisões e dão orientação para a (re)construção do 
modelo de regressão, na medida que se tenha informação atual da situação em análise. 
Elas se distinguem em ex “post” e ex “ante”, conforme o período previsto se baseie ou 
não no conjunto de dados amostrais correntes das variáveis independentes (Figura 21): 
 57
(a) Período das previsões ex “post”: usado para a avaliação do modelo de 
previsão. Essas são previsões ditas incondicionais (valores das variáveis 
independentes conhecidos). 
(b) Período das previsões ex “ante”: essas previsões podem ser incondicionais ou 
condicionais. Seja por exemplo: 
 
 
 
 
 
 
 
 
 
Figura 21- Distinção entre previsão ex “post” e ex “ante” 
 
Pode-se definir como sendo a melhor previsão aquela com variância mínima em 
seu erro de previsão. Pode-se afirmar que as estimativas de MQO levam às melhores 
previsões não tendenciosas com modelos lineares (BLUEs). O erro do procedimento de 
previsão está associado aos seguintes pontos: 
1. Natureza aleatória do termo aditivo do erro. 
2. O processo de estimação envolve erro ao estimar parâmetros que tendem aos 
verdadeiros parâmetros, mas diferindo deles. 
3. Previsão condicional introduz erros ao calcular valores esperados para as 
variáveis independentes ou explanatórias. 
4. Erro de especificação do modelo (≠ do modelo real). 
O erro de previsão é, aqui, avaliado em três situações: (A) previsão incondicional, 
(B) previsão incondicional com erros serialmente correlacionados e (C) previsão 
condicional, que traz inerente maior dificuldade. 
Períodos de previsão 
T1 
ex“post” 
estimação 
Período da 
Tempo T 
ex “ante” 
T2 T3 (atual) 
S(t) = ao + b1 X(t-3) + b2 Y(t-4) 
 
 Incondicional até 3 períodos no futuro 
S(t) = ao t b1 X(t) + b2 Y(t) 
 
 condicional 
 58
(A) Previsão Incondicional 
Na previsão incondicional os valores assumidos pelas variáveis independentes são 
conhecidos no período da previsão. Nesse caso diz-se que os valores são previstos quase 
– perfeitamente. Cita-se como exemplo de variáveis explanatórias: mês do ano e 
população no mês do ano, em um período de previsão (mensal) total de 1 ano. 
Os modelos para previsão incondicional são desejáveis pois removem erros do 
processo de previsão, ao serem construídos com base em variáveis explanatórias de 
previsão fácil e precisa. 
Seja: 
Yt = α + β Xt + εt, t = 1, 2, ..., T 
εt ~ N (0, σ2), a variável independente XT+1 conhecida. 
Pressuposto: α e β conhecidos ∴ Yˆ T+1 = E (YT+1) = α + β XT+1 
erro de previsão: êT+1 = Yˆ T+1 – YT+1 
Nesse caso, são válidas as seguintes propriedades do erro de previsão: 
1. E ( 1Teˆ + ) = E ( 1TYˆ + - 1TY + ) = 0 = E (-εT+1) , ou seja: a previsão de YT+1 é um 
valor não-enviesado (isto é: correto na média). 
2. A variância do erro de previsão (σp2 ) 
σp2 = E [( 1Teˆ + )2] = E [( 1Tε + )2] = σ2 ou seja, é a variância de MQO. 
Assim: erro de previsão ~ N (0, σ2) 
Para a avaliação da significância estatística dos valores previstos deve ser obtido o 
erro normalizado: λ = 
σ
YYˆ 1T1T ++ − , onde λ ~ N (0, 1). 
Constrói-se o intervalo de confiança em torno do erro normalizado com 5% de 
nível de significância (Figura 22), de forma que: 
- λ0,0 5 ≤ 
σ
YYˆ 1T1T ++ − ≤ λ0,05, onde λ0,05 é o valor de λcrítico que se obtém segundo 
a tabela da distribuição normal. 
 59
 
 
 
 
Figura 22- A previsão pontual e o intervalo de previsão com bandas de 95 % de 
confiança para a previsão incondicional 
 
Pode ser feita a avaliação do modelo de previsão após obter-se YT+1 e comparar-se 
seu valor

Outros materiais

Outros materiais