Buscar

Apostila - Estatística Econômica

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 80 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 80 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 80 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE ESTATÍSTICA
APOSTILA:
MAT02207 -
ESTATÍSTICA ECONÔMICA
Prof. Vanessa B. Leotti Torman
(vanessa.leotti@ufrgs.br)
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Março de 2012.
2
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
ÍNDICE
1 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS) .................................................................... 5 
1.1 INTRODUÇÃO À REGRESSÃO.....................................................................................................................5
1.1.1 RELAÇÕES ESTATÍSTICAS VERSUS DETERMINÍSTICAS...............................................................................5
1.2 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS)...............................................................................5
1.2.1 FUNÇÃO LINEAR DE REGRESSÃO POPULACIONAL.....................................................................................5
1.2.2 FUNÇÃO LINEAR DE REGRESSÃO AMOSTRAL............................................................................................6
1.2.3 PREMISSAS CLÁSSICAS.............................................................................................................................7
1.3 ESTIMAÇÃO DOS PARÂMETROS DO MODELO: MÉTODO DE MÍNIMOS QUADRADOS ORDINÁRIOS 
(MQO)................................................................................................................................................................8
1.3.1 SIGNIFICADO DE E ..................................................................................................................................9
1.3.2 PRECISÃO OU ERRO-PADRÃO DAS ESTIMATIVAS DE MQO......................................................................10
1.3.3 PROPRIEDADES DOS ESTIMADORES DE MQO.........................................................................................10
1.4 COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON - R......................................................................13
1.5 COEFICIENTE DE DETERMINAÇÃO - R2...................................................................................................14
1.6 A PREMISSA DE NORMALIDADE DOS RESÍDUOS......................................................................................16
1.7 ESTIMAÇÃO POR INTERVALO..................................................................................................................16
1.7.1 INTERVALOS DE CONFIANÇA PARA OS COEFICIENTES DE REGRESSÃO.....................................................16
1.7.2 INTERVALO DE CONFIANÇA PARA A VARIÂNCIA RESIDUAL....................................................................18
1.8 TESTES DE HIPÓTESES.............................................................................................................................19
1.8.1 ABORDAGEM DO INTERVALO DE CONFIANÇA.........................................................................................19
1.8.2 ABORDAGEM DO TESTE DE SIGNIFICÂNCIA.............................................................................................20
1.9 PREVISÃO.................................................................................................................................................22
1.9.1 INTERVALO DE CONFIANÇA PARA A ESTIMATIVA MÉDIA DE Y, DADO X = X0.......................................22
1.9.2 INTERVALO DE CONFIANÇA PARA A ESTIMATIVA INDIVIDUAL DE Y, DADO X = X0...............................23
1.10 ANÁLISE DE VARIÂNCIA – ANOVA......................................................................................................24
1.10.1 TESTE DE SIGNIFICÂNCIA PARA O COEFICIENTE DE DETERMINAÇÃO....................................................25
1.11 REGRESSÃO PELA ORIGEM....................................................................................................................26
1.12 FORMAS FUNCIONAIS DOS MODELOS DE REGRESSÃO...........................................................................27
1.12.1 MODELO LOG-LINEAR OU LOG-LOG....................................................................................................27
1.12.2 MODELOS SEMILOGARÍTMICOS LOG-LIN E LIN-LOG............................................................................27
1.12.3 MODELOS RECÍPROCOS (INVERSOS).....................................................................................................28
2 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM) ............................................................ 31 
2.1 SIGNIFICADO DOS PARÂMETROS DO MODELO........................................................................................31
2.2 NOTAÇÃO MATRICIAL DO MRLM..........................................................................................................31
2.3 PREMISSAS DO MRLM............................................................................................................................32
2.4 MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS (MQO)...................................................................32
2.4.1 VARIÂNCIAS DOS ESTIMADORES DE MQO.............................................................................................33
2.5 COEFICIENTE MÚLTIPLO DE DETERMINAÇÃO: R2.................................................................................35
2.6 COEFICIENTE MÚLTIPLO DE DETERMINAÇÃO AJUSTADO: ....................................................................35
2.7 COEFICIENTE DE CORRELAÇÃO PARCIAL...............................................................................................36
2.8 COEFICIENTE DE DETERMINAÇÃO PARCIAL...........................................................................................37
2.9 INTERVALO DE CONFIANÇA E TESTE DE SIGNIFICÂNCIA INDIVIDUAL PARA OS COEFICIENTES DE 
REGRESSÃO....................................................................................................................................................37
2.10 INTERVALO DE CONFIANÇA PARA A VARIÂNCIA RESIDUAL.................................................................38
2.11 TESTE DA SIGNIFICÂNCIA GERAL DA REGRESSÃO (ANOVA)..............................................................39
2.12 CONTRIBUIÇÃO MARGINAL OU INCREMENTAL DE UMA VARIÁVEL EXPLICATIVA..............................41
2.13 PREVISÃO NO MRLM............................................................................................................................44
2.14 MODELO DE REGRESSÃO POLINOMIAL.................................................................................................45
2.15 VARIÁVEIS DUMMIES.............................................................................................................................46
3
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
2.15.1 REGRESSÃO SOMENTE COM VARIÁVEIS DUMMIES (MODELOS ANOVA)..............................................46
2.15.2 REGRESSÃO COM VARIÁVEIS QUANTITATIVAS E DUMMIES (MODELOS ANCOVA).............................49
2.15.3 EFEITOS DE INTERAÇÃO COM O USO DE VARIÁVEIS BINÁRIAS..............................................................50
2.15.4 O EMPREGO DE VARIÁVEIS BINÁRIAS EM ANÁLISES SAZONAIS.............................................................52
2.15.5 MODELOS LOG-LIN E VARIÁVEIS DUMMIES........................................................................................52
3 VIOLAÇÕES DAS PREMISSAS DO MODELO DE REGRESSÃO ................................................... 54 
3.1 NÃO-NORMALIDADE DOS RESÍDUOS........................................................................................................54
3.1.1 DETECÇÃO..............................................................................................................................................543.1.2 CONSEQÜÊNCIAS....................................................................................................................................55
3.1.3 MEDIDAS CORRETIVAS...........................................................................................................................55
3.2 MULTICOLINEARIDADE...........................................................................................................................57
3.2.1 CONSEQÜÊNCIAS....................................................................................................................................58
3.2.2 DETECÇÃO..............................................................................................................................................60
3.2.3 MEDIDAS CORRETIVAS...........................................................................................................................64
3.3 HETEROCEDASTICIDADE.........................................................................................................................66
3.3.1 MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS (MQG)............................................................67
3.3.2 CONSEQÜÊNCIAS....................................................................................................................................67
3.3.3 DETECÇÃO..............................................................................................................................................68
3.3.4 MEDIDAS CORRETIVAS...........................................................................................................................73
3.4 AUTOCORRELAÇÃO.................................................................................................................................75
3.4.1 CONSEQÜÊNCIAS....................................................................................................................................77
3.4.2 DETECÇÃO..............................................................................................................................................77
3.4.3 MEDIDAS CORRETIVAS...........................................................................................................................80
4
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS)
1.1 Introdução à Regressão
A análise de regressão estuda a dependência de uma variável, chamada de variável 
dependente, em relação a uma ou mais variáveis, denominadas de variáveis independentes, com o 
objetivo de estimar e/ou prever o valor médio da primeira em termos de valores conhecidos ou 
fixados das segundas.
Pressupõe-se implicitamente que as relações causais, se as houver, entre a variável 
dependente e as explanatórias só se dão em uma direção: das variáveis explanatórias para a 
dependente.
Exemplo: Poderia-se estudar a relação de dependência do rendimento das lavouras em 
relação à temperatura, pluviosidade, luz solar ou fertilizante, por exemplo.
1.1.1 Relações estatísticas versus determinísticas
Na análise de regressão, estamos preocupados com o que é conhecido como dependência 
estatística, e não funcional ou determinística, entre as variáveis. Nas relações estatísticas entre 
variáveis, lidamos essencialmente com variáveis aleatórias ou estocásticas, isto é, variáveis que têm 
distribuições probabilísticas. Na dependência funcional ou determinística, por outro lado, também 
lidamos com variáveis, mas estas não são aleatórias ou estocásticas.
O exemplo anterior é uma dependência estatística. Já um exemplo de dependência 
determinística é a fórmula: lucro bruto = preço x unidades vendidas.
1.2 Modelo de Regressão Linear Simples (MRLS)
Método de ajustamento de uma reta para análise da relação entre uma variável independente 
(explicativa ou regressora) e uma variável dependente (explicada ou resposta). Ambas as variáveis 
são quantitativas. Este modelo também é conhecido como modelo de duas variáveis.
1.2.1 Função linear de regressão populacional
Denotaremos por iY o valor da variável dependente para a i-ésima observação e iX o 
valor da variável independente para a i-ésima observação.
Como dito anteriormente, o objetivo da regressão é estimar um valor médio da variável 
dependente com base nos valores conhecidos da variável explanatória.
Desenho (fertilizante x produtividade):
5
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Podemos expressar isso matematicamente escrevendo:
( ) ii XXYE 21| ββ +=
onde 1β e 2β são chamados de coeficientes de regressão, ou respectivamente, intercepto e 
coeficiente angular, e o subscrito i indica os pares de observações, i = 1, 2, ..., n.
A expressão acima é conhecida como função linear de regressão populacional.
Nem todos os valores de Y caem sobre a reta, existe um desvio em torno de seu valor 
esperado, que pode ser denotado por:
( )iii XYEYe |−=
Ou
( ) iii eXYEY += |
O que implica que
ieXY iii ∀++= ,21 ββ
O desvio e, também conhecido como perturbação aleatória, resíduo aleatório, ou distúrbio 
aleatório, é um “substituto” ou representante de todas as variáveis que podem afetar Y, mas não 
foram incluídas no modelo de regressão; dos elementos não-previsíveis de aleatoriedade e dos erros 
de mensuração em Y.
1.2.2 Função linear de regressão amostral
1β e 2β são parâmetros conhecidos apenas se toda a população fosse pesquisada, ou seja, 
se um censo fosse realizado. Entretanto, na prática, amostras são utilizadas para estimar a função de 
regressão. Assim, temos a função linear de regressão amostral:
ii XY 21 ˆˆˆ ββ +=
iYˆ é um estimador de ( )iXYE | , assim como a distância iii YYe ˆˆ −= estima o resíduo e. 
Assim, pode-se escrever a função de regressão amostral como:
iiiii eYeXY ˆˆˆˆˆ 21 +=++= ββ
A figura abaixo ilustra as diferenças entre a FRP e FRA:
6
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Assim, temos duas questões para responder:
- Como obter 1βˆ e 2βˆ ?
- Após 1βˆ e 2βˆ terem sido obtidos, como podemos fazer inferências sobre os verdadeiros 
parâmetros 1β e 2β ?
1.2.3 Premissas clássicas
Para realizarmos inferências sobre 1β e 2β , precisamos fazer algumas suposições sobre a 
maneira com que X e e influenciam em Y. 
 [1]: ieXY iii ∀++= ,21 ββ
Estabelece que, para cada observação i, existe uma relação linear de dependência entre uma 
variável explicada observável, Y, uma variável explicativa observável, X e um termo de perturbação 
aleatório não observável, e.
Ou seja, o modelo é linear nos parâmetros e nas variáveis.
Um exemplo de modelo não linear nas variáveis é iii eXY ++= 221 ββ , e veremos que 
alguns casos desse tipo podem ser resolvidos através do modelo acima.
Tipos de não-linearidade nas variáveis:
Um exemplo de modelo não linear nos parâmetros é ( ) iii eXY ++= 221 ββ e não veremos 
esse tipo de modelo.
[2]: Os valores de X são fixados em amostragem repetida;
A idéia é que os valores de X são fixos e se observa os valores de Y correspondentes. Isso 
implica que X não é uma variável aleatória. 
[3]: ( ) iXeE ii ∀= ,0| 
O valor médio do termo de erro é zero. Isso significa que fatores não incluídos no modelo e, 
portanto, agrupados em e, não afetam sistematicamente o valor médio de Y.
[4]: ( ) iXeVar ii ∀= ,| 2σ
A variância do resíduo aleatório é constante (homoscedasticidade: variâncias iguais; 
heteroscedasticidade: variâncias diferentes).
Desenho da heteroscedasticidade:
7
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
[5]: ( )ji eeCov , = 0, jiji ≠∀ ,,
É nula a covariância entre os resíduos aleatórios (ausência de autocorrelação).
Intuitivamente, a importância dessa hipótese pode ser explicada do seguinte modo: seja 
nossa FRP tttuXY ++= 21 ββ , onde tu e 1−tu apresentam correlação. Então, tY não depende 
apenas de tX mas também de 1−tu , que em alguma medida, influencia em tu . 
[6]: Cov(Xi, ei) = 0;
A covariância entre o termo de erro e a variável explicativa é nula. Assim, presumimos que 
X e e exercem influências separadas em Y. Isso ocorre automaticamente se X é não aleatório.
Por isso, mesmo se X não for aleatório, mas for não correlacionado com e, o modelo é 
válido.
 
[7]: O número de observações (n) deve ser maior que o número de parâmetros a serem estimados;
Ou seja, são necessários no mínimo 2 pares de observações para ajustar o modelo postulado em 1.
[8]: A variável explicativa X assume, no conjunto das observações, valores não todos iguais, ou 
seja, a variável X não é constante na amostra.
[9]: O modelo está corretamente especificado (não há viés ou erro de especificação);
Exemplo de erro de especificação: ajustar uma reta a dados que tem comportamento quadrático.
Resulta destas hipóteses que Y é uma variável aleatória que tem, para todo i, média dada por:
E(Yi |Xi) = β1 + β2Xi (Implica de 3)
E variância:
Var(Yi|Xi) = σ2 (Implica de 4)
Assim, β1, β2 e σ2 são os parâmetros, geralmente desconhecidos, da distribuição de Y.
1.3 Estimação dos parâmetros do modelo: Método de Mínimos Quadrados 
Ordinários (MQO)
Dentre os diversos métodos existentes para estimar os verdadeiros parâmetros de funções 
estatísticas, no contexto da análise de regressão, o método dos mínimos quadrados ordinários 
(MQO) é um dos mais populares. Para entender esse método será visto brevemente o princípio dos 
mínimos quadrados.
Primeiro, devemos lembrar da definição do resíduo estimado, isto é: iii YYe ˆˆ −= . Ou seja, 
os resíduos são a distância entre o ponto observado de Y e a reta estimada.
Queremos determinar a FRA de tal modo que seja tão próxima quanto possível do Y 
observado. Para tanto, podemos adotar o seguinte critério: escolher a FRA para que a soma dos 
resíduos, ( )∑∑ −= iii YYe ˆˆ ,
seja a menor possível. Contudo, esse método pode conduzir a resultados inócuos e dessa forma, é 
preferível adotar o critério da minimização dos quadrados dos resíduos, isto é: 
( )22 ˆˆ ∑∑ −= iii YYe .
8
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Gráfico: Critério dos mínimos quadrados
Assim, através do cálculo diferencial (ver demonstração em Gujarati) o método de MQO 
nos fornece as estimativas únicas de 1β e 2β que resultam no menor valor possível de ∑ 2ˆie . O 
processo de diferenciação resulta na resolução do seguinte sistema de equações normais:



+=
+=
∑∑∑
∑∑
2
21
21
ˆˆ
ˆˆ
iiii
ii
XXYX
XnY
ββ
ββ
onde, n é o tamanho da amostra. Resolvendo as equações normais simultaneamente, obtemos:
( )( )
( ) ∑
∑
∑
∑
=
−
−−
= 222
ˆ
x
xy
XX
YYXX
i
iiβ
e, 
XY 21 ˆˆ ββ −= ,
onde X e Y são as médias amostrais de X e Y, ou seja, 
n
X
X ∑= e 
n
Y
Y ∑= ;
e x e y são as variáveis em formato desvio, ou seja, XXx ii −= e YYy ii −= .
1.3.1 Significado de 1βˆ e 2βˆ
1βˆ : valor estimado para Y quando X = 0
2βˆ : acréscimo (ou decréscimo) em Y quando X aumenta 1 unidade. Seu sinal indica se a relação 
entre X e Y é positiva ou negativa.
9
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1.3.2 Precisão ou erro-padrão das estimativas de MQO
As estimativas de MQO são uma função dos dados amostrais. Mas, como os dados tendem a 
mudar de amostra para amostra, as estimativas também mudarão. Portanto, é necessária alguma 
medida da confiabilidade ou precisão dos estimadores 1βˆ e 2βˆ . Em estatística, a precisão de uma 
estimativa é medida pelo seu erro-padrão, que nada mais é do que a raiz quadrada da variância.
Pode ser mostrado que as variâncias e os erros-padrão dos estimadores de MQO podem ser 
obtidos por:
( ) ( ) ∑∑ +==⇒



+== 2
2
1ˆ2
2
2
1
2
ˆ
1ˆ1ˆ
11 x
X
n
Ep
x
X
n
Var σβσσβσ ββ
( ) ( ) ∑∑ ==⇒== 22ˆ2
2
2
2
ˆ
ˆˆ
22 x
Ep
x
Var σβσσβσ ββ
onde 2σ é a variância de ei, segundo a premissa 4, que pode ser estimada através da fórmula:
2
ˆ
ˆ
2
2
−
=
∑
n
e
σ , onde 
( )
∑
∑∑∑∑∑ −=−= 2
2
222
2
22 ˆˆ
x
xy
yxye β .
Assim, a partir de uma amostra, podemos estimar as variâncias e erros-padrão dos 
estimadores de MQO apenas substituindo 2σ por 2σˆ nas expressões acima:
( ) ( ) ∑∑ +==⇒



+== 2
2
1ˆ2
2
2
1
2
ˆ
1ˆˆˆ1ˆˆˆ
11 x
X
n
ep
x
X
n
var σβσσβσ ββ
( ) ( ) ∑∑ ==⇒== 22ˆ2
2
2
2
ˆ
ˆˆˆˆˆˆ
22 x
ep
x
var σβσσβσ ββ
1.3.3 Propriedades dos estimadores de MQO
1. A reta de regressão sempre passa pelas médias amostrais de Y e X:
XYXY 2121 ˆˆˆˆ ββββ +=⇒−=
2. A soma dos resíduos estimados é igual a zero: ( ) 0ˆˆ =−=∑∑ iii YYe .
3. Dadas as premissas do MRLS, os estimadores de MQO são os melhores estimadores lineares 
não-tendenciosos de seus respectivos parâmetros. Isto significa que:
a. Linear: função linear de Y
b. Não-tendencioso: esperança do estimador é igual ao verdadeiro valor do parâmetro.
c. Têm variância mínima dentre todos os estimadores lineares não-tendenciosos.
4. São consistentes, pois quanto maior o n, menor sua variância, ou seja, maior sua precisão.
Exemplo 1. Utilize o método dos mínimos quadrados para estimar a reta de regressão entre número 
de pizzarias (Y) e renda (X) per capita, baseado numa amostra observada de cinco cidades. 
10
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Interprete os valores do intercepto e coeficiente angular. Estime também as variâncias e erros-
padrão dos estimadores.
i X Y x y x² y² xy
1 8 40
2 4 30
3 6 28
4 12 46
5 15 59
Total
 25
 30
 35
 40
 45
 50
 55
 60
 4 6 8 10 12 14
Y
X
Y versus X (com ajustamento por mínimos quadrados)
Y = 16,1 + 2,73X
11
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
 Exercício 1. A tabela a seguir informa quantas semanas (X) seis pessoas trabalharam em um posto 
de inspeção de automóveis e quantos automóveis (Y) cada pessoa inspecionou entre 12hs e 14hs, em 
determinado dia. 
a) Ajuste o modelo de regressão linear para esses dados, interpretando as estimativas obtidas;
b) Estime as variâncias e erros-padrão dos estimadores.
X Y
2 13
7 19
9 20
1 13
5 16
12 21
12
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1.4 Coeficiente de correlação linear de Pearson - r
Supondo que exista algum tipo de relação linear entre as variáveis X e Y na população, uma 
medida utilizada para verificar o grau de correlação entre elas é o coeficiente de correlação linear 
de Pearson, cujo valor amostral é dado por:
∑∑
∑
=
22 yx
xy
r
Este coeficiente tem a propriedade de que: 11 ≤≤− r .
Gráfico: Tipos de correlação
Obs: o verdadeiro valor da correlação linear (populacional, em geral, desconhecido) é representado 
pela letra ρ (rô).
Exemplo 2. Calcular e interpretar o coeficiente de correlação linear de Pearson para os dados do 
Exemplo 1.
Exercício 2. Calcular e interpretar o coeficiente de correlação linear de Pearson para os dados do 
Exercício 1.
13
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1.5 Coeficiente de determinação - r2
Apesar de ser diretamente ligado ao coeficiente de correlação, o coeficiente de determinação 
possui uma interpretação bastante distinta. É uma medida para verificar a qualidade do ajuste de 
uma regressão, ou seja, o quão “bem” a reta de regressão se ajusta aos dados. Quando ajustamos 
uma reta, esperamos que os resíduos em torno da linha sejam os menores possíveis. Então, quanto 
mais próximos da reta os pontos estiverem, melhor será o grau de ajuste e é essa a informaçãoque o 
coeficiente de determinação sintetiza. 
Lembrando da FRA iii eYY ˆˆ += , subtraindo-se a média de Y dos dois lados, tem-se:( )iiii YYYYYY ˆˆ −+−=−
Elevando ao quadrado ambos os lados e somando ao longo da amostra, obtemos:
( ) ( ) ( )∑∑∑ −+−=− 222 ˆˆ iiii YYYYYY
SQT = SQE + SQR
onde SQT é a soma de quadrados total, SQE é a soma de quadrados explicados pela regressão e 
SQR é a soma de quadrados de resíduos. Ou seja, a variação total dos valores observados de Y em 
torno de sua média pode ser divida em duas partes: uma atribuível à linha de regressão e a outra, a 
forças aleatórias porque nem todas as observações de Y se situam sobre a linha. 
Gráfico. Decomposição da soma de quadrados total
Definimos agora r2 como:
SQT
SQEr =2 ou alternativamente, SQT
SQRr −=12
Assim, o r2 determina a proporção (percentual) da variação total de Y explicada pela 
variação de X (ou pelo modelo de regressão). Seus limites são: 10 2 ≤≤ r .
Fórmulas alternativas:
14
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
( )
∑∑
∑
∑
∑
=



= 22
2
2
2
2
2
2 ˆ
yx
xy
y
x
r β
A relação entre o coeficiente de correlação e o de determinação é dada por:
2rr ±= .
Exemplo 3. Calcule e interprete o coeficiente de determinação para os dados do Exemplo 1.
Exercício 3. Calcule e interprete o coeficiente de determinação para os dados do Exercício 1.
 
15
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1.6 A premissa de normalidade dos resíduos
Para poder fazer inferências sobre os parâmetros do modelo de regressão, devemos fazer 
alguma pressuposição sobre a distribuição de probabilidades dos resíduos ei. Geralmente se supõe 
que:
[11]: ),0(~ 2σNIDei
Isso implica que: ( )2ˆ11
1
,~ˆ βσββ N ;( )2ˆ22
2
,~ˆ βσββ N ;
( ) ( )2 22
2
~
ˆ
2
−
− nn χσ
σ e
( )221 ,~ σββ ii XNY + .
1.7 Estimação por intervalo
Vimos anteriormente a estimação pontual dos coeficientes de regressão por MQO. Podemos 
nos perguntar: até que ponto essas estimativas são confiáveis? Em decorrência de variações 
amostrais, uma única estimativa possivelmente será diferente do verdadeiro valor, embora se espere 
que, em amostras repetidas, seu valor médio seja igual ao verdadeiro valor. Agora, na estatística, a 
confiabilidade de um estimador é medida por seu erro-padrão. Portanto, em vez de nos embasar 
apenas na estimativa pontual, podemos construir um intervalo em torno do estimador pontual, 
digamos, de dois ou três erros-padrão de cada lado, de tal modo que esse intervalo tenha, digamos, 
95% de probabilidade de incluir o verdadeiro valor do parâmetro. Essa é a idéia que está por trás 
dos intervalos de confiança.
Não podemos dizer que o verdadeiro valor do parâmetro possui tal probabilidade de estar 
contido no intervalo. Ele é um número fixo, então ou está ou não está no intervalo (probabilidade 0 
ou 1).
Depois de observarmos a amostra e calcularmos o intervalo para ela, ele deixa de ser aleatório 
e passa a ser fixo, e então não podemos mais falar em probabilidade. Trocamos então a palavra 
probabilidade por confiança. Assim, dizemos que tal intervalo possui “x” de confiança de conter o 
verdadeiro valor do parâmetro.
1.7.1 Intervalos de confiança para os coeficientes de regressão
Pode-se demonstrar que, se 2σ conhecida, os coeficientes do modelo distribuem-se 
normalmente. E assim, tem-se:
( )1,0~ˆ
ˆ
NZ
i
ii
βσ
ββ −
= onde 2,1=i .
Contudo, sabemos que a variância raramente é conhecida e devemos estimá-la a partir da 
amostra. Assim devemos usar a aproximação da normal pela distribuição t de Student com n-2 
graus de liberdade, então:
( )2
ˆ
~
ˆ
ˆ
−
−
= n
ii tt
iβσ
ββ
16
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Podemos estabelecer um intervalo de confiança tal que:
ααα −=



≤≤−
−−
1
2
;2
2
;2 nn
tttP
Substituindo-se em t, temos
α
σ
ββ
α
β
α −=



≤
−
≤−
−−
1
ˆ
ˆ
2
;2ˆ2
;2 n
ii
n
ttP
i
e, com algumas manipulações, chega-se a
ασββσβ βαβα −=



+≤≤−
−−
1ˆˆˆˆ ˆ
2
;2
ˆ
2
;2 ii niini
ttP
o qual é o intervalo de confiança para βi, e pode ser escrito mais concisamente como:
( ) 


±−×
−
inii
tparaIC βασββα ˆ
2
;2
ˆˆ:%1100 .
Exemplo 4. Intervalos de 95% de confiança para os coeficientes da regressão do Exemplo 1.
Exercício 4. Calcule e interprete os IC com 90% e 99% para os coeficientes de regressão para os 
dados do Exercício 1.
17
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1.7.2 Intervalo de confiança para a variância residual
Vimos que a variável
( )
( )222
2
2 ~
ˆ2
−
−
= n
nq χ
σ
σ .
Podemos usar essa variável para estabelecer um intervalo de confiança para a variância 
residual da seguinte forma:
αχχ αα −=



≤≤
−−−
12
2
;2
22
2
1;2 nn
qP
Substituindo-se em q2 e fazendo-se algumas manipulações, temos:
( ) ( ) αχ
σ
σχ
σ
αα
−=








−≤≤−
−−−
1
ˆ
2
ˆ
2 2
2
1;2
2
2
2
2
;2
2
nn
nnP
Ou ( ) ( ) ( )








−−−×
−−−
2
2
1;2
2
2
2
;2
2
2 ˆ2;
ˆ
2:%1100
αα χ
σ
χ
σ
σα
nn
nnparaIC .
Exemplo 5. Supondo que temos uma amostra de 10 observações de duas variáveis X e Y, a 
variância residual estimada foi 42,1591. O IC de 95% para a verdadeira variância residual é:
Exercício 5. Calcule e interprete os IC com 90% e 99% para a variância residual do Exercício 1.
18
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1.8 Testes de hipóteses
O problema do teste estatístico de hipóteses pode ser resumido assim: uma dada observação 
ou resultado é compatível com alguma hipótese feita ou não? Assim temos a hipótese nula (H0) que 
é testada contra a hipótese alternativa (H1), e decidimos sobre a veracidade ou a falsidade da 
hipótese nula através dos resultados amostrais. Ou seja, a teoria do teste de hipóteses cuida da 
formulação de regras ou procedimentos a serem adotados para decidir se a hipótese nula deve ser 
rejeitada ou não rejeitada. Há duas abordagens complementares para a elaboração dessas regras: o 
intervalo de confiança e o teste de significância.
- Teste bilateral ou bicaudal
As hipóteses deste teste são:


≠
=
*
1
*
0
:
:
ii
ii
H
H
ββ
ββ
 
onde 2,1=i e *iβ é um valor constante de interesse do pesquisador.
Por exemplo, poderíamos estar interessados em testar as seguintes hipóteses:
1. O intercepto do modelo (coeficiente linear) é nulo? Ou, a regressão passa pela origem do sistema 
coordenado?


≠
=
0:
0:
11
10
β
β
H
H
2. A inclinação do modelo (coeficiente angular) é nula? Ou, não existe relação linear entre X e Y?


≠
=
0:
0:
21
20
β
β
H
H
Em ambos os casos acima, 0* =iβ .
- Teste unilateral ou unicaudal
Às vezes, temos uma forte expectativa a priori ou teórica de que a hipótese alternativa seja 
unilateral. Um exemplo de teste unilateral é:


>
≤
0:
0:
21
20
β
β
H
H
.
Veremos a seguir que um teste de hipótese pode ser realizado através de duas abordagens: a 
do intervalo de confiança e a do teste de significância. Por questões de facilidade, veremos testes 
unilaterais apenas através da abordagem dos testes de significância.
1.8.1 Abordagem do intervalo de confiança
19
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Regra de decisão: para um nível de significância α , estabeleça um intervalo de confiança 
de ( )%1100 α−× para iβ . Se *iβ cair dentro do intervalo de confiança,não rejeite H0, caso 
contrário, rejeite.
Em estatística, quando rejeitamos a hipótese nula, dizemos que nossos resultados foram 
estatisticamente significativos.
Exemplo 6: Usando um nível de significância de 5%, teste, através dos intervalos de confiança, as 
hipóteses de que o intercepto e o coeficiente angular são diferentes de zero para os dados do 
Exemplo 1.
Exercício 6: Usando um nível de significância de 10%, teste, através dos intervalos de confiança, as 
hipóteses de que o intercepto e o coeficiente angular são significativamente diferentes de zero para 
os dados do Exercício 1.
1.8.2 Abordagem do teste de significância
A rotina de procedimentos para os testes de significância pode ser resumida da seguinte 
maneira:
a) Escolhe-se o nível de significância α, em geral 1%, 5% ou 10%;
b) Estabelecer as hipóteses e verificar a forma do teste, isto é, unilateral ou bilateral;
c) Verificar o valor crítico (valor tabelado), que será 
2;2
α
−n
t para um teste bilateral e 
α;2−nt para um teste unilateral;
d) Calcular o valor amostral da estatística de teste:
i
iit
βσ
ββ
ˆ
*
ˆ
ˆ
−
=
e) Decidir conforme a tabela abaixo:
Tipo de hipótese H0 H1 Decisão: rejeitar H0 
20
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
se
Bicaudal *0 : iiH ββ = *1 : iiH ββ ≠
2;2
α
−
>
n
tt
Cauda direita *0 : iiH ββ ≤ *1 : iiH ββ > α;2−> ntt
Cauda esquerda *0 : iiH ββ ≥ *1 : iiH ββ < α;2−−< ntt
Exemplo 7: Usando um nível de significância de 5%, teste, através dos testes de significância, as 
hipóteses de que o intercepto e o coeficiente angular são diferentes de zero para os dados do 
Exemplo 1.
Exemplo 8: Para os dados do exemplo 1, usando um nível de significância de 5%, teste a hipótese 
de que o coeficiente angular é maior que 1.
Exercício 7: Considere os dados do Exemplo 1. Em um censo realizado em uma outra região, 
obteve-se 5,151 =β e 34,22 =β . Existe diferença significativa entre as estimativas obtidas no 
Exemplo 1 e os valores da outra região, a 5% de nível de significância?
21
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exercício 8: Considere os dados do Exercício 1. A um nível de significância de 1%, teste as 
hipóteses de que o intercepto e o coeficiente angular são maiores que zero.
- O valor-p: é definido como o menor nível de significância ao qual a hipótese nula pode ser 
rejeitada. Só pode ser calculado exatamente através de métodos computacionais. 
A relação entre o valor-p e o nível de significância é: se valor-p < α , rejeita-se H0, caso 
contrário não se rejeita.
1.9 Previsão
Um dos principais objetivos da análise de regressão é “prever” valores de Y com base em 
valores conhecidos de X. Há dois tipos de previsão:
1. Previsão para a estimativa média de Y dado X=X0: Exemplo: Estimar o consumo médio de pizza 
para cidades com renda igual a 7.
( ) 02100 ˆˆ|ˆ XXXYEdeestimadorY ββ +===
2. Previsão para a estimativa individual de Y dado X=X0: Exemplo: Estimar o consumo de pizza 
para uma cidade com renda igual a 7.
( ) 02100 ˆˆ|ˆ XXXYdeestimadorY ββ +===
1.9.1 Intervalo de confiança para a estimativa média de Y, dado X = X0
( ) ( ) 


±=−×
−
mn
tYXXYEIC σα α ˆˆ:| para %1100 
2
;200 e 



−
+= ∑ 2
2
022 )(1ˆˆ
x
XX
nm
σσ
Exemplo 9. Calcular um intervalo com 95% de confiança para o valor médio de Y, quando X = 100, 
para a regressão XY 5091,04525,24ˆ += , obtida de uma amostra de 10 observações, com 
170=X , 000.332 =∑x e 159,42ˆ 2 =σ .
22
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1.9.2 Intervalo de confiança para a estimativa individual de Y, dado X = X0
( ) ( ) 


±=−×
−
in
tYXXYIC σα α ˆˆ:| para %1100 
2
;200 e 



−
++= ∑ 2
2
022 )(11ˆˆ
x
XX
ni
σσ
Exemplo 10. Calcular um intervalo com 95% de confiança para o valor individual de Y, quando X = 
100, para a regressão do Exemplo 9.
Alguns cuidados em relação à previsão:
1. Quanto mais afastados da média dos valores observados na amostra for a estimativa, 
menos precisão haverá.
2. Ao extrapolar as estimativas para valores fora do intervalo dos dados amostrais, não 
existem garantias de que a relação entre as variáveis manterá o mesmo padrão 
observado na amostra.
Exercício 9. Calcular os intervalos com 90% de confiança para a estimativa média e individual de 
Y dado que X = 10 para os dados do Exercício 1.
23
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1.10 Análise de Variância – ANOVA
Um método complementar para o estudo da análise de regressão é a análise de variância. A 
ANOVA verifica se o modelo estimado possui algum grau de explicação sobre a variável resposta. 
No caso de apenas duas variáveis (ou seja, MRLS), esse método é equivalente ao teste t para testar 
se o coeficiente angular do modelo é nulo, isto é:


≠
=
0:
0:
21
20
β
β
H
H
Como já mencionado, é possível particionar as somas de quadrados da seguinte forma:
( ) ( ) ( )∑∑∑ −+−=− 222 ˆˆ iiii YYYYYY
SQT = SQE + SQR
Ou seja:
SQT: soma de quadrados total, com (n-1) g.l.;
SQE: soma de quadrados explicada pela regressão, com 1 g.l.;
SQR: soma de quadrados dos resíduos, com (n-2) g.l..
As somas de quadrados também podem ser calculadas através das seguintes expressões:
( ) ∑∑ =−= 22 ii yYYSQT
( )∑ ∑=−= 2222 ˆˆ ii xYYSQE β
( ) ( )∑ ∑
∑∑∑∑∑ −=−==−= 2
2
222
2
222 ˆˆˆ
x
xy
yxyeYYSQR iii β
A ANOVA utiliza essa relação entre as somas de quadrados é geralmente resumida e 
analisada através da seguinte tabela:
ANOVA
Causas de Variação GL SQ QM F
Devida à regressão 1 ∑ 222ˆ ixβ
1
ˆ 22
2 ∑
=
ixQME
β
QMR
QME
Devido aos resíduos n-2 ∑ 2iˆe 22 ˆ
2
ˆ
σ=
−
=
∑
n
e
QMR i
Total n-1 ∑ 2iy
O valor da estatística F tem 1 g.l. no numerador e n-2 g.l. no denominador, ou seja: 
F ~ F(1;n-2)
Regra de decisão: Se ( )2;1; −> nFF α , rejeita-se H0, caso contrário não se rejeita.
No caso de apenas duas variáveis, deve-se observar que a relação entre as estatísticas t e f é 
ft =2 .
Exemplo 11. Utilizando os dados do Exemplo 1, construa a tabela da análise de variância e analise 
os resultados, considerando um nível de significância de 5%.
24
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
1.10.1 Teste de significância para o coeficiente de determinação
Alternativamente, pode-se observar que o teste F para testar a significância global do 
modelo também pode ser visto como um teste de significância para o coeficiente de determinação 
r2, isto é, se o coeficiente de determinação é nulo ou não:
2
0
2
1
: 0
: 0
H
H
ρ
ρ
 =
≠
Através de manipulações algébricas, a tabela ANOVA pode ser re-escrita em termos desse 
coeficiente da seguinte forma:
ANOVA
CV GL SQ QM F
Regressão 1 ( )∑ 22 iyr ( ) 122 ∑ iyr ( )( )2
2
1
2
r
rn
−
−
Resíduos n-2 ( )( )∑− 221 iyr ( )( ) ( )21 22 −− ∑ nyr i
Total n-1 ∑ 2iy
Exemplo 12. Refazer a tabela de análise de variância do exemplo 11 em termos do coeficiente de 
determinação.
25
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exercício 10. 
a) Faça a ANOVA para os dados do Exercício 1 e analise os resultados.
b) Refaça a ANOVA em termos do coeficiente de determinação e compare os resultados com o item 
a).
1.11 Regressão pela origem
Em algumas situações, a FRP de duas variáveis assume a seguinte forma:
iii eXY += 2β
Nesse modelo, o termo do intercepto está ausente ou é nulo. Aplicando então o método de 
MQO, obtemos as seguintes fórmulas para 2βˆ e sua variância:
∑
∑
= 22
ˆ
X
XYβ , ∑= 2
2
2
ˆ
ˆ
ˆ
2 X
σ
σβ , 1
ˆ
ˆ
2
2
−
=
∑n
e
σ , 
( )∑ ∑
∑∑ −= 2
2
22ˆ
X
XY
Ye
A primeira diferença entre o modelo de regressão pela origem e o modelo com intercepto é 
que as fórmulas para o primeiro envolvem somas brutas das variáveis, e não no formato desvio.
A segunda diferença são os graus de liberdade, que passam a ser n – 1.
Outra diferença é que, no modelo com intercepto 0ˆ =∑ ie , já na regressão pela origem, 
isto nem sempre acontece.
Além disso, o r2 conforme definido anteriormente pode ser negativo nos modelos com 
intercepto ausente. Portanto, ele não pode ser usado diretamente nesse caso e também é necessário 
ajustar os cálculos, obtendo o que se chama de r2 bruto, definido como:
( )
∑∑
∑
= 22
2
2
YX
XY
rbruto .
O r2 bruto está sempre entre 0 e 1, mas não pode ser comparado diretamente ao valor do r2 
convencional.
Em decorrência das características especiais deste modelo, é preciso ter grande cautela ao 
empregá-lo. A menos que exista uma expectativa a priori muito forte, seria preferível ater-se ao 
modelo com intercepto.
Exemplo 13. Ajustar o modelo de regressão pela origem aos dados do Exemplo 1, calcular o r2 
bruto e testar a hipótese de que existe influência linear de X em Y, para uma significância de 5%.
26
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exercício 11. Ajustar o modelo de regressão pela origem aos dados do Exercício 1, calcular o r2 
bruto e testar a hipótese de que existe influência linear de X em Y, para uma significância de 5%.
1.12 Formas funcionais dos modelos de regressão
Trabalhamos até agora com um modelo linear nos parâmetros e nas variáveis. Entretanto, 
alguns modelos de regressão bastante usados não são lineares nas variáveis, mas o são nos 
parâmetros. Esses modelos podem ser tornados lineares por meio de transformações nas variáveis.
1.12.1 Modelo Log-Linear ou Log-Log
Modelo de Regressão Exponencial:
( )iii eXY exp21 ββ=
Este modelo pode ser expresso como:
( ) ( ) ( ) iii eXY ++= lnlnln 21 ββ
Se escrevermos ( )1ln βα = , temos o modelo log-linear, que é linear nos parâmetros mas não 
nas variáveis:
( ) ( ) iii eXY ++= lnln 2βα
Se fizermos, ( )ii YY ln* = e ( )ii XX ln* = , teremos o MRLS iii eXY ++= *2* βα , que pode ser 
estimado por MQO.
A utilidade desse modelo é que 2β mede a elasticidade de Y em relação a X, isto é, a 
variação percentual de Y correspondente a variação de 1% em X. Assim, se Y representa a 
quantidade demandada de um bem e X seu preço unitário, 2β mede a elasticidade preço da 
demanda.
Desenhos:
No modelo de 2 variáveis, para verificar se o modelo log-linear se ajusta aos dados, traça-se 
o diagrama de dispersão de ( )iYln contra ( )iXln e verifica-se se os pontos se aproximam de uma 
reta.
1.12.2 Modelos semilogarítmicos Log-Lin e Lin-Log
- Modelo Log-Lin
Muitas vezes é interessante conhecer a taxa de crescimento de algumas variáveis como 
população, PNB, etc. Imagine que desejamos conhecer a taxa de crescimento de uma população no 
período t. Denotemos por tY a população no final do período e 0Y no início do período. 
27
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Recordando a fórmula de juros compostos, temos que:
( ) tt rYY += 10
Onde r é a taxa de crescimento de Y. Aplicando-se o logaritmo natural nos 2 lados da equação 
temos que:
( ) ( ) ( )rtYYt ++= 1lnlnln 0
Agora, fazendo ( )01 ln Y=β e ( )r+= 1ln2β , temos:
( ) tYt 21ln ββ += .
Incluindo o termo de erro temos o modelo log-lin:
( ) tt etY ++= 21ln ββ
que pode ser analisado por MQO fazendo-se ( )tt YY ln* = .
Se multiplicarmos 2β por 100 temos a taxa de crescimento de Y.
- Modelo Lin-Log:
No modelo anterior (Log-lin) queremos conhecer o crescimento percentual de Y para uma 
variação absoluta em X. O modelo Lin-log serve para conhecermos a variação absoluta em Y para 
uma variação percentual em X. Assim,
( ) iii eXY ++= ln21 ββ
que pode ser analisado por MQO fazendo-se ( )ii XX ln* = .
Dividindo-se 2β por 100 tem-se a variação absoluta de Y dada uma variação de 1% em X.
Uma das aplicações deste modelo são os modelos de despesas de Engel, que verificou que 
“o total de despesas com alimentação tende a aumentar em PA enquanto as despesas totais 
aumentam em PG”.
1.12.3 Modelos Recíprocos (Inversos)
São do tipo:
i
i
i eX
Y +



+=
1
21 ββ
Se fizermos 



=
i
i X
X 1* , podemos utilizar MQO.
Este modelo pode assumir formas como (desenhos):
28
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Como ilustração pode-se pensar em ajustar um modelo onde a variável dependente é 
mortalidade infantil de vários países, e a variável independente é o PNB per capita de cada um. 
Espera-se que, quanto maior o PNB per capita, menor a mortalidade, mas esta relação não é uma 
linha reta. Quando PNB aumenta, no início há uma redução substancial da mortalidade, mas depois 
a queda ameniza.
Uma das aplicações deste modelo é a curva de Phillips, da macroeconomia.
Exemplo 14: Na tabela a seguir, tem-se parte de um conjunto de dados que mostra as despesas com 
serviços por trimestre, no período de 1993 até o 3° trimestre de 1998.
Ano-trimestre t Desp. Serv. (Y) Y*=ln(Y)
1993-I 1 2445,3 7,802
1993-II 2 2455,9 7,806
1993-III 3 2480,0 7,816
1993-IV 4 2494,4 7,822
... ... ... ...
1998-I 2
1
2829,3
7,948
1998-II 2
2
2866,8
7,961
1998-III 2
3
2904,8
7,974
Ajustar um modelo log-lin onde a variável independente é t, e a variável dependente é Y é o 
mesmo que ajustar um MRLS onde a variável independente é t e a variável dependente é Y*.
Fazendo isso se obtém a equação tYt 00743,07890,7ˆ * += , isso indica que em um período 
que vai do 1° trimestre de 1993 até o 3° trimestre de 1998, as despesas com serviços aumentaram a 
uma taxa trimestral de 0,743%. 
Exercício 15. Os dados a seguir mostram as despesas com propaganda (X), expressas em 
percentagem das despesas totais, e o lucro operacional líquido (Y), expresso em percentagem do 
total de vendas, em uma amostra de seis drogarias.
 
X Y
1,
5
3,
6
1,
0
2,
8
2,
8
5,
4
0,
4
1,
9
1,
3
2,
9
2,
0
4,
3
a) Ajuste a reta de mínimos quadrados que permita predizer o lucro operacional líquido em termos 
das despesas com propaganda.
29
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
b) Calcule o coeficiente de correlação e interprete.
c) Qual o grau de ajuste do modelo? Interprete.
d) Teste a hipótese nula β2 ≥ 1,6 contra a hipótese β2 < 1,6, ao nível de 0,01 de significância.
e) Construa um intervalo de 99% de confiança para β2.
f) Construa um intervalo de 90% de confiança para a variância residual.
g) Construa um intervalo de 95% de confiança para o lucro operacional líquido médio quando as 
despesas com propaganda são de 2,5% da despesa total.
h) É possível utilizar o modelo ajustado para prever o lucro quando as despesas são iguais a 5%? 
i) Ajuste um modelo de regressão que passe pela origem do sistema coordenado.
30
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
2 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM)
A teoria econômica raramente é simples a ponto de explicar o comportamento da variável de 
interesse com base na informação de apenas uma outra variável explicativa. Dessa forma, 
ampliaremos o que já foi discutido para o caso de mais de uma variável independente. O mais 
simples caso de regressão múltipla possui três variáveis, sendo duas explicativas e uma resposta, de 
forma que a FRP do modelo de três variáveis é dada por:
1 2 2 3 3i i i iY X X eβ β β= + + +
Generalizando quando temos k variáveis:
ikikiii eXXXY +++++= ββββ 33221 , com i = 1, 2, ..., n.
Nesse modelo:
- As k-1 variáveis explicativas são X2,X3, ..., Xk, e Y é a variável dependente ou explicada;
- Os ei são os erros aleatórios (resíduos) que seguem as hipóteses clássicas;
- β1 é o intercepto;
- Os coeficientes parciais de regressão, desconhecidos, são β2, β3, ..., βk.
2.1 Significado dos parâmetros do modelo
- β1 é o valor médio de Y quando X2 = X3 = ... = Xk = 0
- β2, β3, ..., βk: βi mede a variação de Y, por uma unidade de variação em Xi, mantendo-se as demais 
variáveis constantes (ceteris paribus).
2.2 Notação matricial do MRLM
A grande vantagem da álgebra matricial sobre a álgebra escalar é que ela oferece um método 
compacto para lidar com modelos de regressão envolvendo qualquer número de variáveis; uma vez 
formulado o modelo, a solução se aplica a uma, duas ou qualquer número de variáveis.
Seja a FRP para o modelo de k variáveis. Essa equação é uma expressão abreviada do 
seguinte conjunto de n equações:
1131321211 eXXXY kk +++++= ββββ 
2232322212 eXXXY kk +++++= ββββ 
...
nknknnn eXXXY +++++= ββββ 33221
Em notação matricial, esse conjunto pode ser escrito como:
  
eβXY








+
















=








nkknn
k
k
n e
e
e
XX
XX
XX
Y
Y
Y

   




2
1
2
1
2
222
121
2
1
1
1
1
β
β
β
Assim, a FRP sob a forma matricial é então representada por:
31
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
eXβY +=
onde:
Y: é o vetor coluna de dimensão (n x 1) de valores observados;
X: é a matriz (n x k) de valores observados para as variáveis explicativas;
β : é o vetor (k x 1) de parâmetros desconhecidos;
e : representa o vetor (n x 1) de perturbações (erros) aleatórias.
Obs: as notações negrito representam formas matriciais.
2.3 Premissas do MRLM
[1]: eXβY += ;
[2]: 0)( =eE ;
[3]: nIee
2)'( σ=E , sendo In a matriz identidade de ordem n (hipótese de ausência de 
heteroscedasticidade ou autocorrelação serial);
)'(eeE é a chamada matriz de variâncias e covariâncias dos resíduos aleatórios. Os 
elementos na diagonal principal dessa matriz são as variâncias, e os elementos fora da diagonal 
principal são as covariâncias.
[4]: a matriz X é não aleatória, isto é, consiste em um conjunto de números fixos;
[5]: a raiz característica, ou posto de X é k < n (hipótese de ausência de multicolinearidade);
Isto significa que as colunas da matriz X são linearmente independentes, ou seja, não há uma 
relação linear exata entre as variáveis X.
[6]: para realizarmos inferências, é necessário supor que ( )nIe 2;0~ σN .
2.4 Método dos mínimos quadrados ordinários (MQO)
Seja a FRA de k variáveis:
iiikikiii eYeXXXY ˆˆˆˆˆˆˆ 33221 +=+++++= ββββ  ,
que pode ser escrita em notação matricial como:
eYeβXY ˆˆˆˆ +=+= .
Da mesma forma que no modelo de duas variáveis, os estimadores de MQO podem ser 
obtidos através da minimização da soma dos quadrados dos resíduos, isto é:
( )∑∑ −−−−−= 2332212 ˆˆˆˆˆ kikiiii XXXYe ββββ  .
Em notação matricial, isto equivale a minimizar e'e ˆˆ , pois:
[ ] ∑=+++=








=
2222 ˆˆˆˆ
ˆ
ˆ
ˆ
ˆˆˆˆˆ in21
n
2
1
n21 eeee
e
e
e
eee 

e'e
A aplicação desse método conduz ao vetor de estimadores de mínimos quadrados dos 
coeficientes de regressão:
32
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
( ) YXXXβ ''ˆ 1−=
As matrizes XX' e YX' são dadas por:










=
∑∑∑∑
∑∑∑∑
∑∑∑∑
∑∑∑
2
32
3
2
3323
232
2
22
32
kikiikiiki
kiiiiii
kiiiiii
kiii
XXXXXX
XXXXXX
XXXXXX
XXXn





XX' e 










=
∑
∑
∑
∑
iki
ii
ii
i
YX
YX
YX
Y

3
2
'YX .
Obs: Métodos para inverter uma matriz
1) Cofatores
Queremos determinar a inversa da matriz A, ou seja, A-1. Para isso devemos fazer:
1. Achar o det(A);
2. Obter a matriz de cofatores C, lembrando que: ( ) ijjiij Mc +−= 1 , onde Mij é o menor do 
elemento da linha i e coluna j, obtido suprimindo-se a linha i e coluna j.
3. Fazer a transposta da matriz de cofatores, C’;
4. Dividir cada elemento de C’ por det(A).
Em resumo: 'Cdet(A)
1A 1 =− .
2) Escalonamento
Escreve-se a matriz identidade do lado da matriz que se quer inverter. Fazem-se operações 
lineares nas linhas até que a primeira matriz se torne a identidade.
2.4.1 Variâncias dos estimadores de MQO
Demonstra-se que ( ) ( ) 12ˆ −= XX'β σVar ,
que é a matriz de variâncias e covariâncias dos estimadores de MQO, que só e conhecida se 2σ for 
conhecido.
Entretanto, a variância residual pode ser estimada por:
knkn −
−
=
−
=
YX''βYY'e'e ˆˆˆˆ 2σ ,
onde ∑= 2iYYY' .
Assim, as variâncias estimadas dos estimadores de MQO são:
iiai
22
ˆ ˆˆ σσβ = ,
onde iia é o elemento da linha i, coluna i, da matriz ( ) 1−XX' .
Demonstra-se que o vetor βˆ é um estimador linear, não-tendencioso e de variância mínima.
33
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exemplo 1. Uma empresa de tele-entrega quer estimar o tempo que seus funcionários devem levar 
até que retornem com uma lista de tarefas concluída. Assim, coletou o tempo de viagem (Y), a 
quantidade de km percorridos (X2) e o número de entregas (X3) de cinco de seus moto-boys. Com 
os dados a seguir, estime o modelo de regressão linear múltipla, bem como os erros-padrão dos 
estimadores.
i Y X2 X3 Y² X2² X3² X2Y X3Y X2X3
1 9,3 100 4
2 4,8 50 3
3 8,9 100 4
4 6,5 100 2
5 4,2 50 2
Total
34
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exercício 1. Seja a amostra abaixo. Estime o MRLM de três variáveis, bem como as variâncias e 
erros-padrão dos estimadores.
Y X2 X3
5 1 1
6 2 1
7 3 2
8 4 2
8 5 2
2.5 Coeficiente múltiplo de determinação: R2
No modelo de k variáveis, o coeficiente de determinação mede a proporção da variação em 
Y explicada conjuntamente por todas as variáveis X. Assim, no MRLM o coeficiente múltiplo de 
determinação R2 é definido como:
SQT
SQR
nSQT
SQE
n
nR −=
−
−==
−
−
= 1
'
1
'
''ˆ
22
2
2
YYY
ee'
YYY
YYXβ
Obs.: No modelo de duas variáveis definimos o coeficiente de correlação (r) como uma medida do 
grau da relação entre as variáveis. No caso de três ou mais variáveis, há um coeficiente análogo, o 
coeficiente de correlação múltipla ( 2RR = ), que mede a associação entre Y e todas as variáveis 
explanatórias em conjunto. Embora r possa ser positivo ou negativo, R sempre será positivo (pois 
nem todas as variáveis explicativas podem ter relação no mesmo sentido com a variável resposta). 
Na prática, porém, R tem pouca importância. A quantidade mais significativa é R2.
2.6 Coeficiente múltiplo de determinação ajustado: 2R
Uma propriedade importante do R2 é que ele é uma função não-decrescente do número de 
variáveis explicativas. O R2 quase invariavelmente aumenta e nunca diminui quando o número de 
regressores aumenta. 
Em vista disto, ao comparar dois modelos de regressão com a mesma variável dependente, 
mas com número diferente de variáveis X, deveríamos escolher o modelo com o R² mais alto. Para 
comparar dois termos R², é preciso levar em conta o número de variáveis X presentes no modelo. 
Isto pode ser feito se considerarmos o coeficiente múltiplo de determinação ajustado, que é dado 
por:
( )
kn
nR
n
SQT
kn
SQR
R
−
−
−−=
−
−
−=
111
1
1 22
 O 2R pode ser negativo, e neste caso, na prática, seu valor será tomado como zero.
Obs.: o 2R , não é a única forma de correção do R2 e nem a única medida para julgar a adequação 
de um modelo de regressão, outras medidas conhecidassão o R2 Modificado, o critério de 
Informação de Akaike e os critérios de Predição de Amemiya.
Exemplo 2. Cálculo do R2, 2R para os dados do Exemplo 1.
35
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exercício 2. Cálculo do R2, 2R para os dados do Exercício 1.
2.7 Coeficiente de correlação parcial
Na regressão linear múltipla, podemos ter um coeficiente de correlação para cada par de 
variáveis do modelo. Por exemplo, no modelo de três variáveis, têm-se r12, r13 e r23. Esses 
coeficientes são denominados de coeficientes de correlação simples, ou de ordem zero. Eles podem 
ser calculados conforme a fórmula: ( )( )
( ) ( ) ]][[ 222222 ∑∑∑∑
∑∑∑
∑∑
∑
−−
−
==
YYnXXn
YXXYn
yx
xy
r
Seja o coeficiente r12. Ele não refletirá o verdadeiro grau de associação entre Y e X2 na 
presença de X3, pelo fato que X3 provavelmente influencia em Y e X2. Para obter um coeficiente de 
correlação que reflita o verdadeiro grau da relação entre duas variáveis na presença das demais, é 
necessário manter a influência das demais variáveis constante. Assim, no modelo com três 
variáveis, denota-se:
r12.3: coeficiente de correlação parcial entre Y e X2, mantendo X3 constante;
r13.2: coeficiente de correlação parcial entre Y e X3, mantendo X2 constante;
r23.1: coeficiente de correlação parcial entre X2 e X3 mantendo Y constante.
As fórmulas de cálculo são:
( )( )223213
231312
3.12
11 rr
rrrr
−−
−
= ; ( ) ( )
13 12 23
13.2
2 2
12 231 1
r r rr
r r
−
=
− −
 e ( )( )213212
131223
1.23
11 rr
rrrr
−−
−
=
r12.3, r12.3 e r12.3 são os coeficientes de primeira ordem. Se houvessem mais variáveis no 
modelo, ocorreriam também coeficientes de correlação de segunda ordem (r12.34), terceira ordem 
(r12.345) e assim por diante.
36
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
2.8 Coeficiente de determinação parcial
Os coeficientes de determinação parciais expressam o grau de explicação que cada variável 
exerce sobre as demais, mantendo constante todos os outros fatores, ou seja:
2
3.12r : o coeficiente de determinação parcial entre Y e X2 é a proporção da variação em Y 
não explicada pela variável X3 que foi explicada pela inclusão de X2 no modelo.
Os coeficientes de determinação parciais são obtidos simplesmente tomando-se o quadrado 
dos coeficientes de correlação parciais correspondentes.
Existe as seguintes relações entre esses coeficientes e R²:
2
23
231312
2
13
2
122
1
2
r
rrrrr
R
−
−+
=
( ) 2 2.132122122 1 rrrR −+= ( ) 2 3.122132132 1 rrrR −+=
Então, 212
2 rR > desde que 02 2.13 >r . Ou seja, R2 sempre cresce com a inclusão de uma nova 
variável, a menos que 02 2.13 =r , onde teríamos 212
2 rR = .
Exemplo 3. Dados r12 = 0,8822, r13 = 0,8089 e r23 = 0,4564 para o Exemplo 1, calcular e interpretar 
os coeficientes de determinação parciais.
Exercício 3. Ao se ajustar um modelo de três variáveis, encontrou-se r12 = 0,3048, r13 = 0,1391 e r23=-
0,7043. Calcule e interprete os coeficientes de determinação parciais.
2.9 Intervalo de confiança e teste de significância individual para os coeficientes 
de regressão
Para podermos realizar inferências, supomos que ( )nIe 2;0~ σN . Isso implica que, 
sob as hipóteses clássicas, βˆ tem distribuição normal multivariada, isto é:
( )( )12;~ˆ −XX'ββ σN
37
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
E cada iβˆ tem distribuição marginal também normal:( )iiii aσ;β~Nβ 2ˆ
com aii sendo o elemento da i-ésima linha e i-ésima coluna de (X’X)-1. 
Sendo 2σ desconhecido, tem-se que:
( )kn
ii tt
i
−
−
= ~
ˆ
ˆ
ˆ
*
βσ
ββ
com iiaσi
22
ˆˆ =βσ e iiaσi
2
ˆˆ =βσ .
Assim, o intervalo de confiança para cada coeficiente de regressão é dado por:
( ) 


±−×
−
iknii
tparaIC βασββα ˆ
2
;
ˆˆ:%1100
Além disso, utilizamos o procedimento idêntico do teste de hipóteses para o modelo de duas 
variáveis para testar a significância individual dos coeficientes.
Por exemplo, seja o modelo de 3 variáveis. Poderia ser interessante testar as hipóteses


≠
=
0:
0:
21
20
β
β
H
H
.
Neste caso, estaríamos avaliando se X2 tem alguma influência linear sobre Y, mantendo-se 
X3 constante.
A tabela abaixo nos dá a área de rejeição de cada teste:
Tipo de hipótese H0 H1 Decisão: rejeitar H0 
se
Bicaudal *0 : iiH ββ = *1 : iiH ββ ≠
2;
αkn
tt
−
>
Cauda direita *0 : iiH ββ ≤ *1 : iiH ββ > α;kntt −>
Cauda esquerda *0 : iiH ββ ≥ *1 : iiH ββ < α;kntt −−<
2.10 Intervalo de confiança para a variância residual
Na regressão múltipla, sabe-se que
( )
( )kn
kn
−
− 2
2
2
~
ˆ χ
σ
σ .
Assim, o intervalo de confiança para a variância residual é:
 ( ) ( ) ( )








−−−×
−−−
2
2
1;
2
2
2
;
2
2 ˆ;
ˆ
:%1100
αα χ
σ
χ
σ
σα
knkn
knknparaIC .
Exemplo 4. Teste se os coeficientes do modelo de regressão estimado no Exemplo 1 são 
significativamente diferentes de zero, para um nível de significância de 5%. Além disso, construa os 
intervalos de 95% de confiança para os coeficientes de regressão e para a variância residual.
Exercício 4. 
38
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
a) Teste se os coeficientes do modelo de regressão estimado no Exercício 1 são significativamente 
diferentes de zero, para um nível de significância de 5%. 
b) Construa um IC de 90% para o coeficiente de X2 e teste se ele é diferente de 1.
c) Teste, a 5% de significância, se o intercepto é maior que 2. 
2.11 Teste da significância geral da regressão (ANOVA)
No teste individual, trabalhamos separadamente com a hipótese de que cada verdadeiro 
coeficiente parcial de regressão era zero. Mas vejamos agora a seguinte hipótese:
0: 320 ==== kH βββ 
Esta hipótese não pode ser testada fazendo-se um teste de significância para cada coeficiente 
parcial. Isto porque, se para cada teste adotamos um nível de significância α (probabilidade de erro 
tipo I), a probabilidade de erro tipo I de todos os testes simultaneamente é maior que α . 
Entretanto, através da ANOVA, podemos testar as hipóteses abaixo de uma única vez:

 ====
.:
0:
1
320
zerodediferenteédosummenosaoH
H
i
k
β
βββ 
A tabela de ANOVA para o modelo de k variáveis é:
CV GL SQ QM F
Regressão k-1 2
^
'' Yn−YXβ 1−k
SQE
QMR
QME
Resíduos n-k YXβYY '''
^
− kn
SQR
−
Total n-1 2' Yn−YY
Demonstra-se que a estatística F segue distribuição F de Snedecor com k-1 g.l. no 
numerador e n-k g.l. no denominador, ou seja: 
F ~ F(k-1;n-k)
Regra de decisão: Se ( )knkFF −−> ;1;α , rejeita-se H0, caso contrário não se rejeita.
Pode-se reescrever a tabela de ANOVA em termos do coeficiente múltiplo de determinação, 
R²:
CV GL SQ QM F
Regressão k-1 ( )22 ' YnR −YY
1−k
SQE ( )
( )( )2
2
11 Rk
Rkn
−−
−
Resíduos n-k ( )( )22 '1 YnR −− YY
kn
SQR
−
Total n-1 2' Yn−YY
39
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Novamente, a ANOVA serve para testar também as hipóteses:
2
0
2
1
: 0
: 0
H
H
ρ
ρ
 =
≠
onde 2ρ é o coeficiente múltiplo de determinação populacional.
Exemplo 5. Construir a ANOVA, estabelecer as hipóteses e proceder ao teste F, a 5% de 
significância, para os dados do Exemplo 1. 
Exercício 5. Construir a ANOVA, estabelecer as hipóteses e proceder ao teste F, a 5% de 
significância, para os dados do Exercício 1. 
40
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
2.12 Contribuição marginal ou incremental de uma variável explicativa
Seja um modelo de três variáveis. Imagine que façamosa inclusão seqüencial de X2 e X3, 
isto é, primeiro fazemos a regressão entre Y e X2 e avaliamos sua significância e então 
acrescentamos X3 ao modelo para verificar se este contribui com algo (obviamente, a ordem de 
entrada pode ser invertida). Com contribuição, queremos dizer que desejamos saber se a inclusão da 
variável no modelo aumenta a SQE (e, por conseqüência, R²) “significativamente” em relação à 
SQR. Essa é a contribuição marginal ou incremental de uma variável explicativa.
A questão da contribuição marginal é importante na prática. Na maioria das pesquisas, o 
pesquisador pode não estar totalmente convencido de que valha a pena acrescentar uma variável X 
ao modelo sabendo que várias outras variáveis X já estão presentes no modelo. Não se quer incluir 
variáveis que contribuam muito pouco para a SQE. Contudo, também não se quer excluir variáveis 
que aumentem substancialmente a SQE. Mas como decidir se uma variável X reduz 
significativamente a SQR? A técnica da ANOVA pode ser empregada para responder essa pergunta.
Primeiramente, fazemos a regressão entre Y e X2, produzindo a tabela de ANOVA abaixo:
CV GL SQ QM
Regressão (devido a X2) 1 Q1=SQE QME
Resíduos n-2 SQR QMR
Total n-1 SQT
Após, acrescentamos X3, e produzimos outra tabela de ANOVA:
CV GL SQ QM
Regressão (devido a X2 e X3) 2 Q3=SQE QME
Resíduos n-3 Q4=SQR QMR
Total n-1 Q5=SQT
Combinando estas duas tabelas, obtemos:
CV GL SQ QM F
Regressão (devido a X2) 1 Q1 Q1 /1
Regressão (devido a X3) 1 Q2 = Q3 – Q1 Q2 /1 (n-3)Q2 /Q4
Regressão (devido a X2 e X3) 2 Q3 Q3 /2
Resíduos n-3 Q4 = Q5 – Q3 Q4 /(n-3)
Total n-1 Q5
A estatística F segue distribuição F com “1” e “n-3” graus de liberdade. Se seu valor for 
maior que ( )3;1; −nFα , concluímos que o acréscimo de X3 ao modelo aumenta significativamente a 
SQE, e portanto, R². Assim, deve-se acrescentar X3 ao modelo.
Este teste também poderia ser reformulado em termos dos valores R²:
( )
( ) ( )modelonovodoparâmetrosdennR
sregressorenovosdenRRF
novo
velhonovo
°−−
°−
= 2
22
1
.
41
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Observação: o mesmo procedimento poderia ser usado para testar a adição de um grupo de 
variáveis simultaneamente, com as devidas correções dos graus de liberdade.
42
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exemplo 6. Para se estudar o comportamento do consumo pessoal nos EUA em certo período, 
observou-se as variáveis despesa de consumo pessoal (Y), renda pessoal disponível (X2) e tempo 
medido em anos (X3). Observou-se 15 anos (1956 a 1970).
Primeiramente, regrediu-se Y contra X2, obtendo-se os seguintes resultados:
( ) ( )
9977,0²9978,0²
2982,777259,2
8812,0762,12ˆ 2
==
=
+=
RR
t
XY ii
CV GL SQ QM F
Regressão 1 65898,2353 65898,2353 5947,494
Resíduos 13 144,0340 11,0800
Total 14 66042,2693
Ao se incluir X3 no modelo, obteve-se:
( ) ( ) ( )
9986,0²9988,0²
2246,39060,140811,4
7363,27266,01603,53ˆ 32
==
=
++=
RR
t
XXY iii
CV GL SQ QM F
Regressão 2 65965,1000 32982,5500 5129,319
Resíduos 12 77,1693 6,4302
Total 14 66042,2693
Testar se vale a pena acrescentar X3 ao modelo, para 5% de nível de significância.
43
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exemplo 7. Seja um conjunto de dados com 20 observações e 3 variáveis independentes (X2, X3 e 
X4). Em um primeiro momento, ajustou-se a regressão entre Y e X2, obtendo-se R² = 0,7111. Após, 
ajustou-se o modelo com todas as variáveis independentes, obtendo-se R² = 0,7913. Testar se o 
acréscimo de X3 e X4 aumentou significativamente a SQE, a 5%.
Exercício 6. Com os dados do Exemplo 1, construa a tabela ANOVA para analisar se a inclusão de 
variável X3 na regressão que já possui X2 é significativa a 5% e interprete o resultado.
2.13 Previsão no MRLM
No contexto de previsão de valores da variável dependente, temos novamente 2 tipos de 
previsão: média e individual.
Dado o vetor de valores das variáveis X para os quais queremos prever Y:
[ ]kXXX 00302'0 1 =X ,
desejamos prever
kk XXXY 003302210 ˆˆˆˆˆ ββββ ++++= 
que, na forma matricial, é o mesmo que
βX'0 ˆ0ˆ =Y .
Este é o valor estimado para Y tanto na previsão média como individual. A diferença está 
nas variâncias para os dois tipos de previsão:
Previsão da média: ( ) 00 XXXX 1'22 'ˆˆ −=σσm
Previsão individual: ( )[ ]00 XXXX 1'22 '1ˆˆ −+=σσ i
Conseqüentemente, os intervalos de confiança para essas previsões, são:
IC para previsão média: ( ) ( ) 


±=−×
−
mkn
tYXXYEparaIC σα α ˆˆ:|%1100
2
;00
IC para previsão individual: ( ) 


±=−×
−
ikn
tYXXYparaIC σα α ˆˆ:|%1100
2
;00
44
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exemplo 8. No Exemplo 1, a empresa quer saber quanto tempo deveria esperar em média para que 
um moto-boy retorne de uma tarefa com 3 entregas e 80km a percorrer. Calcule o IC 99% para E(Y|
X=X0).
Exercício 7. Para o Exemplo 1, construa um intervalo com 95% de confiança para o tempo médio 
que a empresa deve esperar no caso de um moto-boy sair com 4 entregas e 70km a percorrer.
2.14 Modelo de regressão polinomial
Suponha que desejamos relacionar custo marginal de produção (Y) com quantidade 
produzida (X). Poderíamos ajustar uma parábola a esta relação, como abaixo:
O modelo que expressa essa relação é dado por:
iiii eXXY +++=
2
210 βββ ,
que é a regressão polinomial de 2° grau, e pode ser ajustada normalmente por MQO.
A forma geral da regressão polinomial de k-ésimo grau é:
i
k
ikiii eXXXY +++++= ββββ 2210
45
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
2.15 Variáveis Dummies
Na análise de regressão, a variável dependente, que é de natureza quantitativa, é 
influenciada por variáveis independentes quantitativas, mas também por outras que são de natureza 
qualitativa, ou nominal, como sexo, raça, cor, religião, nacionalidade, região geográfica, etc. Uma 
maneira de inserir essas variáveis no modelo de regressão é através das variáveis dummies.
As variáveis dummies são também chamadas de variáveis indicadoras, binárias, categóricas, 
qualitativas ou dicotômicas, e seus valores são geralmente codificados como 0 e 1.
2.15.1 Regressão somente com variáveis dummies (Modelos ANOVA)
Um modelo de regressão pode conter regressores que sejam de natureza exclusivamente 
binária.
Como um exemplo, considere o seguinte modelo:
iii eDY ++= 221 ββ
Onde: Y: salário anual de um professor universitário;


=
femininosexodose
masculinosexodose
D i ,0
,1
2
Este modelo nos permite saber se o sexo faz alguma diferença no salário dos professores 
universitários, obviamente desconsiderando a influência de variáveis como idade, cursos de pós-
graduação e anos de experiência. Fazendo as suposições clássicas sobre os resíduos, obtém-se que:
Salário médio professora: ( ) 12 0| β==ii DYE
Salário médio professor: ( ) 212 1| ββ +==ii DYE
O coeficiente 2β será a diferença de salário dos homens em relação às mulheres, por isso é 
chamado de coeficiente diferencial de intercepto, e o teste para verificar se há diferença nos salários 
médios para homens e mulheres é:


≠
=
0:
0:
21
20
β
β
H
H
que pode ser verificado pelo teste t usual.
Exemplo 9. Sejam os dados hipotéticos dos salários de 10 professores universitários, e o sexo de 
cada um. 
Y D Y² D² YD
22 1 484 1 22
19 0 361 0 0
18 0 324 0 0
21,7 1 470,89 1 21,7
18,5 0 342,25 0 0
21 1 441 1 21
20,5 1 420,25 1 20,5
17 0 289 0 0
46
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
17,5 0 306,25 0 0
21,2 1 449,44 1 21,2
196,4 5 3888,08 5 106,4
Estimar o modelo, e testar se existe diferença nos salários médios entre os sexos,a 5%.
Para se inserir uma variável qualitativa com mais de duas categorias, deve-se criar mais de 
uma variável dummy. Por exemplo, suponha que se queira verificar se existe diferença entre os 
salários dos professores segundo o nível de pós-graduação (mestrado, doutorado e pós-doutorado). 
O modelo seria:
iiii eDDY +++= 33221 βββ
Onde: Y: salário anual de um professor universitário;


=
..,0
,1
2 cc
doutoradose
D i e 
 −
=
..,0
,1
3 cc
doutoradopósse
D i
Observe que assim, a categoria “mestrado” já está expressa nas duas variáveis dummies, 
sendo que o valor correspondente a essa categoria é o par (0,0), por isso ela é chamada de categoria 
de referência. 
47
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
48
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Observações no uso de variáveis dummies:
- Se uma variável qualitativa tem m categorias, devemos introduzir no modelo m – 1 variáveis 
dummies;
- A categoria para o qual não se designa uma variável binária é a categoria de referência e todas as 
comparações são feitas em relação a ela; 
- O valor do intercepto é o valor médio da categoria de referência;
- Os coeficientes angulares, chamados de coeficientes diferencias de intercepto, dão a diferença da 
categoria que recebe valor 1 em relação a categoria de referência;
- A categoria de referência é arbitrária ao pesquisador, deve-se estar atento na hora das 
interpretações.
Também se pode ter mais de uma variável qualitativa no mesmo modelo.
Exemplo 10. A partir de uma amostra de 528 americanos, foi calculada uma regressão com os 
seguintes resultados.
0006,00182,00000,0
4462,33688,29528,21
4854,04642,04015,0
6729,10997,18148,8ˆ 32
=
−=
=
−+=
p
t
ep
DDY iii
Onde Y=salário-hora em $; 


=
..,0
,1
2 cc
casadose
D i e 

=
..,0
,1
3 cc
Sulnomorase
D i . Interpretar os resultados.
2.15.2 Regressão com variáveis quantitativas e dummies (Modelos ANCOVA)
De modo geral, na maioria dos estudos econômicos, um modelo de regressão contém 
algumas variáveis explanatórias quantitativas e outras qualitativas. 
Ainda considerando o exemplo dos salários dos professores universitários, suponha que 
temos também uma variável quantitativa. Assim:
Y: salário anual de um professor universitário;
X: anos de experiência;
49
2
1,
0,i
mulher
D
homem

=  3
1,
0, .i
ensino superior
D
c c

= 
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti


=
femininosexodose
masculinosexodose
Di ,0
,1
.
Queremos investigar um modelo de regressão do tipo:
iiii eXDY +++= 321 βββ
Nesse caso, temos o salário médio de professores de ambos os sexos são:
Salário médio professora: ( ) iiii XDXYE 310,| ββ +==
Salário médio professor: ( ) ( ) iiii XDXYE 3211,| βββ ++==
Graficamente:
Exemplo 11. Suponha que você gostaria de regredir despesas anuais com saúde (Y), renda anual 
(X) e nível de escolaridade (fundamental, médio e superior). Como seria o modelo? Faça o gráfico.
2.15.3 Efeitos de interação com o uso de variáveis binárias
Considere o problema a seguir, onde possuímos uma variável quantitativa e duas 
qualitativas binárias:
iiiii eXDDY ++++= βααα 33221
Y: despesa anual com roupas;
X: renda anual;
50
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Neste modelo, está implícita a premissa de que o efeito diferencial da variável binária sexo é 
constante nas duas categorias de escolaridade e que o efeito diferencial da variável binária 
escolaridade também é constante entre os dois sexos. Ou seja, se o gasto anual com roupas é maior 
para mulheres que para homens, isso ocorre sejam elas graduados ou não. Do mesmo modo, se 
pessoas com ensino superior gastam mais com roupas que as que não possuem, isso se verificará 
tanto para homens quanto para as mulheres.
Em muitas aplicações, premissas desse tipo são insustentáveis. Uma mulher graduada pode 
gastar mais com roupas que um homem graduado. Em outras palavras, pode haver uma interação 
entre as duas variáveis qualitativas. Portanto, seu efeito sobre Y pode não ser apenas aditivo, como 
no modelo acima, mas também multiplicativo, como no modelo a seguir:
Nesse caso, o modelo com a interação das variáveis qualitativas é representado por: 
iiiiiii eXDDDDY +++++= βαααα 32433221
onde, 
2α : efeito diferencial de ser mulher;
3α : efeito diferencial de ter nível superior;
4α : efeito diferencial de ser mulher com nível superior.
Exemplo 12. Regrediu-se salários-hora (Y), contra anos de escolaridade (X), sexo (D2, 1 se mulher) 
e raça (D3, 1 se não branco e não hispânico), para 528 americanos. Os resultados estão abaixo:
05,0)08,0(05,005,005,005,0
8028,01289,27327,13606,226100,0ˆ 3232
<≅><<>=
++−−−=
p
XDDDDY iiiiii
Fazer o gráfico e interpretar os resultados.
Observação: Neste exemplo, estamos supondo que a taxa de aumento dos salários-hora em relação 
à escolaridade (de cerca de 80 centavos de dólar por ano adicional de escolaridade) não varia com o 
gênero e raça. Mas pode ser que não seja este o caso. Para testar isso, pode-se incluir coeficientes 
diferenciais angulares:
iiiiiiiiiii eXDXDXDDDDY +++++++= 3322132433221 βββαααα
51
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
2.15.4 O emprego de variáveis binárias em análises sazonais
Muitos dados econômicos são formados a partir de dados mensais ou trimestrais que 
apresentam padrões sazonais (movimentos oscilatórios regulares). Exemplos disso são as vendas 
das lojas no Natal e em outras épocas, a demanda por passagem aéreas, etc. Através das variáveis 
binárias, podemos inserir essa informação no modelo.
Exemplo 13. Estudaram-se as vendas trimestrais de geladeiras (Y), em milhares de unidades, no 
período de 1978 a 1995 nos EUA. Também se observou, em cada trimestre, os gastos com bens 
duráveis (X), em bilhões de dólares. Ajustou-se o seguinte modelo:
05,005,005,005,005,0
7734,20804,862643,3254976,2422440,456ˆ 432
<><<<=
+−++=
p
XDDDY iiiii
onde 

=
contráriocaso
jtrimestrese
D j ,0
,1
. Interpretar os resultados.
2.15.5 Modelos Log-Lin e Variáveis Dummies
Já estudamos o modelo log-lin, que são aqueles em que a variável dependente é o logaritmo 
natural de Y, e as variáveis independentes estão em suas escalas naturais. Nestes modelos, os 
coeficientes angulares das variáveis independentes, após serem multiplicados por 100, são 
interpretados como variação percentual de Y para uma variação de uma unidade de X. 
Pode-se inserir variáveis independentes dummies nestes modelos, entretanto, a interpretação 
dos coeficientes angulares destas variáveis não é a mesma. Para se obter a variação percentual de Y 
devida a mudança de categorias na variável dummy, deve-se calcular ( )100 exp( ) 1β − , onde β é o 
coeficiente angular da variável dummy.
Exemplo 14. A certo conjunto de dados ajustou-se o modelo de regressão linear múltipla:
ln( ) 2,9298 0,0546 0,1341Y X D= + +
 t = (481,524) (48,3356) (27,2250) n = 15
onde Y é o salário inicial de professores universitários, X são os anos de experiência, e D é uma 
variável indicadora do sexo (D = 1 se homem). 
Mantendo-se D constante, o salário dos professores cresce 5,46% a cada ano a mais de 
experiência. Mas não se pode dizer que mantendo X constante, o salário é 13,41% maior para 
homens em relação a mulheres. Fazendo-se ( )100 exp(0,1341) 1 14,35%− = , ou seja, o salário dos 
professores é 14,35% maior do que o salário das professoras.
52
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
Exercício 8: (ANPEC – 2003) O método dos mínimos quadrados ordinários foi empregado para 
estimar o modelo de regressão

Outros materiais