Buscar

Econometria para Contabilidade

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 118 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 118 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 118 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

G
iu
se
pp
e
Tr
ev
is
an
UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE CIÊNCIAS SOCIAIS APLICADAS
DEPARTAMENTO DE CIÊNCIAS CONTÁBEIS E ATUARIAIS
Econometria para
Contabilidade
Material de Aula
Giuseppe Trevisan
DCCA - UFPE
CIÊNCIAS CONTÁBEIS E ATUARIAS
https://sites.google.com/view/giuseppetrevisan
G
iu
se
pp
e
Tr
ev
is
an
Autor
Giuseppe Trevisan <giuseppe.trevisan@ufpe.br>
Colaboradores
André Luiz Monteiro
Guilherme Marcone Aguiar
Juliana Silva de Lima
Local
Recife-PE, Brasil
ii
mailto:giuseppe.trevisan@ufpe.br
G
iu
se
pp
e
Tr
ev
is
an
Sumário
1 Revisão de Conceitos de Estatística 1
1.1 Somatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Variável Aleatória (VA) . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.3 Função Densidade de Probabilidade e Função de Distribuição
Acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.4 Função Densidade de Probabilidade Conjunta . . . . . . . . . . 7
1.2.5 Função Densidade de Probabilidade Marginal . . . . . . . . . . 7
1.2.6 Função Densidade de Probabilidade Condicional . . . . . . . . 9
1.2.7 Independência entre VA’s . . . . . . . . . . . . . . . . . . . . . . 10
1.2.8 Momentos de VA’s . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Inferência Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.1 Estimação de Intervalos . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.2 Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Revisão de Matrizes 21
2.1 O que é uma Matriz? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Tipos de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Operações com Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Soma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Multiplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Cálculo do Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.1 Matriz 2× 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.2 Matriz 3× 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Matriz Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
iii
G
iu
se
pp
e
Tr
ev
is
an
SUMÁRIO
3 Introdução 30
3.1 O que é Econometria? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Estrutura dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Modelos de Regressão Linear 37
4.1 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Hipóteses do Modelo Clássico . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Método dos Mínimos Quadrados Ordinários (MQO) . . . . . . . . . . . 41
4.4 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 Variância e Covariância dos Estimadores 51
5.1 Variância e Covariância dos Erros . . . . . . . . . . . . . . . . . . . . . 51
5.2 Variância e Covariância dos Estimadores (Regressão Múltipla) . . . . . 52
5.3 Variância e Covariância dos Estimadores (Regressão Simples) . . . . 54
5.3.1 Estimador de σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6 Propriedades dos Estimadores de MQO 59
6.1 Não-viés dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.2 Consistência dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . 62
6.3 Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . 63
7 Coeficiente de Determinação 67
7.1 O que é R2? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2 R2 de uma Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . 67
7.3 R2 Ajustado (R̄2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8 Inferência em Regressão 74
8.1 Teste de Hipótese (σ2 conhecido) . . . . . . . . . . . . . . . . . . . . . 74
8.2 Teste de Hipótese (σ2 desconhecido) . . . . . . . . . . . . . . . . . . . 77
8.3 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.3.1 Coeficiente de Determinação e o Teste F . . . . . . . . . . . . . 84
9 Modelos com Logaritmos 85
9.1 Modelo Log-Log . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
9.2 Modelo Log-Lin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
9.3 Modelo Lin-Log . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
iv
G
iu
se
pp
e
Tr
ev
is
an
SUMÁRIO
10Modelos com Variáveis Dummies 92
10.1 Dummy de Intercepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
10.2 Dummy de Interação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
10.3 Dummies com várias categorias . . . . . . . . . . . . . . . . . . . . . . 97
11 Violação das hipóteses do modelo de regressão linear 100
11.1 Endogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
11.1.1 Erro de Mensuração . . . . . . . . . . . . . . . . . . . . . . . . . 101
11.1.2 Viés de Variável Omitida . . . . . . . . . . . . . . . . . . . . . . 102
11.1.3 Análise dos Componentes do Viés . . . . . . . . . . . . . . . . . 105
11.1.4 Causalidade Reversa . . . . . . . . . . . . . . . . . . . . . . . . 108
11.2 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
11.3 Heterocedasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
11.4 Não-Normalidade dos Erros . . . . . . . . . . . . . . . . . . . . . . . . 112
Bibliografia 113
v
G
iu
se
pp
e
Tr
ev
is
an
Capítulo 1
Revisão de Conceitos de Estatística
Antes de abordar o assunto de Regressão Linear, é necessário solidificar os
conhecimentos em tópicos deEstatística Básica1. O conteúdo2 propriamente dito inicia
na seção 3 deste material, mas é recomendado que o leitor revise previamente as
Seções 1.1 e 1.2 deste capítulo. Ademais, antes de abordar Regressão Linear Múltipla,
recomenda-se visitar a Seção 2, que contém os principais tópicos envolvendo o uso de
matrizes. Nesta parte introdutória, você encontra aspectos fundamentais da Teoria
da Probabilidade, juntamente com agumas propriedades envolvendo operações com
somatório. As subseções a seguir contêm o resumo desses conteúdos.
1.1 Somatório
Como pode vir a ser útil futuramente, segue algumas propriedades do operador de
Somatório, representado pelo símbolo
∑
. Sejam k, a e b constantes quaisquer. Então:
n∑
i=1
k = nk (1.1)
n∑
i=1
kxi = k
∑
xi (1.2)
n∑
i=1
(a+ bxi) =
∑
a+ b
∑
xi (1.3)
n∑
i=1
(xi + yi) =
∑
xi +
∑
yi (1.4)
1Referências: [2], [3]
2Referências: [1], [4]
1
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
m∑
j=1
n∑
i=1
xij =
m∑
j=1
(x1j + x2j + ...+ xnj) =
n∑
i=1
(xi1 + xi2 + ...+ xim) (1.5)
1.2 Probabilidade
1.2.1 Experimento Aleatório
É um experimento que, realizado repetidas vezes e sob as mesmas condições,
pode gerar resultados diferentes dentro de um conjunto de possíveis resultados. Esse
conjunto de todos os resultados possíveis é denominado de Espaço Amostral (S)
ou População. Cada elemento que compõe S é chamado de Ponto Amostral. A
partir dos pontos amostrais, podemos construir subconjuntos de S, denominados de
Eventos.
Essas denominações são úteis para compreender a definição de Probabilidade.
Podemos dizer que a probabilidade é a chance de ocorrência de um evento que,
portanto, está associado a um Espaço Amostral. Contudo, podemos definir de forma
axiomática3 a Probabilidade:
Def.1.1. Considere um experimento E eA um evento associado ao espaço amostral
S. Chamamos de P (A) a função real que atende os seguintes axiomas:
1. P (A) ≥ 0.
2. P (A) ≤ 1.
3. SeA eB são eventosmutuamente excludentes, então P (A∪B) = P (A)+P (B).
1.2.2 Variável Aleatória (VA)
VariávelAleatória é uma função que leva resultados de umEspaçoAmostralpara
o conjunto dos números Reais. Portanto, ela é oriunda de um experimento aleatório
e pode assumir qualquer valor dentro de um espaço de possibilidades. Para facilitar a
compreensão, considere o seguinte exemplo:
Ex.1.1: Experimento de lançar duas moedas e observar a face voltada para cima (c:
cara; k: coroa).
3Axioma é um princípio tido como verdadeiro, não necessitando de prova alguma.
2
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
Evento Prob.
(c,c) 1/4
(c,k) 1/4
(k,c) 1/4
(k,k) 1/4
Perceba que, se estivermos interessados no evento A, ocorrer duas caras — ou (c,c)
—, e no evento B, ocorrer duas coroas — ou (k,k) —, as funções reais P (A) e P (B)
atendem os axiomas vistos anteriormente, uma vez que P (A) = 1/4, P (B) = 1/4 e
P (A ∪ B) = 2/4. A partir desse experimento, vamos criar a VA, denominada de X, e
que representa o no de caras:
X P (X = x)
0 1/4
1 2/4
2 1/4
Note, na segunda coluna da tabela, a probabilidade P (X) herdada das chances
de ocorrência de cada evento referente ao exemplo Ex.1.1. Por essa probabilidade
ser uma função de outra probabilidade, ela recebe o nome de função densidade4
de probabilidade. A seguir, veremos de forma mais específica as funções de
probabilidade inerentes a dois tipos de VA’s.
1.2.3 Função Densidade de Probabilidade e Função de
Distribuição Acumulada
Função Densidade de Probabilidade (VA discreta)
Uma VA Discreta é aquela que realiza valores em um conjunto contável. Dito isso,
podemos apresentar a seguinte definição:
4Para o caso de uma VA Discreta, usa-se comumente o termo função massa de probabilidade,
enquanto que para VA’s contínuas, função densidade de probabilidade. Neste material, utilizaremos o
último termo como sinônimo do primeiro.
3
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
Def.2.1. Considere X uma VA discreta com elementos distintos x1, x2, ..., xn, ... no
domínio RX . Definimos como função densidade de probabilidade (f.d.p.),
denominada de f(x), a função que atende as propriedades:
1. f(x) = P (X = x), ∀ x ∈ RX .
2. f(x) = 0, ∀ x ̸∈ RX .
Utilizando a VA X derivada do exemplo Ex.1.1, podemos então desejar saber a
probabilidade de ocorrer uma única cara ou a probabilidade de ocorrer pelo menos
uma cara utilizando sua f.d.p., que são calculadas da seguinte forma:
a) P (X = 1) = f(1) =
2
4
= 0, 5
b) P (X ≥ 1) =
2∑
x=1
f(x) = f(1) + f(2) =
2
4
+
1
4
= 0, 75
Função de Distribuição Acumulada (VA Discreta)
A Função de Distribuição Acumulada é útil para calcular probabilidades agregando
as realizações da VA discreta até um determinado valor. Podemos defini-la como:
Def.3.1. Considere X uma VA discreta com elementos distintos x1, x2, ..., xn no
domínioRX; considere tambémumnúmero tal que x1 ≤ b. Definimos como função
de distribuição acumulada (f.d.a.), denominada de F (x), a função que atende
as propriedades:
1. F (b) = P (X ≤ b) =
∑
x≤b
f(x).
2.
∑
x∈RX
f(x) = 1, ∀ x ∈ RX .
Então, a partir do exemplo Ex.1.1, podemos obter as seguintes probabilidades
acumuladas:
4
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
a) P (X ≤ 1) = F (1) = f(0) + f(1) = 3
4
= 0, 75
b) P (X < 1) = F (0) = f(0) =
1
4
= 0, 25
c) P (X < −3) = 0
d) P (X < 3) = F (2) = f(0) + f(1) + f(2) = 1
Função Densidade de Probabilidade (VA Contínua)
Uma VA Contínua é aquela que realiza valores em um conjunto não-contável.
Para o caso de VA’s contínuas, o interesse ao se utilizar a f.d.p. está em localizar
a probabilidade de ocorrência de intervalos dessa variável, e não mais pontos.
Apresentamos a seguinte definição:
Def.4.1. Considere X uma VA contínua com elementos no domínio RX ⊂ R.
Definimos como função densidade de probabilidade (f.d.p.), denominada de
f(x), a função que atende as propriedades:
1. f(x) ≥ 0.
2.
∫∞
−∞ f(x)dx = 1.
3.
∫ b
a
f(x)dx = P (a ≤ x ≤ b) = P (a ≤ x < b) = P (a < x ≤ b) = P (a < x < b), ∀
a ≤ b.
Note que, para o caso de a = b, a probabilidade assume valor 0. Para ilustrar
melhor, tomemos o seguinte exemplo:
Ex.2.1: X é uma variável aleatória que possui f(x) = x
2
, com valores no domínio
x ∈ (0, 2].
Conhecendo a f.d.p. deX, é possível calcular as seguintes probabilidades:
5
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
a) f(x ≤ 1) =
∫ 1
0
x
2
dx =
x2
4
∣∣∣1
0
=
1
4
b) f(x ∈ [1, 2]) =
∫ 2
1
x
2
dx =
x2
4
∣∣∣2
1
=
4
4
− 1
4
=
3
4
c) P (X > 2) = 0
Função de Distribuição Acumulada (VA Contínua)
A diferença entre a f.d.a. de uma VA contínua para uma VA discreta está,
basicamente, na forma de realizar o cálculo de obtenção da probabilidade desejada:
Def.5.1. Considere X uma VA contínua que realiza valores no domínio RX e
considere b ∈ (−∞,∞). Definimos como função de distribuição acumulada
(f.d.a.) de uma VA contínua, denominada de F (x), a função que atende as
propriedades:
1. F (b) =
b∑
−∞
f(x)dx = P (x ≤ b).
2.
∞∑
−∞
f(x)dx = 1.
Vale ressaltar que tanto a f.d.a. de VA’s discretas ou contínuas irão atender às
seguintes propriedades:
1. limx→−∞ F (x) = 0 e limx→∞ F (x) = 1.
2. F (x) é não-decrescente em x.
3. É contínua pela direita.
Então, usando o exemplo Ex.2.1, podemos obter as seguintes probabilidades
acumuladas:
6
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
a) F (1) = f(x ≤ 1) =
∫ 1
0
x
2
dx =
x2
4
∣∣∣1
0
=
1
4
(note que você já tinha calculado uma f.d.a.!)
b) F (1, 5) = f(x ≤ 1, 5) =
∫ 3/2
0
x
2
dx =
x2
4
∣∣∣3/2
0
=
(3/2)2
4
=
9
4
· 1
4
=
9
16
c) F (8) = P (X < 8) = 1
1.2.4 Função Densidade de Probabilidade Conjunta
Neste caso, estamos interessados na ocorrência de eventos associados a mais de
umaVA, simultaneamente. Para facilitar o entendimento, vamos nos limitar a analisar
sempre duas VA’s, no caso, X e Y . Trazemos, a seguir, a definição de uma função de
probabilidade conjunta:
Def.6.1. Considere X e Y duas VA’s que realizam valores em seus domínios RX
e RY . Definimos como função densidade de probabilidade conjunta (f.d.p.
conjunta), denominada de f(x, y), a função que atende as propriedades:
1. f(x, y) = P (X = x e Y = y) (VA discreta).
f(x, y) = P (a ≤ X ≤ b, c ≤ Y ≤ d) (VA contínua).
2. f(x, y) = 0, ∀ x ̸∈ RX e y ̸∈ RY .
1.2.5 Função Densidade de Probabilidade Marginal
Quando falamos de f.d.p.’s conjuntas de duas VA’s, podemos desejar obter as
probabilidades apenas em função deX ou de Y . Em relação a f(x, y), chamamos f(x)
e f(y) de f.d.p.’s marginais. Para obte-las, devemos resolver a seguinte função:
1. f(x) =
∑
y∈RY
f(x, y) (VA discreta).
f(x) =
∫
y∈RY
f(x, y)dy (VA contínua).
2. f(y) =
∑
x∈RX
f(x, y) (VA discreta).
f(y) =
∫
x∈RX
f(x, y)dx (VA contínua).
7
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
Ex.3.1: Seja X uma variável binária que indica a existência de controle interno
na empresa e Y a idade da empresa. A tabela a seguir mostra a distribuição das
variáveis aleatórias:
X Y
0 4
1 10
0 2
1 8
1 4
0 2
1 8
A partir desse exemplo, vamos calcular as probabilidades a seguir:
a) f(x = 0) =
∑
y∈RY
f(0, y) = f(0, 4) + f(0, 2) + f(0, 2) =
1
7
+
1
7
+
1
7
=
3
7
b) f(y = 4) =
∑
x∈RX
f(x, 4) = f(0, 4) + f(1, 4) =
1
7
+
1
7
=
2
7
c) f(x ≥ 0, y ≤ 4) = f(0, 4) + f(0, 2) + f(1, 4) = 1
7
+
2
7
+
1
7
=
4
7
Note que as duas primeiras probabilidades refletem probabilidades marginais,
enquanto que a última representa uma probabilidade conjunta. Para VA’s contínuas,
vamos considerar o seguinte exemplo:
Ex.4.1: Sejam X e Y duas VA’s contínuas com f.d.p. conjunta f(x, y) = 1
12
, nos
domínios y ∈ [−1, 5; 1, 5) e x ∈ (−2, 2).
Abaixo, segue uma ilustração dos cálculos de probabilidades usando o exemplo
Ex.4.1:
a) f(x) =
∫
y∈RY
f(x, y)dy =
∫ 1,5
−1,5
1
12
dy =
y
12
∣∣∣1,5
−1,5
=
3
2
· 1
12
−
(
−3
2
· 1
12
)
=
6
24
=
1
4
b) f(y ≤ 0) =
∫ 0
−1,5
∫
x∈RX
1
12
dxdy =
∫ 0
−1,5
(
x
12
∣∣∣2
−2
)
dy =
∫ 0
−1,5
(
2
12
−
(
− 2
12
))
dy =
=
∫ 0
−1,5
1
3
dy =
y
3
∣∣∣0
−1,5= 0−
(
−3
2
· 1
3
)
=
1
2
8
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
c) f(x ≥ 0, y ≤ 0) =
∫ 0
−1,5
∫ 2
0
1
12
dxdy =
∫ 0
−1,5
(
x
12
∣∣∣2
0
)
dy =
∫ 0
−1,5
1
6
dy =
y
6
∣∣∣0
−1,5
=
= 0−
(
−3
2
· 1
6
)
=
1
4
1.2.6 Função Densidade de Probabilidade Condicional
Num contexto de VA multidimensional (ou seja, englobando mais de uma VA),
quando desejamos obter probabilidades de eventos restringindo a ocorrências de
eventos relacionados ao espaço de possibilidades de outra VA, utilizamos a função de
probabilidade condicional. Ela é definada como:
Def.7.1. Considere X e Y duas VA’s que realizam valores em seus domínios RX e
RY . Definimos como função densidade de probabilidade condicional (f.d.p.
condicional), denominada de f(x|y) (e f(y|x)), a seguinte função:
1. f(x|y) =
f(x, y)
f(y)
.
2. f(y|x) =
f(x, y)
f(x)
.
Usando o exemplo Ex.3.1, vamos calcular a seguinte probabilidade condicional:
f(y > 4|x = 1) = f(x, y)
f(x)
=
f(1, 10) + f(1, 8)
f(1)
=
1
7
+ 2
7
4
7
=
3
4
Com o exemplo Ex.4.1, que considera VA’s contínuas, vamos calcular a seguinte
probabilidade condicional:
f(x|y ∈ [0, 1]) =
∫ 1
0
1
12
dy∫ 1
0
(∫ 2
−2
1
12
dx
)
dy
=
y
12
∣∣∣1
0∫ 1
0
1
3
dy
=
1
12
y
3
∣∣∣1
0
=
3
12
=
1
4
9
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
1.2.7 Independência entre VA’s
O conceito de independência em estatística é crucial para a análise de regressão.
Apesar de a ocorrência de eventos associados a duas VA’s acontecer com alguma
probabilidade (ou seja, probabilidade não-nula do evento), não significa que elas
apresentem uma associação estatística. Isso ficará mais claro ao se apresentar a
definição de covariância, mais à frente. Contudo, é possível definir independência
estatística de maneira formal:
Def.8.1. Sejam X e Y duas VA’s. Dizemos que X e Y são independentes, ou X⊥Y ,
se:
1. f(x, y) = f(x) · f(y).
Ou seja, a probabilidade de eventos que apresentam interseção de resultados deX
e Y é igual ao produto de suas probabilidades marginais. É fácil verificar isso num
exemplo com dados:
Ex.5.1: Considere o lançamento de dois dados convencionais, tal que a VA X
represente o resultado do primeiro dado, e Y , do segundo. A f.d.p. conjunta é dada
por f(x, y) = 1
36
, e as marginais são f(x) = f(y) = 1
6
.
O eventoX = 2 é independente de Y = 5, pois:
1. f(2, 5) = 1
36
2. f(x) = f(2) = 1
6
3. f(y) = f(5) = 1
6
4. Logo: f(2, 5) = f(2) · f(5) → 1
36
= 1
6
· 1
6
1.2.8 Momentos de VA’s
Os momentos são úteis para caracterizar a distribuição da(s) VA(’s). O momento
mais conhecido (e ponto de partida) é o Valor Esperado. No caso Univariado, de
acordo com a natureza da VAX, ele é definido pela seguinte função:
1. E(X) =
∑
x∈RX
xf(x) (VA discreta).
10
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
2. E(X) =
∫
x∈RX
xf(x)dx (VA contínua).
O Valor Esperado é conhecido por vários sinônimos, como Média, Esperança
Matemática, Expectativa ou Esperança. É também comumente representado pelo
símbolo µ. Esse momento resume, em um único valor, toda a distribuição da VA.
Podemos obter uma série de outros Valores Esperados deX, caracterizandomomentos
em torno da origem ou em torno da média.
Momentos em torno da origem
Esses momentos são avaliados em torno da origem, ou seja, em torno de “zero”. A
definição a seguir generaliza para r possíveis momentos deX:
Def.9.1. O r-ésimo momento em torno da origem da VA X é definido como:
1. E(Xr) = µr =
∑
x∈RX
xrf(x) (VA discreta).
2. E(Xr) = µr =
∫
x∈RX
xrf(x)dx (VA contínua).
Pode-se notar que o Valor Esperado, E(X) = µ, é o primeiro momento em torno
da origem (ou seja, E(X1) = µ1). É possível perceber que E(X0) = µ0 = 1 (revisite
a propriedade 2 das definições Def.3.1 e Def.4.1), pois equivalerá resolver a f.d.a. em
todo o espaço amostral de X.
Momentos em torno da média
Neste caso, os momentos são avaliados em torno do Valor Esperado de X.
Def.10.1. O r-ésimo momento em torno da média da VA X é definido como:
1. E[X − E(X)]r = µ′r =
∑
x∈RX
[x− E(X)]rf(x) (VA discreta).
2. E[X − E(X)]r = µ′r =
∫
x∈RX
[x− E(X)]rf(x)dx (VA contínua).
Dois dos momentos em torno da média merecem destaque. O primeiro deles,
E[X − E(X)]1 = µ′1, mostra a importante propriedade de que o somatório dos desvios
11
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
em torno da média é igual a zero. O segundo, E[X − E(X)]2 = µ′2, que também é
representado pelo símbolo σ2, define a Variância deX.
É possível reescrever aVariância deX em termosdemomentos em tornoda origem.
Para perceber essa propriedade, vamosdemonstrar partindodadefinição deVariância:
E[X − E(X)]2 = E[X − E(X)][X − E(X)]
= E[X2 −X E(X)−X E(X) + (E(X))2]
= E(X2)− E(X)E(X)− E(X)E(X) + (E(X))2
= E(X2)− (E(X))2.
A seguir, algumas propriedades importantes ao se manusear valores esperados:
1. E(b) = b.
2. E(aX) = aE(X).
3. V ar(aX) = a2V ar(X).
Momentos Conjuntos
É possível obter momentos que envolvem mútiplas VA’s. O mais trivial desses
momentos é aExpectativaCondicional, ou seja, umValor Esperado que condiciona
à realização de valores de outra(s) VA(’s).
Vamos manter a simplicidade e considerar apenas duas VA’s, X e Y . Considere
também um conjunto B tal que B ⊂ RY . A Expectativa Condicional de X em relação
a Y é calculada aplicando-se a seguinte função:
1. E(X|Y ) =
∑
x
xf(x|y ∈ B) (VA discreta).
2. E(X|Y ) =
∫
x
xf(x|y ∈ B)dx (VA contínua).
Ex.6.1: Sejam Y e X duas VA’s que correspondem ao salário de trabalhadores e o
sexo (mulher: X = 1), respectivamente. A tabela a seguir relaciona a distribuição
conjunta dos dados:
Com essa simples distribuição é possível se calcular os seguintes valores esperados:
12
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
Y X
2500 0
2400 1
2700 0
2000 1
a) E(Y ) =
(
2500 · 1
4
)
+
(
2400 · 1
4
)
+
(
2700 · 1
4
)
+
(
2000 · 1
4
)
= 2400
b) E(Y |X = 1) =
(
2400 · 1
2
)
+
(
2000 · 1
2
)
= 2200
c) E(Y |X = 0) =
(
2500 · 1
2
)
+
(
2700 · 1
2
)
= 2600
Fique atento que, para calcular a f.d.p.’ condicional de, por exemplo, f(y|x = 1),
deve-se proceder:
f(y|x = 1) =

f(2000,1)
f(1)
= f(1,2000)
1/2
= 1/4
1/2
= 1
2
f(2400,1)
f(1)
= f(1,2400)
1/2
= 1/4
1/2
= 1
2
A seguir, algumas propriedades importantes ao se manusear momentos conjuntos:
1. V ar(a+ bX) = V ar(a) + V ar(bX) + 2Cov(a, bX) = b2V ar(X).
2. E(X|X) = X.
3. E(XY ) = E(X)E(Y ), se X⊥Y .
Lei das Expectativas Iteradas
Outra importante propriedade dos valores esperados é conhecida como Lei das
Expectativas Iteradas, que diz:
E(E(Y |X)) = E(Y ).
Utilizandoo exemploEx.6.1, pode-se obter aEsperançadeY usando as expectativas
condicionais obtidas anteriormente:
13
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
E(Y ) = E(E(Y |X))
= E[E(Y |X = 1) + E(Y |X = 0)]
= E[2200 + 2600]
= 2200 · 1
2
+ 2600 · 1
2
= 2400
Covariância
Um outro momento conjunto que será bastante utilizado em análise de regressão
linear é a Covariância. Ela é definida como o primeiro momento conjunto em
torno da média. A Covariância assume a seguinte forma funcional:
1. Cov(X,Y ) = E[X−E(X)][Y −E(Y )] =
∑
X∈RX
∑
Y ∈RY
(x−E(X))(y−E(Y )) · f(x, y).
2. Cov(X,Y ) = E[X − E(X)][Y − E(Y )] =
∫
Y ∈RY
∫
X∈RX
(x − E(X))(y − E(Y )) ·
f(x, y)dxdy.
Da mesma maneira que a Variância, a Covariância pode ser reescrita em termos
de momentos em torno da origem. Os passos são os mesmos que os realizados para
Variância, podendo-se chegar à seguinte expressão:
E[X − E(X)][Y − E(Y )] = E(XY )− E(X)E(Y ). (1.6)
Recordando a definição de Independência entre VA’s, pode-semostrar que atender
tal definição implica que a covariância entre as VA’s é igual a zero (ou seja,
X⊥Y → Cov(X,Y ) = 0). Basta partir da definição de covariância e, alémdisso, utilizar
a propriedade de independência. Primeiro (utilizando a notação de somatórios), note
que:
14
G
iu
se
ppe
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
E[XY ] =
∑
X∈RX
∑
Y ∈RY
xyf(x, y)
=
∑
X∈RX
xf(x)
∑
Y ∈RY
yf(y)
= E[X]E[Y ]
Substituindo em 1.6:
E[X − E(X)][Y − E(Y )] = E(X)E(Y )− E(X)E(Y ) = 0.
Embora a Covariância não tenha uma interpretação objetiva devido à mistura
das unidades de medida, essa medida é extramemente útil para avaliar a direção da
associação entre duas variáveis. Para medir a intensidade dessa relação, pode-se
utilizar o Coeficiente de Correlação:
ρ(X,Y ) = Corr(X,Y ) =
Cov(X,Y )
σY σX
∈ [−1, 1]. (1.7)
Quanto mais próximo |Corr(X,Y )| de 1, mais fortemente correlacionadas são as
variáveis.
1.3 Inferência Estatística
Esta seção é um importante subsídio na análise de Regressão Linear quando se
desejar tirar conclusões sobre os parâmetros investigados. Portanto, para que haja um
melhor aproveitamento, a leitura desta parte é recomendada imediatamente anterior
à Seção 8.
Além disso, antes de se discutir e detalhar os próximos itens, é importante estar
ciente dos seguintes conceitos:
• Estatística é uma função dos dados e, possivelmente, de partes conhecidas.
• Estimadores são estatísticas usadas para estimar (calcular) um parâmetro.
• Estatística de teste é uma estatística usada para testar uma hipótese.
15
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
1.3.1 Estimação de Intervalos
Estamos interesssados em obter uma amplitude que contenha, com algum grau de
confiabilidade, o verdadeiro valor do parâmetro. Então, vamos partir da definição a
seguir:
Def.11.1. Um intervalo de confiança é um intervalo aleatório, S = [S, S], que
contém o parâmetro β com probabilidade (1 − α), onde α ∈ (0, 1), definido como
P (β ∈ S) = 1− α.
A probabilidade 1 − α é conhecida como grau (ou nível) de confiança e α é um
número escolhido pelo pesquisador, denominado “nível de significância” (voltaremos
a esse termo mais adiante). O intervalo S será constituído de acordo com a amostra,
portanto, depende dos dados da distribuição amostral associada ao estimador de β,
que denominaremos de β̂.
Antes de exemplificar, consideremos o Teorema do Limite Central (TLC):
Teor.1.1: À medida que o tamanho da amostra aumenta, a distribuição da média
amostral se aproxima de uma distribuição Normal, ou seja:
n → ∞ : X̄ ≈ N(µ, σ2/n)
Uma consequência direta do TLC é:
Z =
X̄ − µ
σ/
√
n
→ N(0, 1)
Essa medida é chamada de z-score. Ou seja, ao se padronizar a média amostral
por sua média e desvio-padrão, obtém-se uma VA que converge em distribuição para
uma Normal com média nula e variância unitária. Esse resultado é útil para mostrar,
com o exemplo a seguir, como se obter um intervalo de confiança:
Ex.7.1: Uma amostra de tamanho n dos preços de uma ação foi coletada, e sabe-se
queE(X) = µ e V ar(X) = σ2 (conhecida). Considerando o estimador X̄, um intervalo
de confiança para a média µ pode ser obtido (utilizando-se o TLC) como:
16
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
P (Z ∈ S) = 1− α
P (S ≤ Z ≤ S) = 1− α
P (S ≤ X̄ − µ
σ/
√
n
≤ S) = 1− α
P (S · σ√
n
≤ X̄ − µ ≤ S · σ√
n
) = 1− α
P (X̄ − Z∗ · σ√
n
≤ µ ≤ X̄ + Z∗ · σ√
n
) = 1− α
Ou seja, se escolhermos o nível de significância α = 0, 05 (visitar uma tabela da
distribuição Normal Padronizada para identificar o valor de Z∗ associado a outros
níveis de significância), obter-se-á o intervalo:
[X̄ − 1, 96 · σ√
n
≤ µ ≤ X̄ + 1, 96 · σ√
n
] (1.8)
Esse intervalo indica que, com um grau de confiança de 95%, o parâmetro µ
encontra-se dentro dessa amplitude (região de confiança), que é uma função dos dados
amostrais (e do parâmetro σ, neste caso conhecido).
Pode-se visualizar esse exemplo em um gráfico da distribuição Normal da VAX do
exemplo Ex.7.1:
Z µ Z
A área acinzentada representa a probabilidade 1 − α (região de confiança),
enquanto que cada área avermelhada corresponde a α
2
(uma vez que é bicaudal).
Suponha que você realize 100 amostras aleatórias de mesmo tamanho n, sob as
mesmas condições. Significa que você irá calcular X̄1, X̄2, ..., X̄99, X̄100, uma para cada
17
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
amostra. Então, 95 dos intervalos que construir irão conter a verdadeira média de
X (ou seja, conterão µ).
1.3.2 Teste de Hipótese
O teste de hipótese é essencialmente uma regra que especifica se deve ounão rejeitar
uma afirmação acerca de um parâmetro, a partir das evidências fornecidas por uma
amostra. Formalmente, podemos defini-lo da seguinte maneira:
Def.12.1. Considere o parâmetro θ. Um teste de hipótese consiste na formulação
de uma hipótese nula, denominada H0, e uma alternativa, denomidade HA ou
H1, de forma que o espaço paramétrico H seja dividido em H0 e HA , onde
H0 ∩ HA ̸= ∅ e H0 ∪ HA = H . Então:

H0 : θ ∈ H0
HA : θ ∈ HA
A estatística de teste T resume e quantifica a evidência amostral contra H0. O
procedimento para realizar o teste de hipótese consiste, resumidamente, em 4 etapas:
1. Especifique o nível de significância “α”.
2. Obtenha a distribuição de probabilidade da estatística de teste T sobH0.
3. Obtenha o valor crítico c∗ → região crítica.
4. RejeiteH0 se |T | > |c∗|.
É crucial notar que, com o teste de hipótese sobre H0, não se pode fazer
afirmações acerca de HA! Deve-se também estar ciente de que, em decorrência
da incerteza, pode-se incorrer em erros. Contudo, é possível controlar um dos erros e
obter alguma confiança ao se realizar o teste. A seguir, entenderemos os tipos de erros
decorrentes do teste de hipótese.
18
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
Tipos de Erro e Função Poder
Antes de procedermos, temos que ter em mente a existência/possibilidade de dois
tipos de erros derivados do teste de hipótese. Como já dito, ambos são decorrentes de
algum grau de incerteza. Os erros são os seguintes:
1. Erro Tipo I: rejeitarH0 quando verdadeira.
2. Erro Tipo II: não rejeitarH0 quando falsa.
Oquadro a seguir resume as possibilidades de erro e acerto decorrentes de um teste
de hipótese:
H0 Verdadeira H0 Falsa
Rejeita Erro Tipo I ✓
Não Rejeita ✓ Erro Tipo II
Vamos considerar que “α” é a probabilidade de “Erro Tipo I” escolhido pelo
pesquisador. Deve-se enfatizar que existe um trade-off entre esses erros: ao diminuir
o α, aumenta-se a probabilidade de Erro Tipo II (chamado de β5), ceteris paribus6.
Mas, se aumentarmos o tamanho da amostra, o Erro Tipo II tende a diminuir.
Ao se escolher α, tem-se o controle sobre a probabilidade de cometer o Erro Tipo I,
que consequentemente deriva um teste com nível de confiança de (1 − α)%. Outra
função importante é o Poder do Teste, que indica a probabilidade de rejeitar H0
quando ela é falsa. Formalmente, obtemos a FunçãoPoder, em relação a umparâmetro
θ, de acordo com a seguinte função:
π(θ) = Prob
(
Rejeitar H0|θ ∈ HA
)
= 1− β
Portanto, quanto menor o β, maior será o poder de teste de hipótese.
5Cuidado para não confundir com o termo β de um modelo de regressão linear, que será visto mais
adiante. Uma vez que é comum na academia referir-se ao Erro Tipo II como “β”, adota-se o mesmo
símbolo neste material.
6Termo em latim, significa tudo o mais constante.
19
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA
Valor de Probabilidade (P-valor)
O p-valor é uma probabilidade que informa a força de evidência contra o H0. Em
outras palavras, representa a área (probabilidade) associada à estatística-calculada do
teste de hipótese. Como um exemplo, considere o seguinte plot de uma Distribuição
Normal Padronizada:
−Zα/2 0 Zα/2 Tc
Considerando que a estatística T de um teste de hipótese gera um valor calculado
Tc, a região azulada do gráfico equivale ao p-valor. Analisar se |T | > |c∗| para rejeitar
a hipótese nula é equivalente a avaliar se “p-valor < α”.
20
G
iu
se
pp
e
Tr
ev
is
an
Capítulo 2
Revisão de Matrizes
Este capítulo apresenta um resumo dos principais tipos de matriz e também
operações com matrizes,que serão necessários para compreender o conteúdo
de Regressão Linear Múltipla. Portanto, recomenda-se a leitura deste capítulo
antecipadamente ao estudo de Regressão Múltipla, que inicia na subseção 4.4.
2.1 O que é uma Matriz?
Umamatriz é uma tabela cujos elementos estão ordenados em linhas e colunas. As
matrizes desempenham fundamental papel na organização e simplificação de dados,
além de forneceremmétodos de resolução de problemas. Uma matriz, de forma geral,
pode ser apresentada da seguinte forma:
Am×n =

a11 a12 · · · a1n
a21 a22 · · · a2n
...
...
. . .
...
am1 am2 · · · amn

Dizemos que a matriz A possui ordemm× n, ou seja, possuim linhas e n colunas.
Cada elemento de A pode ser generalizado para aij, onde i = 1, ...,m e j = 1, ..., n. A
seguir, veremos os principais tipos de matrizes.
21
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 2. REVISÃO DEMATRIZES
2.2 Tipos de Matrizes
É importante nos familiarizarmos comalguns tipos dematrizes que aparecerão com
alguma frequência a partir da subseção 4.4. Cada tipo é apresentado com um exemplo
hipotético, para ajudar na compreensão.
Matriz quadrada
Matriz que possui o número de linhas igual ao número de colunas.
A =
 4 9
−2 5
3

Matriz nula
Matriz os quais todos os elementos são nulos.
A =
0 0
0 0

Matriz identidade
Matriz que apresenta todos os elementos de sua diagonal principal iguais a “1”,
e os demais elementos, “0”.
I =

1 0 0
0 1 0
0 0 1

Matriz transposta
A transposta de uma matriz vem da inversão das linhas e colunas de uma outra
matriz. Considere A uma matriz qualquer. A Matriz transposta de A, denominada de
A′, é uma matriz cujas linhas (colunas) de A′ correspondem às colunas (linhas) de A.
A =

12 5 2
1 3 6
−9 0 4
 −→ A′ =

12 1 −9
5 3 0
2 6 4

22
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 2. REVISÃO DEMATRIZES
Matriz coluna
Matriz que possui apenas uma coluna de elementos. É também a representação
clássica de um “vetor”.
A =

6
1
11

Matriz linha
Matriz que possui apenas uma linha de elementos. É também a representação
clássica de um “vetor transposto”.
A =
[
2 29 7
]
Matriz diagonal
Uma matriz diagonal é aquela cujos elementos fora de sua diagonal principal são
nulos, e os elementos na diagonal principal não-nulos.
A =

6 0 0
0 2 0
0 0 3, 8

Matriz triangular
Matriz cujos elementos não-nulos na matriz quadrada formam um triângulo.
A =

71 0 0
18 11 0
34 60 1

Matriz simétrica
Matriz que atende à condição: aij = aji, ∀ i ̸= j.
A =

4 −1 19
−1 10 55
19 55 3

23
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 2. REVISÃO DEMATRIZES
2.3 Operações com Matrizes
2.3.1 Soma
A operação de soma entre matrizes deve atender algumas restrições. Só é possível
somar matrizes demesma ordem. Considere duas matrizes:
A =
4 6
2 1
 , B =
1 5
8 3

Para soma-las, basta somar os elementos em suas respectivas posições:
A+B =
4 6
2 1
+
1 5
8 3
 =
 5 11
10 4

Propriedades
1. A+B = B + A
2. A+ (B + C) = (A+B) + C
3. A+ 0 = A
2.3.2 Multiplicação
Sejam Ap×n e Bn×q duas matrizes. A multiplicação entre as matrizes A e B resulta
numa matriz C, que herda o número de linhas de A e o número de colunas de B. Para
que seja possível a multiplicação, o número de colunas de A deve ser igual ao
número de linhas de B. Formalmente, temos: Ap×n · Bn×q = Cp×q. Caso p = q,
pode-se também multiplicar B por A.
Para realizar a multiplicação, deve-se multiplicar linhas (da primeira matriz)
por colunas (da segunda matriz). O exemplo a seguir ilustra melhor como
realizar essa operação:
24
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 2. REVISÃO DEMATRIZES
Exemplo: A3×2 ·B2×3 = C3×3
AB =

2 1
3 2
5 1
 ·
2 3 1
1 2 1
 =

2 · 2 + 1 · 1 2 · 3 + 1 · 2 2 · 1 + 1 · 1
3 · 2 + 2 · 1 3 · 3 + 2 · 2 3 · 1 + 2 · 1
5 · 2 + 1 · 1 5 · 3 + 1 · 2 5 · 1 + 1 · 1
 =

5 8 3
8 13 5
11 17 6

Também é possível multiplicar uma matriz por um escalar. A matriz resultante
apresenta todos os elementos da matriz de referência multiplicados por esse número.
Exemplo: 4 · A2×2
4A = 4 ·
3 4
2 6
 =
4 · 3 4 · 4
4 · 2 4 · 6
 =
12 16
8 24

Propriedades
1. k · (A+B) = k · A+ k ·B
2. (k1 + k2) · A = k1 · A+ k2 · A
3. k1 · (k2 · A) = (k1 · k2) · A
4. AB ̸= BA (na maioria dos casos!)
5. Se AB = 0, ou A = 0 ou B = 0
6. AI = IA, se tiverem mesma ordem
7. A · (B + C) = AB + AC
8. (AB) · C = A · (BC)
9. (AB)′ = B′A′
2.4 Cálculo do Determinante
2.4.1 Matriz 2× 2
Para o caso de umamatriz 2×2, o cálculo é bastante simples. Para obtê-lo, subtrai-se
o produto dos elementos da diagonal secundária do produto dos elementos da diagonal
25
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 2. REVISÃO DEMATRIZES
principal:
Exemplo: det A2×2
A =
4 7
1 5
 −→ det A = 4 · 5− 1 · 7 = 13
2.4.2 Matriz 3× 3
Veremos apenas umamaneira1 de calcular o determinante de umamatriz de ordem
3× 3. Para calcula-lo, deve-se seguir os passos abaixo:
1. Repetir as duas primeiras colunas da respectiva matriz e coloca-las no canto
direito dessa matriz.
2. Multiplica-se os elementos das três diagonais “principais”, e os três produtos
são somados.
3. Fazer a mesma operação com as diagonais “secundárias”.
4. Subtrai-se o resultado 3. do resultado 2..
Então, considere a matriz:
A =

1 3 2
1 2 2
3 4 1

Calculando o determinante de A, seguindo os passos acima:
det A =

1 3 2 1 3
1 2 2 1 2
3 4 1 3 4
 = (1 ·2 ·1+3 ·2 ·3+2 ·1 ·4)− (3 ·2 ·2+4 ·2 ·1+1 ·1 ·3) = 5
1Para outros métodos relacionados ao cálculo de determinante, consulte um livro de Álgebra Linear.
26
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 2. REVISÃO DEMATRIZES
2.5 Matriz Inversa
Considere uma matriz A. A matriz inversa de A, usualmente denominada A−1, é
uma matriz que atende à seguinte propriedade: se AA−1 = I e A−1A = I. Ela pode ser
obtida da seguinte forma:
A−1 =
1
det A
· Aadj
A matriz adjunta Aadj é a matriz transposta da matriz dos cofatores. Seja A uma
matriz de ordem 3 × 3. Para obtermos sua matriz dos cofatores, precisamos executar
o seguinte passo-a-passo:
1. Suprimir toda a linha e coluna do elemento da matriz do cofator que se deseja
calcular;
2. Calcular o determinante da matriz de ordem 2× 2 restante;
3. Multiplicar o determinante obtido por (−1)i+j, sendo i e j as coordenadas de
sua posição na matriz (respectivamente, linha e coluna);
4. Repetir os passos anteriores para todos os elementos da matriz A;
5. Montar uma nova matriz, com os elementos tendo a ordem dos resultados das
operações realizadas.
6. Transpor a nova matriz obtida.
Vamos exemplificar como obter uma matriz inversa. Considere a seguinte matriz:
A =

3 2 4
2 5 1
4 1 2

Note que, como essa é uma matriz simétrica, a transposta da matriz dos
cofatores é igual à própriamatriz dos cofatores. Agora, aplicando-se o passo-
a-passo indicado, podemos calcular A−1:
27
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 2. REVISÃO DEMATRIZES
cof11 = (−1)1+1 · det
5 1
1 2
 = (−1)1+1 · 9 = 9
cof12 = (−1)1+2 · det
2 1
4 2
 = (−1)1+2 · 0 = 0
cof13 = (−1)1+3 · det
2 5
4 1
 = (−1)1+3 · (−18) = −18
cof21 = (−1)2+1 · det
2 4
1 2
 = (−1)2+1 · 0 = 0
cof22 = (−1)2+2 · det
3 4
4 2
 = (−1)2+2 · (−10) = −10
cof23 = (−1)2+3 · det
3 2
4 1
 = (−1)2+3 · (−5) = 5
cof31 = (−1)3+1 · det
2 4
5 1
 = (−1)3+1 · (−18) = −18
cof32 = (−1)3+2 · det
3 4
2 1
 = (−1)3+2 · (−5) = 5
cof33 = (−1)3+3 · det
3 2
2 5
 = (−1)3+3 · 11 = 11
Aadj =

9 0 −18
0 −10 5
−18 5 11

′
=

9 0 −18
0 −10 5
−18 5 11

Sabendo que detA = −45 e conhecendo sua matriz adjunta, podemos então
encontrar a matriz inversa de A:
A−1 =
1
−45
·

9 0 −18
0 −10 5
−18 5 11
 =

− 9
45
0 18
45
0 10
45
− 5
45
18
45
− 5
45
−11
45

28
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 2. REVISÃO DEMATRIZES
Dominar o cálculo de uma matriz inversa é essencial para realizar a estimação dos
parâmatros de um modelo de regressão linearpor meio de matrizes, como será visto
na seção 4.4. Por fim, ressaltamos dois pontos importantes:
1. Se uma das colunas for uma combinação linear de outra, a matriz não é
inversível, dado que seu determinante será igual a zero.
2. Como trabalharemos com matrizes simétricas, o passo da transposição da
matriz dos cofatores “pode ser ignorado”.
29
G
iu
se
pp
e
Tr
ev
is
an
Capítulo 3
Introdução
3.1 O que é Econometria?
É um conjunto de técnicas que utiliza de métodos estatísticos — Regressão Linear
—para encontrar relações entre variáveis de interesse, testar teorias e avaliar políticas.
Esse termo é usado pelos economistas desde a década de 1920, embora originalmente
tenha sido criado comumpropósito diferente de como se utiliza nos temposmodernos.
De forma mais ampla, envolvia o emprego de técnicas estatísticas e matemáticas — e
não restritamente ao uso de regressão linear — no contexto da Macroeconomia.
Em Ciências Contábeis, o termo foi adaptado para “Contabilometria” — portanto,
Econometria para Contabilidade— e passou a ser empregadomais recentemente, por
volta dos anos 1980, com os mesmos princípios iniciais da Econometria. Contudo,
o uso do termo é voltado para aplicações de interesse do profissional contábil.
Atualmente, também sofre as mesmas adaptações em relação ao tipo de métodos
que aborda. O termo Contabilometria não é preferido (pelo menos, não ainda) em
relação ao uso do termo “Econometria”. No contexto desta disciplina, é usado como
um sinônimo de Econometria.
Para entender do que se trata a Econometria, vamos desenvolver um exemplo
didático. Suponha que se esteja interessado em compreender como o lucro de uma
empresa se relaciona com informações contábeis e outras características da firma.
Denotando essa relação em linguagem matemática, considere o seguinte modelo:
Lucro = f(empréstimos,ativo circulante, setor, qtde. de investidores, ...)
A primeira pergunta que vem à mente é: qual(ais) é(são) o(s) parâmetro(s) que
estamos interessados em interpretar?
30
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 3. INTRODUÇÃO
1. Empréstimos, ativo circulante: como R$1,00 adicional influencia o lucro
da empresa?
2. Setor: compreender os diferenciais de lucro entre os diversos setores.
3. Qtde. de investidores: como um investidor adicional contribui para a
variação no lucro da empresa?
4. Entre outros...
Para poder responder essa pergunta, vamos utilizar um exemplo numérico:
Ex.3.1: Considere umapopulação de empresas de capital aberto e a VA, denominada
L, o lucro dessas empresas. Obteve-se uma amostra aleatória dos lucros de n = 140
firmas. A distribuição é dada pelo seguinte histograma:
2 3 4 5 6 7 8
0
10
20
30
40
50
10
15
25
40
25
15
10
Lucro (em milhões de R$)
F
re
qu
ên
ci
a
Utilizando cada classe k de lucro da amostra do exemplo Ex.3.1 (portanto, tem-
se um total de K = 7), pode-se calcular o lucro médio (L̄) utilizando o estimador da
Esperança populacional, dado por:
L̄ =
7∑
k=1
Lkf(Lk) = 2 ·
10
140
+ 3 · 15
140
+ 4 · 25
140
+ 5 · 40
140
+ 6 · 25
140
+ 7 · 15
140
+ 8 · 10
140
= 5
31
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 3. INTRODUÇÃO
Vamos denominar o Valor Esperado do Lucro como E(L) = β0. Neste exemplo
Ex.3.1, L̄ é um estimador para β0. Considerando cada empresa da amostra como uma
observação i, poderia-se reescrever o estimador de β0 também como:
β̂0 =
n∑
i=1
Li
n
Note que β̂0 = L̄. Contudo, o que estamos realmente interessados neste momento
é no lucro médio condicionado a outros fatores. Dito de outra forma, queremos
saber como esse lucro médio varia conforme outros fatores da firma variam. No caso,
vamos focar no comportamento do lucro dado o número de investidores da empresa.
Mas, primeiro, precisamos entender uma importante propriedade. Para cada classe de
lucro, temos:
Lk = L̄+ errok =

erro1 = 2− 5 = −3
erro2 = 3− 5 = −2
erro3 = 4− 5 = −1
erro4 = 5− 5 = 0
erro5 = 6− 5 = 1
erro6 = 7− 5 = 2
erro7 = 8− 5 = 3
O termo errok, que é o mesmo para todas as empresas da classe k, representa o
desvio do lucro em relação à sua média. Ao se considerar toda a amostra, pode-se
perceber a seguinte propriedade:
K∑
k=1
errok · f(errok) =
(
−3 · 11
140
)
+
(
−2 · 15
140
)
+
(
−1 · 25
140
)
+ 0 · 40
140
+
+ 1 · 25
140
+ 2 · 15
140
+ 3 · 11
140
= 0
Note que
n∑
i
erroi = 0, portanto E(erroi) = 0. Então, se o lucro médio é
desconhecido e se deseja estima-lo, e ao considerar o modelo:
32
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 3. INTRODUÇÃO
Li = β̂0 + erroi, (3.1)
onde i = 1, 2, ..., 140 no exemplo Ex.3.1, é possível mostrar que o intercepto é a própria
média do lucro:
E(Li) = E(β̂0 + erroi)
= E(β̂0) + E(erroi)
= β0 + 0.
Retornando ao nosso interesse inicial, podemos obter uma reta que denote o lucro
médio para cada quantidade de investidores. Ilustrativamente, vamos representar essa
relação graficamente como:
0
1
2
3
4
5
6
7
8
9
1
0
L
u
c
ro
 (
e
m
 m
ilh
õ
e
s
 d
e
 R
$
)
10 20 30 40 50
Qtde. de investidores
Os pontos vermelhos representam cada combinação (coordenada) de lucro e
quantidade de investidores observada na amostra, para cada firma. A reta representa a
média condicional do lucro em relação ao número de investidores (mais precisamente,
os pontos azulados). É possível perceber que, com essa amostra, aumentos no lucro
estão associados a aumentos na quantidade de investidores.
33
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 3. INTRODUÇÃO
Diferentemente do modelo da equação 3.1, uma forma funcional para a população
que representa o gráfico acima seria dada por:
Li = β0 + β1 · qtde. de investidoresi + ui, (3.2)
Note que Li = f(qtde. de investidoresi). Para este modelo, β0 (coeficiente linear)
nos diz a média do lucro quando não há investidores na empresa. O coeficiente
angular, β1, revela o acréscimo médio no lucro (em milhões de R$!) a aumentos
unitários na variável “qtde. de investidores”. O último termo da equação, ui, é o erro já
apresentado em linhas anteriores. Então, a distância vertical entre umponto vermelho
e um ponto azul do gráfico anterior traduz exatamente esse erro (que, neste ponto,
podemos dizer que é um desvio em relação à média condicional).
A operacionalização, interpretação e implicações inerentes a modelos como o da
equação 3.2 são o objeto de discussão deste material. Antes de aprofundarmos sobre
a modelagem de regressão linear, precisamos entender as diferentes formas que os
dados podem estar estruturados.
3.2 Estrutura dos Dados
As diferentes estruturas de dados podem envolver distintas abordagens na
estimação dos parâmetros. Contudo, o estudo de regressão linear clássica utiliza
dados em corte transversal devido à sua simplicidade, sendo um ponto de partida para
compreender o uso de técnicas econométricas com outros tipos de estrutura de dados.
Dito isso, enfatizamos que este material se refere exclusivamente ao uso de dados em
corte transversal.
Corte Transversal (Cross-Section)
Consiste num conjunto de unidades observacionais coletadas em um dado instante
no tempo. Essas unidades podem ser pessoas, firmas, setores, bairros, países, etc. O
exemplo abaixomostra o que seria umabase de dados de 50 empresas, com infomações
de seu Patrimônio Líquido (PL) e o Ativo Circulante (AC):
34
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 3. INTRODUÇÃO
i PL (milhões) AC
1 0,80 0,3
2 0,70 0,85
3 1,35 1,0
...
...
...
50 10,1 1,3
Séries Temporais
São observações de VA’s ao longo do tempo. A tabela a seguir mostra uma série
temporal, em periodicidade anual, de uma firma de capital. A série diz respeito ao
preço (Preço) do ativo i.
i Preço Ano
1 0,99 2008
1 1,20 2009
1 1,40 2010
...
...
...
1 1,35 2016
1 1,6 2017
Dados de Corte Transversal Agrupados
Neste caso, os dados possuem características tanto de corte transversal quanto de
série temporal. Geralmente envolve o uso de coortes geracionais. No exemplo abaixo,
temos informações de Patrimônio Líquido 2 coortes temporais com diferentes
empresasem cada um deles.
i Ano PL
1 2000 1,3
2 2000 5,5
...
...
...
50 2000 2,1
51 2001 0,06
...
...
...
100 2001 3,4
35
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 3. INTRODUÇÃO
Dados em Painel
Representa séries temporais para cada unidade do corte transversal. Neste caso,
pode-se acompanhar ao longo do tempo a mesma unidade observacional. O painel
pode ser balanceado (todas as unidades são observadas em todos os períodos) ou não-
balanceado (quando falta informação de pelo menos um período para pelo menos uma
unidade observacional). A tabela a seguir ilustra dados desse tipo, com informações
das mesmas firmas em dois momentos no tempo.
i Ano PL
1 2000 1,3
1 2001 1,7
2 2000 5,5
2 2001 5,33
...
...
...
50 2000 3,4
50 2001 2,66
36
G
iu
se
pp
e
Tr
ev
is
an
Capítulo 4
Modelos de Regressão Linear
Este capítulo aborda os modelos de Regressão Linear Simples e Múltipla,
bem como as hipóteses necessárias para a realização da estimação dos parâmetros
de interesse e o método dos Mínimos Quadrados Ordinários. Caso não esteja
familiarizado com conceitos básicos de Estatística e operações com matrizes,
indicamos a leitura prévia completa das seções 1 e 2 deste material para que os passos
desenvolvidos aqui sejam melhor assimilados.
4.1 Regressão Linear Simples
Um modelo de Regressão Linear Simples assume a forma da equação
3.2 anteriormente apresentada. De forma geral, podemos expressar o modelo
populacional formalmente como:
Yi = β0 + β1Xi + ui (4.1)
Os elementos que compõem a equação 4.1 são:
1. i: indexador/subscrito que identifica a unidade observacional.
2. Yi: variável dependente (regressando, outcome, indicador de impacto1, va-
riável de interesse).
3. Xi: variável independente (regressor, variável explicativa).
1Este termo é especificamente empregado em análises de regressão que envolvem relação de causa e
efeito entre duas variáveis. No decorrer do curso, ficará mais claro quando se pode inferir uma relação
causal.
37
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
4. β0 e β1: parâmetros.
5. ui: termo de erro (erro, disturbância).
Note que cada unidade de observação i apresenta um valor para Y ,X e u, enquanto
que os parâmetros são constantes. Ao se utilizar uma amostra aleatória, podemos
estimar os parâmetros da regressão anterior, obtendo a função de regressão amostral:
Yi = β̂0 + β̂1Xi + ûi. (4.2)
Com exceção dos termos Y e X, que são os mesmos da equação 4.1, temos os
seguintes elementos:
1. β̂0 e β̂1: estimadores.
2. ûi: resíduo (estimador do erro).
Portanto, nosso objetivo principal em análise de regressão é estimar os parâmetros
da função de regressão populacional 4.1 com base na função de regressão amostral 4.2.
De certa forma, podemos dizer que a Econometria pode ser resumida a comparações
de médias condicionais.
4.2 Hipóteses do Modelo Clássico
Os resultados advindos de qualquer teoria precisam partir de hipóteses. Aqui, não
é diferente. Durante o curso, será necessário invocar uma oumais hipóteses para obter
um determinado resultado. Será extremamente importante que o leitor esteja atento
a qual ou quais delas são estritamente necessárias em cada caso. Além disso, é
essencial que se entenda em quemomento ela(s) é(são) utilizada(s). A seguir, veremos
as principais hipóteses domodelo clássico de regressão2 que norteiam toda a estrutura
da análise e interpretações.
A primeira hipótese a ser apresentada é, provavelmente, a mais relevante.
Isso porque, caso não seja atendida, as estimativas calculadas podem conduzir a
2Ao comparar com outros materiais/livros, o leitor pode notar que elas estão apresentadas de forma
condensada, contudo, sem perda de generalidade.
38
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
interpretações extremamente equivocadas. Para poder apresenta-las, vamos utilizar
dois pressupostos:
Pressuposto 1: E(ui) = 0.
Significa que os fatores não-observáveis possuem média zero. O termo de erro
ui “esconde” (ou resume) todas as características que não podem ser mensuradas pelo
pesquisador, daí o termo “não-observáveis”. O segundo pressuposto é:
Pressuposto 2: E(Xiui) = 0.
A implicação direta é a de queCov(Xiui) = 0. Isso é facilmente percebido ao utilizar
a definição de Covariância:
Cov(Xiui) = E(Xiui)− E(Xi)E(ui)
= E(Xiui)− E(Xi) · 0 (usando o Pressuposto 1)
= 0− 0 (usando o Pressuposto 2)
= 0
Então, tomando estes pressupostos simultaneamente, temos como consequência
que Xi e ui não são correlacionados. Portanto, sintetizamos ambos os pressupostos
em uma única hipótese:
H1: E(ui|Xi) = 0 (Exogeneidade).
A hipótese de Exogeneidade indica que Xi ⊥ ui. Podemos interpretar que,
atendendo-se H1, os fatores não-observáveis não são correlacionados com a
variável explicativa. Tambémpodemos afirmar com isso que omodelo especificado
é o correto e os parâmetros de interesse são identificáveis, uma vez que não há outros
fatores importantes que deveriam estar explicitamente na equação3. Adiante, ficará
3É possível haver outras características não-observáveis que explicam comportamentos da variável
dependente, embora não sejam correlacionadas com a(s) variável(eis) explicativa(s) que desejamos
inferir uma relação com Y . Nesse caso, a ausência desses fatores não compromete as estimativas
dos parâmetros de interesse, mas podem adicionar maior poder explicativo e aumentar precisão das
estimativas. A seção 11.1.3 aborda com mais profundidade essa questão.
39
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
mais clara a importância dessa implicação. Utilizando a Lei das Expectativas Iteradas,
temos também os seguintes resultados:
E(ui) = 0 −→E(ui) = E(E(ui|Xi)) = 0
E(ui) = 0 −→E(Xiui) = E(E(Xiui|Xi)) = E(E(Xi|Xi)E(u|Xi)) = E(Xi E(u|Xi)) =
= E(Xi0) = 0
H2:
n∑
i=1
(Xi − X̄)2 > 0.
Implica ser necessário haver variabilidade no regressor. Ao se abordar
regressão múltipla, esta hipótese pode ser substituída por: det(X ′X) ̸= 0. Significa
que a matriz X ′X precisa ser inversível, senão não é possível estimar os parâmetros
de interesse4 (verifique na subseção 2.5 como isso ocorre matematicamente). Vale
ressaltar que é necessário que o número de observações seja maior que o número de
parâmetros a serem estimados para que seja possível realizar a estimação dosmesmos.
H3: V ar(ui|Xi) = σ2 (Homocedasticidade).
A hipótese diz que a variância dos erros é constante, independentemente dos
valores de X.
H4: Cov(ui, us|Xi, Xs) = 0, ∀ i ̸= s.
Ou seja, não pode haver autocorrelação entre os erros de diferentes
observações. Esta hipótese possuimaior serventia ao se tratar de dados longitudinais
(em painel) ou quando se trabalha com séries temporais.
H5: ui ∼ N(0, σ2) (Normalidade dos Erros).
Isto é, os erros apresentam distribuição Normal. Esta hipótese será
importante ao se realizar inferência estatística.
4Note que a importância desta hipótese está em permitir a operacionalização matemática do
problema.
40
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
Antes de apresentar o método de estimação dos parâmetros, vamos retornar ao
ponto de que a Econometria lida essencialmente com médias condicionais. Uma vez
apresentados o modelo de regressão simples e a hipótese H1, é possível mostrar que a
reta de regressão equivale a umamédia condicional. Partindo domodelo populacional
4.1, basta tirar a Esperança Condicional de Yi em relação aXi:
E(Yi|Xi) = E(β0 + β1Xi + ui|Xi)
= E(β0|Xi) + E(β1Xi|Xi) + E(ui|Xi)
= β0 + β1 E(Xi|Xi) + 0
= β0 + β1Xi
No penúltimo passo, perceba que E(Xi|Xi) = Xi. Tomando-se a função de
regressão amostral, podemos então estimar E(Yi|Xi), que denotaremos como Ŷi. Ou
seja, no modelo de regressão amostral, temos que:
Ŷi = β̂0 + β̂1Xi
Mas, como estimar todos esses parâmetros? A subseção seguinte apresenta o
método dosMínimos Quadrados Ordinários como alternativa.
4.3 Método dosMínimosQuadradosOrdinários (MQO)
Na área de Ciências Sociais Aplicadas, o método dos Mínimos Quadrados
Ordinários é o mais utilizadona estimação de parâmetros devido às suas propriedades
e simplicidade. Para demonstra-lo, iremos partir da equação 4.1, referente à
população. A partir de agora, para facilitar a escrita, omitir-se-ão os subscritos e
sobrescritos dos somatórios. Para estimarmos β0 e β1, utilizaremos um processo de
minimização do quadrado dos erros:
argmin
∑
u2i = argmin
∑
(Yi − β0 − β1Xi)2
Para iniciar o processo de minimização, necessitamos assumir H1 (e H2). Para
facilitar a notação, chamaremos argmin
∑
u2i de S(β0, β1):
41
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
S(β0, β1) =
∑
(Yi − β0 − β1Xi)(Yi − β0 − β1Xi)
=
∑
[Y 2i − 2β0Yi − 2β1XiYi + 2β1Xiβ0 + β20 + (β1Xi)2]
=
∑
Y 2i + nβ
2
0 + β
2
1
∑
X2i + 2β0β1
∑
Xi − 2β0
∑
Yi − 2β1
∑
XiYi
A seguir, aplicamos as condições de primeira ordem:
∂ S(β0, β1)
∂ β0
= 2nβ0 + 2β1
∑
Xi − 2
∑
Yi = 0
∂ S(β0, β1)
∂ β1
= 2β1
∑
X2i + 2β0
∑
Xi − 2
∑
XiYi = 0
Ao se igualar tais condições a zero, elas são válidas apenas para valores específicos
de β0 e β1 (neste caso, passarão a ser os estimadores dos parâmetros). Então:
nβ̂0 + β̂1
∑
Xi =
∑
Yi (4.3)
β̂1
∑
X2i + β̂0
∑
Xi =
∑
XiYi (4.4)
As equações 4.3 e 4.4 são conhecidas como equações normais. Multiplicando-se
a equação 4.3 por
∑
Xi e a equação 4.4 por n, tem-se:
nβ̂0
∑
Xi + β̂1(
∑
Xi)
2 =
∑
Yi
∑
Xi (4.5)
nβ̂1
∑
X2i + nβ̂0
∑
Xi = n
∑
XiYi (4.6)
Por fim, subtraindo 4.5 de 4.6, anulamos os termos iguais, e ficamos com:
nβ̂1
∑
X2i − β̂1(
∑
Xi)
2 = n
∑
XiYi −
∑
Yi
∑
Xi
β̂1[n
∑
X2i − (
∑
Xi)
2] = n
∑
XiYi −
∑
Yi
∑
Xi
42
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
Logo, obtemos o estimador de β1 como:
β̂1 =
n
∑
(XiYi)−
∑
Yi
∑
Xi
n
∑
X2i − (
∑
Xi)2
(4.7)
=
∑
(Xi − X̄)Yi∑
(Xi − X̄)2
=
∑
(Xi − X̄)(Yi − Ȳ )∑
(Xi − X̄)2
=
Cov(Xi, Yi)
V ar(Xi)
Note que as quatro linhas em 4.7 são equivalentes entre si (é o mesmo estimador),
denotando diferentes maneiras de se obter a estimativa para β̂1. Perceba também que
Ȳ =
∑
Yi
n
e X̄ =
∑
Xi
n
são as médias amostrais de Yi eXi, respectivamente.
O estimador de β0 pode ser obtido da seguinte forma:
Yi = β̂0 + β̂1Xi + ûi∑
Yi
n
=
∑( β̂0 + β̂1Xi + ûi
n
)
Ȳ =
∑
β̂0
n
+ β̂1 ·
∑
Xi
n
+
∑
ûi
n
Ȳ = β̂0 + β̂1X̄ + 0
β̂0 = Ȳ − β̂1X̄ (4.8)
Vamos agora entender a aplicabilidade de um modelo de regressão com um
exemplo.
Ex.4.1: Foram coletadas informações contábeis de uma amostra aleatória de 6
empresas. As informações se referem ao grau de endividamento (GE) e ao giro do
ativo (GA), ambos em milhões de R$. A tabela abaixo organiza tais informações:
43
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
i GE GA
1 5,27 1,03
2 18 1,61
3 0,59 0,7
4 1,05 0,64
5 2,52 1,01
6 0,88 0,57∑
28,31 5,56
Deseja-se saber como o grau de endividamento afeta o giro do ativo. Para facilitar
o entendimento e a interpretação, vamos assumir5 H1 (e H2). Desejamos estimar os
parâmetros do seguinte modelo:
GAi = β0 + β1GEi + ui
Para estimar β1, vamos utilizar o estimador deMQOvisto em4.7 (você pode utilizar
qualquer uma das funções em 4.7):
β̂1 =
n
∑
(XiYi)−
∑
Yi
∑
Xi
n
∑
X2i − (
∑
Xi)2
Para obter a estimativa de β̂1, vamos criar uma tabela com os dados demandados
pela função acima (note queXi equivale à variável GEi). Assim, temos (os valores são
aproximados):
i GE ·GA GE2
1 5,4281 27,7729
2 28,98 324
3 0,413 0,3481
4 0,672 1,1025
5 2,5452 6,3504
6 0,5016 0,7744∑
38,5399 360,3483
Atente para a diferença entre
∑
GE2i = 360, 3483 (lê-se somatório do quadrado
deGE) e (
∑
GEi)
2 = (28, 31)2 = 801, 4561 (quadradodo somatório deGE). Assim,
5Na prática, essamodelagem pode não ser verdadeira. De fato, a maior probabilidade é a de quenão
seja verdadeira, uma vez que vários outros fatores estão correlacionados com o grau de endividamento
da empresa e explicam o giro do ativo. Basta pensar na habilidade do contador que faz essa gestão...
como mensurar essa habilidade?
44
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
substituindo os valores na expressão de β̂1, temos:
β̂1 =
6 · 38, 5399− 5, 56 · 28, 31
6 · 360, 3483− 801, 4561
= 0, 05426574 ∼= 0, 054
Uma vez que consideramos a hipótese H1 como atendida, podemos interpretar β̂1
como um efeito do grau de endividamento sobre o giro do ativo (ou seja, uma relação
causal entre as variáveis). Isso porque nenhum outro fator que está(ão) contido(s) no
termo de erro pode confundir a relação de interesse, já que não possuem relação com
o grau de endividamento das firmas. Então, podemos interpretar que o aumento de
1 milhão de R$ no grau de endividamento da empresa provoca, emmédia,
um aumento de aproximadamente R$ 0,054milhão no giro do ativo. Como
o numerador do estimador de β1 é uma covariância, o sinal reflete a direção da relação
entre as variáveis.
Para obter a estimativa de β̂0, fazemos:
β̂0 = GA− 0, 05426574 ·GE
β̂0 = 0, 92666...− 0, 25604385
β̂0 = 0, 67062282 ∼= 0, 671
Neste caso, a interpretação de β̂0 é de que a média do giro do ativo é aprox.
R$0,671milhão quando o grau de endividamento da firma é igual a “zero”.
Vale ressaltar que não precisamos de nenhuma outra hipótese para estimar os valores
dos parâmetros de interesse que não H1 (e H2).
Tendo os valores de β̂0 e β̂1, podemos realizar previsões dos valores de Y , realizando
extrapolações ou interpolações. Em outras palavras, podemos estimar a média
condicional E(GAi|GEi), ou seja, ĜAi, a partir do GEi:
ĜAi = β̂0 + β̂1GEi
ĜAi = 0, 671 + 0, 054 ·GEi
Por exemplo, se quisermos uma previsão do Giro do Ativo da 4a empresa observada
(i = 4) com base no seu Grau de Endividamento (GE4), fazemos:
45
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
ĜA4 = 0, 67062282 + 0, 05426574 ·GE4
= 0, 67062282 + 0, 05426574 · 1, 05
= 0, 727601847
Tambémpodemos calcular os resíduos dos valores observados. Para o caso de i = 4,
o û4 é calculado da seguinte forma:
û4 = GA4 − ĜA4
= GA4 − (β̂0 + β̂1GE4)
= 0, 64− 0, 727601847
= −0, 087601847
Lembre-se de que û4 é a diferença entre o valor observado e o valor previsto, sendo
então o termo de erro estimado. Como pode-se ver, neste caso, o valor previsto foi
maior do que o valor observado (num plano cartesiano, o ponto observado (y, x) estará
abaixo do ponto (ŷ, x)).
4.4 Regressão Linear Múltipla
O modelo de Regressão Linear Múltipla considera a relação da variável de
interesse com mais de uma variável explicativa. Esta associação entre regressando e
regressores pode ser expressa pelo seguinte modelo:
Yi = β0 + β1X1,i + β2X2,i + · · ·+ βk−2Xk−2,i + βk−1Xk−1,i + ui (4.9)
Num modelo de regressão simples, tínhamos 2 parâmetros a serem estimados.
Num modelo de regressão múltipla, estendemos a possibilidade de estimar k
parâmetros (ou seja, β0, β1, ..., βk−2, βk−1). Com k parâmetros, tem-se k−1 regressores.
Nosso objetivo agora é simplificar a notação da equação 4.9 e escrevê-la na
linguagem matricial. Em um conjunto com n observações, podemos mostrar a função
4.9 para cada unidade observacional:
46
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
Y1 = β0 + β1X1,1 + β2X2,1 + · · ·+ βk−1Xk−1,1 + u1
Y2 = β0 + β1X1,2 + β2X2,2 + · · ·+ βk−1Xk−1,2 + u2
Y3 = β0 + β1X1,3 + β2X2,3 + · · ·+ βk−1Xk−1,3 + u3
...
Yn = β0 + β1X1,n + β2X2,n + · · ·+ βk−1Xk−1,n + un
Agora, vamos utilizar as linhas acima para montar as seguintes matrizes:
Yn×1 =

Y1
Y2
...
Yn
 ; Xn×k =

1 X1,1 X2,1 · · · Xk−1,1
1 X1,2 X2,2 · · · Xk−1,2
...
...
...
. . .
...
1 X1,n X2,n · · · Xk−1,n
 ; βk×1 =

β0
β1
...
βk−1
 ; un×1 =

u1
u2
...
un

Desse modo, compreendendo que os termos Y , X, β e u representam matrizes,
podemos reescrever o modelo de regressão múltipla de forma reduzida, em linguagem
matricial:
Y = Xβ + u (4.10)
Assim como visto anteriormente, teremos a função de regressão linear amostral
dada pela seguinte equação:
Y = Xβ̂ + û (4.11)
Você deve notar queos subscritos i já não sãomais necessários nessa representação
do modelo de regressão. Devido à simplicidade dos cálculos, iremos nos restringir a
exemplos que utilizam no máximo 2 regressores. A partir de agora, você deve estar
atento quando uma expressão se referir a uma matriz ou não.
Obviamente, é possível também representar um modelo de regressão simples
utilizando a notação matricial. Nesse caso, note que a matriz X teria apenas duas
colunas e a matriz β apenas duas linhas. A seguir, derivamos o estimador de MQO
na forma matricial e exemplificamos como obter estimativas dos parâmetros.
47
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
Estimação dos Parâmetros da Regressão Linear Múltipla por MQO
Devido à simplicidade dos passos, vamos demonstrar como realizar o processo
de minimização dos erros (MQO) utilizando notação matricial. Note que podemos
reescrever o somatório do quadrado dos erros da seguinte maneira:
u′u1×1 =
[
u1 u2 · · · un
]
1×n
·

u1
u2
...
un

n×1
=
[
u1 · u1 + u2 · u2 + · · ·+ un · un
]
1×1
=
∑
u2i
Assim como
∑
u2 resulta em um único valor, a matriz u′u resultante possui ordem
1 × 1. Agora, vamos iniciar o processo de minimização de u′u, deixando à mostra a
ordem de cada matriz:
argmin u′u = argmin (Yn×1 −Xn×kβk×1)′(Yn×1 −Xn×kβk×1)
S(β) = Y
′
1×nYn×1 − Y ′1×nXn×kβk×1 − β′1×kX ′k×nYn×1 + β′1×kX ′k×nXn×kβk×1
Uma vez que Y ′Xβ = β′X ′Y , por resultarem em um escalar, obtemos:
S(β) = Y ′Y − 2β′X ′Y + β′X ′Xβ
Para obter os estimadores, resolvemos a condição de primeira ordem:
∂ S(β)
∂ β′
= −2X ′Y + 2X ′Xβ = 0
X ′Xβ̂ = X ′Y
(X ′X)−1X ′Xβ̂ = (X ′X)−1X ′Y
β̂ = (X ′X)−1X ′Y (4.12)
Note que, na penúltipa linha, (X ′X)−1X ′Xβ̂ = Iβ̂. A seguir, vamos ilustrar como
obter estimativas dos parâmetros a partir de um modelo de regressão múltipla.
48
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
Ex.4.2: Considere uma nova amostra aleatória das firmas do exemplo Ex.4.1. Além
do GE e do GA, também foram coletados dados sobre os anos de estudo dos CEO’s
das empresas. Os dados estão organizados conforme a tabela a seguir:
i GA GE Anos
1 2 1,2 15
2 1,5 0,8 10
3 3 1,5 15
4 2 1 12
5 1 2 10∑
9,5 6,5 62
Estamos interessados em estimar os parâmetros do modelo:
GAi = β0 + β1GEi + β2Anosi + ui
Para estimar a matriz β, usaremos a função β̂ obtida em 4.12 (o cálculo de uma
matriz inversa é mostrado detalhadamente na subseção 2.5):
X ′X =

1 1 1 1 1
1, 2 0, 8 1, 5 1 2
15 10 15 12 10
 ·

1 1, 2 15
1 0, 8 10
1 1, 5 15
1 1 12
1 2 10

=

5 6, 5 62
6, 5 9, 33 80, 5
62 80, 5 794

(X ′X)−1 =

8, 37 −1, 53 −0, 498
−1, 53 1, 14 0, 00451
−0, 498 0, 00451 0, 0397

X ′Y =

1 1 1 1 1
1, 2 0, 8 1, 5 1 2
15 10 15 12 10
 ·

2
1, 5
3
2
1

=

9, 5
12, 1
124

(X ′X)−1X ′Y =

−0, 805
−0, 256
0, 245
 =

β̂0
β̂1
β̂2

49
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR
Dessa forma, obtemos as estimativas dos parâmetros do modelo proposto. Para
obter previsões de Y , deve-se utilizar a função:
ĜAi = −0, 805− 0, 256 ·GEi + 0, 245 · Anosi
50
G
iu
se
pp
e
Tr
ev
is
an
Capítulo 5
Variância e Covariância dos
Estimadores
Os estimadores de MQO são VA’s e, por isso, possuem média e variância (e outros
momentos). Este capítulo dedica-se à obtenção da matriz de variância e covariância
dos estimadores, uma vez que é um momento essencial para realização de inferência
estatística.
5.1 Variância e Covariância dos Erros
Antes de obtermos as variâncias dos estimadores, devemos estar cientes da
necessidade de assumir as hipóteses H3, que diz que a variância dos erros é constante
independentemente dos valores de X, e H4, onde os erros não podem ter correlação
serial, ou seja, não pode haver autocorrelação. Em linguagem matricial, podemos
resumir as duas hipóteses como:
E(uu′|X)n×n =

E(u21|X) 0 · · · 0
0 E(u22|X) · · ·
...
...
...
. . .
...
0 · · · · · · E(u2n|X)

51
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES
=

σ2 0 · · · 0
0 σ2 · · ·
...
...
...
. . .
...
0 · · · · · · σ2

= σ2I (5.1)
Note que H3 implica que os elementos da diagonal de E(uu′|X) são todos iguais a
σ2 e que, porH4, os elementos fora da diagonal são todos nulos. Perceba tambémque a
ordem dessa matriz é n×n. A seguir, veremos detalhadamente como obter a matriz de
variância-covariância de β, separadamente para regressão múltipla e simples. Esteja
ciente de que é possível chegar aos mesmos resultados das variâncias e covariâncias
num modelo de regressão simples por linguagem matricial.
5.2 Variância e Covariância dos Estimadores
(Regressão Múltipla)
No contexto de regressão múltipla, podemos mostrar V ar(β̂j) e Cov(β̂j; β̂j′)
por meio de uma única matriz, a qual chamaremos de Matriz de Variância-
Covariância de β̂, denotada por Cov(β̂|X) = Cov(β̂). Vamos partir de 6.2 e reorga-
nizar a função da seguinte forma:
β̂ = (X ′X)−1X ′(Xβ + u)
β̂ = β + (X ′X)−1X ′u
β̂ − β = (X ′X)−1X ′u
β̂ − E(β̂) = (X ′X)−1X ′u (5.2)
Repare que substituímos β por E(β̂). Isso só pode ser feito se H1 for atendida.
Na Seção 6, vamos mostrar que β̂ é um estimador não-viesado de β sob H1 e,
portanto, E(β̂) = β. Por enquanto, vamos apenas tomar isso como verdadeiro.
Agora, lembremos da definição deVariância emDef.10.1. Podemos escreverCov(β̂|X),
matricialmente, como:
52
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES
Cov(β̂|X) = E[(β̂ − E(β̂))(β̂ − E(β̂))′|X] (5.3)
Para facilitar a compreensão da ordem da matriz resultante, vamos mostrar a
ordem de cada matriz em todos os passos seguintes. Substituindo 5.2 em 5.3, obtemos
a matriz de variância-covariância de β̂ da seguinte maneira:
Cov(β̂|X)k×k = E[((X ′X)−1k×kX
′
k×nun×1)((X
′X)−1k×kX
′
k×nun×1)
′|X]
= E[(X ′X)−1k×kX
′
k×nun×1u
′
1×nXn×k(X
′X)−1k×k)|X]
= (X ′X)−1k×kX
′
k×n E(uu′|X)n×nXn×k(X ′X)−1k×k
= (X ′X)−1k×kX
′
k×nσ
2In×nXn×k(X
′X)−1k×k (assumindo H3 e H4)
= σ2(X ′X)−1k×kX
′
k×nIn×nXn×k(X
′X)−1k×k
= σ2(X ′X)−1k×kX
′
k×nXn×k(X
′X)−1k×k (note queX
′IX = X ′X)
= σ2Ik×k(X
′X)−1k×k (note que (X
′X)−1(X ′X) = I)
= σ2(X ′X)−1 (note que I(X ′X)−1 = (X ′X)−1)
Como se pode notar, a matriz σ2(X ′X)−1 é de ordem k× k. Após multiplicar σ2 por
todos os elementos da matriz (X ′X)−1, obtém-se todas as Variâncias e Covariâncias:
Cov(β̂|X) =

V ar(β̂0) Cov(β̂0, β̂1) · · · Cov(β̂0, β̂k−1)
Cov(β̂1, β̂0) V ar(β̂1) · · · Cov(β̂1, β̂k−1)
...
...
. . .
...
Cov(β̂k−1, β̂0) Cov(β̂k−1, β̂1) · · · V ar(β̂k−1)
 (5.4)
Repare que as Variâncias dos estimadores estão dispostas na diagonal principal,
enquanto que todos os outros elementos correspondem às Covariâncias entre os
estimadores. A matriz Cov(β̂|X) herda a simetria da matriz (X ′X)−1.
53
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES
5.3 Variância e Covariância dos Estimadores
(Regressão Simples)
Apesar de chegarmos ao mesmo resultado utilizando o cálculo por matrizes,
desenvolveremos aqui a forma funcional das variâncias e covariância dos estimadores
de um modelo de regressão linear simples.
Nummodelo de regressão simples, k = 2. Portanto, amatrizCov(β̂|X) apresentará
ordem 2 × 2. Observando 5.4, essa matriz terá apenas as duas primeiras linhas e
colunas, ou seja:
Cov(β̂|X) =
 V ar(β̂0) Cov(β̂0, β̂1)
Cov(β̂1, β̂0) V ar(β̂1)

Operacionalizando os cálculos matriciais para um modelo de regressão simples,
podemos mostrar que:
X ′X =
 1 1 1 · · · 1
X1 X2 X3 · · · Xn
 .

1 X1
1 X2
...
...
1 Xn

=
 n ∑Xi∑
Xi
∑
X2i

A Matriz Inversa, como sabemos, é encontrada multiplicando-se o inverso do
determinante pela matriz adjunta:
(X ′X)−1 =
1
n
∑
X2i − (
∑
Xi)2
·X ′XAdj (5.5)
Neste caso, a matriz adjunta X ′XAdj é mais simples de se calcular, por ser uma
matrix de ordem 2 × 2. Para deriva-la, precisamosapenas inverter os elementos da
diagonal principal de X ′X e multiplicarmos a diagonal secundária por −1. Teremos
então:
54
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES
X ′Xadj =
 ∑X2i −∑Xi
−
∑
Xi n
 (5.6)
Substituindo 5.6 em 5.5 e multiplicando por σ2, obtemos a matriz quadrada
Cov(β̂|X) de um modelo de regressão simples:
Cov(β̂|X) = σ
2
n
∑
X2i − (
∑
Xi)2
·
 ∑X2i −∑Xi
−
∑
Xi n

=

σ2
∑
X2i
n
∑
X2i − (
∑
Xi)2
− σ2
∑
Xi
n
∑
X2i − (
∑
Xi)2
− σ2
∑
Xi
n
∑
X2i − (
∑
Xi)2
σ2n
n
∑
X2i − (
∑
Xi)2

Não surpreendentemente, os elementos da diagonal revelam as variâncias de β0
e β1. Repare que temos apenas uma covariância. Isso acontece pois, como a matriz
anterior é simétrica, Cov(β̂0, β̂1) = Cov(β̂1, β̂0). Esses momentos podem ser calculados
separadamentes pelas seguintes funções:
V ar(β̂0) =
σ2
∑
X2i
n
∑
X2i − (
∑
Xi)2
(5.7)
V ar(β̂1) =
σ2n
n
∑
X2i − (
∑
Xi)2
(5.8)
Cov(β̂0, β̂1) =
−σ2
∑
Xi
n
∑
X2i − (
∑
Xi)2
(5.9)
Uma maneira alternativa de se calcular V ar(β̂0) e V ar(β̂1) é dada pelas seguintes
funções:
V ar(β̂0) =
σ2
∑
X2i
n
∑
(Xi − X̄)2
V ar(β̂1) =
σ2∑
(Xi − X̄)2
Na prática, a matriz de variância-covariância de β̂ não pode ser calculada porque
não conhecemos o valor de σ2. A subseção seguinte apresenta um estimador para σ2,
com o intuito de estimar a matriz Cov(β̂|X).
55
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES
5.3.1 Estimador de σ2
Na subseção anterior, derivamos a forma funcional das variâncias e covariâncias
dos estimadores de MQO. Contudo, repare que esses momentos dependem de σ2,
que nada mais é do que a Variância do Erro, ou seja, um parâmetro (portanto,
desconhecido). Neste caso, precisamos utilizar um estimador para σ2. Temos duas
opções de estimador:
1. σ̂2 =
∑
û2i
n
2. S2 =
∑
û2i
n− k
,
onde
∑
û2i representa a soma de todos os resíduos ao quadrado, n é o número de
observações e k é o total de parâmetros. Chamamos n−k de graus de liberdade. Iremos
preferir utilizar S2, uma vez que σ̂2 é um estimador viesado1 de σ2. A vantagem de se
usar S2 é a de que E(S2) = σ2.
Sendo assim, usaremos a Variância dos Resíduos para estimar a matriz Cov(β̂|X),
bastando substituir σ2 por S2:
̂Cov(β̂|X) = S2(X ′X)−1 (5.10)
Vamos utilizar o exemplo Ex.4.1 para ilustrar o cálculo da matriz de variância-
covariância de β̂, tanto por linguagem de somatórios quanto por matriz. Vamos
iniciar calculando o S2 que, para obte-lo, precisamos resolver primeiro o somatório
dos resíduos ao quadrado:
û21 = (1, 03− 0, 67062282− 0, 05426574 · 5, 27)2 = (0, 07339673)2 = 0, 005387
û22 = (1, 61− 0, 67062282− 0, 05426574 · 18)2 = (−0, 03740614)2 = 0, 001399
û23 = (0, 7− 0, 67062282− 0, 05426574 · 0, 59)2 = (−0, 002639607)2 = 0, 00000
û24 = (0, 64− 0, 67062282− 0, 05426574 · 1, 05)2 = (−0, 087601847)2 = 0, 007674084
û25 = (1, 01− 0, 67062282− 0, 05426574 · 2, 52)2 = (0, 202627515)2 = 0, 04105791
û26 = (0, 57− 0, 67062282− 0, 05426574 · 0, 88)2 = (−0, 148376671)2 = 0, 022015637∑
û2i = 0, 077540897
1Consulte um livro de Estatística básica para entender porquê tal estimador é viesado.
56
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES
Para obter os graus de liberdade nodenominador, deduzimos den = 6 a quantidade
de parâmetros a serem estimados k = 2 e aplicamos a função de S2:
S2 =
0, 077540897
n− k
S2 =
0, 077540897
6− 2
S2 = 0, 019385224 ∼= 0, 0194
Agora podemos estimar a matriz de variância-covariância dos estimadores.
Primeiramente, da forma matricial. Devemos calcular X ′X e (X ′X)−1 e, em seguida,
S2(X ′X)−1:
X ′X =
 1 1 1 1 1 1
5, 27 18 0, 59 1, 05 2, 52 0, 88
 ·

1 5, 27
1 18
1 0, 59
1 1, 05
1 2, 52
1 0, 88

=
 6 28, 3
28, 3 360

(X ′X)−1 =
0, 264884 −0, 0208
−0, 0208 0, 00441

S2(X ′X)−1 = 0, 019385224 ·
0, 264884 −0, 0208
−0, 0208 0, 00441

=
0, 019385224 · 0, 264884 0, 019385224 · −0, 0208
0, 019385224 · −0, 0208 0, 019385224 · 0, 00441

∼=
 0, 005134 −0, 000403
−0, 000403 0, 000085

Vamos extrair, para melhor visualização, as variâncias e a covariância dos
estimadores:
̂V ar(β̂0) = 0, 005134
̂V ar(β̂1) = 0, 000085
̂Cov(β̂0, β̂1) = −0, 000403
57
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES
Vamos agora calcular cada uma das variâncias e também a covariância usando as
funções em 5.7, 5.8 e 5.9. Devemos reparar que os denominadores dessas funções são
iguais ao denominador de β̂1 em 4.7, ou seja:
n
∑
X2i − (
∑
Xi)
2 = 6 · 360, 3483− 801, 4561 = 1360, 6337
Como também já temos calculado os seguintes somatórios:
∑
GE2i = 360, 3483
∑
GEi = 28, 31,
basta apenas substituir esses valores em 5.7, 5.8 e 5.9:
V ar(β̂0) =
0, 019385224 · 360, 3483
6 · 360, 3483− 801, 4561
= 0, 00513395 ∼= 0, 005134
V ar(β̂1) =
0, 019385224 · 6
6 · 360, 3483− 801, 4561
= 0, 000085483 ∼= 0, 000085
Cov(β̂0, β̂1) =
−0, 019385224 · 28, 31
6 · 360, 3483− 801, 4561
= −0, 000403338 ∼= −0, 000403
Como já esperado, os valores das Variâncias e Covariância são os mesmos se
calculados por matriz ou por somatório.
58
G
iu
se
pp
e
Tr
ev
is
an
Capítulo 6
Propriedades dos Estimadores de
MQO
Como visto nos capítulos anteriores, as hipóteses do modelo clássico (nem todas!)
são necessárias para que obtenhamos os estimadores dos parâmetros de interesse.
Além dessa utilidade, elas proporcionam propriedades desejadas aos estimadores de
MQO. Este capítulo trata das propriedades de não-viés e consistência dos estimadores
deMQO, bem como deriva a matriz de variância-covariância dos estimadores que será
útil ao se realizar inferência.
A partir deste momento, assume-se que o leitor já está habituado às notações que
envolvemmatriz e somatório, sabendo diferencia-las sem necessidade de aviso prévio.
6.1 Não-viés dos Estimadores
Para falarmos de não-viés dos estimadores de MQO, precisamos entender a
definição de Viés de um Estimador:
Def.6.1. Seja θ um parâmetro e θ̂ um estimador desse parâmetro. Dizemos que θ̂ é
um estimador viesado de θ se:
1. E(θ̂) ̸= θ.
Essa é uma propriedade bastante indesejada ao se realizar inferência pontual.
Desejamos que a média do estimador seja igual ao verdadeiro parâmetro, pois indica
que o estimador produzirá uma estimativa acurada do parâmetro de interesse. Note
59
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 6. PROPRIEDADES DOS ESTIMADORES DE MQO
que acurácia não é a mesma coisa que precisão, sendo o último relacionado à
variabilidade do estimador. Dizemos que um estimador, dentro de estimadores de
uma mesma classe (por exemplo, classe dos estimadore não-viesados) é eficiente se
possui amenor variância.
Vamos ilustrar essa diferença com um simples exemplo envolvendo um jogo de
dardos. Considere quatro métodos diferentes de tiro de dardo e um mesmo alvo.
Vamos considerar cada umdessesmétodos comoumestimador diferente, θ̂1, θ̂2, θ̂3 e θ̂4.
O local onde cada dardo acerta, para cada método de tiro, representa uma estimativa
obtida a partir de uma amostra. A figura abaixo mostra os acertos de dardos:
20 1
18
4
13
6
10
15
2
17319
7
16
8
11
14
9
12
5
(Método 1)
20 1
18
4
13
6
10
15
2
17319
7
16
8
11
14
9
12
5
(Método 2)
20 1
18
4
13
6
10
15
2
17319
7
16
8
11
14
9
12
5
(Método 3)
20 1
18
4
13
6
10
15
2
17319
7
16
8
11
14
9
12
5
(Método 4)
Para cada um dosmétodos, se pudéssemos imaginar um pontomédio para os tiros,
teríamos E(θ̂1), E(θ̂2), E(θ̂3) e E(θ̂4). Quanto mais próximo esse ponto médio do centro
do alvo, mais acurado é o método (ou o estimador), pois se aproxima do centro do
alvo. Quanto mais concentrados estão os tiros, mais precisos eles são. Ao analisar as
quatro situações, chegamos à seguinte conclusão:
60
G
iu
se
pp
e
Tr
ev
is
an
CAPÍTULO 6. PROPRIEDADES DOS ESTIMADORES DE MQO
Acurácia Precisão
θ̂1 muita muita
θ̂2 muita pouca
θ̂3 pouca muita
θ̂4 pouca pouca
Então, nessa ilustração, o estimador

Continue navegando