Modelos de Regressão

•
UFC

Vinicius Osterne [www.osterne.com]
09/07/2019
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 147 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 147 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 147 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Modelos de Regressão

39 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
MODELOS DE 
REGRESSÃO 
Teoria com exercícios resolvidos e propostos 
Inclui códigos do software R
Vinícius Silva Osterne Ribeiro
MATERIAL DE AUTORIA DE VINÍCIUS OSTERNE
Disponível em www.osterne.com
Sumário
I CONCEITOS INICIAIS
————————————————————————————– 8
1 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1 Motivação do estudo 10
1.2 Modelo para uma população 10
1.2.1 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Modelo para duas populações 11
1.3.1 Inferência, resíduos e ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Modelo para mais de duas populações 12
1.4.1 Inferência, resíduos e ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Teste de igualdade de médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Comparação de médias 12
II MODELOS CLÁSSICOS
————————————————————————————– 13
2 Modelo de regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1 Introdução 15
2.2 Suposição do Modelo de Regressão Linear 16
2.3 Estimação dos parâmetros 16
2.4 Propriedade dos estimadores 17
2.5 Análise de variância 18
2.6 Coeficiente de determinação 21
2.7 Esperança da soma de quadrados 22
2.8 Teste de hipóteses para os parâmetros 25
2.9 Intervalos de confiança 26
2.9.1 Para β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.9.2 Para β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.10 Estimação e previsão em um x = x0 específico 27
2.11 Diagnóstico 28
2.12 Modelos linearizados 29
2.13 Transformações de variáveis 30
2.13.1 Transformação de Box-Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.14 Modelo de regressão linear simples passando pela origem 30
2.14.1 Estimação do parâmetro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.14.2 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.14.3 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.14.4 Coeficiente determinação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.15 Exercícios 33
2.16 Aplicações em dados reais 45
2.16.1 Adicionar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3 Modelo de regressão linear múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1 Modelo de regressão linear simples na forma matricial 46
3.2 Suposição do modelo de regressão linear múltipla 47
3.3 Estimação dos parâmetros 47
3.4 Propriedade dos estimadores 49
3.5 Análise de Variância 50
3.6 Teste de hipóteses 52
3.7 Coeficiente de determinação múltipla 53
3.8 Intervalo de confiança 53
3.9 Intervalo de previsão 54
3.10 Técnicas de diagnóstico 55
3.10.1 Avaliação do ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.10.2 Análise de sensibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.10.3 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.11 Exercícios 57
3.12 Aplicações em dados reais 70
3.12.1 Venda de imóveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4 Modelo linear multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
III MODELOS LINEARES GENERALIZADOS
————————————————————————————– 76
5 Modelos Lineares Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.1 Introdução 78
5.2 Família exponencial 78
5.3 Funções de ligação e ligações canônicas 79
5.4 Função escore e informação de Fisher no processo de estimação 81
5.5 Teste de hipóteses 84
5.5.1 Função desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5.2 Teste da razão de verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5.3 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.5.4 Teste de escore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.5.5 Teste de F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6 Técnicas de diagnóstico em MLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.1 Introdução 86
6.2 Análise de resíduos 86
6.3 Análise de sensibilidade 87
7 Modelos para dados binários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.1 Modelo de Regressão Binomial - MRB 88
8 Modelos para dados de contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.1 Modelo de Regressão Poisson - MRPois 89
8.2 Modelos de Regressão Binomial Negativa - MRBN 89
8.3 Aplicações em dados reais 89
8.3.1 Infecção de ouvido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9 Modelos para dados positivos assimétricos . . . . . . . . . . . . . . . . . . . . . 98
9.1 Resposta com distribuição gama 98
9.2 Resposta com distribuição normal inversa 98
10 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.1 Introdução 99
10.2 O modelo 99
10.3 Estimação dos parâmetros 100
10.4 Interpretação dos parâmetros 100
10.5 Adequação do modelo 101
10.6 Aplicações em dados reais 101
10.6.1 Tempo de estoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.6.2 Risco de inadimplência (utilizando o software SAS) . . . . . . . . . . . . . . . . . 101
10.6.3 Câncer de próstata (utilizando o software SAS) . . . . . . . . . . . . . . . . . . . . 104
IV EXTENSÕES I
————————————————————————————– 107
11 Quase-verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
11.1 Introdução 109
11.2 Modelo quasi-binomial 110
11.3 Modelo quasi-Poisson 110
12 Equações de Estimação Generalizadas . . . . . . . . . . . . . . . . . . . . . . . 111
12.1 Introdução 111
13 Modelos de probabilidade composta . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.1 Introdução 112
13.2 Modelo Poisson-gama 112
13.3 Modelo Beta-binomial 112
13.4 Modelo Beta-binomial 112
13.5 Modelo Logístico-Normal 112
14 Modelos inflacionados de zeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
14.1 Introdução 113
15 Modelos mistos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
15.1 Introdução 114
15.2 Modelo Linear Misto 114
15.2.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
7
15.3 Modelo Linear Misto Generalizado 114
16 Modelos Marginais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
16.1 Introdução 115
16.2 Modelo Linear Multivariado (marginal) 115
V EXTENSÕES II
————————————————————————————– 116
17 Modelos Aditivos Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
17.1 Introdução 118
18 Modelo de Regressão Beta e suas extensões . . . . . . . . . . . . . . . . . . 119
18.1 Modelo de Regressão Beta 119
18.2 Modelo de Regressão Beta Retangular123
19 Propensity Score Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
19.1 Para que serve? 128
20 Medidas repetidas - Bilirrubina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
20.1 Introdução 130
20.2 Análise descritiva 131
20.2.1 Análise inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
20.2.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Parte I
CONCEITOS INICIAIS
—————————————————
———————————–
1. Análise de Variância
1.1 Motivação do estudo
O diretor de uma instituição solicitou a ajuda de um estatístico para investigar a relação entre a
nota final do aluno no semestre com as variáveis sede, turma e rendimento (do mesmo aluno) no
semestre anterior. Para isso, foi extraída uma amostra de tamanho 20 desses alunos, conforme é
apresentada na tabela a seguir:
Tabela 1.1: Dados coletados sobre os alunos do estudo.
Aluno Nota final Sede Turma Rendimento anterior
001 8,9 A 1 5,7
002 9,4 A 1 9,1
003 5,7 A 1 6,8
...
...
...
...
...
020 4,9 B 5 6,7
Partindo da estrutura de modelo mais básico, vamos apresentar as diferentes metodologias de
análise que podem ser utilizadas para este exemplo motivador.
Durante o texto, utilizaremos o termo variável resposta para a variável notal final e variáveis
explicativas (ou covariáveis) para as variáveis sede, turma e rendimento do aluno.
1.2 Modelo para uma população
Inicialmente, vamos admitir que nenhuma das covariáveis apresentadas tenham influência na
variável reposta. Desta forma, o modelo proposto pode ser apresentado na forma:
yi = θ + εi, (1.1)
no qual yi é a nota do i-ésimo aluno, θ é o efeito fixo, comum a todas as observações e εi é o
chamado erro ou resíduo. Esse último é um efeito não controlado e resultante da soma de todas
1.3 Modelo para duas populações 11
as características que poderiam influir na nota do aluno (que não estão explícitas no modelo). Em
termos matemáticos, esse fator pode ser escrito como:
εi = f (sede, turma, rendimento)
.
Algumas condições devem ser impostas ao modelo, para que sua interpretação seja melhor feita.
A mais importante delas referem-se aos resíduos, cuja suposição é
E(ε) = 0 e Var(ε) = σ2e . (1.2)
A partir dessa suposição, teremos uma ideia do comportamento das notas dos alunos, pois
E(yi) = θ e Var(yi) = σ2e . (1.3)
O objetivo agora é estimar os parâmetros θ e σ2e , em função da amostra obtida. Vale ressaltar
que o modelo proposto é para todos os indivíduos, não apenas para a amostra.
Utilizando o método dos Mínimos Quadrados, o melhor valor de θ será o que produzir os
menores resíduos para as 20 observações. Esse estimador é
θ̂ = y (1.4)
e o melhor estimador para a variância é
σ̂e =
∑ni=1(yi− y)2
n−1 (1.5)
1.2.1 Inferência
Colocar.
1.3 Modelo para duas populações
Agora, vamos assumir que a turma a qual o aluno está, pode influenciar na nota final do mesmo
(neste caso usamos o termo ’duas populações’, pois a escola apresenta duas sedes). Isso equivale,
portanto, a retirar o efeito turma do erro residual, ou seja, espera-se uma queda no erro, caso a turma
seja significativa (exista diferença estatisticamente significativa) para o modelo. A estrutura a ser
considerada agora é dada por
yi j = θi+ εi j, (1.6)
no qual, para i= 1,2 e j = 1, ...,20, yi j é a nota do j-ésimo aluno da sede i, θi é o efeito fixo, comum
a todas as observações do grupo i e εi j é o chamado erro aleatório do j-ésimo aluno da sede i. Neste
caso, ele se reduz a
εi = f (sede, rendimento)
.
1.3.1 Inferência, resíduos e ANOVA
Colocar.
12 Capítulo 1. Análise de Variância
1.4 Modelo para mais de duas populações
De forma análoga ao modelo para duas populações, vamos considerar agora que somente a
covariável turma influencia na nota final do aluno (o modelo é para mais de duas populações, pois a
escola apresenta cinco turmas). Para isso, define-se a seguinte estrutura:
yi j = θi+ εi j, (1.7)
no qual, para i = 1,2,3,4,5 e j = 1,2,3,4, yi j é a nota do j-ésimo aluno da turma i, θi é o efeito
fixo, comum a todas as observações do grupo i e εi j é o chamado erro aleatório do j-ésimo aluno da
turma i. Neste caso, ele se reduz a
εi = f (turma, rendimento)
.
1.4.1 Inferência, resíduos e ANOVA
Colocar.
1.4.2 Teste de igualdade de médias
A estatística F é utilizada para testar H0 : θ1 = θ2 = ...= θk, contra a alternativa de que pelo menos
uma das igualdades não se verifica.
1.5 Comparação de médias
A análise de variância é apenas um passo inicial para comparação de médias entre grupos. Entretanto,
esse teste verifica somente se há diferença entre alguma das igualdades, não informando outras
possibilidades que existem. Considerando que no teste aplicado rejeita-se a hipótese nula, por
exemplo, de que H0;θ1 = θ2 = θ3. Sabe-se que há diferença, porém o pesquisador pode estar
interessado em saber se:
θ1 = θ2 6= θ3 ou θ1 6= θ2 = θ3 ou θ2 = θ1 6= θ3 ou θ2 6= θ1 6= θ3
Uma alternativa é utilizar os intervalos de Bonferroni.
Parte II
MODELOS CLÁSSICOS
—————————————————
———————————–
2. Modelo de regressão linear simples
2.1 Introdução
Em muitos campos científicos, ou até mesmo em situações do cotidiano, temos interesse em investigar
se duas ou mais variáveis estão inerentemente relacionadas (mesmo que não exista relação de causa-
efeito, podemos investigar quaisquer relacionamento entre variáveis). Um engenheiro, por exemplo,
pode estar interessado em saber se a temperatura de um material apresenta alguma relação com
sua resistência; por sua vez, um médico pode precisar saber se o tempo de vida de um paciente é
diretamente influenciado pelo seu tipo de alimentação; ou um comerciante, que deseja estudar se em
dias de chuva suas vendas são afetadas.
Em todos esses cenários, podemos aplicar uma das técnicas mais comuns e importantes em
análise de dados: a Análise de regressão. Ela estabelece um modelo que possa descrever a relação
entre as variáveis de estudo. Nesse modelo, temos a variável aleatória Y, chamada de variável
resposta, e a variável observável X, chamada de variável explicativa, explanatória ou covariável. Em
alguns textos encontramos descrições de variável dependente para Y e variável independente para X,
porém essa terminologia é confusa, visto que a utilização de "independência", neste caso, é diferente
dos casos em probabilidade e inferência, pelo simples fato dos X′s não serem necessariamente
variáveis aleatórias, logo não podem ser estatisticamente independentes.
Na regressão linear simples há uma forte indicação de que os pontos referentes ao par (X,Y)
repousam aleatoriamente dispersos em torno de uma linha reta. Consequentemente, é provável
considerar que a média da variável Y esteja relacionada a X pela seguinte relação linear:
E[Y |x] = β0+β1x (2.1)
É importante lembrar ao leitor que essa esperança é uma suposição de que a regressão de Y
em X é linear, pelo simples fato de não existir nenhuma teoria subjacente para apoiar a relação de
linearidade. Porém, trata-se de uma aproximação razoável, uma vez que a relação linear é muito
conveniente para se trabalhar. Assim, para sermos bem formais, devemos escrever:
E[Y |x]≈ β0+β1x
16 Capítulo 2. Modelo de regressão linear simples
Entretanto, se começarmos a partir da suposição de que o par (Xi,Yi) tem uma distribuição
normal bivariada, imediatamente segue que a regressão de Y em X é linear.
Voltando a ideia central do estudo, é notável que, pela reta acima, o valor de y não "cai"exatamente
na linha da reta estimada, logo o valor de Y é determinado pela função do valor médio (termo
determinístico) mais um termode erro aleatório (parte aleatória):
Y = β0+β1x+ εi (2.2)
2.2 Suposição do Modelo de Regressão Linear
Devemos fazer a suposição de que os erros seguem uma Normal com média 0 e variância fixa σ2, ou
seja:
εi∼N(0,σ2)
Consequentemente,
Yi|xi = β0+β1x+ εi
E[Yi|xi] = E[β0+β1x+ εi]
= β0+β1x+E[εi]
= β0+β1x+0
= β0+β1x
Da mesma forma,
Yi|xi = β0+β1x+ εi
V [Yi|xi] = V [β0+β1x+ εi]
= V [εi]
= σ2
Logo,
Yi|xi∼N(β0+β1x,σ2)
2.3 Estimação dos parâmetros
Para encontrarmos a reta que miniminiza as distâncias entre o valor real, Yi, e o valor estimado,
Ŷi, devemos minimizar o somatório dos quadrados dos erros. Nessa derivação iremos encontrar
os pontos que satisfazem tal objetivo e, consequentemente, serão estes nossas estimativas para
os parâmetros. Existem vários métodos para encontrar tais estimadores, porém iremos usar o
Método dos Mínimos Quadrados. Para a estimação pelo Método de Máxima Verossimilhança temos
resultados idênticos.
O objetivo, portanto, é:
εi = Yi− (β0+β1xi)
ε2i = [Yi− (β0+β1xi)]2
n
∑
i=1
ε2i =
n
∑
i=1
[Yi− (β0+β1xi)]2
2.4 Propriedade dos estimadores 17
Considerando
E =
n
∑
i=1
ε2i
Logo,
∂E
∂β0
=
n
∑
i=1
2 [Yi− (β0+β1xi)] (−1)
∂E
∂β1
=
n
∑
i=1
2 [Yi− (β0+β1xi)] (−xi)
β̂0 = Y − β̂1X (2.3)
β̂1 =
∑ni=1 XiYi−nYY
∑ni=1 Xi2−nX2
(2.4)
Para simplificar a escrita de β̂1, usaremos:
β̂1 =
Sxy
Sxx
Estimados os valores, encontramos então a reta estimada:
Ŷi = β̂0+ β̂1xi
2.4 Propriedade dos estimadores
Vamos avaliar agora a validade (saber se o estimador é ou não viciado) e a precisão (variabilidade)
dos estimadores dos parâmetros:
E[β̂1] = β1
V [β̂1] =
σ2
Sxx
Prova:
E[β̂1] =
Sxy
Sxx
= E
[
∑ni=1 (Xi−X)Yi
Sxx
]
=
∑ni=1 (Xi−X)E[Yi]
Sxx
=
∑ni=1 (Xi−X)(β0+β1Xi)
Sxx
=
β0∑ni=1 (Xi−X)+β1∑ni=1 (Xi−X)Xi
Sxx
=
β1∑ni=1 (Xi−X)Xi
Sxx
= β1
18 Capítulo 2. Modelo de regressão linear simples
A variância de β1 segue o mesmo raciocínio. Pode-se, portanto, mostrar também que:
E[β̂0] = β0
V [β̂0] = σ2
[
1
n
+
x2
Sxx
]
Vista as demonstrações acima, seria interessante avaliar a relação existente entre β̂0 e β̂1, para
isso calculemos a covariância entre tais estimadores, porém precisaremos de um Lema e um resultado
para obter tal resultado, observe abaixo.
Lema 2.4.1 Sejam Y1,Y2, ...,Yn variáveis aleatórias não correlacionadas com V [Yi] = σ2 para todo
i = 1,2, ...,n. Suponhamos que c1,c2, ...,cn e d1,d2, ...,dn sejam dois conjuntos de constantes. Então
Cov
[
n
∑
i=1
ciYi,
n
∑
i=1
diYi
]
=Cov
[
n
∑
i=1
cidi
]
V [Yi]
Resultado
O que será demonstrado/calculado agora será muito útil para alguns outros resultados.
Cov(Y , β̂1) = Cov(
n
∑
i=1
Yi
n
,
n
∑
i=1
(Xi−X)Yi
Sxx
)
= Cov(
n
∑
i=1
1
n
(Xi−X)
Sxx
)V [Yi]
= 0
Portanto, a relação existente é:
Cov(β̂0, β̂1) = Cov(Y − β̂1X , β̂1)
= Cov(Y , β̂1)−Cov(β̂1X , β̂1)
= 0−XV [β̂1]
= −xσ
2
Sxx
A medida que aumentamos o valor da inclinação da reta de regressão, diminuimos o "corte"na
reta Y, pois a covariância entre as estimativas é negativa.
2.5 Análise de variância
A principal medida para quantificar o quão bom é um modelo estimado para os dados é a sua
variância. Entretanto, usar o somente o termo variância como sendo a principal medida não é o
ideal em modelos de regressão linear, visto que vamos trabalhar aqui com o particionamento da
variabilidade, ou seja, tal análise desmente seu próprio nome, pois não está preocupada em analisar
variâncias, mas sim, a variabilidade das médias ou, simplesmente, a significância do modelo de
regressão. Então, caro leitor, parece razoável, para iniciarmos o estudo, comparar os valores de
Yi com a média da variável resposta, pois essas distâncias nos informarão se a reta de regressão é
significativa ou não para os dados. Assim, se não houver efeito de regressão o comportamento dos
dados pode ser explicado pelo própria reta da média, ou seja, Y .
2.5 Análise de variância 19
Em suma, para análise de variância, iremos comparar Yi com Y , ou seja, iremos particionar o
seguinte somatório:
n
∑
i=1
(Yi−Y )2
n
∑
i=1
(Yi−Y )2 =
n
∑
i=1
(Yi− (Ŷi− Ŷi)−Y )2
=
n
∑
i=1
(Yi− Ŷi+ Ŷi−Y )2
=
n
∑
i=1
(Yi− Ŷi)2+
n
∑
i=1
(Yi−Y )2+2
n
∑
i=1
(Yi− Ŷi)(Yi−Y )
Mas a terceira parcela da soma é o mesmo que:
n
∑
i=1
(Yi− Ŷi)(Yi−Y ) =
n
∑
i=1
(Yi− Ŷi)Yi−
n
∑
i=1
(Yi− Ŷi)Y
Calculando cada parte, temos:
n
∑
i=1
(Yi− Ŷi)Y = Y
[
n
∑
i=1
(Yi− (β̂0+ β̂1xi))
]
= Y
[
n
∑
i=1
Yi−
n
∑
i=1
β̂0+ β̂1xi
]
= Y
[
n
∑
i=1
Yi−nβ̂0+ β̂1
n
∑
i=1
xi
]
= Y
[
n
∑
i=1
Yi−nβ̂0+nβ̂1X
]
= Y
[
n
∑
i=1
Yi−n(Y + β̂1X)+nβ̂1X
]
= Y
[
n
∑
i=1
Yi−nY −nβ̂1X +nβ̂1X
]
= 0
n
∑
i=1
(Yi− Ŷi)Ŷi =
n
∑
i=1
(YiŶ1− Ŷi2)
=
n
∑
i=1
[
Yi(β̂0+ β̂1xi)− (β̂0+ β̂1xi)2
]
= 0
20 Capítulo 2. Modelo de regressão linear simples
Portanto:
n
∑
i=1
(Yi−Y )2 =
n
∑
i=1
(Yi− Ŷi)2+
n
∑
i=1
(Ŷi−Y )2 (2.5)
Em palavras, tal resultado é:
• SQtotal = ∑ni=1(Yi−Y )2
• SQres = ∑ni=1(Yi− Ŷi)2
• SQreg = ∑ni=1(Ŷi−Y )2
Para a construção do teste de hipóteses que compõe a análise de variância, precisaremos de um
teorema que nos informa um resultado muito importante.
Teorema 2.5.1 — Cochram. Se todas as n observações Y1,Y2, ...,Yn, independentes, vêm da mesma
distribuição normal com média µ e variância σ2 e a soma de quadrados total é decomposta em k
somas de quadrados SQk, cada uma com seus respectivos graus de liberdade, então
SQk
σ2
são variáveis aleatórias com distribuição quiquadrado, independentes, com glk graus de liberdade se
n
∑
k=1
glk = gltotal
Sabe-se que
• SQtotal = ∑ni=1(Yi−Y )2→(n−1)g.l.
• SQres = ∑ni=1(Yi− Ŷi)2→(n−2)g.l.
• SQreg = ∑ni=1(Ŷi−Y )2→1g.l.
Então
gltotal = glreg+glres
(n−1) = 1+(n−2)
Resultado que satisfaz a primeira condição do teorema. Para satisfazer a segunda, devemos
supor, sob alguma condição, que os Y ′i s são independentes. Para isso considere a hipótese
H0 : β1 = 0
Se H0 for verdadeira, então
Yi = β0+ εi
Consequentemente
E[Yi] = β0
V [Yi] = σ2
Nos levando a afirmar que
Yi∼N(β0,σ2) (2.6)
2.6 Coeficiente de determinação 21
Dessa forma, as condições do Teorema de Cochram, sob H0 verdadeira, são satisfeitas e assim,
podemos dizer que:
SQreg
σ2
∼ χ2(1)
SQres
σ2
∼ χ2(n−2)
Mostrado tudo isso, podemos enfim chegar na última parte da análise de variância, o teste F. Pelo
Teorema de Cochran, podemos saber a distribuição de:
SQreg
σ2
∼ χ2(1)
SQres
σ2
∼ χ2(n−2)
Consequentemente, sob H0 verdade, a divisão de de duas quantidade com distrbuição quiqua-
drado com 1 e n-2 graus de liberdade, respectivamente, tem distribuição F(1,n-2):
SQreg
σ2
1
SQreg
σ2
n−2
=
SQreg
1
SQres
n−2
=
QMreg
QMres
∼ F(1,n−2) (2.7)
Toda a teoria acima foi desenvolvida para testar a hipótese nula antes definida, isto é, rejeitaremos
H0 se
P(F(1,n−2)≥F0)< α
Em que α é o nível de significância adotado no teste.
Estamos fazendo todas as suposições acima sob H0 verdade, pois queremos saber se é vantajosa a
adoção do modelo linear, ou seja, é observar a redução do resíduo. Se tal redução for muito pequena,
os dois modelos serão praticamente equivalentes, e isso ocorre quando a inclinação é zero ou muito
pequena, não compensando usar um modelo mais complexo.
Em resumo, caro leitor, temos a seguinte sucessão de ideias: realmente a soma de quadrados
pode ser decomposta (soma de quadrados de resíduos com a soma de quadrados de regressão).
Como os Y ′i s são independentes, sob a hipótese nula de β1 = 0 ser verdade, então, pelo teorema de
Cochran, podemos definirque SQregσ2 e
SQres
σ2 , tem distribuição quiquadrado com 1 e n−2 graus de
liberdade, respectivamente. E, dividindo tais valores, chegamos na estatística F que justamente vai
nos informar a veracidade da hipótese nula ser rejeitada ou não. Para sermos mais direto, rejeitar a
hipótese nula, isto é, há coeficiente angular, nesse caso, é dizer que a regressão é significativa, até
porque sem este parâmetro haveria apenas uma reta constante em β0. Portanto, a relação linear entre
X e Y será significativa se rejeitarmos H0.
A tabela ANOVA (Análise de Variância) é constituída pelas seguintes quantidades:
2.6 Coeficiente de determinação
Tal coeficiente nos informa o quão a variabilidade total é explicada pelo modelo, quanto mais
próximo de 1, melhor é o percentual. A medida é denotada por R2 e é delimitada no intervalo [0,1],
22 Capítulo 2. Modelo de regressão linear simples
Tabela 2.1: ANOVA
Fonte de variação GL SQ QM F0
Regressão 1 ∑ni=1(Ŷi−Y )2 SQreg1
QMreg
QMres
Resíduo n-2 ∑ni=1(Yi− Ŷi)2 SQresn−2
Total n-1 ∑ni=1(Yi−Y )2
sendo definida por:
R2 =
SQreg
SQres
(2.8)
O coeficiente de determinação ajustado pelos graus de liberdade é definido por:
R2a just = 1−
SQreg
n−2
SQres
n−1
(2.9)
2.7 Esperança da soma de quadrados
Para a SQreg faremos, primeiramente, um pequeno cálculo para simplificar os passos para essa soma
de quadrados.
SQreg =
n
∑
i=1
(Ŷi−Y )2
Mas sabemos que:
Ŷi = β̂0+ β̂1Xi
Ŷi = Y − β̂1X + β̂1Xi
Ŷi−Y = = β1(Xi−X)
Substituindo,
SQreg =
n
∑
i=1
(Ŷi−Y )2
=
n
∑
i=1
β1(Xi−X)2
= β12Sxx (2.10)
2.7 Esperança da soma de quadrados 23
Feito isso, podemos calcular sua esperança.
SQreg = β̂ 21 Sxx
E[SQreg] = E[β̂ 21 Sxx]
= SxxE[β̂ 21 ]
= Sxx[V (β̂1)+E2(β̂1))]
= Sxx
[
σ2
Sxx
+β 2
]
= σ2+ β̂ 21 Sxx (2.11)
Como
QMreg =
SQreg
1
Então
SQreg = QMreg
E[QMreg] = σ2+ β̂ 21 Sxx (2.12)
Também podemos calcular a esperança para SQres:
SQres =
n
∑
i=1
[Yi− Ŷi]2
Utilizando o teorema de Cochram, podemos deduzir que:
SQres
σ2
∼ χ2(n−2)
E
[
SQres
σ2
]
= n−2
E
[
SQres
n−2
]
= σ2
E[QMres] = σ2 (2.13)
Portanto, QMres é um estimador não viciado para σ2. Porém, o que calculamos acima não foi
uma desmonstração plausível. Sem o auxílio do teorema, devemos fazer:
QMres =
SQres
n−2
E[QMres] = E
[
SQres
n−2
]
E[QMres] =
E[SQres]
n−2
Para descobrir E[SQres], deve-se seguir o raciocínio:
24 Capítulo 2. Modelo de regressão linear simples
SQtotal = SQres+SQreg
SQres = SQtotal−SQreg
E[SQres] = E[SQtotal]−E[SQreg]
Devemos encontrar E[SQtotal] para chegarmos na E[SQres], pois já calculamos E[SQreg].
SQtotal =
n
∑
i=1
Y 2i −nY 2
E[SQtotal] = E
[
n
∑
i=1
Y 2i −nY 2
]
= E
[
n
∑
i=1
Y 2i
]
−E
[
nY 2
]
=
n
∑
i=1
E[Y 2i ]−nE[Y 2]
=
n
∑
i=1
[
V [Yi]+E2[Yi]
]−n[V [Y ]+E2[Y ]]
=
n
∑
i=1
[
σ2+(β0+β1xi)2
]−[σ2
n
+(β0+β1X)2
]
= (n−1)σ2+β12
[
n
∑
i=1
X2i −nX
]
E assim:
E[SQres] = E[SQtotal]−E[SQreg]
= (n−1)σ2+β12
[
n
∑
i=1
X2i −nX
]
−σ2−β12Sxx
= (n−2)σ2 (2.14)
Como já citamos, QMres é um estimador não viciado para a variância:
E[QMres] =
E[SQres]
n−2
= σ2
Podemos agora substituir tal estimativa para encontrar mais alguns resultados importantes como,
2.8 Teste de hipóteses para os parâmetros 25
por exemplo, o erros padrões abaixo:
V [β̂1] =
σ2
Sxx
V̂ [β1] =
σ̂2
Sxx
=
QMres
Sxx
V [β̂0] =
σ2∑ni=1 Xi2
nSxx
V̂ [β̂0] =
σ̂2∑ni=1 Xi2
nSxx
=
QMres∑ni=1 Xi2
nSxx
2.8 Teste de hipóteses para os parâmetros
Sabemos que
β̂0∼N
(
β0,
σ2∑ni=1 Xi2
nSxx
)
Considerando H0 : β0 = β ∗0 verdade:
β̂0∼N
(
β0∗,
σ2∑ni=1 Xi2
nSxx
)
Então:
β̂0−β0∗√
σ2∑ni=1 Xi2
nSxx
∼N(0,1) (2.15)
Como não conhecemos σ2, vamos recorrer a
β̂0−β0∗√
σ2∑ni=1 Xi
2
nSxx√
SQres
σ2
n−2
∼ t(n−2)
β̂0−β0∗√
QMres∑ni=1 X2i
nSxx
∼ t(n−2) (2.16)
E, portanto, rejeitaremos H0 se
P[t(n−2)≤|t0|]+P[t(n−2)≥|t0|]≤α
Para β1 temos o mesmo raciocínio. Sabemos que
β̂1∼N
(
β1,
σ2
Sxx
)
26 Capítulo 2. Modelo de regressão linear simples
Considerando H0 : β1 = β ∗1 verdade:
β̂1∼N
(
β ∗1 ,
σ2
Sxx
)
Logo
β̂1−β1∗√
σ2
Sxx
∼N(0,1)
Utilizando novamente o artificio:
β1−β1∗
σ2
Sxx√
SQres
σ2
n−2
∼ t(n−2)
β̂1−β1∗√
QMresSxx
∼ t(n−2) (2.17)
E, portanto, rejeitaremos H0 se
P[t(n−2)≤|t0|]+P[t(n−2)≥|t0|]≤α
2.9 Intervalos de confiança
Para estabelermos um intervalo de confiança com (1−α)% de confiança, devemos ter uma quanti-
dade pivotal e uma distribuição, que não depende do parâmetro, para esta quantidade pivotal.
2.9.1 Para β0
Sabemos que a quantidade pivotal para esse caso é:
β̂0−β0√
QMres
∑ni=1 X2i
nSxx
∼t(n−2)
Logo
I.C.1−α [β0] =
β̂0±t(1− α2 )(n−2)
√
QMres
∑ni=1 X2i
nSxx
 (2.18)
2.9.2 Para β1
Sabemos que a quantidade pivotal para esse caso é:
β̂0−β0√
QMres
Sxx
∼t(n−2)
Logo
I.C.1−α [β1] =
β̂1±t(1− α2 )(n−2)
√√
QMres
Sxx
 (2.19)
2.10 Estimação e previsão em um x = x0 específico 27
2.10 Estimação e previsão em um x = x0 específico
Digamos que x0 seja um valor específico da variável preditora. Primeiro, considere estimar a média
da população Y associada com x0. Depois faremos isso para a variãncia, partindo, em ambos os
casos, de:
Ŷi = β̂0+ β̂1x0
(Ŷi|x = x0) = β̂0+ β̂1x0
E[Ŷi|x = x0] = E[β̂0+ β̂1x0]
= E[β̂0]+ x0E[β̂1
= β0+β1x0
V [Ŷi|x = x0] = V [β̂0+ β̂1x0]
= V [y− β̂1x+ β̂1x0]
= V [y+ β̂1(x0− x)
= V [y]+V [β̂1(x0− x)]+2cov(y, β̂1(x0− x))
= V [y]+ (x0− x)2V [β̂1]+2(x0− x)cov(y, β̂1)
=
σ2
n
+(x0− x)2 σ
2
Sxx
= σ2
[
1
n
+
(x0− x)2
Sxx
]
Então
Ŷi|x = x0∼N
(
β0+β1x0,σ2
[
1
n
+
(x0− x)2
Sxx
])
I.C.[β0+β1x0] =
[
(Ŷi|x = x0)±t1− α2 (n−2)
√
QMres
[
1
n
+
(x0− x)2
Sxx
]]
(2.20)
O comprimento do intervalo é mais curto se x0 estiver mais próximo de x e minimizado em
x0 = x.
Um tipo de inferência a qual não falamos até agora é a previsão de uma variável aleatória, que
até o presente não for observada, Y , um tipo de inderência que é de interesse em uma regressão.
Assim,
28 Capítulo 2. Modelo de regressão linear simples
E[Ŷ0−Y0] = E[Ŷ0]−E[Y0]
= E[β̂0+ β̂1x0]−E[β0+β1x0+ ei]
= β0+β1x0−β0−β1x0
= 0
Para a variância devemos saber que cov(Y 0,Y0) é zero, pois como Y0 não pertence ao conjunto
de observações Y1,Y2, ...,Yn utilizadas para estimar os parâmetros, então Y 0 e Y0, por suposição, são
independentes, ou seja, zero.
V [Ŷ0−Y0] = V [Ŷ0]+V [Y0]−2cov(Ŷ0,Y0)
= σ2
[
1
n
+
(x0− x̂)2
Sxx
]
+σ2
= σ2
[
1+
1
n
+
(x0− x)2
Sxx
]
Então
Ŷ0−Y0∼
[
0,σ2
[
1+
1
n
+
(x0− x)2
Sxx
]]
I.C.(1−α)[Ŷ0−Y0] = t(1− α2 )(n−2)±
√
QMres
[
1+
1
n
+
(x0− x)2
Sxx
]
(2.21)
2.11 Diagnóstico
Ajustar um modelo requer várias suposições. A estimação dos parâmetros do modelo requer a
suposição de que os erros sejam variáveis aleatórias não correlacionadas com média zero e variância
constante. Testes de hipóteses e estimação do intervalo requerem que os erros sejam normalmente
distribuídos. Assim, consideramos que a ordem do modelo esteja correta. Porém, o estatístico deve
sempre duvidar da validade dessas suposições e conduzir análises para examinar a adequação do
modelo que esta testando. A principal análise para isso é o estudo dos resíduos. Os resíduos, como
sabemos, são definidos por
ei = yi− ŷi
Vamos então aos passos para investigação:
I. Investigação de homocedasticidade - Variância constante
Graficamente (eixXi), se a variância não é constante, teremos comportamentos em que a variância
aumenta com o aumento de x; variância diminui com o aumento dex ou variância aumenta e depois
diminui com o aumento de x.
2.12 Modelos linearizados 29
II. Investigação de normalidade dos dados
Para investigar a suposição de normalidade devemos comparar os quantis teóricos com os quantis
observados. Para isso, devemos ordenar os resíduos de forma crescente e plotar o gráfico que deverá
ser uma reta:
e(i) x Φ−1
(
i−1/2
n
)
Os testes existentes são o de Sapiro-Wilk e Kolmogorov-Smirnof. Em ambos, a hipótese nula é
de normalidade dos dados.
III. Adquacidade dos modelos
Às vezes, observando apenas o gráfico de dispersão, não é possível percebermos que o modelo de
regressão linear é adequado. Para melhorar esta forma de comparação, faz-se os gráficos de:
Xi x ei
Ŷi x ei
Se a dispersão tiver formato de curva ou qualquer outra forma que não se assemelha a uma reta,
então o modelo não está adequado. Na seção sobre o uso do R no estudo de regressão, comentaremos
mais sobre resíduos e sobre alguns gráficos importante para essa análise.
2.12 Modelos linearizados
Quando aplicamos análise de regressão ao estudo da relação funcional entre duas variáveis, o
problema da especificação consiste em determinar a forma matemática da função que será ajustada.
Mostraremos agora que existem modelos não-lineares que se transformam em funções lineares
por anamorfose, isto é, por substituição dos valores de uma ou mais variáveis por funções destas
variáveis. Veja um exemplo:
Para o modelo abaixo podemos apenas aplicar o logaritmo para termos funções lineares:
Yi = β0xiβ1ei
ln(Yi) = ln(β0xiβ1ei)
ln(Yi) = ln(β0)+β1ln(xi)+ ln(ei)
Assim:
Y ∗i = ln(Yi)
X∗i = ln(Xi)
Obs: Se aplicarmos a exponencial no parãmetro, teremos o verdadeiro valor da estimativa, porém
esse estimador não tem as mesmas propriedades já ditas até aqui.
•
30 Capítulo 2. Modelo de regressão linear simples
2.13 Transformações de variáveis
Realizamos uma transformação na variável com o objetivo de estabilizar a variância e deixar os
dados com comportamento normal, ou seja, estaremos adequando o modelo de modo a ficar com
homocedasticidade e normalidade quanto aos resíduos. Veja os casos abaixos:
• Quando a variável resposta se refere a contagem (distribuição de Poisson, por exemplo, em
que a esperança é proporcional a variância) usaremos a transformação:
Y ∗ =
√
Y
• Quando os dados da variável resposta refere-se a proporção usaremos:
Y ∗ = arcsen
√
Y
• Em outros casos usaremos:
Y ∗ = lnY
2.13.1 Transformação de Box-Cox
A proposta para essa transformação é encontrar o valor de uma constate λ para usarmos em:
Y ∗ = Y λ
Usando o método de máxima verossimilhança para encontrar tal valor, obtém-se:{
Y λ−1
λY λ−1 ,λ 6=0
Y ∗lnY ,λ=0
Sendo
Y ∗ = ln−1
[
1
n∑ni=1 lnYi
]
De maneira geral, utiliza-se {
Y λ ,λ 6=0
lnY ,λ=0
Em programas estatísticos, especificamente o R, o comando para fornecer o valor de λ nos
diponibiliza o gráfico de sua função de verossimilhança nos informando o intervalo de confiança
para tal constante. Desse modo, se o zero pertence ao intervalo, usamos o logaritmo dos dados, mas
caso não esteja, usamos os dados elevado ao valor de λ .
2.14 Modelo de regressão linear simples passando pela origem
Yi = β1xi+ ei (2.22)
Usamos esse modelo quando não rejeitamos a hipótese nula H0 : β0 = 0 para o modelo
Yi = β0+β1xi+ ei
Atente-se que não usamos esse modelo pelo motivo de termos um par (0,0) nos dados. Nos só
utilizamos quando a hipótese não for rejeitada.
2.14 Modelo de regressão linear simples passando pela origem 31
2.14.1 Estimação do parâmetro
n
∑
i=1
ei2 =
n
∑
i=1
(Yi−β1xi)2
n
∑
i=1
ei2 = E
∂E
∂β1
=
n
∑
i=1
2((Yi−β1xi))(xi)(−1)
Igualando a zero:
n
∑
i=1
(Yi−β1xi)(xi) = 0
n
∑
i=1
xiyi− β̂1
n
∑
i=1
xi2 = 0
β̂1 =
∑ni=1 xiyi
∑ni=1 xi2
(2.23)
2.14.2 Propriedades dos estimadores
β̂1 =
∑ni=1 xiyi
∑ni=1 xi2
E[β̂1] = E
[
∑ni=1 xiyi
∑ni=1 xi2
]
=
1
∑ni=1 xi2
n
∑
i=1
xiE[Yi]
=
1
∑ni=1 xi2
n
∑
i=1
xi(β1xi)
=
1
∑ni=1 xi2
β1
n
∑
i=1
xi2
= β1
V [β̂1] = V
[
∑ni=1 xiyi
∑ni=1 xi2
]
=
1
∑ni=1 xi4
n
∑
i=1
xi2V [Yi]
=
σ2
∑ni=1 xi2
2.14.3 Análise de Variância
Até agora tivemos o mesmo raciocínio em comparação com ao modelo Yi = β0+β1xi+ ei. Porém, a
análise de variância para este modelo tem raciocínio diferente. O leitor já deve saber que no modelo
com intercepto utilizamos o valor da amostra, Yi, em comparação com a média amostral, Y . Isso
32 Capítulo 2. Modelo de regressão linear simples
ocorre, porque se o modelo não for ideal aos dados, todos os pontos estarão na reta Y , dessa forma, a
soma de quadrados total se refere a soma de todos os pontos da amostra com a média com o intuito
de análisar a significância da regressão. Como neste modelo não têm-se o intercepto, a soma de
quadrados total será a distância dos pontos amostrais em relação ao eixo das abcissas, ou seja, neste
modelo teremos:
SQtotal =
n
∑
i=1
(Yi−0)2
=
n
∑
i=1
Yi2
Desenvolvendo:
SQtotal =
n
∑
i=1
Y 2i
=
n
∑
i=1
[(Yi− Ŷi)+ Ŷi]2
=
n
∑
i=1
(Yi− Ŷi)2+
n
∑
i=1
Ŷi
2
+2
n
∑
i=1
(Ŷi+ Ŷi)Ŷi
=
n
∑
i=1
(Yi− Ŷi)2+
n
∑
i=1
Ŷi
2
SQtotal = SQres+SQreg
Em que, para este caso
• SQtotal tem n graus de liberdade
• SQres tem (n−1) graus de liberdade
• SQreg tem 1 grau de liberdade
As condições do teorema de Cochran foram atendidas, então:
SQreg
σ2
∼ χ2(1)
SQres
σ2
∼ χ2(n−1)
Portanto, para o teste de significância do teste, teremos uma distribuição F(1,n− 1). Observe a
tabela:
Tabela 2.2: ANOVA
Fonte de variação GL SQ QM F
Regressão 1 ∑ni=1 Ŷi
2 SQreg
1
QMreg
QMres
Resíduo n−1 ∑ni=1(Yi− Ŷi)2 SQresn−1
Total n−1 ∑ni=1Y 2i
2.15 Exercícios 33
2.14.4 Coeficiente determinação
Neste caso não calculamos R2 para os dois casos e comparamos. Ao invés disso, comparamos o valor
do quadrado médio do resíduo do modelo com intercepto com o modelo sem intercepto. Aquele que
tiver menor valor é o modelo que esxplica melhor a variablidade dos dados.
2.15 Exercícios
1. Mostre que σ̂2 é um estimador viciado para σ2, sendo sua esperança dada por E[σ̂2] = (n−2)σ
2
n .
Sabemos que, pelo Método de Máxima Verossimilhança, o estimador de σ2 é
σ̂2 = ∑
n
i=1 [Yi− (β̂0+ β̂1xi)]
n
Mas podemos rescrevê-lo usando
SQres =
n
∑
i=1
[Yi− Ŷi]2
=
n
∑
i=1
[Yi− (β̂0+ β̂1xi)]2
Portanto
σ̂2 =
SQres
n
Porém, utilizando o Teorema de Cochran, podemos afirmar que
SQres
σ2
∼χ2(n−2)
Então
E
[
SQres
σ2
]
= n−2
E [SQres] = (n−2)σ2
Consequentemente
E
[
σ̂2
]
= E
[
SQres
n
]
=
(n−2)σ2
n
•
2. Mostre que quando β0 está no modelo, a reta de regressão passa pelas médias amostrais de X
e Y .
A reta estimada é dada por
Ŷi = β̂0+ β̂1xi
Na qual, pelo Método dos Mínimos Quadrados, a estimativa para β0 é dada por
β̂0 = Y − β̂1X
34 Capítulo 2. Modelo de regressão linear simples
Substituindo, chegamos em
Ŷi = Y + β̂1(xi−X)
Que é nada mais que a equação da reta que passa pelos pontos X ,Y cujo coeficiete angular é
β̂1 E, portanto, a reta estimada passará por Y , pois é seu coeficiente linear e por X , pois é seu
coeficiente angular.
•
3. Mostre que se o coeficiente de determinação é zero, então a melhor previsão para um estimador,
é a sua média.
Ora,
R2 =
SQreg
SQtotal
Então, se R2 é igual a zero, é porque
SQreg = 0
Desenvolvendo, temos
SQreg = 0
n
∑
i=1
(Ŷi−Y )2 = 0
Ŷi = Y
A previsão para o estimador é a sua média.
•
4. (Exercício 2.1- Hoffmann) É dada uma amostra de 10 pares de valores: X=(-2, -2, -1, -1, 0, 0,
1, 1, 2, 2)
Y=(0, 0, 2, 3, 4, 4, 5, 6, 8, 8)
Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi = β0+β1xi+εi, onde os εi são variáveis aleatórias independentes com distribuição normal de média zero e
variância 2.
a. Determine as estimativas dos parâmetros da regressão linear.
Para isso, precisaremos dos seguintes valores:
10
∑
i=1
xi = 0
10
∑
i=1
yi = 40
10
∑
i=1
xiyi = 38
10
∑
i=1
xi2 = 20
2.15 Exercícios 35
Agora, substituindo nas estimativas, temos:
β̂1 =
∑10i=1 xiyi−nxy
∑10i=1 xi2−nx2
β̂1 =
38−10∗0∗4
20−10∗0
β̂1 = 1.9
β̂0 = y− β̂x
β̂0 = 4−1.9∗0
β̂0 = 4
b. Teste H0 : β = 0 ao nível de significância de 5%.
De início devemos fazer a suposição de que os erros são normal e idependentemente
distribuídos com média zero e variância σ2.
As hipóteses a serem testadas são:
H0 : β = 0
H0 : β 6=0
Com a seguite estatística seguindo uma distribuição t com n-2 graus de liberdade:
T =
β̂1−0√
σ2/Sxx
Sabendo que
σ̂2 =
SQE
n−2
σ̂2 =
SQT − β̂1Sxy
n−2
SQT =
10
∑
i=1
yi2−
(
∑10i=1 yi
)2
10
SQT = 154
Sxy = 38
Sxx = 20
σ̂2 =
154−1.9∗38
10−2
σ̂2 = 10.225
Logo,
T =
β̂1−0√
σ2/Sxx
T =
1.9√
10.225/20
T = 2.657278
36 Capítulo 2. Modelo de regressão linear simples
E, portanto, encontrando o p-valor no R:
> 1-pt(2.657278, 8, lower.tail = TRUE, log.p = FALSE)
[1] 0.01446367
Podemos rejeitar a hipótese nula.
c. Calcule o coeficiente de determinação.
Para calcular o coeficiente de determinação, usaremos:
r2 =
b(∑ni=1 xy)
∑ni=1 y2
r2 = 0.308547
d. Determine a estimativa de Y para X = 3.
A estimativa para X = 3 é 9.7.
•
5. (Exercício 2.3- Hoffmann)Demonstre que numa regressao linear simples o valor de F da
análise de variância da regressão é igual ao quadrado do valor de t(b), relativo à hipótese da
nulidade β = 0 (onde β é o coeficiente de regressão).
Sabemos que
SQRes =
n
∑
i=1
ê2
SQReg = b
n
∑
i=1
xy
Se2 =
SQRes
n−2
Logo, para testarmos a hipótese nula β = 0 usamos a estatística
t(b) =
b
Se
√
n
∑
i=1
(xi− x)2
Se elevarmos ao quadrado,chegamos em
[t(b)]2 =
[
b
Se
√
n
∑
i=1
(xi− x)2
]2
[t(b)]2 =
SQReg
Se2
Que é a estatística F que aparece na tabela ANOVA.
•
6. (Exercício 2.5- Hoffmann) É dada uma amostra de 5 pares de valores. Admite-se que as
variáveis X e Y estão relacionadas de acordo com o modelo Yi = α+βXi +ui, onde ui são
variáveis aleatórias independentes com distribuição normal de média zero e variância σ2 .
a. Determine as estimativas dos parâmetros da regressão linear.
β̂ = ∑
n
i=1 xy
∑ni=1 x2
= 2.461538
α̂ = y− β̂x = 5
2.15 Exercícios 37
X Y
1 3
2 7.5
3 7
4 11.5
5 11
b. Calcule o coeficiente de determinação e faça a análise de variância da regressão.
O coeficiente de determinação é dado por:
r2 =
S.Q.Reg
S.Q.Total
SQReg = b
n
∑
i=1
xy
SQTotal =
n
∑
i=1
y2
r2 = 0.1566265
Tabela 2.3: Análise da variãncia
Graus de Soma dos Média dos Valor F p-valor
liberdade quadrados quadrados
x 1 64.793 64.793 1.7459e+32 < 0.05
Residuals 3 0 0
c. Teste ao nível de significância de 0.5%, a hipótese:
H0 : β = 0
H1 : β 6=0
Usando a estatística:
t(b) =
b−β
s(b)
t(b) =
2.5454−0√
q.m.res
∑ni=0 xi2
t(b) =
2.5454−0√
q.m.res
∑ni=0 xi2
t(b) = 3.000366
Considerando o nível de significância de 0.5% e a distribuição assumindo 3 graus de
liberdade, encontramos o valor crítico de 7.453, assim não podemos rejeitar a hipótese
nula. Rejeitamos a hipótese nula.
d. Teste ao nível de significância de 0.5%, a hipótese:
H0 : α = 13
H1 : α<13
38 Capítulo 2. Modelo de regressão linear simples
Usando a estatística:
t(a) =
a−α
s(a)
t(a) =
5−13√
q.m.res
∑ni=0 xi2
t(a) = −2.786054
Considerando o nível de significância de 0.5% e a distribuição assumindo 3 graus de
liberdade, encontramos o valor crítico de 7.453, assim não podemos rejeitar a hipótese
nula. Rejeitamos a hipótese nula.
•
7. (Exercício 2.7- Hoffmann) Com base em 52 pares de valores das variáveis X e Y foi obtida a
equação de regressão
Ŷi =−0.4+Xi
A estimativa do desvio padrão da estimativa do coeficiente de regressão é 0.1. Calcule o
coeficiente de determinação e teste a hipótese de que o coeficiente angular é igual a zer, ao
nível de significância de 1%.
Foi dado na questão que
s(b) = 0.1
Sabemos que a estimativa do desvio padrão da estimativa do coeficiente de regressão é dado
por
s2(b) =
∑ni=1 y2−b∑ni=1 xy
n−2
∑ni=1 x2
Desenvolvendo, temos
s2(b) =
∑ni=1 y2−b∑ni=1 xy
50
∑ni=1 x2
50.0.01.
n
∑
i=1
x2 =
n
∑
i=1
y2−b
n
∑
i=1
xy
Dividindo todos por ∑ni=1 y2
50.0.01.∑ni=1 x2
∑ni=1 y2
=
∑ni=1 y2−b∑ni=1 xy
∑ni=1 y2
r2 = 1− 0.5∑
n
i=1 x
2
∑ni=1 y2
Para o teste de hipótese, temos β̂ = 1, logo
t(b) =
1−0
0.01
t(b) = 100
Ao nível de significância de 1% temos como ponto crítico de 2.67, ou seja, rejeitamos a
hipótese de que o coeficiente de regressão é zero.
•
2.15 Exercícios 39
8. (Exercício 2.17- Hoffmann) Admitindo que as variáveis X e Y estão relacionadas conforme o
modelo:
Yi = α+
β
Xi
+ui
onde ui representa erros aleatórios independentes com média zero e variância constante, deter-
mine as estimativas dos parâmetros α e β , com base nos seguintes dados:
x=(12,15,20,30,60) y=(9,8.5,8.5,6.5,5)
Baseando-se no método dos mínimos quadrados, temos que minimizar a soma dos quadrados
dos desvios
L =
n
∑
i=1
ui2
que é o mesmo que
L =
n
∑
i=1
Yi−α− βXi
2
Temos que fazer:
∂L
∂α
= 0
∂L
∂β
= 0
Chegamos nas seguintes estimativas:
α̂ =
∑ni=1 yi−β∑ni=1 1xi
n
β̂ =
∑ni=1
yi
xi
− y∑ni=1 1xi
1− ∑
n
i=1
1
xi
∑ni=1
1
xi
n
Utilizando o R, temos as estimativas:
#Exercicio 2.17
x=c(12,15,20,30,60)
y=c(9,8.5,8.5,6.5,5)
n=length(x)
a = mean(y) - (b/n)*(sum(1/x))
num = sum(x/y) - mean(y)*sum(1/x)
den = 1 - ((sum(1/x)*sum(1/x))/n)
b = num/den
a;b
Dica: Poderíamos simplesmente usar a anamorfose Vi = 1Xi
•
9. (Exercício 2.19- Hoffmann) São dados os seguintes valores, obtidos de uma amostra aleatória
com 10 observações:
X=(0,0,1,1,2,2,3,3,4,4)
Y=(2.5,3.5,1,3,2,4,0,2,0.5,1.5)
Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi =α+βXi+ui,
40 Capítulo 2. Modelo de regressão linear simples
onde ui são variáveis aleatórias homocedásticas, normalmente distribuídas e com média zero.
Pode-se verificar que ∑ni=1 x2 = 20, ∑
n
i=1Y
2 = 55, ∑ni=1 y2 = 15, ∑
n
i=1 xY =−10 e Y = 2.
a. Determine a reta de regressão.
No R, temos:
X=c(0,0,1,1,2,2,3,3,4,4)
Y=c(2.5,3.5,1,3,2,4,0,2,0.5,1.5)
cbind(X,Y)
plot(X,Y, col="red", bty="l", lwd=4, main="Reta de Regressão")
f=function(X) Y=3 -0.5*X
curve(f,add=T, col="blue", lwd=3)
02_01.pdf
Figura 2.1: Reta de regressão
•
10. (Exercício 2.21- Hoffmann) É dada uma amostra com 4 pares de valores:
x=(2,1,1,4)
y=(6,8,9,13)
Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi =α+βXi+ui,
onde os ui são erros independentes, de média zero, variância constante e distribuição normal.
a. Determine as estimativas dos parâmetros da regressão linear.
(Usando o R):
Como já sabemos que as estimativas são feitas pelo Método dos Mínimos Quadrados,
vamos a partir de agora utilizar somente o código do R.
> x=c(2,1,1,4)
> y=c(6,8,9,13)
> lm(y~x)
2.15 Exercícios 41
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
6.0 1.5
Utilizaremos o modelo Yi = 6+1.5x.
b. Calcule o coeficiente de determinação da regressão.
Para calcular o coeficiente de determinação, usaremos:
r2 =
b(∑ni=1 xy)
∑ni=1 y2
r = 0.5891883
c. Teste, ao nível de significância de 5%, a hipótese H0 : β = 5 contra a hipótese alter-
nativa H0 : β 6=5.
Usaremos a estatística:
t(b) =
b−β
s(b)
Que resulta na estatística -3.43, sendo não significativo, pois t0 = 4.3
•
11. (Exercício2.31- Hoffmann) Em estudos da variação do consumo de certo produtos em função
da renda da família tem sido usada a função Y = exp
[
α− βX
]
, onde Y é o dispêndio com o
produto considerado e X é a renda da família. Mostre as anamorfoses que devem ser feitas para
que as fórmulas de regressão linear simples sejam usadas para ajustar essa função, utilizando
dados obtidos de uma amostra aleatória.
Se aplicarmos o logaritmo em Y, obtemos:
logYi = α− βX
Onde:
Zi = logYi
Vi = − 1Xi
O que nos leva a aplicar o modelo:
Zi = α+Viβ
•
12. (Exercício 2.34 - Hoffmann - Adaptada) É dada uma amostra de 12 pares de valores. Com
base nela, responda aos itens.
a. Determine as estimativas de regressão linear.
42 Capítulo 2. Modelo de regressão linear simples
Xi Yi Xi Yi
1 2 4 9
1 4 4 13
1 3 5 11
1 5 5 10
2 8 5 16
2 6 5 9
Sumário:
n = 12
n
∑
i=1
XiYi = 360
n
∑
i=1
Xi = 36
n
∑
i=1
X2i = 144
n
∑
i=1
Yi = 96
n
∑
i=1
Y 2i = 962
X = 3
Y = 8
Portanto:
β̂1 =
Sxy
Sxx
=
∑ni=1 XiYi−nXY
∑ni=1 X2i −nX2
=
72
36
= 2
β̂0 = Y − β̂1X
= 2
b. Plote a reta de regressão estimada juntamente com o gráfico de dispersão dos da-
dos.
02_02.pdf
Figura 2.2: Gráfico de dispersão
2.15 Exercícios 43
c. Faça a análise de variância considerando o nível de significância de 5%
Sumário:
SQreg =
n
∑
i=1
(Ŷi−Y )2
= β̂1
2
Sxx
= 144
SQtotal =
n
∑
i=1
(Yi−Y )2
= ∑ i = 1nY 2i −nY 2
= 194
SQres = SQtotal−SQreg
= 194−144
= 50
QMreg =
SQreg
1
= 144
QMres =
SQres
n−2
= 5
A estatística para o teste
H0 : β1 = 0
H1 : β1 6=0
É a seguinte:
F0 =
QMreg
QMres
∼F(1,n−1)
F0 =
144
5
F0 = 28.8
Assim, o p-valor é dado por 2P(F0 < F(1,10))< 0.05, pois o valor crítico é dado por
6.936728. O que nos faz rejeitar a hipótese nula, ou seja, a regressão é significativa.
Montando a tabela, temos:
Tabela 2.4: ANOVA
Fonte de variação GL SQ QM F p-valor
Regressão 1 144 144 28.8 < 0.05
Resíduo 10 50 5
Total 11 194
d. Teste a hipótese de que o intercepto é nulo contra a hipótese de não nulidade con-
siderando um nível de significância de 5%.
H0 : β0 = 0
H1 : β0 6=0
44 Capítulo 2. Modelo de regressão linear simples
Sob H0 verdade, têm-se:
Calcular o valor da estatística associada a esse parâmetro:
t0 =
β̂0−β0√
QMres∑ni=1 X2i
nSxx
∼t(n−2)
= 1.54
Assim, o p-valor será 2P(t0 < t(10))> 0.05, pois o valor crítico para essa situação vale
2.223. Chegamos a conclusão de que podemos rejeitar a hipótese nula.
e. Faça o teste bilateral da hipótese nula de que o intercepto vale 3, considerando um
nível de significância de 5%.
H0 : β1 = 3
H1 : β1 6=3
Sob H0 verdade, têm-se:
Calcular o valor da estatística associada a esse parâmetro:
t0 =
β̂1−β1√
QMres
Sxx
∼t(n−2)
= −2.73
Assim, o p-valor será 2P(t0 < t(10))< 0.05, pois o valor crítico para essa situação vale
2.223. Chegamos a conclusão de que não podemos rejeitar a hipótese nula.
f. Determine a estimativa de Y para X = 5 e o intervalo de confiança para E[Y |X = 5],
ao nível de confiança de 95%.
Neste caso trata-se de um intervalo de confiança para a média de determinado valor X ,
então usamos:
I.C.[β0+β1x0] =
[
(Ŷi|x = x0)±t1− α2 (n−2)
√
QMres
[
1
n
+
(x0− x)2
Sxx
]]
=
[
12±2.223
√
144
[
1
12
+
(5−3)2
108
]]
= [5.623725;18.376275]
g. Determine um intervalo de previsão para [Y |X = 6], ao nível de confiança de 95%.
Neste caso trata-se de um intervalo de previsão para um determinado valor X , e não a
média, então usamos:
I.C.[β0+β1x0] =
[
(Ŷi|x = x0)±t1− α2 (n−2)
√
QMres
[
1+
1
n
+
(x0− x)2
Sxx
]]
=
[
12±2.223
√
144
[
1+
1
12
+
(6−3)2
108
]]
= [3.98014;24.01986]
•
13. (Exercício 2.37- Hoffmann) Considere o modelo Yi = βXi+ui com Xi fixos, E[ui] = 0, E[ui2] =
0 e E[uiu j] = 0 para i6= j. Sabe-se que os estimador de mínimos quadrados para β é b= ∑
n
i=1 XiYi
∑ni=1 Xi2
,
não-tendecioso, com V (b) = σ
2
∑ni=1 Xi2
. Um estimador alternativo para β β̂ = YX , que é a
inclinação da reta unindo a origem do sistema de eixos ao ponto Y , X .
2.16 Aplicações em dados reais 45
a. Prove que β̂ é um estimador linear não-tendecioso.
b =
X
Y
=
∑ni=1
Yi
n
∑ni=1
Xi
n
=
∑ni=1 (βXi+ui)
∑ni=1 Xi
= β + ∑
n
i=1 ui
∑ni=1 Xi
E[b] = β +E
[
∑ni=1 ui
∑ni=1 Xi
]
E[b] = β
b. Deduza a expressão que dá V (β̂ ) em função de σ2 e dos valores de X.
Denotando
(β̂ ) = E[β̂ −β ]2
Sabemos que no item a:
b−β = ∑
n
i=1 ui
∑ni=1 Xi
Substituindo
V (b) =
E[∑ni=1 ui]2
∑ni=1 Xi2
Sabemos também que
E
[
n
∑
i=1
ui
]2
= E[u12+u22+ ...+un2] = nσ2
Então
V (b) =
nσ2
∑ni=1 Xi2
•
2.16 Aplicações em dados reais
2.16.1 Adicionar
Análise descritiva
Análise inferencial
3. Modelo de regressão linear múltipla
Considere, para o prosseguimento desse capítulo, algumas mudanças nas notações.
Para o vetor da variável reposta, teremos Y ; representando a matriz de covariáveis Xi1,Xi2, ...,Xik,
tem-se X . Para o vetor de parâmetros do modelo de regressão linear múltipla, passaremos a usar
β , e para o vetor de erros (εi), usaremos ε . Para as esperanças e demais cálculos, usaremos sempre
vetores.
3.1 Modelo de regressão linear simples na forma matricial
De acordo com as notações definidas anteriormente, o modelo de regressão passa a ser
Y = Xβ + ε
Na qual o vetor Y, de ordem nx1, é dado por
Y =

Y1
Y2
Y3
...
Yn

A matriz X, de ordem nxp, sendo p = k+1 o número de parâmetros, é dada por
X =

1 X11 X12 · · · X1k
1 X21 X22 · · · X2k
1 X31 X32 · · · X3k
...
...
...
. . .
...
1 Xn1 Xn2 · · · Xik

3.2 Suposição do modelo de regressão linear múltipla 47
E, finalmente, a matriz de parâmetros, de ordem px1, e a matriz de erros, com ordem nx1, dadas por
β =

β1
β2
...
βk

ε =

ε1
ε2
...
εn

Em suma, o modelo de regressão linear múltipla é dado por
Y1
Y2
Y3
...
Yn
=

β0+β1X11+β2X12+ ...+βkX1k + ε1
β0+β1X21+β2X22+ ...+βkX2k + ε2
β0+β1X31+β2X32+ ...+βkX3k + ε3
...
β0+β1Xn1+β2Xn2+ ...+βkXnk + εn

3.2 Suposição do modelo de regressão linear múltipla
Passaremos então a escrever as suposições de outra forma, ou seja, sua distribuição será agora uma
distribuição n-variada:
εi∼Nn(0,σ2I)
Sendo 0 o vetor de ’zeros’ e I a matriz indentidade. A conclusão consequente dessa suposição para
os erros é:
E[Y] = E[Xβ + ε]
= Xβ +E[ε]
= Xβ
V[Y] = V[Xβ + ε]
= V[ε]
= σ2I
Então o vetor Y tem distribuição
Y∼Nn(Xβ ,σ2I)
3.3 Estimação dos parâmetros
Da mesma forma como na regressão linear simples, vamos estimar os parâmetros pelo Método dos
Mínimos Quadrados. No modelo antes estudado tínhamos que minimizar ∑ni=1 εi2, agora teremos
que minimizar tal valor na forma matricial, isto é
n
∑
i=1
εi = εT ε
48 Capítulo 3. Modelo de regressão linear múltipla
Como εi = (Y−Xβ ), então
εT ε = (εT ε)T (εT ε)
= YT Y−YT Xβ − (Xβ )T Y+(Xβ )T (Xβ )
= YT Y−YT Xβ −β T XT Y+β T XT Xβ
Mas
YT Xβ = β T XT Y
Então
εT ε = YT −2YT Xβ +β T XT Xβ
Essa simplificação nos ajuda na derivação em relação ao vetor de parâmetros, isto é
d(εT ε)
dβ
=
d
dβ
[YT −2YT Xβ +β T XT Xβ ]
Nessa derivação de matrizes, precisamos dos seguintes resultados
daT X
dX
= a
dXT aX
dX
= 2aX
Então, respectivamente, temos os valores
dYT Xβ
dβ
= (YT X)
= (XT Y)
dβ T XT Xβ
dβ
= (YT X)
= 2(XT X)β
Igualando a zero
−2XT Y+2(XT X)β̂ = 0
(XT X)β̂ = XT Y
(XT X)−1(XT X)β̂ = (XT X)−1XT Y
β̂ = (XT X)−1XT Y
3.4 Propriedade dos estimadores 49
Estimação usando EMV
Vamos agora estimar o vetor de parâmetros utilizando oEstimador de Máxima Verossimilhança.
Como
Y∼Nn(Xβ ,σ2I)
A função densidade da Normal Multivariada
Y∼Nn
(
µ,∑
)
É dada por
fY(y) =
1
(2pi)n/2|∑ |1/2 exp
[−1
2
(Y−µ)T∑−1(Y−µ)
]
.
Onde ∑ é o determinante da matriz de variâncias e covariâncias. A função de verossimilhança é,
então, dada por:
L(β ,σ2) =
1
(2pi)n/2(σ2)n/2
exp
[ −1
2σ2
(Y−Xβ )T (Y−Xβ )
]
Aplicando o logaritmo, temos:
l(β ,σ2) =−n
2
ln(2pi)− n
2
ln(σ2)− 1
2
(Y−Xβ )T (Y−Xβ )
Se derivarmos em relação ao vetor de parâmetros chegaremos a mesma expressão encontrada pelo
Método dos Mínimos Quadrados, isto é,
β = (XT X)−1XT Y
Porém, vamos utilizar a expressão do logaritmo acima para calcular a estimativa de σ2:
∂ l(β ,σ2)
∂σ
= − n
2σ2
+
(Y−Xβ )T (Y−Xβ )
2σ4
Igualando a zero:
− n
2σ2
+
(Y−Xβ )T (Y−Xβ )
2σ4
= 0
(Y−Xβ )T (Y−Xβ )
2σ4
=
n
2σ2
σ2 =
(Y−Xβ )T (Y−Xβ )
n
.
3.4 Propriedade dos estimadores
Vamos demonstrar agora que o vetor de parâmetros estimados anteriormente é não viciado para os
parâmetros. Vamos também calcular o vetor de variâncias.
E[β̂ ] = E[(XT X)−1XT Y]
= (XT X)−1XT E[Y]
= (XT X)−1XTβ
= β
50 Capítulo 3. Modelo de regressão linear múltipla
Para a variância, devemos saber um resultado simples
V[AY] = AV[Y]AT
Logo, as variâncias temos
V [β̂ ] = V[(XT X)−1XT Y]
= (XT X)−1XT V[Y][(XT X)−1XT ]T
= (XT X)−1XTσ2IX(XT X)−1
= σ2(XT X)−1XT X(XT X)−1
= σ2(XT X)−1
A matriz de variâncias e covariâncias fica
X =

1 X11 X12 · · · X1k
1 X21 X22 · · · X2k
1 X31 X32 · · · X3k
...
...
...
. . .
...
1 Xn1 Xn2 · · · Xik

3.5 Análise de Variância
Para o modelo
Yi = β0+β1Xi1+β2Xi2+ ...++βkXik + εi
Testaremos as seguintes hipóteses para avaliar a significância do modelo
H0:β1 = β2 = ...= βk = 0
H1:pelo menos um βi 6=0
Se pelo menos um parâmetro for significativo então o modelo faz sentido. A seguir mostraremos as
partes da análise de variância da forma como já estamos acostumados para depois mostrar a forma
matricial, dessas partes.
Parte I: Soma de quadrados total
SQtotal =
n
∑
i=1
(Yi−Y )2
=
n
∑
i=1
Yi2−nY 2
Mostrando cada parte matricialmente:
n
∑
i=1
Yi2 = Y TY
3.5 Análise de Variância 51
Bem como
Y =
1
n
1’Y
=
1
n
YT 1’
Y 2 =
1
n2
YT 1’1T Y
Então nY 2 é dado por
nY 2 =
n
n2
YT 11T Y
=
1
n
YT 11T Y
Assim
SQtotal = YT Y− 1nY
T 11T Y
= YT
[
−1
n
11T
]
Y
Parte II: Soma de quadrados dos resíduos
No método linear simples, tínhamos que desenvolver
SQres =
n
∑
i=1
(Yi− Ŷi)2
Porém no modelo linear múltiplo, temos que desevolver
SQres = (Y−Xβ̂ )T (Y−Xβ̂ )
Assim,
SQres = Y TY −Y T X β̂ − (X β̂ )TY +(X β̂ )T X β̂
= Y TY −2β̂ T XTY + β̂ T XT X β̂ .
βY
Sabendo que
β̂ = (XT X)−1XTY
Podemos substituir na expressão da soma de quadrados
SQres = Y TY −2[(XT X)−1XTY ]T XTY +[(XT X)−1XTY ]T XT X [(XT X)−1XTY ]
= Y TY −2Y T X(XT X)−1XTY +Y T X(XT X)−1XTY
= Y TY −Y T X(XT X)−1XTY
= Y T [I−X(XT X)−1XT ]Y
52 Capítulo 3. Modelo de regressão linear múltipla
Observação: a expressão acima encontramos a expressão da matriz H, muito utilizada nos conceitos
aprofundados de regressão.
H = X(XT X)−1XT
Parte III: Soma de quadrados de regressão
Como já calculamos duas partes da decomposição da soma de quadrados, faremos agora apenas a
subtração:
SQreg = SQtotal−SQres
Assim
SQreg = Y T
[
−1
n
11T
]
Y −Y T [I−H]Y
= Y TY − 1
n
Y T 11TY −Y TY +Y T HY
= Y T HY − 1
n
Y T 11TY
= Y T
[
H− 1
n
11T
]
3.6 Teste de hipóteses
Nos testes individuais dos parâmetros, estamos interessados em saber se determinado parâmetro é
igual a determinado valor, isto é, estamos interessados em testar as seguintes hipóteses:
H0 : β j = β j0
H1 : β j 6=β j0
Como todo teste, precisamos encontrar a quantidade pivotal. Como os β j0 são funções de variáveis
aleatórias com distribuição Normal, então podemos assumir que
β j0∼N(β j,var(β j))
Pois, como já demonstramos
E[β̂ ] = β
Tendo a distribuição, encontramos a quantidade pivotal
β j−β j0√
var(β̂ )
∼N(0,1)
Sabemos que a matriz de variâncias e covariâncias é dada por
V(β̂ ) =

v(β̂0) cov(β̂0, β̂1) cov(β̂0, β̂2) · · · cov(β̂0, β̂k)
cov(β̂0, β̂1) var(β̂1) cov(β̂1, β̂2) · · · cov(β̂1, β̂k)
cov(β̂0, β̂2) cov(β̂1, β̂2) var(β̂2) · · · cov(β̂2, β̂k)
...
...
...
. . .
...
cov(β̂0, β̂k) cov(β̂1, β̂k) cov(β̂2, β̂k) · · · var(β̂k)

3.7 Coeficiente de determinação múltipla 53
Mas se estamos trabalhando com matrizes, como extrair a variância individual do parâmetro?
Simples, usaremos o seguinte artificio
V (β ) = σ2C j j
Sendo C j j o elemento de ordem j+1 da diagonal da matriz (XT X)−1 Com isso, podemos chegar em
β j−β j0√
σ2C j j
∼N(0,1)
Como não temos conhecimento sobre a variância, utilizamos o Teorema de Cochram
SQres
σ2
∼χ2
Para conseguirmos, finalmente, a quantidade pivotal para o teste
β j−β j0√
QMresC j j
∼t(n− p)
Assim, para um nível de significância α , rejeita-se H0 se
• Teste bilateral
|t0|> t1− α2 (n− p)
• Teste unilateral
t0 < tα(n− p)
t0 < tα(n− p)
3.7 Coeficiente de determinação múltipla
Definido da mesma forma que no modelo simples, ou seja,
R2 =
SQreg
SQres
O valor alto do coeficiente de determinação, a medida que aumentamos o número de variáveis, não
significa que tais variáveis são signifitativas para o modelo, e sim porque o modelo está ’inchado’.
Por esse motivo, usamos o coeficiente de determinação ajustado:
R2 = 1−
SQres
n−p
SQtotal
n−1
3.8 Intervalo de confiança
No modelo de regressão linear simples, o intervalo de confiança para o valor esperado era calculado
por meio de um dado valor X0 e então encontrava-se esperança e variância do valor esperado. Agora,
faremos o mesmo, porém em liguagem matricial. Ao invés de estar disponível o valor de X0, agora
teremos o vetor abaixo, já que temos um modelo múltiplo:
X0 =
[
1 X01 X02 · · · X0k
]T
54 Capítulo 3. Modelo de regressão linear múltipla
Então para obter o valor esperado da expressão E[Y |X0] = β̂0+ β̂1X01+ β̂2X02+ ...+ β̂kX0k na forma
de matriz, basta fazermos:
COLOCARR
Ou seja,
Ê[Y |X0] = X0T β̂
Para a construção do intervalo de confiança precisamos da esperança e da variância dessa estimativa:
E[X0T β̂ ] = X0T E[β ]
= X0Tβ
V [X0T β̂ ] = X0TV (β̂ )X0
= X0T (XT X)−1σ2X0
Dessa forma a quantidade pivotal fica:
Ê[Y |X0]−E[Y |X0]√
X0T (XT X)−1σ2X0
∼N(0,1)
Utilzando novamente o Teorema de Cochran e dividindo pela qui quidrado, chegamos em:
Ê[Y |X0]−E[Y |X0]√
QMresX0T (XT X)−1X0
∼t(n− p)
Assim, o intervalo fica definido como
I.C.[E[Y |X0]] =
[
X0T β̂ ± t1− α2 (n− p)
√
QMresX0T (XT X)−1X0
]
3.9 Intervalo de previsão
Diferentemente do Intervalo de Confiança, tal intervalo representa um valor de Y que não está
presente na amostra, por isso denota-se Y0|X0. Para encontrarmos um intervalo para essa quantidade
devemos utilizar o seguinte artifício:
D = Ŷ0|X0−Y0|X0
Então, seguiremos os passos da construção de tal intervalo, ou seja, calcularemos a esperança e a
variância de D.
E[D] = E[Ŷ0|X0−Y0|X0]
= E[XT0 β̂ − (XT0 β + εi)]
= E[XT0 β̂ ]−E[XT0 β ]−E[εi]
= XT0 β −XT0 β
= 0
V [D] = V [Ŷ0|X0−Y0|X0]
= V [Ŷ0|X0]+V [Y0|X0]−2Cov[Y0|X0,Y0|X0]
= V [XT0 β̂ ]+V [X
T
0 β + εi]−0
= V [XT0 β̂ ]+σ
2
= σ2[1+XT0 (X
T X)−1X0]
3.10 Técnicas de diagnóstico 55
A quantidade pivotal fica, portanto
Ŷ0|X0−Y0|X0−E[Ŷ0|X0−Y0|X0]√
Var[Ŷ0|X0−Y0|X0−E[Ŷ0|X0−Y0|X0]]
∼ N(0,1)
Ŷ0|X0−Y0|X0−0√
σ2[1+XT0 (XT X)−1X0]
∼ N(0,1)
Ŷ0|X0−Y0|X0√
σ2[1+XT0 (XT X)−1X0]
∼ N(0,1)
Como devemos estimar a variância, utilizaremos o Teorema de Cochran para substituir σ2, ou seja,
ficaremos com
Ŷ0|X0−Y0|X0√
QMres[1+XT0 (XT X)−1X0]
∼N(0,1)E o intervalo é dado por:
I.C.[Y0|X0] =
[
XT0 β̂±t1− α2 (n− p)
√
QMres(1+XT0 (XT X)−1X0)
]
3.10 Técnicas de diagnóstico
No modelo clássico, as suposições são adotadas sobre a fonte de variação e a ela associa-se
normalidade, homocedasticidade e independência. Após o ajuste do modelo é necessário verificar
se essas suposições estão sendo obedecidas ou não (avaliação do ajuste), bem como verificar
a existência de pontos remotos (outliers), pontos influentes e/ou pontos de alavanca (análise de
sensibilidade).
3.10.1 Avaliação do ajuste
Nos modelos clássicos, a avaliação do ajuste utiliza a análise de resíduos para validar determinadas
suposições, tais como:
i. Homocedasticidade;
ii. Normalidade;
iii. Independência dos erros;
iv. Existência de pontos discrepantes.
Considerando o modelo clássico
y = Xβ + ε,
com ε ∼Nn(0,σ2I), cujo estimador de β é dado por β̂ = (X>X−1X>y), então temos que ŷ =
Xβ̂ = X(X>X−1X>y) = Hy (a matriz H é chamada de matriz hat ou matriz chapéu). A partir
disso, podemos definir três tipos de resíduos: ordinário, estudentizado internamente e estudentizado
externamente.
O resíduo ordinário é definido por
ε = y− ŷ = (I−H)y = (I−H)ε,
56 Capítulo 3. Modelo de regressão linear múltipla
logo, ε̂ ∼N (0,σ2(I−H)), ou seja, enquanto a fonte de variação é suposta independente e com
mesma variância, os resíduos do ajuste, no entanto, apresentam variâncias diferentes, pois sua
distribuição depende de σ2 e da matriz H. Assim, considerar εi = ε̂i pode não ser adequado devido a
essa heterogeneidade.
Uma alternativa a isto, é construir resíduos que não dependam dessa quantidade, pois assim
podemos realizar comparações entre os mesmos. Se σ2 for conhecido, podemos padronizar o resíduo
ordinário dividindo-o pelo seu desvio padrão,
√
σ2(1−hii)em que hii denota o i-ésimo elemento da
diagonal principal de H). Dessa forma, a distribuição dos resíduos padronizados não depende mais
da variância. Se σ2 for desconhecido, dividimos por
√
s2(1−hii), e chamamos essa quantidade de
resíduo estudentizado internamente:
ε̂∗ =
ε̂i√
s2(1−hii)
=
ε̂i√
QMres(1−hii)
, i = 1,2, ...,n.
Os resíduos estudentizados internamente resolvem o problema das variâncias distintas, porém
um valor discrepante pode alterar profundamente a variância residual. Além disso, tem-se o fato de
que o numerador e o denominador do resíduo são variáveis dependentes (Demétrio, 2002).
Para garantir essa independência, define-se o resíduos estudentizados externamente:
ε̂
e
=
ε̂i√
s2(i)(1−hii)
,
sendo s(i) o quadrado médio do resíduo com a ausência da i-ésima observação.
3.10.2 Análise de sensibilidade
Análise sensibilidade refere-se ao estudo do comportamento do modelo ajustado quando o
mesmo sofre algumas perturbações. O objetivo, portanto, é investigar pontos atípicos, sendo estes
denominados de pontos remotos (outliers), pontos de alavanca e pontos influentes.
Os pontos remotos são observações que não se ajustam bem ao modelo e são detectadas por um
afastamento com relação a Y . Esse ponto pode ser de alavanca ou influente.
Os pontos de alavanca não afetam o ajuste, são observações extremas de X, a matriz de
covariáveis do modelo. A detecção desses pontos é feita observado a diagonal principal da matriz H,
assim, se hii = 1, então ŷ = y, ou seja, a i-ésima observação tem influência total no seu valor predito.
O critério de alta alavancagem é dado pelo fato de que ∑ni=1 hii = p, p o número de covariáveis
do modelo. Assim, a alavancagem média é dada por
∑ni=1 hii
n
que é o mesmo que
p
n
. O critério
estabelecido para um ponto ter alta alavancagem é se hii =
2p
n
.
Os pontos influentes, ao contrário dos de alavanca, afetam o ajuste do modelo, pois indicam
afastamento com relação a X e a y. Este ponto pode ou não ser um ponto remoto e pode ou não ser
um ponto de alavanca. Cook (1977) sugere que a influência de determinada observação é identificada
quando o modelo é ajustado com a sua ausência do conjunto de dados. Para a detecção desse ponto
utiliza-se a distância de Cook e é uma análise de influência global.
3.10.3 Técnicas gráficas
Algumas técnicas gráficas para análise de diagnóstico são:
3.11 Exercícios 57
i. Gráfico dos resíduos versus a ordem de coleta dos dados: avaliar a hipótese de independência
dos dados.
ii. Gráfico dos resíduos versus valores ajustados: verifica a homoscedasticidade do modelo
(espera-se um comportamento aleatório dos resíduos em torno no zero) e linearidade do
modelo (espera-se que não apresente tendência);
Além disso, temos:
i. Gráfico dos resíduos estudentizados versus valores ajustados: verifica se existem outliers em
Y;
ii. Gráfico dos resíduos padronizados versus valores ajustados: verifica se existem outliers em Y;
iii. Gráfico de alavancagem (Diagonal da Matriz H - leverage): verifica se existem outliers em X;
iv. Gráfico dos resíduos estudentizados ordenados (observados) versus quantis da normal padrão
(teóricos): verifica normalidade (recomenda-se utilizar envelope simulado).
Para a análise formal dos resíduos, podemos realizar os seguintes testes:
i. Testes de Normalidade para os resíduos;
ii. Teste de Durbin-Watson para testar independência dos resíduos;
iii. Teste de Breusch-Pagan e Goldfeld-Quandt para testar se os resíduos são homoscedásticos;
iv. Teste de falta de ajuste para verificar se o modelo ajustado é realmente linear.
3.11 Exercícios
Considere (yi,x>i ) os valores observados, através de um processo de amostragem bem definido,
para um indivíduo em estudo, em que i = 1,2, ...,n e x>i = (x1,x2, ...,xn). Nosso objetivo inicial é
especificar completamente um modelo que leve em consideração a relação entre as variável resposta
Y e as variáveis explicativas X . Considerando essa estrutura, desenvolva as afirmativas abaixo.
a. Especifique um modelo inicial.
Solução
Yi = β0+β1X1+ ...+βkXk + εi.
•
b. Especifique o modelo na forma matricial.
Solução
Y = Xβ + ε
Na qual o vetor Y, de ordem nx1, é dado por
Y =

Y1
Y2
Y3
...
Yn

A matriz X, de ordem nxp, sendo p = k+1 o número de parâmetros, é dada por
58 Capítulo 3. Modelo de regressão linear múltipla
X =

1 X11 X12 · · · X1k
1 X21 X22 · · · X2k
1 X31 X32 · · · X3k
...
...
...
. . .
...
1 Xn1 Xn2 · · · Xik

E, finalmente, a matriz de parâmetros, de ordem px1, e a matriz de erros, com ordem nx1,
dadas por
β =

β1
β2
...
βk

ε =

ε1
ε2
...
εn

Em suma, o modelo de regressão linear múltipla é dado por
Y1
Y2
Y3
...
Yn
=

β0+β1X11+β2X12+ ...+βkX1k + ε1
β0+β1X21+β2X22+ ...+βkX2k + ε2
β0+β1X31+β2X32+ ...+βkX3k + ε3
...
β0+β1Xn1+β2Xn2+ ...+βkXnk + εn

•
c. Proponha alguns métodos de estimação dos parâmetros de interesse.
Solução
Método dos Mínimos Quadrados e Método de Máxima Verossimilhança.
•
d. Obtenha o estimador pelo Método dos Mínimos Quadrados.
Solução
No modelo linear simples, precisamos minimizar ∑ni=1 εi2, mas vamos considerar a forma
matricial para que possamos ter um generalização.
n
∑
i=1
εi = εT ε
Como εi = (Y−Xβ ), então
εT ε = (εT ε)T (εT ε)
= YT Y−YT Xβ − (Xβ )T Y+(Xβ )T (Xβ )
= YT Y−YT Xβ −β T XT Y+β T XT Xβ
3.11 Exercícios 59
Mas
YT Xβ = β T XT Y
Então
εT ε = YT −2YT Xβ +β T XT Xβ
Essa simplificação nos ajuda na derivação em relação ao vetor de parâmetros, isto é
d(εT ε)
dβ
=
d
dβ
[YT −2YT Xβ +β T XT Xβ ]
Nessa derivação de matrizes, precisamos dos seguintes resultados
daT X
dX
= a
dXT aX
dX
= 2aX
Então, respectivamente, temos os valores
dYT Xβ
dβ
= (YT X)
= (XT Y)
dβ T XT Xβ
dβ
= (YT X)
= 2(XT X)β
Igualando a zero
−2XT Y+2(XT X)β̂ = 0
(XT X)β̂ = XT Y
(XT X)−1(XT X)β̂ = (XT X)−1XT Y
β̂ = (XT X)−1XT Y
•
e. Verifique se os estimadoresMMQ são não viesados e calcule o viés.
Solução
Considere:
E[β̂ ] = E[(XT X)−1XT Y]
= (XT X)−1XT E[Y]
= (XT X)−1XTβ
= β
Para o cálculo da variância dos estimadores devemos saber um resultado simples:
60 Capítulo 3. Modelo de regressão linear múltipla
V[AY] = AV[Y]AT
Logo,
V [β̂ ] = V[(XT X)−1XT Y]
= (XT X)−1XT V[Y][(XT X)−1XT ]T
= (XT X)−1XTσ2IX(XT X)−1
= σ2(XT X)−1XT X(XT X)−1
= σ2(XT X)−1.
•
f. Considere uma distribuição adequada para a fonte de erro e obtenha os estimadores via Método
de Máxima Verossimilhança (MMV).
Solução
Vamos agora estimar o vetor de parâmetros utilizando o Estimador de Máxima Verossimilhança.
Como
Y∼Nn(Xβ ,σ2I)
A função densidade da Normal Multivariada
Y∼Nn
(
µ,∑
)
É dada por
fY(y) =
1
(2pi)n/2|∑ |1/2 exp
[−1
2
(Y−µ)T∑−1(Y−µ)
]
.
Onde ∑ é o determinante da matriz de variâncias e covariâncias. A função de verossimilhança
é, então, dada por:
L(β ,σ2) =
1
(2pi)n/2(σ2)n/2
exp
[ −1
2σ2
(Y−Xβ )T (Y−Xβ )
]
Aplicando o logaritmo, temos:
l(β ,σ2) =−n
2
ln(2pi)− n
2
ln(σ2)− 1
2
(Y−Xβ )T (Y−Xβ )
Se derivarmos em relação ao vetor de parâmetros chegaremos a mesma expressão encontrada
pelo Método dos Mínimos Quadrados, isto é,
β = (XT X)−1XT Y
Vamos utilizar a expressão do logaritmo acima para calcular também a estimativa de σ2:
∂ l(β ,σ2)
∂σ
= − n
2σ2
+
(Y−Xβ )T (Y−Xβ )
2σ4
3.11 Exercícios 61
Igualando a zero:
− n
2σ2
+
(Y−Xβ )T (Y−Xβ )
2σ4
= 0
(Y−Xβ )T (Y−Xβ )
2σ4
=
n
2σ2
σ2 =
(Y−Xβ )T (Y−Xβ )
n
.
•
g. Apresente a distribuição dos estimadores dos coeficientes obtidos pelo MMV.
Solução
β̂∼N(β ,Var(β ))
•
h. Apresente algum teste de significância para os coeficientes do modelo.
Solução
Nos testes individuais dos parâmetros, estamos interessados em saber se determinado pa-
râmetro é igual a determinado valor, isto é, estamos interessados em testar as seguintes
hipóteses:
H0 : β j = β j0
H1 : β j 6=β j0
Como todo teste, precisamos encontrar a quantidade pivotal. Como os β j0 são funções de
variáveis aleatórias com distribuição Normal, então podemos assumir que
β j0∼N(β j,var(β j))
Pois, como já demonstramos
E[β̂ ] = β
Tendo a distribuição, encontramos a quantidade pivotal necessária para o teste:
β j−β j0√
var(β̂ )
∼N(0,1)
•
l. Quais são as suposições do modelo de regressão linear?
Solução
O modelo tem como premissa 4 suposições principais:
i. Independência: Os erros são independentes entre si, não devem ser correlacionados.
ii. Identicamente distribuídos: Os erros são i.d., ou seja, identicamente distribuídos com
distribuição N(0,σ2).
iii. Linearidade: O modelo supõe que X e Y possuem uma relação linear.
iv. Homocedasticidade: A variabilidade dos erros é constante.
•
62 Capítulo 3. Modelo de regressão linear múltipla
m. O que devemos fazer após o ajuste do modelo?
Solução
Análise de diagnóstico com o objetivo de verificar as premissas assumidas ao iniciar as
análises.
•
n. Por que devemos fazer a análise de diagnóstico em modelos estatísticos?
Solução
Para verificar as premissas assumidas ao iniciar as análises dos dados.
•
o. Apresente alguns tipos de resíduos que podem ser utilizados na análise de diagnósticos.
Solução
i. Resíduo padronizado
Definido por
rı =
ei√
QME(1−hıı)
, i = 1,2, . . . ,n,
com σˆ2 =QME e hii o i-ésimo elemento da matriz matriz chapéu (hat), H =X(X ′X)−1X ′.
ii. Resíduo studentizado
Definido por
ti =
Yi− Yˆi(i)
σˆ
√
1+ x′i(X
′
(i)X(i))
−1xi
.
•
p. Quais são as violações de suposição que podem ser verificadas através dos resíduos?
Solução
i. Não linearidade de X e Y;
ii. Não normalidade dos erros;
iii. Heterocedasticidade;
iv. Correlação entre os erros;
v. Presença de valores extremos ou outlier;
vi. Modelo mal especificado.
•
q. Especifique um modelo supondo k = 3 e que foi verificada, graficamente, uma relação quadrá-
tica entre yi e xi2
Solução
Podemos expressar o seguinte modelo polinomial:
Yi = β0+β1xi1+β2x2i2+β3xi3+ εi, i = 1,2, ...,n.
•
3.11 Exercícios 63
r. Qual transformação deve ser realizada quando verificamos na análise de resíduos que a
variância cresce quando a variável resposta cresce?
Solução
Considerando X1, ...,Xn os dados originais, a transformação de Box-Cox consiste em encontrar
um λ tal que:
Yi(λ ) =

ln(Xi), se λ = 0,
Xλi −1
λ
, se λ 6= 0,
Precisamos então, encontrar uma estimativa para o parâmetro de transformação λ . Uma das
formas de estimar λ é utilizando o método de máxima verossimelhança.
Assumimos que Yi(λ ), i= 1, ...,n é uma função monotona tal que Yi(λ )∼N(µ,σ2) para algum
λ fixo. Portanto, a função de máxima verissimilhança de Yi(λ ) em relação às observações
originais Yi é obtida multiplicando a função de máxima verossimilhança pelo Jacobiano da
transformação, temos então:
L
(
Yi(λ ),µ,σ2
)
=
1
(2pi)n/2σn
exp
{
−∑ni=1 (Yi(λ )−µ)2
2σ2
}
J(λ ,Y )
em que
J(λ ,Y ) =
n
∏
i=1
∣∣∣∣∂Yi(λ )∂Yi
∣∣∣∣= n∏
i=1
Y λ−1i
Desta forma, temos que para um λ fixo, os estimadores σˆ2(λ ) e µˆ(λ ) são dados por:
µˆ(λ ) = Y¯ (λ ) = ∑
n
i=1Yi(λ )
n
σˆ2(λ ) = ∑
n
i=1(Yi(λ )− Y¯ (λ ))2
n
Em seguida, substituímos os valores de µ e σ2 pelos estimadores de máxima verossimelhança
encontrados acima, µˆ(λ ) e σˆ2(λ ), respectivamente, na função de máxima verossimilhança.
Desta forma, obtemos o logaritimo da função de máxima verossimilhança dependendo somente
de λ
`(λ ) = log
[
L(λ |Yi, µˆ, σˆ2)
]
=−npi
2
− 1
2
log σˆ2(λ )+(1−λ ) log(Yi)
Precisamos então, enncontrar λ que maximiza `(λ ). Uma forma que encontramos na literatura
para facilitar a estimativa de λ utilizar a forma normalizada da transformação, Zi(λ ), para que
desta forma termos J(λ ,Z) = 1. Considere a seguinte função:
Zi(λ ) =
Yi(λ )
[J(λ ,Y )]1/n
Desta forma, o logaritmo da função de máxima verossimilhança fica
`(λ ) = log
[
L(λ |Zi, µˆ, σˆ2)
]
=−npi
2
− 1
2
log σˆ2(Z,λ )
64 Capítulo 3. Modelo de regressão linear múltipla
onde
σˆ2(Z,λ ) = ∑
n
i=1(Zi(λ )− Z¯(λ ))2
n
Portanto, maximizar `(λ ) é equivalente a encontrar o mínimo de σˆ2(Z,λ ) em relação a λ .
Box e Cox (1964) afirmam que após a transformação adequada das observações Y para Y (λ )
os valores esperados das observações transformadas estarão normalmente distribuidos com
variância constante.
•
s. Especifique um modelo linear heterocedástico e obtenha os estimadores através do Método
dos Mínimos Quadrados Generalizados.
Solução
Em muitos casos, ao analisarmos os resíduos de um modelo de regressão linear, ao visua-
lizarmos que estes não apresentam a característica de variância constante, temos uma das
suposições do modelo não atendidas. Quando isso acontece, dizemos que o modelo apresenta
heterocedasticidade nos erros (resíduos), ou ainda que o modelo é heterocedástico. Alguns
efeitos causados por essa falha na suposição do modelo são:
Os erros padrões dos estimadores, obtidos pelo Método dos Mínimos Quadrados Ordinários,
são incorretos e portanto a inferência estatística não é valida. Não podemos mais dizer que
os Estimadores de Mínimos Quadrados Ordinários são os melhores estimadores de variância
mínima para β , embora ainda possam ser não viciados.
Por que usar pesos?
Suponhamos que a variância seja não constante, isto é,
Var(Yi) = σ2i , para i = 1, . . . ,n.
tomamos, por exemplo, pesos de forma que
wi ∝
1
σ2i
, i = 1, . . . ,n.
Com isso, as estimativas de Mínimos Quadrados Ponderados (MQP) tem erros padrão menores
do que as estimativas de Mínimos Quadrados Ordinários (MQO). Como dito anteriormente, as
estimativas de MQO são incorretos, em relação as estimativas de MQP.
A avaliação da hipótese de homoscedasticidade dos resíduos, é feita através das estatísticas de
Cochran, Brown-Forsyte (Levene), Breusch-Pagan