Logo Passei Direto
Buscar
Material
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

MODELOS DE 
REGRESSÃO 
Teoria com exercícios resolvidos e propostos 
Inclui códigos do software R
Vinícius Silva Osterne Ribeiro
MATERIAL DE AUTORIA DE VINÍCIUS OSTERNE
Disponível em www.osterne.com
Sumário
I CONCEITOS INICIAIS
————————————————————————————– 8
1 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1 Motivação do estudo 10
1.2 Modelo para uma população 10
1.2.1 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Modelo para duas populações 11
1.3.1 Inferência, resíduos e ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Modelo para mais de duas populações 12
1.4.1 Inferência, resíduos e ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Teste de igualdade de médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Comparação de médias 12
II MODELOS CLÁSSICOS
————————————————————————————– 13
2 Modelo de regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1 Introdução 15
2.2 Suposição do Modelo de Regressão Linear 16
2.3 Estimação dos parâmetros 16
2.4 Propriedade dos estimadores 17
2.5 Análise de variância 18
2.6 Coeficiente de determinação 21
2.7 Esperança da soma de quadrados 22
2.8 Teste de hipóteses para os parâmetros 25
2.9 Intervalos de confiança 26
2.9.1 Para β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.9.2 Para β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.10 Estimação e previsão em um x = x0 específico 27
2.11 Diagnóstico 28
2.12 Modelos linearizados 29
2.13 Transformações de variáveis 30
2.13.1 Transformação de Box-Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.14 Modelo de regressão linear simples passando pela origem 30
2.14.1 Estimação do parâmetro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.14.2 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.14.3 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.14.4 Coeficiente determinação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.15 Exercícios 33
2.16 Aplicações em dados reais 45
2.16.1 Adicionar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3 Modelo de regressão linear múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1 Modelo de regressão linear simples na forma matricial 46
3.2 Suposição do modelo de regressão linear múltipla 47
3.3 Estimação dos parâmetros 47
3.4 Propriedade dos estimadores 49
3.5 Análise de Variância 50
3.6 Teste de hipóteses 52
3.7 Coeficiente de determinação múltipla 53
3.8 Intervalo de confiança 53
3.9 Intervalo de previsão 54
3.10 Técnicas de diagnóstico 55
3.10.1 Avaliação do ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.10.2 Análise de sensibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.10.3 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.11 Exercícios 57
3.12 Aplicações em dados reais 70
3.12.1 Venda de imóveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4 Modelo linear multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
III MODELOS LINEARES GENERALIZADOS
————————————————————————————– 76
5 Modelos Lineares Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.1 Introdução 78
5.2 Família exponencial 78
5.3 Funções de ligação e ligações canônicas 79
5.4 Função escore e informação de Fisher no processo de estimação 81
5.5 Teste de hipóteses 84
5.5.1 Função desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5.2 Teste da razão de verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5.3 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.5.4 Teste de escore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.5.5 Teste de F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6 Técnicas de diagnóstico em MLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.1 Introdução 86
6.2 Análise de resíduos 86
6.3 Análise de sensibilidade 87
7 Modelos para dados binários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.1 Modelo de Regressão Binomial - MRB 88
8 Modelos para dados de contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.1 Modelo de Regressão Poisson - MRPois 89
8.2 Modelos de Regressão Binomial Negativa - MRBN 89
8.3 Aplicações em dados reais 89
8.3.1 Infecção de ouvido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9 Modelos para dados positivos assimétricos . . . . . . . . . . . . . . . . . . . . . 98
9.1 Resposta com distribuição gama 98
9.2 Resposta com distribuição normal inversa 98
10 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.1 Introdução 99
10.2 O modelo 99
10.3 Estimação dos parâmetros 100
10.4 Interpretação dos parâmetros 100
10.5 Adequação do modelo 101
10.6 Aplicações em dados reais 101
10.6.1 Tempo de estoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.6.2 Risco de inadimplência (utilizando o software SAS) . . . . . . . . . . . . . . . . . 101
10.6.3 Câncer de próstata (utilizando o software SAS) . . . . . . . . . . . . . . . . . . . . 104
IV EXTENSÕES I
————————————————————————————– 107
11 Quase-verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
11.1 Introdução 109
11.2 Modelo quasi-binomial 110
11.3 Modelo quasi-Poisson 110
12 Equações de Estimação Generalizadas . . . . . . . . . . . . . . . . . . . . . . . 111
12.1 Introdução 111
13 Modelos de probabilidade composta . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.1 Introdução 112
13.2 Modelo Poisson-gama 112
13.3 Modelo Beta-binomial 112
13.4 Modelo Beta-binomial 112
13.5 Modelo Logístico-Normal 112
14 Modelos inflacionados de zeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
14.1 Introdução 113
15 Modelos mistos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
15.1 Introdução 114
15.2 Modelo Linear Misto 114
15.2.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
7
15.3 Modelo Linear Misto Generalizado 114
16 Modelos Marginais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
16.1 Introdução 115
16.2 Modelo Linear Multivariado (marginal) 115
V EXTENSÕES II
————————————————————————————– 116
17 Modelos Aditivos Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
17.1 Introdução 118
18 Modelo de Regressão Beta e suas extensões . . . . . . . . . . . . . . . . . . 119
18.1 Modelo de Regressão Beta 119
18.2 Modelo de Regressão Beta Retangular123
19 Propensity Score Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
19.1 Para que serve? 128
20 Medidas repetidas - Bilirrubina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
20.1 Introdução 130
20.2 Análise descritiva 131
20.2.1 Análise inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
20.2.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Parte I
CONCEITOS INICIAIS
—————————————————
———————————–
1. Análise de Variância
1.1 Motivação do estudo
O diretor de uma instituição solicitou a ajuda de um estatístico para investigar a relação entre a
nota final do aluno no semestre com as variáveis sede, turma e rendimento (do mesmo aluno) no
semestre anterior. Para isso, foi extraída uma amostra de tamanho 20 desses alunos, conforme é
apresentada na tabela a seguir:
Tabela 1.1: Dados coletados sobre os alunos do estudo.
Aluno Nota final Sede Turma Rendimento anterior
001 8,9 A 1 5,7
002 9,4 A 1 9,1
003 5,7 A 1 6,8
...
...
...
...
...
020 4,9 B 5 6,7
Partindo da estrutura de modelo mais básico, vamos apresentar as diferentes metodologias de
análise que podem ser utilizadas para este exemplo motivador.
Durante o texto, utilizaremos o termo variável resposta para a variável notal final e variáveis
explicativas (ou covariáveis) para as variáveis sede, turma e rendimento do aluno.
1.2 Modelo para uma população
Inicialmente, vamos admitir que nenhuma das covariáveis apresentadas tenham influência na
variável reposta. Desta forma, o modelo proposto pode ser apresentado na forma:
yi = θ + εi, (1.1)
no qual yi é a nota do i-ésimo aluno, θ é o efeito fixo, comum a todas as observações e εi é o
chamado erro ou resíduo. Esse último é um efeito não controlado e resultante da soma de todas
1.3 Modelo para duas populações 11
as características que poderiam influir na nota do aluno (que não estão explícitas no modelo). Em
termos matemáticos, esse fator pode ser escrito como:
εi = f (sede, turma, rendimento)
.
Algumas condições devem ser impostas ao modelo, para que sua interpretação seja melhor feita.
A mais importante delas referem-se aos resíduos, cuja suposição é
E(ε) = 0 e Var(ε) = σ2e . (1.2)
A partir dessa suposição, teremos uma ideia do comportamento das notas dos alunos, pois
E(yi) = θ e Var(yi) = σ2e . (1.3)
O objetivo agora é estimar os parâmetros θ e σ2e , em função da amostra obtida. Vale ressaltar
que o modelo proposto é para todos os indivíduos, não apenas para a amostra.
Utilizando o método dos Mínimos Quadrados, o melhor valor de θ será o que produzir os
menores resíduos para as 20 observações. Esse estimador é
θ̂ = y (1.4)
e o melhor estimador para a variância é
σ̂e =
∑ni=1(yi− y)2
n−1 (1.5)
1.2.1 Inferência
Colocar.
1.3 Modelo para duas populações
Agora, vamos assumir que a turma a qual o aluno está, pode influenciar na nota final do mesmo
(neste caso usamos o termo ’duas populações’, pois a escola apresenta duas sedes). Isso equivale,
portanto, a retirar o efeito turma do erro residual, ou seja, espera-se uma queda no erro, caso a turma
seja significativa (exista diferença estatisticamente significativa) para o modelo. A estrutura a ser
considerada agora é dada por
yi j = θi+ εi j, (1.6)
no qual, para i= 1,2 e j = 1, ...,20, yi j é a nota do j-ésimo aluno da sede i, θi é o efeito fixo, comum
a todas as observações do grupo i e εi j é o chamado erro aleatório do j-ésimo aluno da sede i. Neste
caso, ele se reduz a
εi = f (sede, rendimento)
.
1.3.1 Inferência, resíduos e ANOVA
Colocar.
12 Capítulo 1. Análise de Variância
1.4 Modelo para mais de duas populações
De forma análoga ao modelo para duas populações, vamos considerar agora que somente a
covariável turma influencia na nota final do aluno (o modelo é para mais de duas populações, pois a
escola apresenta cinco turmas). Para isso, define-se a seguinte estrutura:
yi j = θi+ εi j, (1.7)
no qual, para i = 1,2,3,4,5 e j = 1,2,3,4, yi j é a nota do j-ésimo aluno da turma i, θi é o efeito
fixo, comum a todas as observações do grupo i e εi j é o chamado erro aleatório do j-ésimo aluno da
turma i. Neste caso, ele se reduz a
εi = f (turma, rendimento)
.
1.4.1 Inferência, resíduos e ANOVA
Colocar.
1.4.2 Teste de igualdade de médias
A estatística F é utilizada para testar H0 : θ1 = θ2 = ...= θk, contra a alternativa de que pelo menos
uma das igualdades não se verifica.
1.5 Comparação de médias
A análise de variância é apenas um passo inicial para comparação de médias entre grupos. Entretanto,
esse teste verifica somente se há diferença entre alguma das igualdades, não informando outras
possibilidades que existem. Considerando que no teste aplicado rejeita-se a hipótese nula, por
exemplo, de que H0;θ1 = θ2 = θ3. Sabe-se que há diferença, porém o pesquisador pode estar
interessado em saber se:
θ1 = θ2 6= θ3 ou θ1 6= θ2 = θ3 ou θ2 = θ1 6= θ3 ou θ2 6= θ1 6= θ3
Uma alternativa é utilizar os intervalos de Bonferroni.
Parte II
MODELOS CLÁSSICOS
—————————————————
———————————–
2. Modelo de regressão linear simples
2.1 Introdução
Em muitos campos científicos, ou até mesmo em situações do cotidiano, temos interesse em investigar
se duas ou mais variáveis estão inerentemente relacionadas (mesmo que não exista relação de causa-
efeito, podemos investigar quaisquer relacionamento entre variáveis). Um engenheiro, por exemplo,
pode estar interessado em saber se a temperatura de um material apresenta alguma relação com
sua resistência; por sua vez, um médico pode precisar saber se o tempo de vida de um paciente é
diretamente influenciado pelo seu tipo de alimentação; ou um comerciante, que deseja estudar se em
dias de chuva suas vendas são afetadas.
Em todos esses cenários, podemos aplicar uma das técnicas mais comuns e importantes em
análise de dados: a Análise de regressão. Ela estabelece um modelo que possa descrever a relação
entre as variáveis de estudo. Nesse modelo, temos a variável aleatória Y, chamada de variável
resposta, e a variável observável X, chamada de variável explicativa, explanatória ou covariável. Em
alguns textos encontramos descrições de variável dependente para Y e variável independente para X,
porém essa terminologia é confusa, visto que a utilização de "independência", neste caso, é diferente
dos casos em probabilidade e inferência, pelo simples fato dos X′s não serem necessariamente
variáveis aleatórias, logo não podem ser estatisticamente independentes.
Na regressão linear simples há uma forte indicação de que os pontos referentes ao par (X,Y)
repousam aleatoriamente dispersos em torno de uma linha reta. Consequentemente, é provável
considerar que a média da variável Y esteja relacionada a X pela seguinte relação linear:
E[Y |x] = β0+β1x (2.1)
É importante lembrar ao leitor que essa esperança é uma suposição de que a regressão de Y
em X é linear, pelo simples fato de não existir nenhuma teoria subjacente para apoiar a relação de
linearidade. Porém, trata-se de uma aproximação razoável, uma vez que a relação linear é muito
conveniente para se trabalhar. Assim, para sermos bem formais, devemos escrever:
E[Y |x]≈ β0+β1x
16 Capítulo 2. Modelo de regressão linear simples
Entretanto, se começarmos a partir da suposição de que o par (Xi,Yi) tem uma distribuição
normal bivariada, imediatamente segue que a regressão de Y em X é linear.
Voltando a ideia central do estudo, é notável que, pela reta acima, o valor de y não "cai"exatamente
na linha da reta estimada, logo o valor de Y é determinado pela função do valor médio (termo
determinístico) mais um termode erro aleatório (parte aleatória):
Y = β0+β1x+ εi (2.2)
2.2 Suposição do Modelo de Regressão Linear
Devemos fazer a suposição de que os erros seguem uma Normal com média 0 e variância fixa σ2, ou
seja:
εi∼N(0,σ2)
Consequentemente,
Yi|xi = β0+β1x+ εi
E[Yi|xi] = E[β0+β1x+ εi]
= β0+β1x+E[εi]
= β0+β1x+0
= β0+β1x
Da mesma forma,
Yi|xi = β0+β1x+ εi
V [Yi|xi] = V [β0+β1x+ εi]
= V [εi]
= σ2
Logo,
Yi|xi∼N(β0+β1x,σ2)
2.3 Estimação dos parâmetros
Para encontrarmos a reta que miniminiza as distâncias entre o valor real, Yi, e o valor estimado,
Ŷi, devemos minimizar o somatório dos quadrados dos erros. Nessa derivação iremos encontrar
os pontos que satisfazem tal objetivo e, consequentemente, serão estes nossas estimativas para
os parâmetros. Existem vários métodos para encontrar tais estimadores, porém iremos usar o
Método dos Mínimos Quadrados. Para a estimação pelo Método de Máxima Verossimilhança temos
resultados idênticos.
O objetivo, portanto, é:
εi = Yi− (β0+β1xi)
ε2i = [Yi− (β0+β1xi)]2
n
∑
i=1
ε2i =
n
∑
i=1
[Yi− (β0+β1xi)]2
2.4 Propriedade dos estimadores 17
Considerando
E =
n
∑
i=1
ε2i
Logo,
∂E
∂β0
=
n
∑
i=1
2 [Yi− (β0+β1xi)] (−1)
∂E
∂β1
=
n
∑
i=1
2 [Yi− (β0+β1xi)] (−xi)
β̂0 = Y − β̂1X (2.3)
β̂1 =
∑ni=1 XiYi−nYY
∑ni=1 Xi2−nX2
(2.4)
Para simplificar a escrita de β̂1, usaremos:
β̂1 =
Sxy
Sxx
Estimados os valores, encontramos então a reta estimada:
Ŷi = β̂0+ β̂1xi
2.4 Propriedade dos estimadores
Vamos avaliar agora a validade (saber se o estimador é ou não viciado) e a precisão (variabilidade)
dos estimadores dos parâmetros:
E[β̂1] = β1
V [β̂1] =
σ2
Sxx
Prova:
E[β̂1] =
Sxy
Sxx
= E
[
∑ni=1 (Xi−X)Yi
Sxx
]
=
∑ni=1 (Xi−X)E[Yi]
Sxx
=
∑ni=1 (Xi−X)(β0+β1Xi)
Sxx
=
β0∑ni=1 (Xi−X)+β1∑ni=1 (Xi−X)Xi
Sxx
=
β1∑ni=1 (Xi−X)Xi
Sxx
= β1
18 Capítulo 2. Modelo de regressão linear simples
A variância de β1 segue o mesmo raciocínio. Pode-se, portanto, mostrar também que:
E[β̂0] = β0
V [β̂0] = σ2
[
1
n
+
x2
Sxx
]
Vista as demonstrações acima, seria interessante avaliar a relação existente entre β̂0 e β̂1, para
isso calculemos a covariância entre tais estimadores, porém precisaremos de um Lema e um resultado
para obter tal resultado, observe abaixo.
Lema 2.4.1 Sejam Y1,Y2, ...,Yn variáveis aleatórias não correlacionadas com V [Yi] = σ2 para todo
i = 1,2, ...,n. Suponhamos que c1,c2, ...,cn e d1,d2, ...,dn sejam dois conjuntos de constantes. Então
Cov
[
n
∑
i=1
ciYi,
n
∑
i=1
diYi
]
=Cov
[
n
∑
i=1
cidi
]
V [Yi]
Resultado
O que será demonstrado/calculado agora será muito útil para alguns outros resultados.
Cov(Y , β̂1) = Cov(
n
∑
i=1
Yi
n
,
n
∑
i=1
(Xi−X)Yi
Sxx
)
= Cov(
n
∑
i=1
1
n
(Xi−X)
Sxx
)V [Yi]
= 0
Portanto, a relação existente é:
Cov(β̂0, β̂1) = Cov(Y − β̂1X , β̂1)
= Cov(Y , β̂1)−Cov(β̂1X , β̂1)
= 0−XV [β̂1]
= −xσ
2
Sxx
A medida que aumentamos o valor da inclinação da reta de regressão, diminuimos o "corte"na
reta Y, pois a covariância entre as estimativas é negativa.
2.5 Análise de variância
A principal medida para quantificar o quão bom é um modelo estimado para os dados é a sua
variância. Entretanto, usar o somente o termo variância como sendo a principal medida não é o
ideal em modelos de regressão linear, visto que vamos trabalhar aqui com o particionamento da
variabilidade, ou seja, tal análise desmente seu próprio nome, pois não está preocupada em analisar
variâncias, mas sim, a variabilidade das médias ou, simplesmente, a significância do modelo de
regressão. Então, caro leitor, parece razoável, para iniciarmos o estudo, comparar os valores de
Yi com a média da variável resposta, pois essas distâncias nos informarão se a reta de regressão é
significativa ou não para os dados. Assim, se não houver efeito de regressão o comportamento dos
dados pode ser explicado pelo própria reta da média, ou seja, Y .
2.5 Análise de variância 19
Em suma, para análise de variância, iremos comparar Yi com Y , ou seja, iremos particionar o
seguinte somatório:
n
∑
i=1
(Yi−Y )2
n
∑
i=1
(Yi−Y )2 =
n
∑
i=1
(Yi− (Ŷi− Ŷi)−Y )2
=
n
∑
i=1
(Yi− Ŷi+ Ŷi−Y )2
=
n
∑
i=1
(Yi− Ŷi)2+
n
∑
i=1
(Yi−Y )2+2
n
∑
i=1
(Yi− Ŷi)(Yi−Y )
Mas a terceira parcela da soma é o mesmo que:
n
∑
i=1
(Yi− Ŷi)(Yi−Y ) =
n
∑
i=1
(Yi− Ŷi)Yi−
n
∑
i=1
(Yi− Ŷi)Y
Calculando cada parte, temos:
n
∑
i=1
(Yi− Ŷi)Y = Y
[
n
∑
i=1
(Yi− (β̂0+ β̂1xi))
]
= Y
[
n
∑
i=1
Yi−
n
∑
i=1
β̂0+ β̂1xi
]
= Y
[
n
∑
i=1
Yi−nβ̂0+ β̂1
n
∑
i=1
xi
]
= Y
[
n
∑
i=1
Yi−nβ̂0+nβ̂1X
]
= Y
[
n
∑
i=1
Yi−n(Y + β̂1X)+nβ̂1X
]
= Y
[
n
∑
i=1
Yi−nY −nβ̂1X +nβ̂1X
]
= 0
n
∑
i=1
(Yi− Ŷi)Ŷi =
n
∑
i=1
(YiŶ1− Ŷi2)
=
n
∑
i=1
[
Yi(β̂0+ β̂1xi)− (β̂0+ β̂1xi)2
]
= 0
20 Capítulo 2. Modelo de regressão linear simples
Portanto:
n
∑
i=1
(Yi−Y )2 =
n
∑
i=1
(Yi− Ŷi)2+
n
∑
i=1
(Ŷi−Y )2 (2.5)
Em palavras, tal resultado é:
• SQtotal = ∑ni=1(Yi−Y )2
• SQres = ∑ni=1(Yi− Ŷi)2
• SQreg = ∑ni=1(Ŷi−Y )2
Para a construção do teste de hipóteses que compõe a análise de variância, precisaremos de um
teorema que nos informa um resultado muito importante.
Teorema 2.5.1 — Cochram. Se todas as n observações Y1,Y2, ...,Yn, independentes, vêm da mesma
distribuição normal com média µ e variância σ2 e a soma de quadrados total é decomposta em k
somas de quadrados SQk, cada uma com seus respectivos graus de liberdade, então
SQk
σ2
são variáveis aleatórias com distribuição quiquadrado, independentes, com glk graus de liberdade se
n
∑
k=1
glk = gltotal
Sabe-se que
• SQtotal = ∑ni=1(Yi−Y )2→(n−1)g.l.
• SQres = ∑ni=1(Yi− Ŷi)2→(n−2)g.l.
• SQreg = ∑ni=1(Ŷi−Y )2→1g.l.
Então
gltotal = glreg+glres
(n−1) = 1+(n−2)
Resultado que satisfaz a primeira condição do teorema. Para satisfazer a segunda, devemos
supor, sob alguma condição, que os Y ′i s são independentes. Para isso considere a hipótese
H0 : β1 = 0
Se H0 for verdadeira, então
Yi = β0+ εi
Consequentemente
E[Yi] = β0
V [Yi] = σ2
Nos levando a afirmar que
Yi∼N(β0,σ2) (2.6)
2.6 Coeficiente de determinação 21
Dessa forma, as condições do Teorema de Cochram, sob H0 verdadeira, são satisfeitas e assim,
podemos dizer que:
SQreg
σ2
∼ χ2(1)
SQres
σ2
∼ χ2(n−2)
Mostrado tudo isso, podemos enfim chegar na última parte da análise de variância, o teste F. Pelo
Teorema de Cochran, podemos saber a distribuição de:
SQreg
σ2
∼ χ2(1)
SQres
σ2
∼ χ2(n−2)
Consequentemente, sob H0 verdade, a divisão de de duas quantidade com distrbuição quiqua-
drado com 1 e n-2 graus de liberdade, respectivamente, tem distribuição F(1,n-2):
SQreg
σ2
1
SQreg
σ2
n−2
=
SQreg
1
SQres
n−2
=
QMreg
QMres
∼ F(1,n−2) (2.7)
Toda a teoria acima foi desenvolvida para testar a hipótese nula antes definida, isto é, rejeitaremos
H0 se
P(F(1,n−2)≥F0)< α
Em que α é o nível de significância adotado no teste.
Estamos fazendo todas as suposições acima sob H0 verdade, pois queremos saber se é vantajosa a
adoção do modelo linear, ou seja, é observar a redução do resíduo. Se tal redução for muito pequena,
os dois modelos serão praticamente equivalentes, e isso ocorre quando a inclinação é zero ou muito
pequena, não compensando usar um modelo mais complexo.
Em resumo, caro leitor, temos a seguinte sucessão de ideias: realmente a soma de quadrados
pode ser decomposta (soma de quadrados de resíduos com a soma de quadrados de regressão).
Como os Y ′i s são independentes, sob a hipótese nula de β1 = 0 ser verdade, então, pelo teorema de
Cochran, podemos definirque SQregσ2 e
SQres
σ2 , tem distribuição quiquadrado com 1 e n−2 graus de
liberdade, respectivamente. E, dividindo tais valores, chegamos na estatística F que justamente vai
nos informar a veracidade da hipótese nula ser rejeitada ou não. Para sermos mais direto, rejeitar a
hipótese nula, isto é, há coeficiente angular, nesse caso, é dizer que a regressão é significativa, até
porque sem este parâmetro haveria apenas uma reta constante em β0. Portanto, a relação linear entre
X e Y será significativa se rejeitarmos H0.
A tabela ANOVA (Análise de Variância) é constituída pelas seguintes quantidades:
2.6 Coeficiente de determinação
Tal coeficiente nos informa o quão a variabilidade total é explicada pelo modelo, quanto mais
próximo de 1, melhor é o percentual. A medida é denotada por R2 e é delimitada no intervalo [0,1],
22 Capítulo 2. Modelo de regressão linear simples
Tabela 2.1: ANOVA
Fonte de variação GL SQ QM F0
Regressão 1 ∑ni=1(Ŷi−Y )2 SQreg1
QMreg
QMres
Resíduo n-2 ∑ni=1(Yi− Ŷi)2 SQresn−2
Total n-1 ∑ni=1(Yi−Y )2
sendo definida por:
R2 =
SQreg
SQres
(2.8)
O coeficiente de determinação ajustado pelos graus de liberdade é definido por:
R2a just = 1−
SQreg
n−2
SQres
n−1
(2.9)
2.7 Esperança da soma de quadrados
Para a SQreg faremos, primeiramente, um pequeno cálculo para simplificar os passos para essa soma
de quadrados.
SQreg =
n
∑
i=1
(Ŷi−Y )2
Mas sabemos que:
Ŷi = β̂0+ β̂1Xi
Ŷi = Y − β̂1X + β̂1Xi
Ŷi−Y = = β1(Xi−X)
Substituindo,
SQreg =
n
∑
i=1
(Ŷi−Y )2
=
n
∑
i=1
β1(Xi−X)2
= β12Sxx (2.10)
2.7 Esperança da soma de quadrados 23
Feito isso, podemos calcular sua esperança.
SQreg = β̂ 21 Sxx
E[SQreg] = E[β̂ 21 Sxx]
= SxxE[β̂ 21 ]
= Sxx[V (β̂1)+E2(β̂1))]
= Sxx
[
σ2
Sxx
+β 2
]
= σ2+ β̂ 21 Sxx (2.11)
Como
QMreg =
SQreg
1
Então
SQreg = QMreg
E[QMreg] = σ2+ β̂ 21 Sxx (2.12)
Também podemos calcular a esperança para SQres:
SQres =
n
∑
i=1
[Yi− Ŷi]2
Utilizando o teorema de Cochram, podemos deduzir que:
SQres
σ2
∼ χ2(n−2)
E
[
SQres
σ2
]
= n−2
E
[
SQres
n−2
]
= σ2
E[QMres] = σ2 (2.13)
Portanto, QMres é um estimador não viciado para σ2. Porém, o que calculamos acima não foi
uma desmonstração plausível. Sem o auxílio do teorema, devemos fazer:
QMres =
SQres
n−2
E[QMres] = E
[
SQres
n−2
]
E[QMres] =
E[SQres]
n−2
Para descobrir E[SQres], deve-se seguir o raciocínio:
24 Capítulo 2. Modelo de regressão linear simples
SQtotal = SQres+SQreg
SQres = SQtotal−SQreg
E[SQres] = E[SQtotal]−E[SQreg]
Devemos encontrar E[SQtotal] para chegarmos na E[SQres], pois já calculamos E[SQreg].
SQtotal =
n
∑
i=1
Y 2i −nY 2
E[SQtotal] = E
[
n
∑
i=1
Y 2i −nY 2
]
= E
[
n
∑
i=1
Y 2i
]
−E
[
nY 2
]
=
n
∑
i=1
E[Y 2i ]−nE[Y 2]
=
n
∑
i=1
[
V [Yi]+E2[Yi]
]−n[V [Y ]+E2[Y ]]
=
n
∑
i=1
[
σ2+(β0+β1xi)2
]−[σ2
n
+(β0+β1X)2
]
= (n−1)σ2+β12
[
n
∑
i=1
X2i −nX
]
E assim:
E[SQres] = E[SQtotal]−E[SQreg]
= (n−1)σ2+β12
[
n
∑
i=1
X2i −nX
]
−σ2−β12Sxx
= (n−2)σ2 (2.14)
Como já citamos, QMres é um estimador não viciado para a variância:
E[QMres] =
E[SQres]
n−2
= σ2
Podemos agora substituir tal estimativa para encontrar mais alguns resultados importantes como,
2.8 Teste de hipóteses para os parâmetros 25
por exemplo, o erros padrões abaixo:
V [β̂1] =
σ2
Sxx
V̂ [β1] =
σ̂2
Sxx
=
QMres
Sxx
V [β̂0] =
σ2∑ni=1 Xi2
nSxx
V̂ [β̂0] =
σ̂2∑ni=1 Xi2
nSxx
=
QMres∑ni=1 Xi2
nSxx
2.8 Teste de hipóteses para os parâmetros
Sabemos que
β̂0∼N
(
β0,
σ2∑ni=1 Xi2
nSxx
)
Considerando H0 : β0 = β ∗0 verdade:
β̂0∼N
(
β0∗,
σ2∑ni=1 Xi2
nSxx
)
Então:
β̂0−β0∗√
σ2∑ni=1 Xi2
nSxx
∼N(0,1) (2.15)
Como não conhecemos σ2, vamos recorrer a
β̂0−β0∗√
σ2∑ni=1 Xi
2
nSxx√
SQres
σ2
n−2
∼ t(n−2)
β̂0−β0∗√
QMres∑ni=1 X2i
nSxx
∼ t(n−2) (2.16)
E, portanto, rejeitaremos H0 se
P[t(n−2)≤|t0|]+P[t(n−2)≥|t0|]≤α
Para β1 temos o mesmo raciocínio. Sabemos que
β̂1∼N
(
β1,
σ2
Sxx
)
26 Capítulo 2. Modelo de regressão linear simples
Considerando H0 : β1 = β ∗1 verdade:
β̂1∼N
(
β ∗1 ,
σ2
Sxx
)
Logo
β̂1−β1∗√
σ2
Sxx
∼N(0,1)
Utilizando novamente o artificio:
β1−β1∗
σ2
Sxx√
SQres
σ2
n−2
∼ t(n−2)
β̂1−β1∗√
QMresSxx
∼ t(n−2) (2.17)
E, portanto, rejeitaremos H0 se
P[t(n−2)≤|t0|]+P[t(n−2)≥|t0|]≤α
2.9 Intervalos de confiança
Para estabelermos um intervalo de confiança com (1−α)% de confiança, devemos ter uma quanti-
dade pivotal e uma distribuição, que não depende do parâmetro, para esta quantidade pivotal.
2.9.1 Para β0
Sabemos que a quantidade pivotal para esse caso é:
β̂0−β0√
QMres
∑ni=1 X2i
nSxx
∼t(n−2)
Logo
I.C.1−α [β0] =
β̂0±t(1− α2 )(n−2)
√
QMres
∑ni=1 X2i
nSxx
 (2.18)
2.9.2 Para β1
Sabemos que a quantidade pivotal para esse caso é:
β̂0−β0√
QMres
Sxx
∼t(n−2)
Logo
I.C.1−α [β1] =
β̂1±t(1− α2 )(n−2)
√√
QMres
Sxx
 (2.19)
2.10 Estimação e previsão em um x = x0 específico 27
2.10 Estimação e previsão em um x = x0 específico
Digamos que x0 seja um valor específico da variável preditora. Primeiro, considere estimar a média
da população Y associada com x0. Depois faremos isso para a variãncia, partindo, em ambos os
casos, de:
Ŷi = β̂0+ β̂1x0
(Ŷi|x = x0) = β̂0+ β̂1x0
E[Ŷi|x = x0] = E[β̂0+ β̂1x0]
= E[β̂0]+ x0E[β̂1
= β0+β1x0
V [Ŷi|x = x0] = V [β̂0+ β̂1x0]
= V [y− β̂1x+ β̂1x0]
= V [y+ β̂1(x0− x)
= V [y]+V [β̂1(x0− x)]+2cov(y, β̂1(x0− x))
= V [y]+ (x0− x)2V [β̂1]+2(x0− x)cov(y, β̂1)
=
σ2
n
+(x0− x)2 σ
2
Sxx
= σ2
[
1
n
+
(x0− x)2
Sxx
]
Então
Ŷi|x = x0∼N
(
β0+β1x0,σ2
[
1
n
+
(x0− x)2
Sxx
])
I.C.[β0+β1x0] =
[
(Ŷi|x = x0)±t1− α2 (n−2)
√
QMres
[
1
n
+
(x0− x)2
Sxx
]]
(2.20)
O comprimento do intervalo é mais curto se x0 estiver mais próximo de x e minimizado em
x0 = x.
Um tipo de inferência a qual não falamos até agora é a previsão de uma variável aleatória, que
até o presente não for observada, Y , um tipo de inderência que é de interesse em uma regressão.
Assim,
28 Capítulo 2. Modelo de regressão linear simples
E[Ŷ0−Y0] = E[Ŷ0]−E[Y0]
= E[β̂0+ β̂1x0]−E[β0+β1x0+ ei]
= β0+β1x0−β0−β1x0
= 0
Para a variância devemos saber que cov(Y 0,Y0) é zero, pois como Y0 não pertence ao conjunto
de observações Y1,Y2, ...,Yn utilizadas para estimar os parâmetros, então Y 0 e Y0, por suposição, são
independentes, ou seja, zero.
V [Ŷ0−Y0] = V [Ŷ0]+V [Y0]−2cov(Ŷ0,Y0)
= σ2
[
1
n
+
(x0− x̂)2
Sxx
]
+σ2
= σ2
[
1+
1
n
+
(x0− x)2
Sxx
]
Então
Ŷ0−Y0∼
[
0,σ2
[
1+
1
n
+
(x0− x)2
Sxx
]]
I.C.(1−α)[Ŷ0−Y0] = t(1− α2 )(n−2)±
√
QMres
[
1+
1
n
+
(x0− x)2
Sxx
]
(2.21)
2.11 Diagnóstico
Ajustar um modelo requer várias suposições. A estimação dos parâmetros do modelo requer a
suposição de que os erros sejam variáveis aleatórias não correlacionadas com média zero e variância
constante. Testes de hipóteses e estimação do intervalo requerem que os erros sejam normalmente
distribuídos. Assim, consideramos que a ordem do modelo esteja correta. Porém, o estatístico deve
sempre duvidar da validade dessas suposições e conduzir análises para examinar a adequação do
modelo que esta testando. A principal análise para isso é o estudo dos resíduos. Os resíduos, como
sabemos, são definidos por
ei = yi− ŷi
Vamos então aos passos para investigação:
I. Investigação de homocedasticidade - Variância constante
Graficamente (eixXi), se a variância não é constante, teremos comportamentos em que a variância
aumenta com o aumento de x; variância diminui com o aumento dex ou variância aumenta e depois
diminui com o aumento de x.
2.12 Modelos linearizados 29
II. Investigação de normalidade dos dados
Para investigar a suposição de normalidade devemos comparar os quantis teóricos com os quantis
observados. Para isso, devemos ordenar os resíduos de forma crescente e plotar o gráfico que deverá
ser uma reta:
e(i) x Φ−1
(
i−1/2
n
)
Os testes existentes são o de Sapiro-Wilk e Kolmogorov-Smirnof. Em ambos, a hipótese nula é
de normalidade dos dados.
III. Adquacidade dos modelos
Às vezes, observando apenas o gráfico de dispersão, não é possível percebermos que o modelo de
regressão linear é adequado. Para melhorar esta forma de comparação, faz-se os gráficos de:
Xi x ei
Ŷi x ei
Se a dispersão tiver formato de curva ou qualquer outra forma que não se assemelha a uma reta,
então o modelo não está adequado. Na seção sobre o uso do R no estudo de regressão, comentaremos
mais sobre resíduos e sobre alguns gráficos importante para essa análise.
2.12 Modelos linearizados
Quando aplicamos análise de regressão ao estudo da relação funcional entre duas variáveis, o
problema da especificação consiste em determinar a forma matemática da função que será ajustada.
Mostraremos agora que existem modelos não-lineares que se transformam em funções lineares
por anamorfose, isto é, por substituição dos valores de uma ou mais variáveis por funções destas
variáveis. Veja um exemplo:
Para o modelo abaixo podemos apenas aplicar o logaritmo para termos funções lineares:
Yi = β0xiβ1ei
ln(Yi) = ln(β0xiβ1ei)
ln(Yi) = ln(β0)+β1ln(xi)+ ln(ei)
Assim:
Y ∗i = ln(Yi)
X∗i = ln(Xi)
Obs: Se aplicarmos a exponencial no parãmetro, teremos o verdadeiro valor da estimativa, porém
esse estimador não tem as mesmas propriedades já ditas até aqui.
•
30 Capítulo 2. Modelo de regressão linear simples
2.13 Transformações de variáveis
Realizamos uma transformação na variável com o objetivo de estabilizar a variância e deixar os
dados com comportamento normal, ou seja, estaremos adequando o modelo de modo a ficar com
homocedasticidade e normalidade quanto aos resíduos. Veja os casos abaixos:
• Quando a variável resposta se refere a contagem (distribuição de Poisson, por exemplo, em
que a esperança é proporcional a variância) usaremos a transformação:
Y ∗ =
√
Y
• Quando os dados da variável resposta refere-se a proporção usaremos:
Y ∗ = arcsen
√
Y
• Em outros casos usaremos:
Y ∗ = lnY
2.13.1 Transformação de Box-Cox
A proposta para essa transformação é encontrar o valor de uma constate λ para usarmos em:
Y ∗ = Y λ
Usando o método de máxima verossimilhança para encontrar tal valor, obtém-se:{
Y λ−1
λY λ−1 ,λ 6=0
Y ∗lnY ,λ=0
Sendo
Y ∗ = ln−1
[
1
n∑ni=1 lnYi
]
De maneira geral, utiliza-se {
Y λ ,λ 6=0
lnY ,λ=0
Em programas estatísticos, especificamente o R, o comando para fornecer o valor de λ nos
diponibiliza o gráfico de sua função de verossimilhança nos informando o intervalo de confiança
para tal constante. Desse modo, se o zero pertence ao intervalo, usamos o logaritmo dos dados, mas
caso não esteja, usamos os dados elevado ao valor de λ .
2.14 Modelo de regressão linear simples passando pela origem
Yi = β1xi+ ei (2.22)
Usamos esse modelo quando não rejeitamos a hipótese nula H0 : β0 = 0 para o modelo
Yi = β0+β1xi+ ei
Atente-se que não usamos esse modelo pelo motivo de termos um par (0,0) nos dados. Nos só
utilizamos quando a hipótese não for rejeitada.
2.14 Modelo de regressão linear simples passando pela origem 31
2.14.1 Estimação do parâmetro
n
∑
i=1
ei2 =
n
∑
i=1
(Yi−β1xi)2
n
∑
i=1
ei2 = E
∂E
∂β1
=
n
∑
i=1
2((Yi−β1xi))(xi)(−1)
Igualando a zero:
n
∑
i=1
(Yi−β1xi)(xi) = 0
n
∑
i=1
xiyi− β̂1
n
∑
i=1
xi2 = 0
β̂1 =
∑ni=1 xiyi
∑ni=1 xi2
(2.23)
2.14.2 Propriedades dos estimadores
β̂1 =
∑ni=1 xiyi
∑ni=1 xi2
E[β̂1] = E
[
∑ni=1 xiyi
∑ni=1 xi2
]
=
1
∑ni=1 xi2
n
∑
i=1
xiE[Yi]
=
1
∑ni=1 xi2
n
∑
i=1
xi(β1xi)
=
1
∑ni=1 xi2
β1
n
∑
i=1
xi2
= β1
V [β̂1] = V
[
∑ni=1 xiyi
∑ni=1 xi2
]
=
1
∑ni=1 xi4
n
∑
i=1
xi2V [Yi]
=
σ2
∑ni=1 xi2
2.14.3 Análise de Variância
Até agora tivemos o mesmo raciocínio em comparação com ao modelo Yi = β0+β1xi+ ei. Porém, a
análise de variância para este modelo tem raciocínio diferente. O leitor já deve saber que no modelo
com intercepto utilizamos o valor da amostra, Yi, em comparação com a média amostral, Y . Isso
32 Capítulo 2. Modelo de regressão linear simples
ocorre, porque se o modelo não for ideal aos dados, todos os pontos estarão na reta Y , dessa forma, a
soma de quadrados total se refere a soma de todos os pontos da amostra com a média com o intuito
de análisar a significância da regressão. Como neste modelo não têm-se o intercepto, a soma de
quadrados total será a distância dos pontos amostrais em relação ao eixo das abcissas, ou seja, neste
modelo teremos:
SQtotal =
n
∑
i=1
(Yi−0)2
=
n
∑
i=1
Yi2
Desenvolvendo:
SQtotal =
n
∑
i=1
Y 2i
=
n
∑
i=1
[(Yi− Ŷi)+ Ŷi]2
=
n
∑
i=1
(Yi− Ŷi)2+
n
∑
i=1
Ŷi
2
+2
n
∑
i=1
(Ŷi+ Ŷi)Ŷi
=
n
∑
i=1
(Yi− Ŷi)2+
n
∑
i=1
Ŷi
2
SQtotal = SQres+SQreg
Em que, para este caso
• SQtotal tem n graus de liberdade
• SQres tem (n−1) graus de liberdade
• SQreg tem 1 grau de liberdade
As condições do teorema de Cochran foram atendidas, então:
SQreg
σ2
∼ χ2(1)
SQres
σ2
∼ χ2(n−1)
Portanto, para o teste de significância do teste, teremos uma distribuição F(1,n− 1). Observe a
tabela:
Tabela 2.2: ANOVA
Fonte de variação GL SQ QM F
Regressão 1 ∑ni=1 Ŷi
2 SQreg
1
QMreg
QMres
Resíduo n−1 ∑ni=1(Yi− Ŷi)2 SQresn−1
Total n−1 ∑ni=1Y 2i
2.15 Exercícios 33
2.14.4 Coeficiente determinação
Neste caso não calculamos R2 para os dois casos e comparamos. Ao invés disso, comparamos o valor
do quadrado médio do resíduo do modelo com intercepto com o modelo sem intercepto. Aquele que
tiver menor valor é o modelo que esxplica melhor a variablidade dos dados.
2.15 Exercícios
1. Mostre que σ̂2 é um estimador viciado para σ2, sendo sua esperança dada por E[σ̂2] = (n−2)σ
2
n .
Sabemos que, pelo Método de Máxima Verossimilhança, o estimador de σ2 é
σ̂2 = ∑
n
i=1 [Yi− (β̂0+ β̂1xi)]
n
Mas podemos rescrevê-lo usando
SQres =
n
∑
i=1
[Yi− Ŷi]2
=
n
∑
i=1
[Yi− (β̂0+ β̂1xi)]2
Portanto
σ̂2 =
SQres
n
Porém, utilizando o Teorema de Cochran, podemos afirmar que
SQres
σ2
∼χ2(n−2)
Então
E
[
SQres
σ2
]
= n−2
E [SQres] = (n−2)σ2
Consequentemente
E
[
σ̂2
]
= E
[
SQres
n
]
=
(n−2)σ2
n
•
2. Mostre que quando β0 está no modelo, a reta de regressão passa pelas médias amostrais de X
e Y .
A reta estimada é dada por
Ŷi = β̂0+ β̂1xi
Na qual, pelo Método dos Mínimos Quadrados, a estimativa para β0 é dada por
β̂0 = Y − β̂1X
34 Capítulo 2. Modelo de regressão linear simples
Substituindo, chegamos em
Ŷi = Y + β̂1(xi−X)
Que é nada mais que a equação da reta que passa pelos pontos X ,Y cujo coeficiete angular é
β̂1 E, portanto, a reta estimada passará por Y , pois é seu coeficiente linear e por X , pois é seu
coeficiente angular.
•
3. Mostre que se o coeficiente de determinação é zero, então a melhor previsão para um estimador,
é a sua média.
Ora,
R2 =
SQreg
SQtotal
Então, se R2 é igual a zero, é porque
SQreg = 0
Desenvolvendo, temos
SQreg = 0
n
∑
i=1
(Ŷi−Y )2 = 0
Ŷi = Y
A previsão para o estimador é a sua média.
•
4. (Exercício 2.1- Hoffmann) É dada uma amostra de 10 pares de valores: X=(-2, -2, -1, -1, 0, 0,
1, 1, 2, 2)
Y=(0, 0, 2, 3, 4, 4, 5, 6, 8, 8)
Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi = β0+β1xi+εi, onde os εi são variáveis aleatórias independentes com distribuição normal de média zero e
variância 2.
a. Determine as estimativas dos parâmetros da regressão linear.
Para isso, precisaremos dos seguintes valores:
10
∑
i=1
xi = 0
10
∑
i=1
yi = 40
10
∑
i=1
xiyi = 38
10
∑
i=1
xi2 = 20
2.15 Exercícios 35
Agora, substituindo nas estimativas, temos:
β̂1 =
∑10i=1 xiyi−nxy
∑10i=1 xi2−nx2
β̂1 =
38−10∗0∗4
20−10∗0
β̂1 = 1.9
β̂0 = y− β̂x
β̂0 = 4−1.9∗0
β̂0 = 4
b. Teste H0 : β = 0 ao nível de significância de 5%.
De início devemos fazer a suposição de que os erros são normal e idependentemente
distribuídos com média zero e variância σ2.
As hipóteses a serem testadas são:
H0 : β = 0
H0 : β 6=0
Com a seguite estatística seguindo uma distribuição t com n-2 graus de liberdade:
T =
β̂1−0√
σ2/Sxx
Sabendo que
σ̂2 =
SQE
n−2
σ̂2 =
SQT − β̂1Sxy
n−2
SQT =
10
∑
i=1
yi2−
(
∑10i=1 yi
)2
10
SQT = 154
Sxy = 38
Sxx = 20
σ̂2 =
154−1.9∗38
10−2
σ̂2 = 10.225
Logo,
T =
β̂1−0√
σ2/Sxx
T =
1.9√
10.225/20
T = 2.657278
36 Capítulo 2. Modelo de regressão linear simples
E, portanto, encontrando o p-valor no R:
> 1-pt(2.657278, 8, lower.tail = TRUE, log.p = FALSE)
[1] 0.01446367
Podemos rejeitar a hipótese nula.
c. Calcule o coeficiente de determinação.
Para calcular o coeficiente de determinação, usaremos:
r2 =
b(∑ni=1 xy)
∑ni=1 y2
r2 = 0.308547
d. Determine a estimativa de Y para X = 3.
A estimativa para X = 3 é 9.7.
•
5. (Exercício 2.3- Hoffmann)Demonstre que numa regressao linear simples o valor de F da
análise de variância da regressão é igual ao quadrado do valor de t(b), relativo à hipótese da
nulidade β = 0 (onde β é o coeficiente de regressão).
Sabemos que
SQRes =
n
∑
i=1
ê2
SQReg = b
n
∑
i=1
xy
Se2 =
SQRes
n−2
Logo, para testarmos a hipótese nula β = 0 usamos a estatística
t(b) =
b
Se
√
n
∑
i=1
(xi− x)2
Se elevarmos ao quadrado,chegamos em
[t(b)]2 =
[
b
Se
√
n
∑
i=1
(xi− x)2
]2
[t(b)]2 =
SQReg
Se2
Que é a estatística F que aparece na tabela ANOVA.
•
6. (Exercício 2.5- Hoffmann) É dada uma amostra de 5 pares de valores. Admite-se que as
variáveis X e Y estão relacionadas de acordo com o modelo Yi = α+βXi +ui, onde ui são
variáveis aleatórias independentes com distribuição normal de média zero e variância σ2 .
a. Determine as estimativas dos parâmetros da regressão linear.
β̂ = ∑
n
i=1 xy
∑ni=1 x2
= 2.461538
α̂ = y− β̂x = 5
2.15 Exercícios 37
X Y
1 3
2 7.5
3 7
4 11.5
5 11
b. Calcule o coeficiente de determinação e faça a análise de variância da regressão.
O coeficiente de determinação é dado por:
r2 =
S.Q.Reg
S.Q.Total
SQReg = b
n
∑
i=1
xy
SQTotal =
n
∑
i=1
y2
r2 = 0.1566265
Tabela 2.3: Análise da variãncia
Graus de Soma dos Média dos Valor F p-valor
liberdade quadrados quadrados
x 1 64.793 64.793 1.7459e+32 < 0.05
Residuals 3 0 0
c. Teste ao nível de significância de 0.5%, a hipótese:
H0 : β = 0
H1 : β 6=0
Usando a estatística:
t(b) =
b−β
s(b)
t(b) =
2.5454−0√
q.m.res
∑ni=0 xi2
t(b) =
2.5454−0√
q.m.res
∑ni=0 xi2
t(b) = 3.000366
Considerando o nível de significância de 0.5% e a distribuição assumindo 3 graus de
liberdade, encontramos o valor crítico de 7.453, assim não podemos rejeitar a hipótese
nula. Rejeitamos a hipótese nula.
d. Teste ao nível de significância de 0.5%, a hipótese:
H0 : α = 13
H1 : α<13
38 Capítulo 2. Modelo de regressão linear simples
Usando a estatística:
t(a) =
a−α
s(a)
t(a) =
5−13√
q.m.res
∑ni=0 xi2
t(a) = −2.786054
Considerando o nível de significância de 0.5% e a distribuição assumindo 3 graus de
liberdade, encontramos o valor crítico de 7.453, assim não podemos rejeitar a hipótese
nula. Rejeitamos a hipótese nula.
•
7. (Exercício 2.7- Hoffmann) Com base em 52 pares de valores das variáveis X e Y foi obtida a
equação de regressão
Ŷi =−0.4+Xi
A estimativa do desvio padrão da estimativa do coeficiente de regressão é 0.1. Calcule o
coeficiente de determinação e teste a hipótese de que o coeficiente angular é igual a zer, ao
nível de significância de 1%.
Foi dado na questão que
s(b) = 0.1
Sabemos que a estimativa do desvio padrão da estimativa do coeficiente de regressão é dado
por
s2(b) =
∑ni=1 y2−b∑ni=1 xy
n−2
∑ni=1 x2
Desenvolvendo, temos
s2(b) =
∑ni=1 y2−b∑ni=1 xy
50
∑ni=1 x2
50.0.01.
n
∑
i=1
x2 =
n
∑
i=1
y2−b
n
∑
i=1
xy
Dividindo todos por ∑ni=1 y2
50.0.01.∑ni=1 x2
∑ni=1 y2
=
∑ni=1 y2−b∑ni=1 xy
∑ni=1 y2
r2 = 1− 0.5∑
n
i=1 x
2
∑ni=1 y2
Para o teste de hipótese, temos β̂ = 1, logo
t(b) =
1−0
0.01
t(b) = 100
Ao nível de significância de 1% temos como ponto crítico de 2.67, ou seja, rejeitamos a
hipótese de que o coeficiente de regressão é zero.
•
2.15 Exercícios 39
8. (Exercício 2.17- Hoffmann) Admitindo que as variáveis X e Y estão relacionadas conforme o
modelo:
Yi = α+
β
Xi
+ui
onde ui representa erros aleatórios independentes com média zero e variância constante, deter-
mine as estimativas dos parâmetros α e β , com base nos seguintes dados:
x=(12,15,20,30,60) y=(9,8.5,8.5,6.5,5)
Baseando-se no método dos mínimos quadrados, temos que minimizar a soma dos quadrados
dos desvios
L =
n
∑
i=1
ui2
que é o mesmo que
L =
n
∑
i=1
Yi−α− βXi
2
Temos que fazer:
∂L
∂α
= 0
∂L
∂β
= 0
Chegamos nas seguintes estimativas:
α̂ =
∑ni=1 yi−β∑ni=1 1xi
n
β̂ =
∑ni=1
yi
xi
− y∑ni=1 1xi
1− ∑
n
i=1
1
xi
∑ni=1
1
xi
n
Utilizando o R, temos as estimativas:
#Exercicio 2.17
x=c(12,15,20,30,60)
y=c(9,8.5,8.5,6.5,5)
n=length(x)
a = mean(y) - (b/n)*(sum(1/x))
num = sum(x/y) - mean(y)*sum(1/x)
den = 1 - ((sum(1/x)*sum(1/x))/n)
b = num/den
a;b
Dica: Poderíamos simplesmente usar a anamorfose Vi = 1Xi
•
9. (Exercício 2.19- Hoffmann) São dados os seguintes valores, obtidos de uma amostra aleatória
com 10 observações:
X=(0,0,1,1,2,2,3,3,4,4)
Y=(2.5,3.5,1,3,2,4,0,2,0.5,1.5)
Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi =α+βXi+ui,
40 Capítulo 2. Modelo de regressão linear simples
onde ui são variáveis aleatórias homocedásticas, normalmente distribuídas e com média zero.
Pode-se verificar que ∑ni=1 x2 = 20, ∑
n
i=1Y
2 = 55, ∑ni=1 y2 = 15, ∑
n
i=1 xY =−10 e Y = 2.
a. Determine a reta de regressão.
No R, temos:
X=c(0,0,1,1,2,2,3,3,4,4)
Y=c(2.5,3.5,1,3,2,4,0,2,0.5,1.5)
cbind(X,Y)
plot(X,Y, col="red", bty="l", lwd=4, main="Reta de Regressão")
f=function(X) Y=3 -0.5*X
curve(f,add=T, col="blue", lwd=3)
02_01.pdf
Figura 2.1: Reta de regressão
•
10. (Exercício 2.21- Hoffmann) É dada uma amostra com 4 pares de valores:
x=(2,1,1,4)
y=(6,8,9,13)
Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi =α+βXi+ui,
onde os ui são erros independentes, de média zero, variância constante e distribuição normal.
a. Determine as estimativas dos parâmetros da regressão linear.
(Usando o R):
Como já sabemos que as estimativas são feitas pelo Método dos Mínimos Quadrados,
vamos a partir de agora utilizar somente o código do R.
> x=c(2,1,1,4)
> y=c(6,8,9,13)
> lm(y~x)
2.15 Exercícios 41
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
6.0 1.5
Utilizaremos o modelo Yi = 6+1.5x.
b. Calcule o coeficiente de determinação da regressão.
Para calcular o coeficiente de determinação, usaremos:
r2 =
b(∑ni=1 xy)
∑ni=1 y2
r = 0.5891883
c. Teste, ao nível de significância de 5%, a hipótese H0 : β = 5 contra a hipótese alter-
nativa H0 : β 6=5.
Usaremos a estatística:
t(b) =
b−β
s(b)
Que resulta na estatística -3.43, sendo não significativo, pois t0 = 4.3
•
11. (Exercício2.31- Hoffmann) Em estudos da variação do consumo de certo produtos em função
da renda da família tem sido usada a função Y = exp
[
α− βX
]
, onde Y é o dispêndio com o
produto considerado e X é a renda da família. Mostre as anamorfoses que devem ser feitas para
que as fórmulas de regressão linear simples sejam usadas para ajustar essa função, utilizando
dados obtidos de uma amostra aleatória.
Se aplicarmos o logaritmo em Y, obtemos:
logYi = α− βX
Onde:
Zi = logYi
Vi = − 1Xi
O que nos leva a aplicar o modelo:
Zi = α+Viβ
•
12. (Exercício 2.34 - Hoffmann - Adaptada) É dada uma amostra de 12 pares de valores. Com
base nela, responda aos itens.
a. Determine as estimativas de regressão linear.
42 Capítulo 2. Modelo de regressão linear simples
Xi Yi Xi Yi
1 2 4 9
1 4 4 13
1 3 5 11
1 5 5 10
2 8 5 16
2 6 5 9
Sumário:
n = 12
n
∑
i=1
XiYi = 360
n
∑
i=1
Xi = 36
n
∑
i=1
X2i = 144
n
∑
i=1
Yi = 96
n
∑
i=1
Y 2i = 962
X = 3
Y = 8
Portanto:
β̂1 =
Sxy
Sxx
=
∑ni=1 XiYi−nXY
∑ni=1 X2i −nX2
=
72
36
= 2
β̂0 = Y − β̂1X
= 2
b. Plote a reta de regressão estimada juntamente com o gráfico de dispersão dos da-
dos.
02_02.pdf
Figura 2.2: Gráfico de dispersão
2.15 Exercícios 43
c. Faça a análise de variância considerando o nível de significância de 5%
Sumário:
SQreg =
n
∑
i=1
(Ŷi−Y )2
= β̂1
2
Sxx
= 144
SQtotal =
n
∑
i=1
(Yi−Y )2
= ∑ i = 1nY 2i −nY 2
= 194
SQres = SQtotal−SQreg
= 194−144
= 50
QMreg =
SQreg
1
= 144
QMres =
SQres
n−2
= 5
A estatística para o teste
H0 : β1 = 0
H1 : β1 6=0
É a seguinte:
F0 =
QMreg
QMres
∼F(1,n−1)
F0 =
144
5
F0 = 28.8
Assim, o p-valor é dado por 2P(F0 < F(1,10))< 0.05, pois o valor crítico é dado por
6.936728. O que nos faz rejeitar a hipótese nula, ou seja, a regressão é significativa.
Montando a tabela, temos:
Tabela 2.4: ANOVA
Fonte de variação GL SQ QM F p-valor
Regressão 1 144 144 28.8 < 0.05
Resíduo 10 50 5
Total 11 194
d. Teste a hipótese de que o intercepto é nulo contra a hipótese de não nulidade con-
siderando um nível de significância de 5%.
H0 : β0 = 0
H1 : β0 6=0
44 Capítulo 2. Modelo de regressão linear simples
Sob H0 verdade, têm-se:
Calcular o valor da estatística associada a esse parâmetro:
t0 =
β̂0−β0√
QMres∑ni=1 X2i
nSxx
∼t(n−2)
= 1.54
Assim, o p-valor será 2P(t0 < t(10))> 0.05, pois o valor crítico para essa situação vale
2.223. Chegamos a conclusão de que podemos rejeitar a hipótese nula.
e. Faça o teste bilateral da hipótese nula de que o intercepto vale 3, considerando um
nível de significância de 5%.
H0 : β1 = 3
H1 : β1 6=3
Sob H0 verdade, têm-se:
Calcular o valor da estatística associada a esse parâmetro:
t0 =
β̂1−β1√
QMres
Sxx
∼t(n−2)
= −2.73
Assim, o p-valor será 2P(t0 < t(10))< 0.05, pois o valor crítico para essa situação vale
2.223. Chegamos a conclusão de que não podemos rejeitar a hipótese nula.
f. Determine a estimativa de Y para X = 5 e o intervalo de confiança para E[Y |X = 5],
ao nível de confiança de 95%.
Neste caso trata-se de um intervalo de confiança para a média de determinado valor X ,
então usamos:
I.C.[β0+β1x0] =
[
(Ŷi|x = x0)±t1− α2 (n−2)
√
QMres
[
1
n
+
(x0− x)2
Sxx
]]
=
[
12±2.223
√
144
[
1
12
+
(5−3)2
108
]]
= [5.623725;18.376275]
g. Determine um intervalo de previsão para [Y |X = 6], ao nível de confiança de 95%.
Neste caso trata-se de um intervalo de previsão para um determinado valor X , e não a
média, então usamos:
I.C.[β0+β1x0] =
[
(Ŷi|x = x0)±t1− α2 (n−2)
√
QMres
[
1+
1
n
+
(x0− x)2
Sxx
]]
=
[
12±2.223
√
144
[
1+
1
12
+
(6−3)2
108
]]
= [3.98014;24.01986]
•
13. (Exercício 2.37- Hoffmann) Considere o modelo Yi = βXi+ui com Xi fixos, E[ui] = 0, E[ui2] =
0 e E[uiu j] = 0 para i6= j. Sabe-se que os estimador de mínimos quadrados para β é b= ∑
n
i=1 XiYi
∑ni=1 Xi2
,
não-tendecioso, com V (b) = σ
2
∑ni=1 Xi2
. Um estimador alternativo para β β̂ = YX , que é a
inclinação da reta unindo a origem do sistema de eixos ao ponto Y , X .
2.16 Aplicações em dados reais 45
a. Prove que β̂ é um estimador linear não-tendecioso.
b =
X
Y
=
∑ni=1
Yi
n
∑ni=1
Xi
n
=
∑ni=1 (βXi+ui)
∑ni=1 Xi
= β + ∑
n
i=1 ui
∑ni=1 Xi
E[b] = β +E
[
∑ni=1 ui
∑ni=1 Xi
]
E[b] = β
b. Deduza a expressão que dá V (β̂ ) em função de σ2 e dos valores de X.
Denotando
(β̂ ) = E[β̂ −β ]2
Sabemos que no item a:
b−β = ∑
n
i=1 ui
∑ni=1 Xi
Substituindo
V (b) =
E[∑ni=1 ui]2
∑ni=1 Xi2
Sabemos também que
E
[
n
∑
i=1
ui
]2
= E[u12+u22+ ...+un2] = nσ2
Então
V (b) =
nσ2
∑ni=1 Xi2
•
2.16 Aplicações em dados reais
2.16.1 Adicionar
Análise descritiva
Análise inferencial
3. Modelo de regressão linear múltipla
Considere, para o prosseguimento desse capítulo, algumas mudanças nas notações.
Para o vetor da variável reposta, teremos Y ; representando a matriz de covariáveis Xi1,Xi2, ...,Xik,
tem-se X . Para o vetor de parâmetros do modelo de regressão linear múltipla, passaremos a usar
β , e para o vetor de erros (εi), usaremos ε . Para as esperanças e demais cálculos, usaremos sempre
vetores.
3.1 Modelo de regressão linear simples na forma matricial
De acordo com as notações definidas anteriormente, o modelo de regressão passa a ser
Y = Xβ + ε
Na qual o vetor Y, de ordem nx1, é dado por
Y =

Y1
Y2
Y3
...
Yn

A matriz X, de ordem nxp, sendo p = k+1 o número de parâmetros, é dada por
X =

1 X11 X12 · · · X1k
1 X21 X22 · · · X2k
1 X31 X32 · · · X3k
...
...
...
. . .
...
1 Xn1 Xn2 · · · Xik

3.2 Suposição do modelo de regressão linear múltipla 47
E, finalmente, a matriz de parâmetros, de ordem px1, e a matriz de erros, com ordem nx1, dadas por
β =

β1
β2
...
βk

ε =

ε1
ε2
...
εn

Em suma, o modelo de regressão linear múltipla é dado por
Y1
Y2
Y3
...
Yn
=

β0+β1X11+β2X12+ ...+βkX1k + ε1
β0+β1X21+β2X22+ ...+βkX2k + ε2
β0+β1X31+β2X32+ ...+βkX3k + ε3
...
β0+β1Xn1+β2Xn2+ ...+βkXnk + εn

3.2 Suposição do modelo de regressão linear múltipla
Passaremos então a escrever as suposições de outra forma, ou seja, sua distribuição será agora uma
distribuição n-variada:
εi∼Nn(0,σ2I)
Sendo 0 o vetor de ’zeros’ e I a matriz indentidade. A conclusão consequente dessa suposição para
os erros é:
E[Y] = E[Xβ + ε]
= Xβ +E[ε]
= Xβ
V[Y] = V[Xβ + ε]
= V[ε]
= σ2I
Então o vetor Y tem distribuição
Y∼Nn(Xβ ,σ2I)
3.3 Estimação dos parâmetros
Da mesma forma como na regressão linear simples, vamos estimar os parâmetros pelo Método dos
Mínimos Quadrados. No modelo antes estudado tínhamos que minimizar ∑ni=1 εi2, agora teremos
que minimizar tal valor na forma matricial, isto é
n
∑
i=1
εi = εT ε
48 Capítulo 3. Modelo de regressão linear múltipla
Como εi = (Y−Xβ ), então
εT ε = (εT ε)T (εT ε)
= YT Y−YT Xβ − (Xβ )T Y+(Xβ )T (Xβ )
= YT Y−YT Xβ −β T XT Y+β T XT Xβ
Mas
YT Xβ = β T XT Y
Então
εT ε = YT −2YT Xβ +β T XT Xβ
Essa simplificação nos ajuda na derivação em relação ao vetor de parâmetros, isto é
d(εT ε)
dβ
=
d
dβ
[YT −2YT Xβ +β T XT Xβ ]
Nessa derivação de matrizes, precisamos dos seguintes resultados
daT X
dX
= a
dXT aX
dX
= 2aX
Então, respectivamente, temos os valores
dYT Xβ
dβ
= (YT X)
= (XT Y)
dβ T XT Xβ
dβ
= (YT X)
= 2(XT X)β
Igualando a zero
−2XT Y+2(XT X)β̂ = 0
(XT X)β̂ = XT Y
(XT X)−1(XT X)β̂ = (XT X)−1XT Y
β̂ = (XT X)−1XT Y
3.4 Propriedade dos estimadores 49
Estimação usando EMV
Vamos agora estimar o vetor de parâmetros utilizando oEstimador de Máxima Verossimilhança.
Como
Y∼Nn(Xβ ,σ2I)
A função densidade da Normal Multivariada
Y∼Nn
(
µ,∑
)
É dada por
fY(y) =
1
(2pi)n/2|∑ |1/2 exp
[−1
2
(Y−µ)T∑−1(Y−µ)
]
.
Onde ∑ é o determinante da matriz de variâncias e covariâncias. A função de verossimilhança é,
então, dada por:
L(β ,σ2) =
1
(2pi)n/2(σ2)n/2
exp
[ −1
2σ2
(Y−Xβ )T (Y−Xβ )
]
Aplicando o logaritmo, temos:
l(β ,σ2) =−n
2
ln(2pi)− n
2
ln(σ2)− 1
2
(Y−Xβ )T (Y−Xβ )
Se derivarmos em relação ao vetor de parâmetros chegaremos a mesma expressão encontrada pelo
Método dos Mínimos Quadrados, isto é,
β = (XT X)−1XT Y
Porém, vamos utilizar a expressão do logaritmo acima para calcular a estimativa de σ2:
∂ l(β ,σ2)
∂σ
= − n
2σ2
+
(Y−Xβ )T (Y−Xβ )
2σ4
Igualando a zero:
− n
2σ2
+
(Y−Xβ )T (Y−Xβ )
2σ4
= 0
(Y−Xβ )T (Y−Xβ )
2σ4
=
n
2σ2
σ2 =
(Y−Xβ )T (Y−Xβ )
n
.
3.4 Propriedade dos estimadores
Vamos demonstrar agora que o vetor de parâmetros estimados anteriormente é não viciado para os
parâmetros. Vamos também calcular o vetor de variâncias.
E[β̂ ] = E[(XT X)−1XT Y]
= (XT X)−1XT E[Y]
= (XT X)−1XTβ
= β
50 Capítulo 3. Modelo de regressão linear múltipla
Para a variância, devemos saber um resultado simples
V[AY] = AV[Y]AT
Logo, as variâncias temos
V [β̂ ] = V[(XT X)−1XT Y]
= (XT X)−1XT V[Y][(XT X)−1XT ]T
= (XT X)−1XTσ2IX(XT X)−1
= σ2(XT X)−1XT X(XT X)−1
= σ2(XT X)−1
A matriz de variâncias e covariâncias fica
X =

1 X11 X12 · · · X1k
1 X21 X22 · · · X2k
1 X31 X32 · · · X3k
...
...
...
. . .
...
1 Xn1 Xn2 · · · Xik

3.5 Análise de Variância
Para o modelo
Yi = β0+β1Xi1+β2Xi2+ ...++βkXik + εi
Testaremos as seguintes hipóteses para avaliar a significância do modelo
H0:β1 = β2 = ...= βk = 0
H1:pelo menos um βi 6=0
Se pelo menos um parâmetro for significativo então o modelo faz sentido. A seguir mostraremos as
partes da análise de variância da forma como já estamos acostumados para depois mostrar a forma
matricial, dessas partes.
Parte I: Soma de quadrados total
SQtotal =
n
∑
i=1
(Yi−Y )2
=
n
∑
i=1
Yi2−nY 2
Mostrando cada parte matricialmente:
n
∑
i=1
Yi2 = Y TY
3.5 Análise de Variância 51
Bem como
Y =
1
n
1’Y
=
1
n
YT 1’
Y 2 =
1
n2
YT 1’1T Y
Então nY 2 é dado por
nY 2 =
n
n2
YT 11T Y
=
1
n
YT 11T Y
Assim
SQtotal = YT Y− 1nY
T 11T Y
= YT
[
−1
n
11T
]
Y
Parte II: Soma de quadrados dos resíduos
No método linear simples, tínhamos que desenvolver
SQres =
n
∑
i=1
(Yi− Ŷi)2
Porém no modelo linear múltiplo, temos que desevolver
SQres = (Y−Xβ̂ )T (Y−Xβ̂ )
Assim,
SQres = Y TY −Y T X β̂ − (X β̂ )TY +(X β̂ )T X β̂
= Y TY −2β̂ T XTY + β̂ T XT X β̂ .
βY
Sabendo que
β̂ = (XT X)−1XTY
Podemos substituir na expressão da soma de quadrados
SQres = Y TY −2[(XT X)−1XTY ]T XTY +[(XT X)−1XTY ]T XT X [(XT X)−1XTY ]
= Y TY −2Y T X(XT X)−1XTY +Y T X(XT X)−1XTY
= Y TY −Y T X(XT X)−1XTY
= Y T [I−X(XT X)−1XT ]Y
52 Capítulo 3. Modelo de regressão linear múltipla
Observação: a expressão acima encontramos a expressão da matriz H, muito utilizada nos conceitos
aprofundados de regressão.
H = X(XT X)−1XT
Parte III: Soma de quadrados de regressão
Como já calculamos duas partes da decomposição da soma de quadrados, faremos agora apenas a
subtração:
SQreg = SQtotal−SQres
Assim
SQreg = Y T
[
−1
n
11T
]
Y −Y T [I−H]Y
= Y TY − 1
n
Y T 11TY −Y TY +Y T HY
= Y T HY − 1
n
Y T 11TY
= Y T
[
H− 1
n
11T
]
3.6 Teste de hipóteses
Nos testes individuais dos parâmetros, estamos interessados em saber se determinado parâmetro é
igual a determinado valor, isto é, estamos interessados em testar as seguintes hipóteses:
H0 : β j = β j0
H1 : β j 6=β j0
Como todo teste, precisamos encontrar a quantidade pivotal. Como os β j0 são funções de variáveis
aleatórias com distribuição Normal, então podemos assumir que
β j0∼N(β j,var(β j))
Pois, como já demonstramos
E[β̂ ] = β
Tendo a distribuição, encontramos a quantidade pivotal
β j−β j0√
var(β̂ )
∼N(0,1)
Sabemos que a matriz de variâncias e covariâncias é dada por
V(β̂ ) =

v(β̂0) cov(β̂0, β̂1) cov(β̂0, β̂2) · · · cov(β̂0, β̂k)
cov(β̂0, β̂1) var(β̂1) cov(β̂1, β̂2) · · · cov(β̂1, β̂k)
cov(β̂0, β̂2) cov(β̂1, β̂2) var(β̂2) · · · cov(β̂2, β̂k)
...
...
...
. . .
...
cov(β̂0, β̂k) cov(β̂1, β̂k) cov(β̂2, β̂k) · · · var(β̂k)

3.7 Coeficiente de determinação múltipla 53
Mas se estamos trabalhando com matrizes, como extrair a variância individual do parâmetro?
Simples, usaremos o seguinte artificio
V (β ) = σ2C j j
Sendo C j j o elemento de ordem j+1 da diagonal da matriz (XT X)−1 Com isso, podemos chegar em
β j−β j0√
σ2C j j
∼N(0,1)
Como não temos conhecimento sobre a variância, utilizamos o Teorema de Cochram
SQres
σ2
∼χ2
Para conseguirmos, finalmente, a quantidade pivotal para o teste
β j−β j0√
QMresC j j
∼t(n− p)
Assim, para um nível de significância α , rejeita-se H0 se
• Teste bilateral
|t0|> t1− α2 (n− p)
• Teste unilateral
t0 < tα(n− p)
t0 < tα(n− p)
3.7 Coeficiente de determinação múltipla
Definido da mesma forma que no modelo simples, ou seja,
R2 =
SQreg
SQres
O valor alto do coeficiente de determinação, a medida que aumentamos o número de variáveis, não
significa que tais variáveis são signifitativas para o modelo, e sim porque o modelo está ’inchado’.
Por esse motivo, usamos o coeficiente de determinação ajustado:
R2 = 1−
SQres
n−p
SQtotal
n−1
3.8 Intervalo de confiança
No modelo de regressão linear simples, o intervalo de confiança para o valor esperado era calculado
por meio de um dado valor X0 e então encontrava-se esperança e variância do valor esperado. Agora,
faremos o mesmo, porém em liguagem matricial. Ao invés de estar disponível o valor de X0, agora
teremos o vetor abaixo, já que temos um modelo múltiplo:
X0 =
[
1 X01 X02 · · · X0k
]T
54 Capítulo 3. Modelo de regressão linear múltipla
Então para obter o valor esperado da expressão E[Y |X0] = β̂0+ β̂1X01+ β̂2X02+ ...+ β̂kX0k na forma
de matriz, basta fazermos:
COLOCARR
Ou seja,
Ê[Y |X0] = X0T β̂
Para a construção do intervalo de confiança precisamos da esperança e da variância dessa estimativa:
E[X0T β̂ ] = X0T E[β ]
= X0Tβ
V [X0T β̂ ] = X0TV (β̂ )X0
= X0T (XT X)−1σ2X0
Dessa forma a quantidade pivotal fica:
Ê[Y |X0]−E[Y |X0]√
X0T (XT X)−1σ2X0
∼N(0,1)
Utilzando novamente o Teorema de Cochran e dividindo pela qui quidrado, chegamos em:
Ê[Y |X0]−E[Y |X0]√
QMresX0T (XT X)−1X0
∼t(n− p)
Assim, o intervalo fica definido como
I.C.[E[Y |X0]] =
[
X0T β̂ ± t1− α2 (n− p)
√
QMresX0T (XT X)−1X0
]
3.9 Intervalo de previsão
Diferentemente do Intervalo de Confiança, tal intervalo representa um valor de Y que não está
presente na amostra, por isso denota-se Y0|X0. Para encontrarmos um intervalo para essa quantidade
devemos utilizar o seguinte artifício:
D = Ŷ0|X0−Y0|X0
Então, seguiremos os passos da construção de tal intervalo, ou seja, calcularemos a esperança e a
variância de D.
E[D] = E[Ŷ0|X0−Y0|X0]
= E[XT0 β̂ − (XT0 β + εi)]
= E[XT0 β̂ ]−E[XT0 β ]−E[εi]
= XT0 β −XT0 β
= 0
V [D] = V [Ŷ0|X0−Y0|X0]
= V [Ŷ0|X0]+V [Y0|X0]−2Cov[Y0|X0,Y0|X0]
= V [XT0 β̂ ]+V [X
T
0 β + εi]−0
= V [XT0 β̂ ]+σ
2
= σ2[1+XT0 (X
T X)−1X0]
3.10 Técnicas de diagnóstico 55
A quantidade pivotal fica, portanto
Ŷ0|X0−Y0|X0−E[Ŷ0|X0−Y0|X0]√
Var[Ŷ0|X0−Y0|X0−E[Ŷ0|X0−Y0|X0]]
∼ N(0,1)
Ŷ0|X0−Y0|X0−0√
σ2[1+XT0 (XT X)−1X0]
∼ N(0,1)
Ŷ0|X0−Y0|X0√
σ2[1+XT0 (XT X)−1X0]
∼ N(0,1)
Como devemos estimar a variância, utilizaremos o Teorema de Cochran para substituir σ2, ou seja,
ficaremos com
Ŷ0|X0−Y0|X0√
QMres[1+XT0 (XT X)−1X0]
∼N(0,1)E o intervalo é dado por:
I.C.[Y0|X0] =
[
XT0 β̂±t1− α2 (n− p)
√
QMres(1+XT0 (XT X)−1X0)
]
3.10 Técnicas de diagnóstico
No modelo clássico, as suposições são adotadas sobre a fonte de variação e a ela associa-se
normalidade, homocedasticidade e independência. Após o ajuste do modelo é necessário verificar
se essas suposições estão sendo obedecidas ou não (avaliação do ajuste), bem como verificar
a existência de pontos remotos (outliers), pontos influentes e/ou pontos de alavanca (análise de
sensibilidade).
3.10.1 Avaliação do ajuste
Nos modelos clássicos, a avaliação do ajuste utiliza a análise de resíduos para validar determinadas
suposições, tais como:
i. Homocedasticidade;
ii. Normalidade;
iii. Independência dos erros;
iv. Existência de pontos discrepantes.
Considerando o modelo clássico
y = Xβ + ε,
com ε ∼Nn(0,σ2I), cujo estimador de β é dado por β̂ = (X>X−1X>y), então temos que ŷ =
Xβ̂ = X(X>X−1X>y) = Hy (a matriz H é chamada de matriz hat ou matriz chapéu). A partir
disso, podemos definir três tipos de resíduos: ordinário, estudentizado internamente e estudentizado
externamente.
O resíduo ordinário é definido por
ε = y− ŷ = (I−H)y = (I−H)ε,
56 Capítulo 3. Modelo de regressão linear múltipla
logo, ε̂ ∼N (0,σ2(I−H)), ou seja, enquanto a fonte de variação é suposta independente e com
mesma variância, os resíduos do ajuste, no entanto, apresentam variâncias diferentes, pois sua
distribuição depende de σ2 e da matriz H. Assim, considerar εi = ε̂i pode não ser adequado devido a
essa heterogeneidade.
Uma alternativa a isto, é construir resíduos que não dependam dessa quantidade, pois assim
podemos realizar comparações entre os mesmos. Se σ2 for conhecido, podemos padronizar o resíduo
ordinário dividindo-o pelo seu desvio padrão,
√
σ2(1−hii)em que hii denota o i-ésimo elemento da
diagonal principal de H). Dessa forma, a distribuição dos resíduos padronizados não depende mais
da variância. Se σ2 for desconhecido, dividimos por
√
s2(1−hii), e chamamos essa quantidade de
resíduo estudentizado internamente:
ε̂∗ =
ε̂i√
s2(1−hii)
=
ε̂i√
QMres(1−hii)
, i = 1,2, ...,n.
Os resíduos estudentizados internamente resolvem o problema das variâncias distintas, porém
um valor discrepante pode alterar profundamente a variância residual. Além disso, tem-se o fato de
que o numerador e o denominador do resíduo são variáveis dependentes (Demétrio, 2002).
Para garantir essa independência, define-se o resíduos estudentizados externamente:
ε̂
e
=
ε̂i√
s2(i)(1−hii)
,
sendo s(i) o quadrado médio do resíduo com a ausência da i-ésima observação.
3.10.2 Análise de sensibilidade
Análise sensibilidade refere-se ao estudo do comportamento do modelo ajustado quando o
mesmo sofre algumas perturbações. O objetivo, portanto, é investigar pontos atípicos, sendo estes
denominados de pontos remotos (outliers), pontos de alavanca e pontos influentes.
Os pontos remotos são observações que não se ajustam bem ao modelo e são detectadas por um
afastamento com relação a Y . Esse ponto pode ser de alavanca ou influente.
Os pontos de alavanca não afetam o ajuste, são observações extremas de X, a matriz de
covariáveis do modelo. A detecção desses pontos é feita observado a diagonal principal da matriz H,
assim, se hii = 1, então ŷ = y, ou seja, a i-ésima observação tem influência total no seu valor predito.
O critério de alta alavancagem é dado pelo fato de que ∑ni=1 hii = p, p o número de covariáveis
do modelo. Assim, a alavancagem média é dada por
∑ni=1 hii
n
que é o mesmo que
p
n
. O critério
estabelecido para um ponto ter alta alavancagem é se hii =
2p
n
.
Os pontos influentes, ao contrário dos de alavanca, afetam o ajuste do modelo, pois indicam
afastamento com relação a X e a y. Este ponto pode ou não ser um ponto remoto e pode ou não ser
um ponto de alavanca. Cook (1977) sugere que a influência de determinada observação é identificada
quando o modelo é ajustado com a sua ausência do conjunto de dados. Para a detecção desse ponto
utiliza-se a distância de Cook e é uma análise de influência global.
3.10.3 Técnicas gráficas
Algumas técnicas gráficas para análise de diagnóstico são:
3.11 Exercícios 57
i. Gráfico dos resíduos versus a ordem de coleta dos dados: avaliar a hipótese de independência
dos dados.
ii. Gráfico dos resíduos versus valores ajustados: verifica a homoscedasticidade do modelo
(espera-se um comportamento aleatório dos resíduos em torno no zero) e linearidade do
modelo (espera-se que não apresente tendência);
Além disso, temos:
i. Gráfico dos resíduos estudentizados versus valores ajustados: verifica se existem outliers em
Y;
ii. Gráfico dos resíduos padronizados versus valores ajustados: verifica se existem outliers em Y;
iii. Gráfico de alavancagem (Diagonal da Matriz H - leverage): verifica se existem outliers em X;
iv. Gráfico dos resíduos estudentizados ordenados (observados) versus quantis da normal padrão
(teóricos): verifica normalidade (recomenda-se utilizar envelope simulado).
Para a análise formal dos resíduos, podemos realizar os seguintes testes:
i. Testes de Normalidade para os resíduos;
ii. Teste de Durbin-Watson para testar independência dos resíduos;
iii. Teste de Breusch-Pagan e Goldfeld-Quandt para testar se os resíduos são homoscedásticos;
iv. Teste de falta de ajuste para verificar se o modelo ajustado é realmente linear.
3.11 Exercícios
Considere (yi,x>i ) os valores observados, através de um processo de amostragem bem definido,
para um indivíduo em estudo, em que i = 1,2, ...,n e x>i = (x1,x2, ...,xn). Nosso objetivo inicial é
especificar completamente um modelo que leve em consideração a relação entre as variável resposta
Y e as variáveis explicativas X . Considerando essa estrutura, desenvolva as afirmativas abaixo.
a. Especifique um modelo inicial.
Solução
Yi = β0+β1X1+ ...+βkXk + εi.
•
b. Especifique o modelo na forma matricial.
Solução
Y = Xβ + ε
Na qual o vetor Y, de ordem nx1, é dado por
Y =

Y1
Y2
Y3
...
Yn

A matriz X, de ordem nxp, sendo p = k+1 o número de parâmetros, é dada por
58 Capítulo 3. Modelo de regressão linear múltipla
X =

1 X11 X12 · · · X1k
1 X21 X22 · · · X2k
1 X31 X32 · · · X3k
...
...
...
. . .
...
1 Xn1 Xn2 · · · Xik

E, finalmente, a matriz de parâmetros, de ordem px1, e a matriz de erros, com ordem nx1,
dadas por
β =

β1
β2
...
βk

ε =

ε1
ε2
...
εn

Em suma, o modelo de regressão linear múltipla é dado por
Y1
Y2
Y3
...
Yn
=

β0+β1X11+β2X12+ ...+βkX1k + ε1
β0+β1X21+β2X22+ ...+βkX2k + ε2
β0+β1X31+β2X32+ ...+βkX3k + ε3
...
β0+β1Xn1+β2Xn2+ ...+βkXnk + εn

•
c. Proponha alguns métodos de estimação dos parâmetros de interesse.
Solução
Método dos Mínimos Quadrados e Método de Máxima Verossimilhança.
•
d. Obtenha o estimador pelo Método dos Mínimos Quadrados.
Solução
No modelo linear simples, precisamos minimizar ∑ni=1 εi2, mas vamos considerar a forma
matricial para que possamos ter um generalização.
n
∑
i=1
εi = εT ε
Como εi = (Y−Xβ ), então
εT ε = (εT ε)T (εT ε)
= YT Y−YT Xβ − (Xβ )T Y+(Xβ )T (Xβ )
= YT Y−YT Xβ −β T XT Y+β T XT Xβ
3.11 Exercícios 59
Mas
YT Xβ = β T XT Y
Então
εT ε = YT −2YT Xβ +β T XT Xβ
Essa simplificação nos ajuda na derivação em relação ao vetor de parâmetros, isto é
d(εT ε)
dβ
=
d
dβ
[YT −2YT Xβ +β T XT Xβ ]
Nessa derivação de matrizes, precisamos dos seguintes resultados
daT X
dX
= a
dXT aX
dX
= 2aX
Então, respectivamente, temos os valores
dYT Xβ
dβ
= (YT X)
= (XT Y)
dβ T XT Xβ
dβ
= (YT X)
= 2(XT X)β
Igualando a zero
−2XT Y+2(XT X)β̂ = 0
(XT X)β̂ = XT Y
(XT X)−1(XT X)β̂ = (XT X)−1XT Y
β̂ = (XT X)−1XT Y
•
e. Verifique se os estimadoresMMQ são não viesados e calcule o viés.
Solução
Considere:
E[β̂ ] = E[(XT X)−1XT Y]
= (XT X)−1XT E[Y]
= (XT X)−1XTβ
= β
Para o cálculo da variância dos estimadores devemos saber um resultado simples:
60 Capítulo 3. Modelo de regressão linear múltipla
V[AY] = AV[Y]AT
Logo,
V [β̂ ] = V[(XT X)−1XT Y]
= (XT X)−1XT V[Y][(XT X)−1XT ]T
= (XT X)−1XTσ2IX(XT X)−1
= σ2(XT X)−1XT X(XT X)−1
= σ2(XT X)−1.
•
f. Considere uma distribuição adequada para a fonte de erro e obtenha os estimadores via Método
de Máxima Verossimilhança (MMV).
Solução
Vamos agora estimar o vetor de parâmetros utilizando o Estimador de Máxima Verossimilhança.
Como
Y∼Nn(Xβ ,σ2I)
A função densidade da Normal Multivariada
Y∼Nn
(
µ,∑
)
É dada por
fY(y) =
1
(2pi)n/2|∑ |1/2 exp
[−1
2
(Y−µ)T∑−1(Y−µ)
]
.
Onde ∑ é o determinante da matriz de variâncias e covariâncias. A função de verossimilhança
é, então, dada por:
L(β ,σ2) =
1
(2pi)n/2(σ2)n/2
exp
[ −1
2σ2
(Y−Xβ )T (Y−Xβ )
]
Aplicando o logaritmo, temos:
l(β ,σ2) =−n
2
ln(2pi)− n
2
ln(σ2)− 1
2
(Y−Xβ )T (Y−Xβ )
Se derivarmos em relação ao vetor de parâmetros chegaremos a mesma expressão encontrada
pelo Método dos Mínimos Quadrados, isto é,
β = (XT X)−1XT Y
Vamos utilizar a expressão do logaritmo acima para calcular também a estimativa de σ2:
∂ l(β ,σ2)
∂σ
= − n
2σ2
+
(Y−Xβ )T (Y−Xβ )
2σ4
3.11 Exercícios 61
Igualando a zero:
− n
2σ2
+
(Y−Xβ )T (Y−Xβ )
2σ4
= 0
(Y−Xβ )T (Y−Xβ )
2σ4
=
n
2σ2
σ2 =
(Y−Xβ )T (Y−Xβ )
n
.
•
g. Apresente a distribuição dos estimadores dos coeficientes obtidos pelo MMV.
Solução
β̂∼N(β ,Var(β ))
•
h. Apresente algum teste de significância para os coeficientes do modelo.
Solução
Nos testes individuais dos parâmetros, estamos interessados em saber se determinado pa-
râmetro é igual a determinado valor, isto é, estamos interessados em testar as seguintes
hipóteses:
H0 : β j = β j0
H1 : β j 6=β j0
Como todo teste, precisamos encontrar a quantidade pivotal. Como os β j0 são funções de
variáveis aleatórias com distribuição Normal, então podemos assumir que
β j0∼N(β j,var(β j))
Pois, como já demonstramos
E[β̂ ] = β
Tendo a distribuição, encontramos a quantidade pivotal necessária para o teste:
β j−β j0√
var(β̂ )
∼N(0,1)
•
l. Quais são as suposições do modelo de regressão linear?
Solução
O modelo tem como premissa 4 suposições principais:
i. Independência: Os erros são independentes entre si, não devem ser correlacionados.
ii. Identicamente distribuídos: Os erros são i.d., ou seja, identicamente distribuídos com
distribuição N(0,σ2).
iii. Linearidade: O modelo supõe que X e Y possuem uma relação linear.
iv. Homocedasticidade: A variabilidade dos erros é constante.
•
62 Capítulo 3. Modelo de regressão linear múltipla
m. O que devemos fazer após o ajuste do modelo?
Solução
Análise de diagnóstico com o objetivo de verificar as premissas assumidas ao iniciar as
análises.
•
n. Por que devemos fazer a análise de diagnóstico em modelos estatísticos?
Solução
Para verificar as premissas assumidas ao iniciar as análises dos dados.
•
o. Apresente alguns tipos de resíduos que podem ser utilizados na análise de diagnósticos.
Solução
i. Resíduo padronizado
Definido por
rı =
ei√
QME(1−hıı)
, i = 1,2, . . . ,n,
com σˆ2 =QME e hii o i-ésimo elemento da matriz matriz chapéu (hat), H =X(X ′X)−1X ′.
ii. Resíduo studentizado
Definido por
ti =
Yi− Yˆi(i)
σˆ
√
1+ x′i(X
′
(i)X(i))
−1xi
.
•
p. Quais são as violações de suposição que podem ser verificadas através dos resíduos?
Solução
i. Não linearidade de X e Y;
ii. Não normalidade dos erros;
iii. Heterocedasticidade;
iv. Correlação entre os erros;
v. Presença de valores extremos ou outlier;
vi. Modelo mal especificado.
•
q. Especifique um modelo supondo k = 3 e que foi verificada, graficamente, uma relação quadrá-
tica entre yi e xi2
Solução
Podemos expressar o seguinte modelo polinomial:
Yi = β0+β1xi1+β2x2i2+β3xi3+ εi, i = 1,2, ...,n.
•
3.11 Exercícios 63
r. Qual transformação deve ser realizada quando verificamos na análise de resíduos que a
variância cresce quando a variável resposta cresce?
Solução
Considerando X1, ...,Xn os dados originais, a transformação de Box-Cox consiste em encontrar
um λ tal que:
Yi(λ ) =

ln(Xi), se λ = 0,
Xλi −1
λ
, se λ 6= 0,
Precisamos então, encontrar uma estimativa para o parâmetro de transformação λ . Uma das
formas de estimar λ é utilizando o método de máxima verossimelhança.
Assumimos que Yi(λ ), i= 1, ...,n é uma função monotona tal que Yi(λ )∼N(µ,σ2) para algum
λ fixo. Portanto, a função de máxima verissimilhança de Yi(λ ) em relação às observações
originais Yi é obtida multiplicando a função de máxima verossimilhança pelo Jacobiano da
transformação, temos então:
L
(
Yi(λ ),µ,σ2
)
=
1
(2pi)n/2σn
exp
{
−∑ni=1 (Yi(λ )−µ)2
2σ2
}
J(λ ,Y )
em que
J(λ ,Y ) =
n
∏
i=1
∣∣∣∣∂Yi(λ )∂Yi
∣∣∣∣= n∏
i=1
Y λ−1i
Desta forma, temos que para um λ fixo, os estimadores σˆ2(λ ) e µˆ(λ ) são dados por:
µˆ(λ ) = Y¯ (λ ) = ∑
n
i=1Yi(λ )
n
σˆ2(λ ) = ∑
n
i=1(Yi(λ )− Y¯ (λ ))2
n
Em seguida, substituímos os valores de µ e σ2 pelos estimadores de máxima verossimelhança
encontrados acima, µˆ(λ ) e σˆ2(λ ), respectivamente, na função de máxima verossimilhança.
Desta forma, obtemos o logaritimo da função de máxima verossimilhança dependendo somente
de λ
`(λ ) = log
[
L(λ |Yi, µˆ, σˆ2)
]
=−npi
2
− 1
2
log σˆ2(λ )+(1−λ ) log(Yi)
Precisamos então, enncontrar λ que maximiza `(λ ). Uma forma que encontramos na literatura
para facilitar a estimativa de λ utilizar a forma normalizada da transformação, Zi(λ ), para que
desta forma termos J(λ ,Z) = 1. Considere a seguinte função:
Zi(λ ) =
Yi(λ )
[J(λ ,Y )]1/n
Desta forma, o logaritmo da função de máxima verossimilhança fica
`(λ ) = log
[
L(λ |Zi, µˆ, σˆ2)
]
=−npi
2
− 1
2
log σˆ2(Z,λ )
64 Capítulo 3. Modelo de regressão linear múltipla
onde
σˆ2(Z,λ ) = ∑
n
i=1(Zi(λ )− Z¯(λ ))2
n
Portanto, maximizar `(λ ) é equivalente a encontrar o mínimo de σˆ2(Z,λ ) em relação a λ .
Box e Cox (1964) afirmam que após a transformação adequada das observações Y para Y (λ )
os valores esperados das observações transformadas estarão normalmente distribuidos com
variância constante.
•
s. Especifique um modelo linear heterocedástico e obtenha os estimadores através do Método
dos Mínimos Quadrados Generalizados.
Solução
Em muitos casos, ao analisarmos os resíduos de um modelo de regressão linear, ao visua-
lizarmos que estes não apresentam a característica de variância constante, temos uma das
suposições do modelo não atendidas. Quando isso acontece, dizemos que o modelo apresenta
heterocedasticidade nos erros (resíduos), ou ainda que o modelo é heterocedástico. Alguns
efeitos causados por essa falha na suposição do modelo são:
Os erros padrões dos estimadores, obtidos pelo Método dos Mínimos Quadrados Ordinários,
são incorretos e portanto a inferência estatística não é valida. Não podemos mais dizer que
os Estimadores de Mínimos Quadrados Ordinários são os melhores estimadores de variância
mínima para β , embora ainda possam ser não viciados.
Por que usar pesos?
Suponhamos que a variância seja não constante, isto é,
Var(Yi) = σ2i , para i = 1, . . . ,n.
tomamos, por exemplo, pesos de forma que
wi ∝
1
σ2i
, i = 1, . . . ,n.
Com isso, as estimativas de Mínimos Quadrados Ponderados (MQP) tem erros padrão menores
do que as estimativas de Mínimos Quadrados Ordinários (MQO). Como dito anteriormente, as
estimativas de MQO são incorretos, em relação as estimativas de MQP.
A avaliação da hipótese de homoscedasticidade dos resíduos, é feita através das estatísticas de
Cochran, Brown-Forsyte (Levene), Breusch-Pagane Goldfeld-Quandt.
Neste momento, consideramos o modelo de regressão linear simples e vamos denotar por
σ2i a variância relacionada ao i-ésimo erro εi,, A suposição do modelo é que εi ∼ N(0,σi)
independentes. Observe que estamos considerando que a variância σ2i depende da i-ésima
observação, podendo ser não constante ao longo das observações. O modelo descrito é da
forma:
Yi = βw0+βw1Xi+ εi, para i = 1, . . . ,n,
em que,
– Yi é a i-ésima observação da variável resposta;
– Xi é a i-ésima observação da covariável constante e conhecida;
3.11 Exercícios 65
– βw0 e βw1 são os parâmetros desconhecidos da regressão;
– εi é o i-ésimo erro, consideramos εi ∼ N(0,σ2i ) para i = 1,2, . . . ,n e n é o número de
observações.
Podemos obter os estimadores dos coeficientes da regressão considerando o método de máxima
verossimilhança ou pelo método dos mínimos quadrados. A seguir, descrevemos a estimação
pelo método de máxima verossimilhança. Para isto, substituímos σ2 por σ2i devidamente e
obtemos a expressão:
L(βw0;βw1|y,x) =
n
∏
i=1
1√
2piσ2i
exp
{
−(Yi− (βw0+βw1Xi))
2
2σ2i
}
.
Supomos o peso wi, inversamente proporcional a variância σ2, sendo:
wi =
1
σ2i
.
e então, obtemos a função verossimilhança da seguinte forma:
L(βw1;β2|y,x) =
n
∏
i=1
√
wi√
2pi
n
∏
i=1
exp
{
−1
2
wi (Yi− (βw0+βw1Xi))2
}
=
n
∏
i=1
( wi
2pi
)1/2
exp
{
−1
2
n
∑
i=1
wi (Yi− (βw0+βw1Xi))2
}
.
Obtemos os estimadores dos coeficientes da regressão maximizando em relação a βw0 e βw1.
Porém, podemos perceber que a função de verossimilhança é inversamente proporcional ao
termo exponencial, portanto, maximizar equivale a minimizar o termo:
Qw =
n
∑
i=1
ε2wi =
n
∑
i=1
wi (Yi− (βw0+βw1Xi))2 .
que é soma dos desvios ponderados do método dos mínimos quadrados ponderados.
Os estimadores β̂w0 e β̂w1 são conhecidos como estimadores de mínimos quadrados pondera-
dos. Notamos que esses estimadores, coincidem com os estimadores de mínimos quadrados
ordinários quando consideramos a suposição de homocedasticidade, que implica em pesos
(wi) iguais.
As observações de maior variância têm menos influência sobre os estimadores de βw0 e βw1, e
as de menor variância têm mais influência. Isso é devido ao fato de que as observações de
menor variância apresentam informações mais pertinentes a respeito da E[Y |Xi], i = 1, . . . ,n.
Calculamos os estimadores de mínimos quadrados ponderados derivando Qw em relação aos
parâmetros e igualando a zero para obter o ponto de mínimo, ou seja:
∂Qw
∂βw0
= 2
n
∑
i=1
wi (Yi− (βw0+βw1Xi)) = 2
n
∑
i=1
wiYi−2βw0
n
∑
i=1
wi−2βw1
n
∑
i=1
wiXi = 0
∂Qw
∂βw1
= 2
n
∑
i=1
wi (Yi− (βw0+βw1Xi))Xi = 2
n
∑
i=1
wiYiXi−2βw0
n
∑
i=1
wiXi−2βw1
n
∑
i=1
wiXi2 = 0
66 Capítulo 3. Modelo de regressão linear múltipla
Desta forma, obtemos o sistema:

n
∑
i=1
wiYi = βw0
n
∑
i=1
wi+βww1
n
∑
i=1
wiXi
n
∑
i=1
wiYiXi = βw0
n
∑
i=1
wiXi+βw1
n
∑
i=1
wiXi2
Com isso, a solução das equações são dadas por:
βw0 =
n
∑
i=1
wiYi−βw1
n
∑
i=1
wiXi
n
∑
i=1
wi
e βw1 =
n
∑
i=1
wiYiXi−
n
∑
i=1
wiYi
n
∑
i=1
wiXi
n
∑
i=1
wi
n
∑
i=1
wiXi2−
(
n
∑
i=1
wiXi
)2
n
∑
i=1
wi
Para facilitar a notação, denotamos Y w =
n
∑
i=1
wiYi
n
∑
i=1
wi
e Xw =
n
∑
i=1
wiXi
n
∑
i=1
wi
as médias ponderadas de Y
e X , respectivamente. Afim de facilitar os cálculos, vamos reescrever o estimador de mínimos
quadrados ponderados de βw1 da seguinte maneira:
β̂w1 =
n
∑
i=1
wi(Xi−Xw)(Yi−Y w)
n
∑
i=1
wi(Xi−Xw)2
=
=
n
∑
i=1
wiXiYi−
n
∑
i=1
wiXiY w−
n
∑
i=1
wiXwYi+
n
∑
i=1
wiXwY w
n
∑
i=1
wi(Xi−Xw)2
=
=
n
∑
i=1
wiYiXi−
n
∑
i=1
wiXi

n
∑
i=1
wiYi
n
∑
i=1
wi
− n∑i=1 wiXwYi+
n
∑
i=1
wiXw

n
∑
i=1
wiYi
n
∑
i=1
wi

n
∑
i=1
wi(Xi−Xw)2
=
3.11 Exercícios 67
=
n
∑
i=1
wiYiXi−
n
∑
i=1
wiYi
n
∑
i=1
wiXi
n
∑
i=1
wi
−
n
∑
i=1
wiXwYi+
n
∑
i=1
wi
n
∑
i=1
XwwiYi
n
∑
i=1
wi
n
∑
i=1
wi(Xi−Xw)2
=
=
n
∑
i=1
wiYiXi−
n
∑
i=1
wiYiXw−
n
∑
i=1
wiYiXw+
n
∑
i=1
wiYiXw
n
∑
i=1
wi(Xi−Xw)2
=
n
∑
i=1
wiYiXi−
n
∑
i=1
wiYiXw
n
∑
i=1
wi(Xi−Xw)2
=
n
∑
i=1
wi(Xi−Xw)Yi
n
∑
i=1
wi(Xi−Xw)2
.
Logo, os estimadores de mínimos quadrados ponderados são dadas por:
β̂w0 = Y w− β̂w1Xw e β̂w1 =
n
∑
i=1
wi(Xi−Xw)Yi
n
∑
i=1
wi(Xi−Xw)2
Os valores de β̂w0 eβ̂w0 obtidos são denominados Estimadores de Mínimos Quadrados Ponde-
rados (EMQP).
O modelo de regressão linear simples ponderado ajustado é dado por
Ŷi = β̂w0+ β̂w1Xi i = 1, . . . ,n
em que Ŷ é um estimador pontual da média da variável Y para um valor de x, ou seja,
Ê(Y |Xi) = β̂w0+ β̂w1Xi, i = 1, . . . ,n
•
t. Especifique um modelo supondo que as correlações par a par dos erros são iguais à |ρ|< 1.
Solução
Quanda há correlação par a par dos erros, temos o modelo da forma
Y1
Y2
Y3
...
Yn
=

β0+β1X11+β2X12+ ...+βkX1k + ε1
β0+β1X21+β2X22+ ...+βkX2k + ε2
β0+β1X31+β2X32+ ...+βkX3k + ε3
...
β0+β1Xn1+β2Xn2+ ...+βkXnk + εn

Onde:
68 Capítulo 3. Modelo de regressão linear múltipla
e = N


0
0
0
...
0
 ,σ2

1 0 ... 0
0 1 ... 0
...
... ...
...
0 0 ... 1


De modo que:
Y |X ∼ Nn
Xβ ,Σ

1 0 ... 0
0 1 ... 0
...
... ...
...
0 0 ... 1


Sendo X a matriz de dados, β o vetor de parâmetros, Y o vetor de variáveis respostas, ε a
fonte de variação e Σ a matriz de correlação dos erros.
•
u. Especifique um modelo supondo que os erros apresentam uma estrutura autoregressiva, isto é,
Cov(εi,ε j) = ρ |i− j|,
em que |ρ|< 1.
Solução
Quando existe uma estrutura autoregressiva, temos o seguinte modelo:
Y = Xβ + ε
De modo que,
Var(e) = σ2Σ,
sendo
Σ=

1 ρ ... ρn
ρ 1 ... ...
...
... ...
...
ρn ... ... 1
 .
Sendo X a matriz de dados, β o vetor de parâmetros, Y o vetor de variáveis respostas, ε a
fonte de variação e Σ a matriz de correlação dos erros.
•
v. Verificou-se na análise de diagnóstico que o modelo especificado em ( f ) não é robusto à
valores discrepantes. Proponha e especifique um modelo mais robusto para os dados.
Solução
Podemos aplicar o critério de Rubber, que se baseia em minimizar
3.11 Exercícios 69
S(β ) =
n
∑
i=1
ρ(zi),
em que zi = ei/5 para dois casos. O primeiro para |z| ≤ c, na qual teremos:
z2/2,
e para |z| ≥ c,
c [|z|− c/2] .
Assim, pondera-se os resíduos e a distância de Cook pelos pesos estimados no processo de
estimação.
•
x. Qual modelo devemos utilizar quando observamos que as variáveis x foram medidas com
erros de medição?
Solução
Quando se tem erros de medidas nas variáveis algumas alternativas são utilizadas, dentre elas:
modelos de calibração, modelo linear heterocedástico com erros nas variáveis e na equação.
•
z. Qual modelo devemos utilizar quando a variável resposta não é obtida através de uma contagem
ou pode assumir apenas valores dois valores ou é sempre positiva?
Solução
Nesses casos, utilizamos o modelo de regressão logística, que é semelhante ao modelo de
regressão linear. No entanto, no modelo logístico a variável resposta Yi é binária (assume dois
valores), como por exemplo, Yi = 0 e Yi = 1, denominados "fracasso"e "sucesso", respectiva-
mente. Neste caso, "sucesso"é o evento de interesse.
No modelo linear temos
Yi = β0+β1xi+εi.
Assumindo que E(εi) = 0, obtemos que
E(Yi) = β0+β1xi.
A variável resposta Y tem distribuição Bernoulli (1,pi), com probabilidade de sucesso P(Yi =
1) = pii e de fracasso P(Yi = 0) = 1−pii. Desta forma
E(Yi) = pii.
Logo, temos:
E(Yi) = pii = β0+β1xi.
Essa igualdade viola as suposições do modelo linear. De fato,
i) Os erros não são normais, pois:
yi = 1 ⇒ εi = 1−β0−β1x1 yi = 0 ⇒ εi = 0−β0−β1x1 Assim não faz sentido assumirmos
a normalidade dos erros.
70 Capítulo 3. Modelo de regressão linear múltipla
ii) Não homogeneidade da variância.
Temos que Var(Y1) = pii(1−pii) = (β0+β1x1)(1−β0−β1x1) então a variância de Yi depende
de xi, e consequentemente, não é constante.
iii) Restrição para a resposta média E(Yi). Como a resposta média é obtida em probabilidades
temos que 0≤ β0+β1x1 ≤ 1. Entretanto, esta restrição é inapropriada para resposta em um
modelo linear, que assume valores no intervalo (−∞,∞).Uma forma de resolver esse problema
é utilizar o modelo logístico.
Muitas funções foram propostas para a análise de variáveis com respostas dicotômicas. Dentre
elas a mais simples é a que dá origem ao modelo logístico. Do ponto de vista estatístico este
modelo é bastante flexível e de fácil interpretação.
•
3.12 Aplicações em dados reais
3.12.1 Venda de imóveis
Apresentaremos neste tópico uma análise do conjunto de dados retirado do estudo de Gray (1994),
cujo objetivo foi tentar prever o preço de venda de um imóvel, em mil USD, dada a área total, em
mil pés quadrados, numa região de Eugene, EUA (foram coletadas 50 observações para esse estudo).
Considerando um modelo de regressão, a variável resposta deste conjunto de dados é do tipo
contínua, bem como a explicativa. Apresentaremos a análise descritiva e inferencial dos dados nos
dois próximos tópicos.
Análise descritiva
Antes do ajuste, precisamos realizar uma análise prévia dos dados para verificar as medidas e
comportamentos dos mesmos. O sumário para as duas variáveis são apresentados na tabela 3.1.
Variável Mínimo 1o quartil Mediana Média 3o quartil Máximo Variância Desvio padrão
Venda 0,8 1,5 1,9 1,9 2,2 4,0 0,4 0,6
Área 30,6 57,0 68,4 74,3 85,5 165,0 701,1 26,4
Tabela 3.1: Sumário estatístico das variáveis em estudo.
O gráfico de dispersão entre as duas variáveis é mostrado na figura 3.1 a seguir.
3.12 Aplicações em dados reais 71
Figura 3.1: Gráfico de dispersão entre as variáveis em estudo.
Observa-se um comportamento linear dos pontos observados (correlação de 0,91), além da
existência de um ponto discrepante da nuvem de dados do gráfico.
Para investigar o comportamento da variável resposta e explicativa, a figura 3.2 apresenta seus
respectivos histogramas.
Figura 3.2: Histograma para as variáveis Vendas e Área.
72 Capítulo 3. Modelo de regressão linear múltipla
Análise inferencial
Como dito anteriormente, o ajuste do modelo será feito considerando a variável resposta com
distribuição normal. A tabela 3.2 apresenta os resultados obtidos.
Estimativa Erro padrão Estatística do teste Valor-p
Intercepto 0,2999 0,1116 2,69 0,0099
Área 0,0215 0,0014 15,21 0,0000
Tabela 3.2: Estimativas de ajuste do modelo com distribuição normal.
Observa-se que tanto o intercepto como a variável explicativa foram significativos para o modelo.
Precisamos agora, estudar se as suposições impostas (normalidade dos resíduos, independência e
homocedasticidade) estão sendo atendidas ou não, bem como a busca por possíveis pontos influentes
que possam vir a tornar o modelo robusto ou não.
Figura 3.3: Diagnóstico para o ajuste do modelo normal.
Os dois gráficos superiores mostram um comportamento de homocedasticidade. O teste de
Shapiro-Wilk foi aplicado, e seu p-valor resultou em 0,0001, ou seja, a suposição de normalidade é
atendida.
Partindo para análise de sensibilidade (usando ainda os gráficos da figura 3.3), vamos investigar
se a observação #40, ponto remoto, é ou não influente para o modelo. O gráfico da distância de
3.12 Aplicações em dados reais 73
Cook mostra esse ponto como possível influente. A observação #50, que se encontra acima da reta
pontilhada (corte referente ao ponto 2p/n), é de alavanca, entretanto não é influente.
Para verificar se a observação #40 é influente, ajustamos novamente um modelo, agora desconsi-
derando essa observação.
Estimativa Erro padrão Estatística do teste Valor-p
Intercepto 0,1922 0,0955 2,01 0,0498
Área 0,0233 0,0012 18,89 0,0000
Tabela 3.3: Estimativas do ajuste do modelo com distribuição normal retirando a observação 40.
As estimativas mudam após o ajuste desconsiderando a observação #40, entretanto, ao nível de
5%, o modelo continua sendo significativo. A conclusão dessa análise nos leva a considerar o ponto
remoto como influente e classificar o modelo normal linear não robusto.
Embora o modelo normal linear, mesmo com a presença do ponto remoto, tenha sido significativo,
resolveu-se ajustar um modelo considerando a variável resposta gama.
A estrutura do modelo com resposta gama e sua respectiva função de ligação identidade, é
definida por:
g(µi) =
1
µi
= ηi = x>i β ,
em que g(µi) denota a função de ligação, ηi o preditor linear, xi a matriz de delineamento e β o vetor
de parâmetros do modelo.
A tabela 3.4 apresenta as estimativas dos parâmetros do modelo ajustado.
Estimativa Erro padrão Estatística do teste Valor-p
Intercepto 0,0903 0,0866 1,04 0,3022
Área 0,0245 0,0014 17,80 0,0000
Tabela 3.4: Estimativas do ajuste do modelo com distribuição gama.
Observe que o intercepto não é significativo para o modelo. Diferentemente do que ocorreu
quando o ajuste foi feito considerando o modelo normal. A seguir, são apresentados os gráficos para
análise de diagnóstico para esse primeiro ajuste considerando a distribuição gama.
74 Capítulo 3. Modelo de regressão linear múltipla
Figura 3.4: Diagnóstico para o ajuste do modelo gama.
A função de ligação está adequada, pelo comportamento linear dos pontos, entretanto a observa-
ção #40 continua sendo o ponto discrepante do modelo. Considerando o ajuste sem essa observação,
temos os seguintes resultados:
Estimativa Erro padrão Estatística do teste Valor-p
Intercepto 0,0395 0,0803 0,49 0,6248
Área 0,0255 0,0013 19,63 0,0000
Tabela 3.5: Estimativas do ajuste do modelo com distribuição gama sem a observação 40.
Novamente, a observação influencia nas estimativas e o modelo com reposta gama também não
é robusto.
Comparando os dois modelos sem o ponto discrepante pelo critério de Akaike (AIC), temos que
ambos apresentam o mesmo valor. Logo, como o modelo normal linear foi significativo para ambos
os parâmetros, é viável escolhê-lo como modelo final.
4. Modelo linear multivariado
Em atualização.
Parte III
MODELOS LINEARES
GENERALIZADOS
—————————————————
———————————–
5. Modelos Lineares Generalizados
5.1 Introdução
A suposição de normalidade para a variável resposta de um modelo de regressão linear foi, por
muito tempo, utilizada para estudos de fenômenos aleatórios. Mesmo nos casos onde os dados não
tinham tal comportamento, algumas modificações eram feitas para que se pudesse adotar a suposição,
como é o caso da transformação de Box-Cox (1964). Com o avanço computacional em meados dos
anos 70, alguns modelos foram ganhando espaço na literatura e mostraram ser melhores do que os
modelos antes utilizados. Dentre eles, podemos citar os Modelos Lineares Generalizados, propostos
por Nelder e Wedderburn (1972), que constituem uma extensão dos modelos lineares usuais, de
forma que a distribuição da variável resposta é um caso regular da família exponencial linear.
Neste capítulo, vamos comentar sobre os casos particulares dos Modelos Lineares Generalizados,
introduzindo seus conceitos, como família exponencial, funções de ligação (canônicas e outras
ligações), processo de estimação e função desvio. Posteriormente aisto, no capítulo seguinte,
discutiremos somente sobre as técnicas de diagnóstico em MLG’s.
5.2 Família exponencial
(Família exponencial linear) A família exponencial uniparamétrica é caracterizada por uma função
(de probabilidade ou densidade) da forma
f (x;θ) = h(x)[η(θ)t(x)−b(θ)], (5.1)
sendo h(x), η(θ), t(x), b(θ) funções que assumem valores em subconjuntos dos reais. Na forma
canônica, a família exponencial é definida considerando η(θ) e t(x) iguais a função identidade, de
modo que
f (x;θ) = h(x)exp[θx−b(θ)]. (5.2)
E, finalmente, considerando a introdução de um parâmetro φ > 0, para o componente aleatório
5.3 Funções de ligação e ligações canônicas 79
de um modelo linear generalizado que é definido a partir da família exponencial, temos a estrutura:
f (yi;θi,φ) = exp
[
1
ai(φ)
{yiθi−b(θi)}+ c(yi,φ)
]
. (5.3)
Em que a(·), b(·), c(·) são funções conhecidas, θi é o parâmetro natural ou canônico e ai(φ) =
φ/wi, com wi o peso a priori e φ > 0, conhecido, o parâmetro de dispersão ou escala.
É possível mostrar, sob condições gerais de regularidades, duas propriedades importantes para
os modelos lineares generalizados:
E
(
∂ log f (yi;θi,φ)
∂θ 2i
)
= 0 e
E
(
∂ 2 log f (yi;θi,φ)
∂θ 2i
)
= −E
[{
∂ log f (yi;θi,φ)
∂θi
}2]
,
que E(yi) = µi = b′(θi) e Var(yi) = φ−1V (µi), em que V (µi) =
∂µi
∂θi
é a função de variância (carac-
teriza a distribuição) e φ−1 é o parâmetro de dispersão.
Muitas distribuições importantes podem ser escritas na forma 5.3, tais como: Poisson, binomial,
binomial negativa, normal, gama e normal inversa. A seguir apresentamos os termos da família
exponencial para cada uma dessas distribuições:
i. Distribuição Poisson
ii. Distribuição binomial
iii. Distribuição binomial negativa
iv. Distribuição normal
v. Distribuição gama
vi. Distribuição normal inversa
Nesse contexto, o modelo se caracteriza pela especificação de três componentes, sendo eles
o componente aleatório, dado por 5.3, além do componente sistemático (preditor linear), ηi, e da
função de ligação, g(·), que podem ser expressos da seguinte maneira:
ηi = g(µi).
O componente sistemático, dado por ηi = x>i β , é definido pelas variáveis regressoras (parte
não-aleatória) e o vetor η é denominado vetor de preditores lineares, em que β = (β1,β2, ...,βp)>,
p< n, é um vetor de parâmetros a serem estimados, xi = (xi1,xi2, ...,xip)> representam as variáveis
explicativas. Além disso, g(µ) é uma função (monótona e diferenciável) de ligação que relaciona a
média (ou componente aleatório, Y) com o componente sistemático, η , .
5.3 Funções de ligação e ligações canônicas
A função de ligação, denotada por g(µi), faz a ligação entre a média µi e o preditor linear ηi. A
forma como como os efeitos sistemáticos x1,x2, ...,xk são transmitidos para a média é definida por
ela.
Quando a função de ligação apresenta estrutura de forma que ηi = θi, a denominamos de ligação
canônica. Sua utilização implica em algumas vantagens, tais como: simplifica as estimativas de
máxima verossimilhança dos parâmetros, bem como o cálculo do intervalo de confiança para a
média da resposta. Paula (2010) afirma que sua utilização garante a concavidade da função de
80 Capítulo 5. Modelos Lineares Generalizados
verossimilhança, L(β ) (isso garante que a estimativa de β é única), e consequentemente muitos
resultados assintóticos são facilmente obtidos.
A seguir, listamos as funções de ligação mais comumente utilizadas para cada uma das distribui-
ções pertencentes à família exponencial:
i. Distribuição Poisson: para o modelo com distribuição Poisson utiliza-se a função de ligação
identidade, logaritma e raiz quadrada, mostradas, respectivamente, a seguir:
g(µi) = µi = ηi
g(µi) = logµi = ηi
g(µi) =
√
µi = ηi
ii. Distribuição binomial: para o modelo com distribuição binomial utiliza-se a função de ligação
logito, probito e complemento log− log, mostradas, respectivamente, a seguir:
g(µi) = log
(
µi
1−µi
)
= ηi
g(µi) = Φ−1(µi) = ηi
g(µi) = log(− log(1−µi)) = ηi
iii. Distribuição binomial negativa: para o modelo com distribuição binomial negativa utiliza-se a
função de ligação identidade, logaritma e raiz quadrada, mostradas, respectivamente, a seguir:
g(µi) = µi = ηi
g(µi) = logµi = ηi
g(µi) =
√
µi = ηi
iv. Distribuição normal: para o modelo com distribuição normal a função de ligação usada é a
identidade, ou seja:
g(µi) = µi = ηi
v. Distribuição gama: para o modelo com distribuição gama utiliza-se a função de ligação
identidade, logaritma e recíproca, mostradas, respectivamente, a seguir:
g(µi) = µi = ηi
g(µi) = logµi = ηi
g(µi) =
1
µi
= ηi
vi. Distribuição normal inversa: para o modelo com distribuição normal inversa utiliza-se a função
de ligação logaritma e canônica, mostradas, respectivamente, a seguir:
g(µi) = µi = ηi
g(µi) =
1
µ2i
= ηi
Em casos particulares, quando 0< µ < 1, uma possível função de ligação é F−1(µi) = ηi, em
que F é alguma função de distribuição acumulada. Portanto, pode-se considerar µi = F(ηi). Alguns
exemplos:
5.4 Função escore e informação de Fisher no processo de estimação 81
a. para a função de ligação complemento log− log, temos que µi = 1− exp{−exp(µi)}, que é a
função de distribuição acumulada da distribuição valor extremo
g(µi) = ηi = log{−log(1−µi)},
b. para a ligação logito, temos que µi =
eηi
1+ eηi
, que é a função de distribuição acumulada da
distribuição logística.
•
Jorgensen (1987) apresenta uma propriedade importante que relaciona a distribuição de y e a
função de variância: √
φ(y−µ) d−→ N(0,V(µ)) quando φ → ∞.
Ou seja, não há necessidade de uma tamanho amostral grande, basta φ grande para que o
comportamento da variável aleatória se aproxime de uma distribuição normal (mesmo essa variável
sendo discreta). A importância desse resultado reflete na facilidade da construção de intervalos de
confiança e testes de hipóteses.
5.4 Função escore e informação de Fisher no processo de estimação
Considerando a participação do vetor paramétrico θ = (β>,φ)>, com L(θ) denotando a função de
verossimilhança, ou seja,
L(θ) =
n
∏
i=1
f (yi;θ ,φ) =
n
∏
i=1
exp
{
1
ai(φ)
(yθi−b(θ))+ c(yi;φ)
}
,
e l(θ), o logarítmo da verossimilhança,
l(θ) = log
{
n
∏
i=1
f (yi;θ ,φ)
}
=
n
∑
i=1
{
1
ai(φ)
(yθi−b(θ))+ c(yi;φ)
}
, (5.4)
a estimação por máxima verossimilhança dos parâmetros β e φ do modelo é calculada a partir da
derivação de 5.4 com relação a cada um dos parâmetros.
Na derivação de β , para obter Uβ , precisamos seguir o ordem das funções, ou seja, θ → µ →
η → β , dessa forma:
Uβ j =
l(θ)
∂β j
=
n
∑
i=1
1
ai(φ)
{
yi
∂θi
∂µi
∂µi
∂ηi
∂ηi
∂β j
− ∂b(θ)
∂θi
∂θi
∂µi
∂µi
∂ηi
∂ηi
∂β j
}
=
n
∑
i=1
1
ai(φ)
{yiV−1i (∂µi/∂ηi)xi j−µiV−1i (∂µi/∂ηi)xi j}
=
n
∑
i=1
1
ai(φ)
{
(yi−µi)xi jV−1i (∂µi/∂ηi)
}
.
82 Capítulo 5. Modelos Lineares Generalizados
O estimador de β é obtido quando resolvemos a equação Uβ j = 0. Entretanto, essas equações,
em geral, não são lineares, fazendo-se necessário o uso de aproximações numéricas para calcular as
soluções do sistema.
Utilizando o método de Newton-Raphson, devemos fazer
U = U(0)+U
′(0)(β̂ −β (0)) = 0,
sendo U
′
a matriz de derivadas de segunda ordem de U com respeito a β> (denominada de matriz de
informação de observada de Fisher) e U(0), U
′(0) as respectivas quantidades avaliadas em β (0).
Repetindo o procedimento, o processo iterativo passa a ser expresso por
β (m+1) = β (m)+(−U′(m))−1(U(m)).
Em alguns casos, as componentes de −U′(m) não são fáceis de serem encontradas (a matriz
também pode não ser positiva definida). Neste caso, a substituímos pela matriz de informação
esperada de Fisher,J , ou seja,
β (m+1) = β (m)+(J −1)(m)U(m),
sendo amatriz de informação de Fisher,J , expressa por:
J = E
{
− ∂
2l(θ)
∂β∂β>
}
= E
{
∂ l
∂β j
· ∂ l
∂βk
}
= E
{
n
∑
i=1
1
ai(φ)
(yi−µi) 1V (µi)
∂µi
∂θi
xi j ·
n
∑
i=1
1
ai(φ)
(yi−µi) 1V (µi)
∂µi
∂θi
xik
}
=
n
∑
i=1
{
xi j
ωi
φ
1
V (µi)
(
∂µ
∂θi
)2
xik
}
=
1
φ
n
∑
i=1
{
xi jWixik
}
=
1
φ
X>WX,
sendo ai(φ) = φ/ωi e W = diag
{
ωi
V (µi)
(
µi
∂ηi
)2}
.
Utilizando os termos ai(φ) e W, expressos anteriormente, podemos voltar à função escore e
expressá-la de forma mais adequada. A equação obtida era da forma:
Uβ j =
n
∑
i=1
1
ai(φ)
{
(yi−µi)xi jV (µi)−1(∂µi/∂ηi)
}
.
Se multiplicarmos a expressão por (∂µi/∂ηi) e (∂ηi/∂µi), e fizermos ai(φ) = φ/ωi, não
estaremos alterando o valor da mesma, mas estaremos deixando-a com os termos de W, ou seja, a
expressão que estava dada por
Uβ j =
n
∑
i=1
1
ai(φ)
{
(yi−µi)xi jV (µi)−1 ∂µi∂ηi
}
,
5.4 Função escore e informação de Fisher no processo de estimação 83
agora passa a ser
Uβ j =
1
φ
n
∑
i=1
{
(yi−µi)xi jωiV (µi)−1 ∂µi∂ηi
∂µi
∂ηi
∂ηi
∂µi
}
=
1
φ
n
∑
i=1
{
(yi−µi)xi j ωiV (µi)
(
∂µi
∂ηi
)2 ∂ηi
∂µi
}
=
1
φ
n
∑
i=1
{
(yi−µi)xi jWiDi
}
,
sendo Di =
∂ηi
∂µi
= diag{g′(µi)}.
A função escore para a ser então, expressa por
U =
1
φ
X>WD(yi−µi). (5.5)
Os termos do processo iterativo também podem ser reescritos. Observe:
β (m+1) = β (m)+J (m)
−1
U(m) × (J (m)−1)
J (m)
−1
β (m+1) = J (m)
−1
β (m)+U(m)
1
φ
X>W(m)Xβ (m+1) =
1
φ
X>W(m)[Xβ (m)+D(m)(y−µ(m))]
β (m+1) = (X>W(m)X)−1X>W(m)Z(m),
com
Z(m) = Xβ (m)+D(m)(y−µ(m))
= η(m)+D(m)(y−µ(m)),
sendo D = g′(µi) e W = diag
{
ωi
V (µi)
1
g′(µi)2
}
.
O critério de parada do algoritmo é subjetiva e depende de cada objetivo. O valor inicial do
processo pode ser definido pela estimação do parâmetro considerando a regressão ajustada pelo
método clássico.
A seguir apresentamos as funções escore e informação de Fisher para cada um dos modelos
pertencentes à família exponencial:
(Funções escore e Informação de Fisher para o modelo Poisson) A função de variância para o
modelo Poisson é expressao por V (µ) = µ . Dessa forma, ω = µ(∂θ/∂η)2. Se a ligação é canônica,
dada por logµ = η , os pesos são as próprias médias, isto é ω = µ . Caso a ligação seja raiz quadrada,
dada por
√µ = η , temos ω = 1. Dessa forma, temos para o modelo com resposta Poisson:
Uβ = X>V−1/2(y−µ)
J = X>X.
•
84 Capítulo 5. Modelos Lineares Generalizados
(Funções escore e Informação de Fisher para o modelo normal) Na distribuição normal a função
de variância é dada por V (µ) = 1, logo os pesos são dados por ω = (∂θ/∂η)2. Se considerarmos a
ligação canônica, θ = η , obtemos ω = 1, ou seja:
Uβ = σ−2X>(y−µ)
J = σ−2X>X.
•
5.5 Teste de hipóteses
5.5.1 Função desvio
A função desvio, Dp, compara o valor do logaritmo da verossimilhança do modelo saturado, l̂n, (com
todos os parâmetros) com valor do logaritmo da verossimilhança do modelo em investigação, l̂p,
(quantidade de parâmetros escolhido pelo investigador). Logo, quanto menor o seu valor, melhor o
modelo. A abordagem considerada neste tópico é baseada na scaled deviance (Sp), ou seja,
Sp = 2(l̂n− l̂p) ou Sp = 1φ Dp.
As funções são expressas por:
l̂n =
n
∑
i=1
1
ai(φ)
{[yiθ˜i−b(θ˜i)]+ c(yi,φ)}
=
1
φ
n
∑
i=1
ωi{[yiθ˜i−b(θ˜i)]+ c(yi,φ)}
l̂p =
n
∑
i=1
1
ai(φ)
{[yiθ̂i−b(θ̂i)]+ c(yi,φ)}
=
1
φ
n
∑
i=1
ωi{[yiθ̂i−b(θ̂i)]+ c(yi,φ)},
com θ˜ o parâmetro canônico sob o modelo saturado e θ̂ o parâmetro canônico sob o modelo em
estudo.
Assim,
Sp =
1
φ
n
∑
i=1
2ωi{yi[θ˜i− θ̂i]−b(θ˜i)−b(θ̂i)}
=
1
φ
Dp.
5.5.2 Teste da razão de verossimilhança
Considere a partição (β>1 ,β>2 )> (com β1 um vetor com dimensão q e β2 um vetor com dimensão
p−q), para testar as hipóteses H0 : β1 = 0 e H1 : β1 6= 0. Sob H0 as respectivas funções desvios são
5.5 Teste de hipóteses 85
dadas por D(y;µ0) e D(y; µˆ). A estatística da razão de verossimilhanças, neste caso, é dada pela
diferença entre os dois desvios, ou seja:
TRV = φ{D(y;µ0)−D(y; µˆ)}
Sob a hipótese nula, tem-se que TRV∼ χ2q , quando n−→ ∞. Logo, temos que
F =
{D(y;µ0)−D(y; µˆ)}/q
D(y; µˆ)/(n− p) ,
cuja distribuição nula assintótica é uma Fq,(n−p) quando o denominador pe uma estimativa consistente
de φ−1. Segundo Paula (2010), a vantagem de utilizarmos esta estatística em detrimento da TRV é o
fato de que a primeira não depende do parâmetro de dispersão.
5.5.3 Teste de Wald
5.5.4 Teste de escore
5.5.5 Teste de F
6. Técnicas de diagnóstico em MLG
6.1 Introdução
Pelo fato de não existir fonte de variação associada aos Modelos Lineares Generalizados, as
técnicas de diagnóstico nesse contexto sofrem algumas adaptações, apesar da semelhança entre as
duas abordagens. Neste caso, é preciso verificar: adequação da distribuição proposta (função de
variância), adequação da função de ligação e adequação das escalas das covariáveis, bem como a
existência de outliers, pontos influentes e pontos de alavanca. Porém, primeiramente, vamos abordar
umas das primeiras metodologias de diagnóstico em MLG’s, que avalia a qualidade de ajuste do
modelo: função desvio.
6.2 Análise de resíduos
Neste tópico, apresentaremos os tipos de resíduos utilizados para os MLG’s, bem como a
apresentação de algumas técnicas gráficas para verificação de suposições citadas anteriormente.
Considere o modelo
y = Xβ ,
e a expressão de β̂ obtida na convergência do processo iterativo para estimação de β nos MLG’s,
dada por
β̂ = (X>ŴX)−1X>Ŵẑ,
com ẑ = η̂+Ŵ−1/2V̂−1/2(y− µ̂). Temos então que a matriz de projeção da solução de mínimos
quadrados fica dada por
H = ŴX(X>ŴX)−1X>Ŵ−1/2, (6.1)
de forma que hii é o i-ésimo elemento da diagonal principal da matriz 6.1.
Os resíduos utilizados na abordagem para os Modelos Lineares Generalizados são, além do
ordinário, são dados por:
6.3 Análise de sensibilidade 87
i. Resíduos de Pearson generalizados:
ε pi =
yi− µ̂i√
φ̂
wi
V (µ̂)
,
em que φ̂ é uma estimativa consistente de φ e wi o peso a priori.
ii. Resíduos de Pearson generalizados estudentizado internamente:
ε p∗i =
yi− µ̂i√
φ̂
wi
V (µ̂)(1−hii)
,
em que hii é o elemento da diagonal principal de H.
iii. Resíduos componentes do desvio:
εDi = sinal(yi− µ̂i)
√
2(l̂sat− l̂cor),
em que l̂sat é a log-verossimilhança do modelo saturado e l̂cor é a log-verossimilhança do
modelo corrente, cujo sinal depende da diferença entre yi e µ̂i.
iv. Resíduos componentes do desvio estudentizado:
εD∗i =
εDi√
1−hii
.
Técnicas gráficas são utilizadas para a verificação das suposições para MLG’s, a seguir a
apresentamos:
i. Gráfico η versus valores ajustados;
ii. Resíduos componentes do desvio versus índices (identifica outliers);
iii. Distância de Cook versus índice da observação (aponta pontos possivelmente influentes);
iv. z× η̂ (um comportamento linear aponta adequação da função de ligação).
v. Envelope simulado (adequação da distribuição escolhida).
6.3 Análise de sensibilidade
As propostas para pontos de alavanca segue estrutura dos modelos lineares clássicos, que utiliza
a matriz H. Para os pontos influentes, supondo φ conhecido, o afastamento pela verossimilhança
quando eliminamos a i-ésima observação é denotado por:
LDi = 2{L(β̂ −L(β̂i))},
sendo uma medida que verifica a influência no modelo quando retira-se a i-ésima observação.
Após algumas alterações na expressão (consultar Paula, 2013), temos:
LDi ∼=
{
ĥii
(1− ĥii)
}
ep∗2
7. Modelos para dados binários
7.1 Modelo de Regressão Binomial - MRB
8. Modelos para dados de contagem
Os modelos de regressão Poisson e binomial negativo fazemparte do que é conhecido por modelos
de regressão para dados de contagem, e têm por objetivo analisar o comportamento, em função de
variáveis preditoras, de uma determinada variável dependente que se apresenta na forma quantitativa,
porém com valores discretos e não negativos (dados de contagem).
Avaliação da quantidade de vezes que um grupo de pacientes idosos vai ao médico por ano,
em função da idade de cada um deles, do sexo e das características dos seus planos de saúde, por
exemplo, pode ser uma possível aplicação desses modelos. Outra exemplo, modelar a quantidade de
ofertas públicas de ações que são realizadas em uma amostra de países desenvolvidos e emergentes
num determinado ano, com base em seus desempenhos econômicos, como inflação, taxa de juros,
produto interno bruto e taxa de investimento estrangeiro.
8.1 Modelo de Regressão Poisson - MRPois
ddd
8.2 Modelos de Regressão Binomial Negativa - MRBN
ddd
8.3 Aplicações em dados reais
8.3.1 Infecção de ouvido
Apresentaremos neste tópico uma análise do conjunto de dados retirado de Hand et al. (1994),
referentes a um estudo desenvolvido em 1990 com 287 recrutas norte-americanos. Nesse estudo, têm-
se interesse em relacionar o número de infecções no ouvido sofridas pelos recrutas, diagnosticadas
pelos próprios, com algumas variáveis que possivelmente explicam essas conturbações: hábito de
nadar (ocasional, frequente), local onde costuma nadar (piscina, praia), faixa etária (15-19, 20-25,
90 Capítulo 8. Modelos para dados de contagem
25-29) e gênero (masculino, feminino). Para a modelagem destes dados utilizaremos os conceitos de
modelos de regressão.
Considerando um modelo de regressão, a variável resposta deste conjunto de dados é caracteri-
zada como do tipo contagem, sendo possível a modelagem utilizando as distribuições Poisson ou
binomial negativa, casos particulares dos Modelos Lineares Generalizados.
Apresentaremos a análise descritiva e inferecial para esse conjuntos de dados, incluindo a análise
de diagnóstico para verificação das suposições impostas.
Análise descritiva
Foram observadas 5 variáveis (hábito de nadar, local onde costuma nadar, idade, gênero e número
de infecções) de 287 indivíduos. A seguir apresentamos a análise descritiva para cada uma dessas
variáveis.
Com relação a frequência com que nadam, 143 indivíduos têm o hábito frequente de natação e
144 indivíduos têm o hábito ocasional de nadar. Para a variável referente ao local onde nadam, 147
indivíduos dizem ser a praia e 140 dizem ser a piscina o local de natação.
Figura 8.1: Frequência com que nadam e local onde nadam
A variável faixa etária foi separada em três grupos. A maioria se encontra no grupo que
compreende a idade de 15 a 19 anos, totalizando 140 pessoas. O segundo maior grupo é formado
por 79 pessoas, que possuem idade entre 20 e 24 anos. Para o grupo que compreende pessoas de
25 a 29 anos, a contagem foi de 68 pessoas. Para o gênero, a maioria desta é do sexo masculino,
totalizando 188 homens e 99 mulheres.
8.3 Aplicações em dados reais 91
Figura 8.2: Faixa Etária e Gênero
Para a variável resposta apresentamos o gráfico boxplot (interessante quando o estudo é composto
por variáveis categóricas) para cada uma das variáveis explicativas consideradas.
Figura 8.3: Boxplot da variável resposta em relação a cada variável explicativa
92 Capítulo 8. Modelos para dados de contagem
Visualizando o primeiro boxplot, ’Frequência com que nadam’, observa-se uma variabilidade
maior no grupo de recrutas que nadam ocasionalmente, bem como alguns valores distantes da
mediana dos dados. Para o boxplot ’Faixa etária’, o grupo de idade de 20 a 24 possui uma observação
distante das demais, podendo se caracterizar como um ponto remoto dos dados, (outlier). No boxplot
’Local que pratica natação’, observa-se variabilidade maior para o grupo que nada em piscina e para
o ’Gênero’, valores da categoria ’Masculino’ apresentam pontos mais afastados do gráfico do que as
do sexo ’Feminino’.
Análise inferencial
Feita a análise descritiva dos dados, parte-se para aplicação do modelo de regressão, cujo objetivo
é explicar o número médio de infecções nos ouvidos utilizando as variáveis regressoras (explicativas)
apresentadas anteriormente. Análise será feita no software R (versão 3.4.3).
Inicialmente, ajustamos o modelo com resposta Poisson, pelo fato dos dados serem do tipo
contagem, e função de ligação do tipo logarítmica. A estrutura do modelo fica então expressa por:
g(µi) = logµi = ηi = x>i β ,
em que g(µi) denota a função de ligação, ηi o preditor linear, xi a matriz de delineamento e β o vetor
de parâmetros do modelo.
Inicialmente, consideramos o modelo com todas as variáveis explicativas. Os resultados estão
apresentados na tabela 8.1.
Tabela 8.1: Estimativas de ajuste do modelo com distribuição Poisson.
Estimativa Erro padrão Estatística do teste Valor-p
Intercepto -0,1226 0,1371 -0,89 0,3710
Frequência - Ocasionalmente 0,6115 0,1050 5,82 0.0000
Local - Piscina 0,5345 0,1067 5,01 0,0000
Idade - 20-24 -0,3744 0,1284 -2,92 0,0035
Idade - 25-29 -0,1897 0,1301 -1,46 0,1447
Sexo - Masculino -0,0899 0,1123 -0,80 0,4237
Ao nível de 5%, observa-se que o intercepto não é significativo para o modelo, bem como Idade
e Sexo. Vamos observar o gráfico de envelope simulado e verificar se a distribuição utilizada parece
viável para esse primeiro modelo. Na figura 8.4 observamos uma grande quantidade de pontos fora
da barreira do envelope, o que indica que a distribuição Poisson não é adequada para modelagem do
conjunto de dados em estudo.
8.3 Aplicações em dados reais 93
Figura 8.4: Envelope simulado para a distribuição Poisson.
A alternativa é considerar a modelagem sob a suposição de que a resposta tem distribuição
binomial negativa. Considerando as mesmas variáveis do ajuste do modelo anterior, temos os
seguintes resultados:
Estimativa Erro padrão Estatística do teste Valor-p
Intercepto -0.0608 0.2391 -0.25 0.7992
Frequência - Ocasionalmente 0.6030 0.1897 3.18 0.0015
Local - Piscina 0.5455 0.1961 2.78 0.0054
Idade - 20-24 -0.4292 0.2343 -1.83 0.0670
Idade - 25-29 -0.2625 0.2405 -1.09 0.2751
Sexo - Masculino -0.1400 0.2079 -0.67 0.5006
Tabela 8.2: Estimativas de ajuste do modelo com distribuição binomial negativo.
Observa-se comportamento semelhante ao ajuste considerando a resposta com distribuição
Poisson. Entretanto, pelo critério de Akaike (AIC) o modelo considerando resposta Poisson obteve
valor 1139 e o modelo com resposta binomial negativa obteve valor 904, o que nos indica o segundo
ajuste sendo melhor que o primeiro. Vamos verificar pelo gráfico do envelope simulado a adequação
da binomial negativa:
94 Capítulo 8. Modelos para dados de contagem
Figura 8.5: Envelope simulado para a distribuição binomial negativa.
A escolha da distribuição binomial negativa parece adequada para o modelo, sendo este melhor
que o primeiro ajustado. É preciso verificar agora quais variáveis ficam ou não no modelo.
A partir do ajuste apresentado na tabela 8.2, observa-se que idade e sexo não foram significativas
para o modelo. Podemos então, comparar o modelo com todas as variáveis e o modelo com a retirada
das variáveis não significativas. Para isso aplicamos o teste da razão de verossimilhança.
Aplicando o teste no software R, observa-se o valor da estatística do teste igual a 3,8214 com
3 graus de liberdade e valor-p igual a 0,2815, não rejeitando, portanto, a hipótese nula, ou seja,
o modelo restrito é melhor (retira as variáveis gênero e faixa etária). A tabela 8.3 apresenta os
resultados após o ajuste do novo modelo.
Estimativa Erro padrão Estatística do teste Valor-p
Intercepto -0,2777 0,1743 -1,59 0,1111
Hábito - Ocasionalmente 0,5902 0,1906 3,10 0.0020
Local - Piscina 0,4813 0,1900 2,53 0,0113
Tabela 8.3: Estimativas de ajuste do modelo com distribuição binomial negativo- Modelo restrito.
O AIC do modelo restrito resultou em 902,5, valor inferior aos dois modelos anteriormente
ajustados. O gráfico do envelope simulado apresenta adequacidade da distribuição binomial negativa.
8.3 Aplicações em dados reais 95
Figura 8.6: Envelope simulado para a distribuição binomial negativa - Modelo restrito.
O modelo encontrado é o que melhor se ajusta ao conjunto de dados, visto que apresentou ser
significativo com relação as covariáveis selecionadas e a distribuição binomial negativa apresentou
melhor comportamento para modelar a variável resposta.
Entretanto, para validar o modelo, é preciso verificar se o mesmo é robusto, ou seja, se perturba-
ções impostas afetam inferências realizadas. É nesta parte que utilizamos os conceitos de análise de
sensibilidade.
Nesta verificação, podemos utilizar a matriz hat, para verificação de pontos de alavanca, e a
distância de Cook, que informa a existência de pontos influentes. Os resíduos também detectam
pontos aberrantes (com alto resíduo) e neste exemplo utilizaremos o resíduo componente do desvio.
96 Capítulo 8. Modelos para dados de contagem
Figura 8.7: Diagnóstico - Modelo restrito.
A função de ligação não sugere problemas, pois o gráfico apresenta um comportamento linear.
Entretanto, um ponto em especial pode estar causando problemas ao modelo. Conforme o gráfico o
identifica, o ponto 249 é um outlier, entretanto não é de alavanca, mas pode ser influente.
Para verificar se o comportamento dessa observação é significativamente influente, realiza-se um
novo ajuste com a ausência dessa observação. A tabela 8.4 apresenta os resultados.
Estimativa Erro padrão Estatística do teste Valor-p
Intercepto -0.4028 0.1756 -2.29 0.0218
Hábito – Ocasionalmente 0.6735 0.1891 3.56 0.0004
Local – Piscina 0.5607 0.1883 2.98 0.0029
Tabela 8.4: Estimativas de ajuste do modelo com distribuição binomial negativo - Modelo restrito
sem a observação 249
Verifica-se que o intercepto passa a ser significativo, ou seja, o ponto interfere nas estimativas
dos parâmetros, logo é dito ser um ponto influente no modelo. Este por sua vez é dito ser sensível,
devido a essa característica.
A título de observação, o ponto #249 refere-se a um recruta do sexo feminino que tem hábito
frequente de nadar na praia, com idade entre 15 e 19 que se diagnosticou 10 vezes com infecção no
ouvido.
Esta observação não foi retirada do banco de dados, pois essa ação apenas pode ser feita sob
8.3 Aplicações em dados reais 97
pedido do pesquisador. O mesmo pode decidir pela retirada dessa observação do conjunto de dados
e/ou verificar se a mesma foi um erro de transcrição de dados.
9. Modelos para dados positivos assimétricos
9.1 Resposta com distribuição gama
9.2 Resposta com distribuição normal inversa
10. Regressão Logística
10.1 Introdução
O modelo de regressão logística, tem como característica modelar variáveis resposta de um
modelo do tipo qualitativa, como por exemplo, sim e não, presença e ausência, entre outros. É
considerado um tópico dos Modelos Lineares Generalizados, porém pode ser considerado um modelo
não-linear, visto que a relação entre a média e a combinação dos parâmetros não é feita de forma
direta.
O modelo de regressão logístico tem esse nome devido a utilização, na modelagem, da distri-
buição acumulada da logística para a função de ligação - logit (somente essa é considerada). O
grande diferencial da estrutura dessa modelagem é o fato do modelo ser estudado em termos da
probabilidade do sucesso, e não diretamente sobre a variável resposta Y .
Outras características presentes no modelo são:
i. Os erros não tem distribuição normal;
ii. Variâncias são heterogêneas;
iii. Restrição na função resposta.
Neste capítulo, destinado somente à regressão logística discutiremos os tópicos citados an-
teriormente, bem como os conceitos envolvendo odds e odds-ratio, razão e razão de chances,
respectivamente. Além disso, iniciaremos a apresentação do modelo considerando somente uma
variável preditora (interpretações mais fáceis) e, somente depois, acrescentaremos mais preditoras
no modelo.
10.2 O modelo
Para isso, considere a resposta, Ri, sendo zero para fracasso e um para sucesso. Então:
Ri∼Ber(pi)
A regressão logística tem por objetivo explicar a P(Ri = 1) = pi em função de uma série de
variáveis que explicam a ocorrência do evento Ri = 1. Porém, a regressão feita diretamente em Y
100 Capítulo 10. Regressão Logística
não fornece muita informação (não como ajustar reta). Para contornar esse problema, suponha que
se deseja modelar a variável resposta em função apenas de uma variável X . De imediato, já se sabe
que pensar no modelo Pi = β0+β1X não faz sentido, pelo fato de que 0< pi < 1 e a idade varia de
[0, inf]. Como alternativa, pode-se pensar em aplicar o modelo eβ0+β1 , porém, mesmo assim, ainda
se tem problema, pois tal função pode gerar valores maiores que um. Para solucionar isso, o modelo
na qual pi obedece sua variação é dado por:
pi =
eβ0+β1
1+ eβ0+β1
(10.1)
Deixando em função de pi, chega-se na função de ligação no modelo logístico chamada de
’logit’:
logit(pi) = ln
(
pi
1+ pi
)
(10.2)
Dessa forma, modelar pi é o mesmo que ajustar um modelo linear sobre uma função que
transforma a variável pi em logit.
Observação: A função de ligação logit é uma função monotonicamente crescente, isto é, o
aumento da função logit(pi) leva a diminuição de pi.
10.3 Estimação dos parâmetros
O modelo logístico pode ser representado na forma:
yi|pi∼Ber(pi) (10.3)
Sendo
pi =
eθ
1+ eθ
θ = β0+β1Xi1+ ...+βkXik
ajustar um modelo logístico consiste em estimar K+1 parâmetros, que pode ser feito por máxima
verossimilhança (o processo não será mostrado aqui).
10.4 Interpretação dos parâmetros
No modelo logístico, os parâmetros β0,β1, ...,βk são simples de serem interpretados no âmbito da
variável explicativa associada a cada um deles, uma vez que terão associação direta (positiva ou
negativa) com a probabilidade de sucesso pi. Assim:
i. β j > 0 :Probabilidade de sucesso aumenta quando X j aumenta.
ii. β j < 0 :Probabilidade de sucesso diminui quando X j aumenta.
iii. β j = 0 :Indica que a variável não está associada com yi
O parâmetro β0 representa o risco inicial e indica probabilidade inicial de sucesso. Note que o
parâmetro β j representa o quanto a exposição ao fator de risco (característica) contribuirá com o
aumento/decréscimo da probabilidade de sucesso.
É possível expressar o grau de associação entre yi e X j através do Odds Ratio:
10.5 Adequação do modelo 101
OR =
P(Y=1|X j=1)
1−P(Y=1|X j=1)
P(Y=1|X j=0)
1−P(Y=1|X j=0)
(10.4)
Sem perda de generalidade, suponha o modelo θ = β0 +β jX ji. Então a comparação entre o
grupo 1 (X j = 1) e o grupo 2 (X j = 0) pode ser dada por:
OR =
θβ0+β jX ji
1−θβ0+β jX ji
θβ0
1−θβ0
= eβ j (10.5)
Dessa forma, o Odds Ratio associado a um fator de exposição binária X j será estimado por:
OR j = eβ j (10.6)
A interpretação pode ser feita afirmando, por exemplo, que pessoas com fator de risco X j = 1
tem eβ j mais chances de ter a doença do que pessoas sem a características X j = 0.
10.5 Adequação do modelo
Existem testes que avaliam o modelo logístico como um todo, porém o teste aqui demonstrado tem
por finalidade medir o grau de significância de cada coeficiente da equação logística, inclusive a
constante. Sua função é semelhante ao teste T visto em modelos lineares, ou seja, a hipótese nula do
modelo é de nulidade dos coeficientes tomados um a uma. A estatística Wald segue a distribuição
qui-quadrado sendo calculada por:
Z2 =
β 2j√
V (β j)
(10.7)
10.6 Aplicações em dados reais
10.6.1 Tempo de estoque
Considere o modelo logit(pi) = 4.03−0.0042xi, sendo xi o peso de material em gramas e Y o tempo
de estoque. Nesse modelo, para cada grama a mais (uma unidade acima)têm-se uma redução de
0.42% na probabilidade de o material ficar no estoque.
10.6.2 Risco de inadimplência (utilizando o software SAS)
Suponha que uma concessionária1 esteja interessada em aprimorar sua política de vendas para
minimizar perdas de clientes. Uma das medidas que se encontram em cogitação é exigir garantias
adicionais de indivíduos que não possuem renda fixa, especialmente quando responsáveis pelas
1O exemplo foi retirado do livro Análise multivariada, para os cursos de Administração, Ciências Contábeis e Economia
da Fundação Instituto de Pesquisas Contábeis, Atuariais e Financeiras.
102 Capítulo 10. Regressão Logística
despesas da família. Por considerar que as exigências devem variar em função do risco de inadim-
plência associado a cada operação, o controller solicitou um estudo baseado no histórico dos últimos
12 meses. Para tanto, tomou-se um amostra aleatória de 31 clientes, em relação aos quais foram
consideradas as seguintes variáveis: renda mensal (Renda), número de dependentes (ND) e vínculo
empregatício (Vínculo). De acordo com o comportamento apresentado no período, cada um foi
classificado como adimplente ou inadimplente. O objetivo do estudo é verificar o risco de um cliente
assumir a condição de inadimplente, das certas características a ele associadas.
Em suma, o objetivo final é estimar a probabilidade de o cliente assumir o status de inadimplente,
em função das variáveis renda, número de dependentes e tipo de atividade profissional (vínculo
empregatício). A variável dependente, portanto, é o status que o cliente poderá assumir em certas
circunstâncias - adimplência, 1, ou inadimplência, 0. Como a variável resposta é de natureza
dicotômica, o modelo de regressão estudado neste capítulo é o mais indicado. Além disso, o
resultado deve ser expresso de forma a ser interpretado em termos de probabilidade.
O software utilizado para a análise estatística dos dados será o Statistical Analysis System, SAS,
em sua versão para estudantes, denominada SAS Studio. Trata-se de uma plataforma gratuita do
software, sendo sua sua versão completa, paga.
Para iniciar o estudo do caso, faz-se necessário apresentar os dados organizados em tabelas de
contigência, visto que a regressão logística trata-se de uma metodologia mais sofisticada, por apre-
sentar propriedades estatisticamente fortes, para o estudo de variáveis que podem ser apresentadas
nesse tipo de tabela. Com o código 1 e 2 é possível obter tebelas de contigência para a variável
resposta (status) contra ND e a variável resposta (status) contra Vinculo, respectivamente.
proc freq data = dados;
tables Status*ND;
run;
Figura 10.1: Tabela de contigência Status versus ND
10.6 Aplicações em dados reais 103
Observe pela tabela da figura 4.1, que o grupo dos adimplentes, caracterizado com o ’zero’,
apresentam em grande maioria um número de dependentes pequeno, enquanto que o grupo dos
inadimplentes, caracterizado com o ’um’, apresentam em grande maioria um número de dependentes
grande. Isso já possibilita suspeitar a relação que se possa existir entre inadimplência e número de
dependentes.
proc freq data = dados;
tables Status*Vinculo;
run;
Figura 10.2: Tabela de contigência Status versus ND
Visualizando a tabela da figura 4.2, é notória a relação existente entre inadimplência e status.
Observe que os adimplentes, em sua maioria, não possuem vínculo empregatício, enquanto os
inadimplente,s possuem em sua grande maioria, vínculo empregatício.
Como o objetivo do presente texto não é explicar o comportamento dos dados via tabela de
contingência, não será discutido aqui sua propriedades. Iniciando o estudo da regressão, o modelo
proposto para o estudo é:
logit(status) = β0+β1(renda)+β2(ND)+β3(Vinculo)
Sendo:
status =
eβ0+β1(renda)+β2(ND)+β3(Vinculo)
1− eβ0=β1(renda)+β2(ND)+β3(Vinculo)
E:
logit(status) = ln
(
status
1− status
)
104 Capítulo 10. Regressão Logística
Explicado o modelo adotado, o objetivo agora é estimar os parâmetros envolvidos. Utilizando o
código 3 abaixo no SAS, encontra-se uma gama de informações e resultados úteis para o modelo.
PROC LOGISTIC data=dados;
model Status = Renda ND Vinculo;
ods output ParameterEstimates = modelo_logistico;
run;
Dentre elas, a tabela de estimação dos parâmetros:
Figura 10.3: Estimação do modelo
Com base nos resultados da tabela o modelo
logit(status) =−6.13365+2.3595(renda)−0.5502(ND)−0.5715(Vinculo)
não é mais possível admitir, pois o teste de Wald não rejeitou a hipótese de nulidade para o intercepto,
ND e Vinculo. Utilizando o método de backward para a escolha do modelo, chega-se a equação de
regressão utilizando apenas o intercepto e o vínculo:
logit(status) = 1.6093−2.6389(Vinculo)
Diante desse modelo final, é possível, por meio das características do cliente, encontrar a
probabilidade dele vir ser adimplente ou inadimplente. A primeira interpretação que se pode tirar
dessa equação é em relação ao Odds Ratio. Nesse caso, essa medida é dada por:
OR = e−2.6389 = 0.07143981
Se calcularmos o inverso do número acima encontramos o valor de 14,28, ou seja, pessoas que
apresentam vínculo empregatício têm 14,07 mais chances de pertencerem ao grupo de adimplentes
do que de pertencer ao grupo de inadimplentes.
10.6.3 Câncer de próstata (utilizando o software SAS)
Um ponto fundamental no tratamento de câncer de próstata é saber se o nódulo (tumor) penetrou ou
não na glândula, caso tenha penetrado o tratamento indicado é cirúrgico, remoção da glândula, caso
contrário o paciente pode receber tratamentos menos agressivos, através de medicação. O problema é
que só se tem 100% de certeza se o tumor penetrou na glândula através de cirurgia. Assim, deseja-se
elaborar um procedimento em que seja possível prever se o tumor penetrou ou não na próstata do
10.6 Aplicações em dados reais 105
indivíduo sem a necessidade de cirurgia, levando em consideração uma série de fatores os quais os
médicos consideram importantes no estudo. As variáveis são definidas como:
• id: Identificação do indivíduo
• tumpen: Penetração do tumor (1, se sim)
• idade: Idade do paciente
• raca: Raça (1:branca e 0:negra)
• examtok: Resultado do exame de toque (1: Ausência de nódulo, 2:um nódulo à esquerda, 3:
um nódulo à direita e 4:dois nódulos em cada lado)
• detec: Detecção de camada envolvendo a glândula no exame de toque (1, se sim)
• psa: Antígeno Prostático Específico, serve para indicar a presença de anomalias na próstata
• volume
• gleason
Note que o exemplo apresenta muitas variáveis (O banco de dados para análise se encontra no
apêndice A deste material). Da mesma forma como se iniciou o exemplo anterior, faz-se para este
exemplo. O banco de dados, neste caso, será chamado de ’pros’ e as estimações dos parâmetros e
testes de nulidade dos mesmos são obtidos utilizando:
PROC LOGISTIC data = pros;
model tumpen(event=’1’) = idade raca exam_tok detec psa volume gleason;
ods output ParameterEstimates = modelo_logistico;
run;
A saída para esse código disponibiliza muitas informações, será destavado aqui somente as mais
interessantes.
Observe pelo teste de Wald, que utiliza a estatística qui-quadrado, que o intercepto e mais três
variáveis apresentaram p-valores significativos. O modelo, portanto, fica da forma:
logit(pros) =−β0+β1(examtok)+β2(psa)+β3(gleason)
Utilizando o método de Stepwise, o leitor pode verificar que o modelo proposto é o mesmo. Para
utilizar este método, basta compilar o seguinte código:
PROC LOGISTIC data = pros plots=all;
model tumpen(event=’1’) = idade raca exam_tok detec psa volume gleason /selection = stepwise;
ods output ParameterEstimates = modelo_logistico;
run;
Outra forma de avaliar o modelo é utilizando a curva de ROC. Quanto maior a área deixada
pelo modelo, mais explicativo ele é. A figura a seguir mostra o modelo escolhido até o momento,
chamado de model, é o que deixa maiorárea (0.8189).
A interpretação para o modelo é muito vasta. Utilizando somente um exemplo, pode-se estimar
a probabilidade de um indivíduo da raça negra, com 77 anos de idade, com PSA de 7,9, escala de
Gleason 7 e volume de 20,8mm, e com um nódulo no lado direito da próstata e camada envolvendo
a mesma, ter um tumor. Isso é feito substituindo tais valores no modelo de regressão admitido, dado
por:
logit(pros) =−8.5216+0.5603(examtok)+0.0244(psa)+1.0006(gleason)
106 Capítulo 10. Regressão Logística
Figura 10.4: Gráfico de ROC
Desse modo, substituindo os valores ditos, tem-se:
logit(pros) =−8.5216+0.5603∗3+0.0244∗7.9+1.0006∗7
Cuja probabilidade é dada por 0.70, ou seja, pessoas com essas características tem 70% de chance
de o tumor penetrar na próstata.
Em relação aos Odds Ratio, o software mostrou o valor de 1.751 para o examtok, isto é, se o
indivíduo apresentar ausência de nódulo, então ele tem e1∗1.751 vezes mais chances de ter tumor; se
indivíduo apresentar um nódulo à esquerda, então ele tem e2∗1.751 vezes mais chances de ter tumor;
se indivíduo apresentar um nódulo à direita, então ele tem e3∗1.751 vezes mais chances de ter tumor;
se indivíduo apresentar dois nódulos em cada lado, então ele tem e4∗1.751 vezes mais chances de ter
tumor. O software também mostrou o valor de 1.025 para o psa, isto é, para cada unidade de psa, a
chance de o indivíduo ter tumor aumenta em e1.025. De forma semelhante o ocorre para o gleason.
Parte IV
EXTENSÕES I
—————————————————
———————————–
11. Quase-verossimilhança
11.1 Introdução
Em atualização!
Em alguns casos, a variância observada nos dados é maior do que a variância esperada. Este
fenômeno, que pode ser considerado uma característica, e não um problema dos dados, é conhecido
na literatura como superdispersão.
Existem fatores que levam a este comportamento e sua desconsideração no processo de modela-
gem pode levar a estimação incorreta dos erros padrão. Hinde e Demétrio (1998) elencam algumas
das principais causas desta característica:
– Variabilidade do material experimental;
– Agrupamentos amostrais;
– Dados de nível agregado;
– Variáveis não observáveis omitidas;
– Correlação entre respostas individuais (dados longitudinais).
Para o último item desta lista, existem modelos específicos para representar a estrutura de
covariâncias devido a correlação intra-unidades (abordaremos um capítulo somente para comentar
sobre dados correlacionados ou dados longitudinais). Pensando de uma maneira geral, sobre como
modelar dados com superdispersão, a literatura apresenta algumas abordagens:
– Modelos de quase-verossimilhança: Assumir alguma forma mais geral para a função de
variância (quasi-binomial, quasi-Poisson).
– Modelos de probabilidade composta: Assumir um modelo em dois estágios para a resposta,
com a inclusão uma nova distribuição para o parâmetro (binomial-negativo, beta-binomial,
Poisson-Lindley, logístico-normal)
– Modelos inflacionados de zeros: Em caso de excessos de zeros - modelos Hurdle ou de
mistura (ZIP, ZIG, binomial inflacionada de zeros, beta-binomial inflacionada de zeros)
– Modelos mistos: Incrementa um termo aleatório para a modelagem da fonte extra, de forma
que atrela uma distribuição no segundo nível, porém associada ao preditor linear e não ao
parâmetro (modelo linear misto, modelo linear misto generalizado)
110 Capítulo 11. Quase-verossimilhança
– Modelos marginais: Modelagem marginal da média (Equação de Estimação Generalizada)
Nos próximos capítulos discutimos cada uma das situações acima.
11.2 Modelo quasi-binomial
Em atualização!
11.3 Modelo quasi-Poisson
Em atualização!
12. Equações de Estimação Generalizadas
12.1 Introdução
Em atualização!
13. Modelos de probabilidade composta
13.1 Introdução
Em atualização!
13.2 Modelo Poisson-gama
Em atualização!
13.3 Modelo Beta-binomial
Em atualização!
13.4 Modelo Beta-binomial
Em atualização!
13.5 Modelo Logístico-Normal
Em atualização!
14. Modelos inflacionados de zeros
14.1 Introdução
Em atualização!
15. Modelos mistos
15.1 Introdução
Em atualização!
15.2 Modelo Linear Misto
15.2.1 Metodologia
O modelo normal linear misto tem sua forma funcional dada por:
Y j(k j×1) = X j(k j×p)β(p×1)+Z j(k j×q)β(q×1)+ e j(k j×p),
com j = 1,2, ...,n e
– Y j = (Y j1, ...,Y jk j), sendo , k j o número de condições de avaliação em que o indivíduo j é
avaliado
– X j é matriz de planejamento associada aos efeitos fixos para o indivíduo j (não-aleatória e
conhecida)
– Z j matriz de planejamento associada aos efeitos aleatórios para o indivíduo j (não-aleatória e
conhecida).
– β : vetor de efeitos fixos (não-aleatório e desconhecido).
– b j: vetor de efeitos aleatórios associado ao indivíduo j (aleatório e desconhecido), b j
ind∼ (0,Ψ).
– e j: vetor de erros associado ao indivíduo j, e j
ind∼ (0,Σ j).
15.3 Modelo Linear Misto Generalizado
Em atualização!
16. Modelos Marginais
16.1 Introdução
Em atualização!
16.2 Modelo Linear Multivariado (marginal)
Metodologia
O modelo linear marginal apresenta a seguinte forma funcional:
Y(n j×1) = X(n j×p)β(p×1)+ ei j(n j×p) ,
em que
– Yj = (Y1 j, ...,Yn j j)
>,n j: número de condições de avaliação associadas a j-ésima unidade
amostral.
– X j : matriz de especificação associada aos parâmetros de regressão (efeitos fixos) da j-ésima
unidade amostral.
– β : vetor dos parâmetros de regressão (não-aleatório e desconhecido).
– e j: Fonte de variação associada j-ésima unidade amostral, e j
ind.∼ Nn j(0,Σ j).
Parte V
EXTENSÕES II
—————————————————
———————————–
17. Modelos Aditivos Generalizados
17.1 Introdução
Os modelos aditivos generalizados (MAG’s) constituem uma ampla classe de modelos de regressão,
na qual o efeito de cada variável preditora na variável resposta é modelado de forma bastante flexível
por meio de uma função f não especificada (Hastie e Tibshirani ,1990).
Os MAG’s podem ser vistos como uma extensão dos modelos lineares generalizados (MLG’s).
Assim como estes modelos, os MAG’s possuem uma metodologia unificada de análise que é
apresentada neste trabalho. Inicialmente são apresentados métodos de suavização de diagramas de
dispersão (especificamente, o loess e o cubic spline) que são ferramentas básicas para o ajuste dos
MAG’s
18. Modelo de Regressão Beta e suas extensões
18.1 Modelo de Regressão Beta
Os modelos lineares generalizados estenderam as abordagens de análise de dados cuja
suposição de normalidade não era atendida. Uma variável que representasse contagem, por exemplo,
poderia então ser modelada utilizando casos particulares dos MLG’s, no caso a distribuição Poisson
ou binomial negativ; se a mesma for do tipo dicotômica, pode-se usar a distribuição bernoulli
(binomial); e se a variável assume apenas valores positivos, usa-se a distribuição gama ou normal
inversa. Entretanto, em alguns casos, o comportamento da variável resposta pode não apresentar
semelhança alguma com as distribuições pertencentes à família exponencial regular e, portanto, se
faz necessário expandir o leque de distribuições a serem utilizadas.
Um caso particular, por exemplo, encontra-se a variável resposta de um modelo de regressão que
se distribui continuamente no intervalo (0,1). Para esse caso, é sabido que a abordagem de modelos
lineares generalizados pode não ser satisfatória e uma outra distribuição, que não pertença à família
exponencial linear, seja mais adequada para essa modelagem. Dentre as possíveis distribuições,
podemos citar a distribuição beta (a ser utilizada neste trabalho), cujas diferentes especificações para
modelos de regressão são discutidas, como em Paulino (2001), Kieschnick e McCullogh (2003),
Ferrari e Cribari-Neto (2004) e Smithson e Verkuilen (2006).
Dessa forma, considere Y uma variável aleatórica com distribuição beta de parâmetrosp e q
(ambos pertencentes ao intervalo [0,1], de forma que p+ q = 1), denotado por Y ∼ B(p,q), cuja
respectiva densidade é dada por:
f (y; p,q) =
Γ(p+q)
Γ(p)Γ(q)
yp−1(1− y)q−1 I(0,1)(y). (18.1)
Para diferentes valores de p e q, respectivamente, o comportamento da densidade beta é ilustrado
a seguir:
O trabalho de Ferrari e Cribari-Neto (2004) destaca-se dentre os demais pelo fato de especificar
a estrutura de regressão, baseada na distribuição beta, de forma similar à classe dos MLG’s. Os
autores utilizam a seguinte reparametrização para o parâmetro de posição, µ , e precisão, φ , para a
120 Capítulo 18. Modelo de Regressão Beta e suas extensões
Figura 18.1: Densidade da distribuição beta para diferentes valores de p e q.
elaboração do modelo de regressão:
µ =
p
p+q
φ = p+q,
de forma que a densidade pode ser reescrita como:
B(y;µ,φ) =
Γ(φ)
Γ(µφ)Γ((1−µ)φ)y
µφ−1(1− y)(1−µ)φ−1, (18.2)
em que 0< µ < 1 e φ > 0. A média e a variância são dados, respectivamente, por:
E(Y ) = µ e Var(Y ) =
V(µ)
1+φ
,
em que V(µ) = µ(1− µ), µ representa a média e φ , pode ser entendido como o parâmetro de
dispersão (para um valor fixo de µ , quanto maior o valor de φ , menor a variância de Y ).
A seguir podemos observar os distintos comportamentos que a distribuição beta reparametrizada
assume para diferentes valores de µ e φ , respectivamente:
A estimação dos parâmetros da distribuição apresentada em 18.2 é feita derivando o logaritmo
da função de verossimilhança em relação a cada um dos parâmetros envolvidos e igualando a zero.
O logaritmo da função de verossimilhança baseado numa única observação é dado por
l(µ,φ) = logB(y;µ,φ)
= logΓ(φ)− logΓ(µφ)− logΓ((1−µ)φ)+(µφ −1) logy
+ ((1−µ)φ −1) log(1− y).
A função escore de µ e φ são dadas, respectivamente, por
Uµ(µ,φ) =
∂ l(µ,φ)
∂µ
= φ(y∗−µ∗)
Uφ (µ,φ) = µ(y∗−µ∗)+ log(1− y)−Ψ((1−µ)φ)+Ψ(φ).
18.1 Modelo de Regressão Beta 121
Figura 18.2: Densidade da distribuição beta parametrizada para diferentes valores de µ e φ .
em que y∗i = log(y/1−y), µ∗ =Ψ(µφ)−Ψ[(1−µ)φ ] e Ψ(.) representa a função digama (derivada
da função gama).
Note que as funções escores referentes aos parâmetros µ e φ podem ser reescritas em função de
uma nova resposta, y∗, e de um novo parâmetro, µ∗. Precisamos, portanto, da média e da variância
dessa nova variável. Utilizando o resultado
E
(
∂ l(µ,φ)
∂µ
)
= 0, (18.3)
temos que a média dessa nova variável é dada por
E(φ(y∗−µ∗)) = 0⇔ E(y∗) = µ∗.
Para a variância, tem-se que
Var(y∗) = Var(y∗−µ∗) = Var(y∗) = E[(y∗−µ∗)2]
=
1
φ 2
E[φ 2(y∗−µ∗)2]
= Ψ′(µφ)+Ψ′((1−µ)φ).
Considerando agora a estrutura de um modelo de regressão, considere y um vetor, tal que
y = (y1,y2, ...,yn)>, com n variáveis aleatórias independentes, na qual cada yi, com i = 1,2, ...,n,
tem densidade beta, com média µi e parâmetro de precisão φ , então o modelo de regressão beta (com
dispersão constante) pode ser expresso funcionalmente como:
g(µi) =
p
∑
j=1
xi jβ j = ηi, i = 1,2, ...,n.
122 Capítulo 18. Modelo de Regressão Beta e suas extensões
Sendo g(µi) a função de ligação com domínio em (0,1) e imagem em R (duplamente diferen-
ciável e monótona); xi1,xi2, ...,xip observações de p covariáveis conhecidas (p< n) e β o vetor de
parâmetros de posição desconhecidos.
A estimação dos parâmetros do modelo ocorre de forma semelhante aos do MLG’s. A função
escore para cada um dos parâmetros é dada por:
Uβ (β ,φ) = φX>T(y∗−µ∗) (18.4)
Uφ (β ,φ) =
n
∑
i=1
{µi(y∗i −µ∗i )+ log(1− yi)−Ψ((1−µi)φ)+Ψ(φ)} , (18.5)
em que X é uma matriz de planejamento n× p, com a i-ésima linha dada por x>i , y∗i = log(y/1− y),
µ∗ =Ψ(µφ)−Ψ[(1−µ)φ ], T = diag(1/g′(µ1, ...,1/g′(µn)).
Os estimadores de máxima verossimilhança são obtidos, resolvendo o seguinte sistema de
equações:{
Uβ (β ,φ) = 0
Uφ (β ,φ) = 0
(18.6)
Sob certas condições de regularidade, para tamanhos amostrais grandes, a distribuição conjunta
de β̂ e φ̂ é aproximadamente normal bivariada, de forma que( √
n(β̂ −β )√
n(φ̂ −φ)
)
∼ N2
(
0, K−1
)
,
sendo K a matriz de informação de Fisher, que segundo Ferrari e Cribari-Neto (2004), é dada por:
K =
(
Kββ Kβφ
Kφβ Kφφ
)
,
em que Kββ = φX>WX, Kβφ = K>φ .β = X
>Tc e Kφφ = tr(D), sendo W = diag(w1, ...,wn), com
wi = φ{Ψ′(µiφ)+Ψ′((1−µi)φ)1/{g′(µi)}2}; D= diag(d1, ...,dn), com di = φ{Ψ′(µiφ)µ2+Ψ′((1−
µi)φ)(1−µi)2−Ψ′(φ)}; e c = (c1, ...,cn)>, com ci = φ{Ψ′(µiφ)−Ψ′((1−µi)φ)(1−µi)}, sendo
Ψ′ a função trigama.
Uma extensão do modelo de regressão beta, proposto por Smithson e Verkuilen (2006) e
formalmente introduzido por Simas et al. (2010), é o modelo de regressão beta de dispersão variável,
denotado por B(µi,φi). Neste modelo, o parâmetro de precisão não é constante para todas as
observações, sendo modelado de forma semelhante à média, isto é:
f1(µi) = x>i β f2(φi) = w
>
i δ , (18.7)
sendo β e δ os vetores de parâmetros associados a xi e wi, respectivamente; x>i = (xi1,xi2, ...,xik)
e w>i = (wi1,wi2, ...,wil) os vetores de k e l covariaveis, respectivamente; f1(.) uma função cuja
inversa é uma função de ligação que relaciona µi com as covariáveis xi; e f2(.) uma função de ligação
que relaciona φi com as covariáveis wi. Simas et al. (2010) abrangem ainda preditores não-lineares
nas equações 18.7 e Ospina (2007) propõe os modelos de regressão beta com dispersão variável
quando há independência entre todas as observações e desenvolve medidas de diagnóstico capazes
de captar a presença dessa dispersão variável nos dados.
Uma discussão a respeito da modelagem da regressão beta no software R, incluindo tanto o
trabalho de Ferrari e Cribari-Neto (2004) quanto o de Simas et. al (2010), é apresentada com detalhes
em Cribari-Neto e Zeileis (2010), em que utilizam o pacote betareg. As ferramentas de disgnóstico
para o modelo são apresentadas em Ferrari e Cribari-Neto (2004) e Espinheira et al. (2008a, 2008b).
18.2 Modelo de Regressão Beta Retangular 123
18.2 Modelo de Regressão Beta Retangular
Conforme observado por Hahn (2008) a distribuição beta pode não modelar de forma
satisfatória eventos nas caudas, ou seja, não modela de forma adequada a ocorrência de eventos
extremos. Além disso, a distribuição não permite uma maior flexibilidade na especificação da sua
função de variância (Alencar, 2012). Tais fatos limitam a aplicação da distribuição beta para a
modelagem de dados com taxas e proporções, levando Hahn (2008) a sugerir a distribuição beta
retangular, definida por:
g(y;µ,φ ,θ) = θ I(y)(0,1) + (1−θ)B(y;µ,φ) I(y)(0,1) (18.8)
em que 0≤ θ ≤ 1 é um parâmetro de mistura.
Observe que para θ = 0, obtemos a distribuição beta e para θ = 1, obtemos a distribuição
uniforme padrão, ou seja, a distribuição beta retangular nada mais é que uma mistura de distribuições
beta, de parâmetros µ e φ , e uniforme padrão. Tais modelos, conforme Markatou (2000), são mais
robustos à presença de observações extremas (as estimativas dos parâmetros são menos afetadas por
esses valores) e a variabilidade pode ser melhor explicada.
Denotamos a distribuição beta retangular por Y ∼ br(µ,φ ,θ), na qual sua média e variância são
dadas, respectivamente, por:
E(Y ) =
θ
2
+(1−θ)µ , Var(Y ) = V(µ)
1+φ
(1−θ)[1−θ(1+φ)]+ θ
12
(4−3θ).
A seguir, podemos observar diferentes comportamentos que a distribuição beta retangular assume
para valores distintos de θ , µ e φ , respectivamente:
Figura 18.3: Densidade da distribuição beta retangular para diferentes valores de θ , µ e φ .
Para a obtenção de uma estrutura de regressão mais adequada para a média da distribuição beta
124 Capítulo 18. Modelo de Regressão Beta e suas extensões
retangular, Bayes e Bazán (2014) sugerem a seguinte reparametrização:
γ =
θ
2
+(1−θ)µ e α =
θ
2
(
1− θ
2
)
θ
2
(
1− θ
2
)
+(1−θ)2µ(1−µ)
,
de forma que o espaço paramétrico associado a γ e α édado pelo retângulo {0≤ γ ≤ 1,0≤ α ≤ 1}
e θ é restrito para o valor de γ na forma:
0< θ < 1−|2γ−1|,
sendo
θ = 1−
√
1−4αγ(1− γ) e µ =
γ− 1
2
+
1
2
√
1−4αγ(1− γ)√
1−4αγ(1− γ) . (18.9)
Após a reparametrização, a respectiva densidade da distribuição beta retangular, denotada por
Y ∼ BRr(γ,φ ,α), pode ser expressa por:
h(y;γ,φ ,α) = 1−
√
1−4αγ(1− γ)+
√
1−4αγ(1− γ) I(0,1)(y)
× B
γ− 12 + 12
√
1−4αγ(1− γ)√
1−4αγ(1− γ) ,φ
 I(0,1)(y), (18.10)
sendo B
γ− 12 + 12
√
1−4αγ(1− γ)√
1−4αγ(1− γ) ,φ
 a função densidade de probabilidade da distribuição
beta, conforme 18.2, com o parâmetro µ definido conforme a reparametrização sugerida por Bayes
et al. (2012).
A seguir podemos observar os diferentes comportamentos que a distribuição beta retangular
assume para diferentes valores de α , γ e φ , respectivamente:
Considerando a estrutura de um modelo de regressão, tome y1,y2, ...,yn uma amostra aleatória da
distribuição BRr(γi,φi,α), i = 1,2, ...,n. A estrutura de regressão proposta por Bayes et al. (2012) é
dada por
g1(γi) = x>i β g2(φi) =−w>i δ , (18.11)
sendo β e δ os vetores de parâmetros associados a xi e wi, respectivamente; x>i = (xi1,xi2, ...,xik)
e w>i = (wi1,wi2, ...,wil) os vetores de k e l covariaveis, respectivamente; g1(.) uma função cuja
inversa é uma função de ligação que relaciona γi com as covariáveis xi; e g2(.) uma função de
ligação que relaciona φi com as covariáveis wi (o sinal negativo tende a facilitar a interpretação dos
coeficientes estimados, conforme Smithson e Verkuilen, 2006).
Vale destacar que o modelo de regressão beta retangular apresenta a generalização de dois casos
particulares: se α = 0 e φi é constante, obtemos o modelo de regressão beta proposto por Ferrari e
Cribari-Neto (2004), por outro lado, se α = 0, obtemos o modelo de regressão beta com dispersão
variável proposto por Smithson e Verkuilen (2006).
18.2 Modelo de Regressão Beta Retangular 125
Figura 18.4: Densidade da distribuição beta parametrizada para diferentes valores de α , γ e φ .
A função de verossimilhança do modelo pode ser expressa, conforme 18.8 e 18.10, respectiva-
mente, por:
L(ϑ ,Y ) =
n
∏
i=1
fY (yi|µi,φi,θi) =
n
∏
i=1
gY (yi|γi,φi,α),
em que ϑ = (β ,γ,α)>, γi e φi, são definidos em 18.11 sob a reparametrização definida em 18.9.
A estimação dos parâmetros do modelos de regressão pode ser feita tanto pela abordagem
frequentista (Silva et al., 2017a) como pela abordagem bayesiana (Bayes e Bazán, 2014; Silva et al.,
2017b). Para a primeira, é considerada a estimação por máxima verossimilhança via algoritmo EM 1
(Expectation-Maximization), pelo fato de termos para a distribuição beta retangular uma densidade
obtida por uma mistura finita.
Nessa abordagem, portanto, considera-se ϑ = (β>,γ>,α)> e
L(ϑ ,Y ) =
n
∏
i=1
gY (yi|γi,φi,α).
A solução EM, para os casos de distribuições de mistura, consiste em aumentar os dados
observados (ou incompletos) considerando um vetor U = (U1,U2, ...,Un)>, não observável, que
1Detalhes são apresentados no Apêndice A.
126 Capítulo 18. Modelo de Regressão Beta e suas extensões
informa de qual componente da mistura Yi se originou. Dessa forma, Silva et al. (2017a) definem:
Ui =
{
0, Yi ∼ Beta(µi,φi) com probabilidade 1−θi,
1, Yi ∼U(0,1) com probabilidade θi.
Então, a distribuição dos dados faltantes tem distribuição bernoulli, Ui|(yi,µi)∼ Ber(θi), com
probabilidade de sucesso dada por:
ûi = E(Ui|yi,ϑ) = P(Ui = 0|yi,ϑ)+P(Ui = 1|yi,ϑ)
= P(Ui = 1|yi,ϑ)
=
θi
θi+(1−θi)B(yi;µi,φi) , (18.12)
em que θi = 1−
√
1−4αγi(1− γi) e µi =
γi− 12 +
1
2
√
1−4αγi(1− γi)√
1−4αγi(1− γi)
.
A densidade conjunta dos dados completos (y,U)> pode ser escrita da seguinte forma:
g(yi,ui|ϑ) = θ uii (1−θi)1−uiB(yi;µi,φi)I(ui){0,1}I(yi)(0,1),
com o logaritmo da função de verossimilhança na forma:
l(β ,γ,α,ui) =
n
∑
i=1
{ui logθi+(1−ui) log(1−θi)− (1−ui)
× [log(Γ(φi)) log(Γ(µiφi))− log(Γ(1−µi)φi)
+ (µiφi−1) logyi+((1−µi)φi−1) log(1− yi)]}.
Assim, sendo ϑ (m) = (β̂ (m), γ̂(m), α̂(m))> a estimativa para ϑ na m-ésima iteração, o algoritmo é
realizado em dois passos: o primeiro, passo E, calcula a esperança do logaritmo da verossimilhança
para os dados completos, ou seja:
Q(ϑ |ϑ (m)) = E(l(ϑ |y,µ)|y, ϑ̂))
=
n
∑
i=1
{û(m)i logθi+(1− û(m)i ) log(1−θi)− (1− û(m)i )
× [log(Γ(φi)) log(Γ(µiφi))− log(Γ(1−µi)φi)
+ (µiφi−1) logyi+((1−µi)φi−1) log(1− yi)]}
=
n
∑
i=1
Qi(ϑ |ϑ̂ (m)),
e o segundo passo, passo M, maximiza Qi(ϑ |ϑ̂ (m)) com relação a ϑ , obtendo ϑ̂ (m+1). Pelo fato
deQ(ϑ |ϑ̂ (m)) não possuir solução se calculada de forma analítica, faz-se necessário a estimação
por métodos numéricos, neste caso usando L-BFGS-B (Byrd et al., 1995). A implementação do
algoritmo, portanto, é realizada em dois passos:
Passo E: Dado ϑ̂ = ϑ , calcule u(m)i , para i = 1,2, ...,n utilizando 18.12;
Passo M: Atualize ϑ̂ (m+1) maximizandoQ(ϑ |ϑ̂ (m)).
A abordagem sob a inferência bayesiana apresenta certas vantagens em relação à abordagem
frequentista: os algoritmos MCMC podem ser utilizados para estimar distribuições a posteriores
18.2 Modelo de Regressão Beta Retangular 127
exatas dos parâmetros, enquanto a estimativa baseada em probabilidade produz apenas uma estimativa
pontual dos parâmetros, com erros padrão assintóticos Wang e Luo (2015). Além disso, em algumas
situações empíricas a inferência bayesiana parece ser a mais adequada temos um tamanho amostral
pequeno. Para mais detalhes do modelo de regressão beta retangular, consultar Silva (2015) e Alencar
(2016).
19. Propensity Score Matching
19.1 Para que serve?
Na análise estatística de dados observacionais, a correspondência de escore de propen-
são (PSM) é uma técnica de correspondência estatística que tenta estimar o efeito de um tratamento,
política ou outra intervenção, considerando as covariáveis que preveem receber o tratamento.
O PSM tenta reduzir o viés devido a variáveis de confusão que podem ser encontradas em uma
estimativa do efeito do tratamento obtido a partir da simples comparação dos resultados entre as
unidades que receberam o tratamento e as que não receberam. A técnica foi publicada pela primeira
vez por Paul Rosenbaum e Donald Rubin em 1983, e implementa o modelo causal de Rubin para
estudos observacionais.
A possibilidade de viés surge, porque a diferença aparente no resultado entre dois grupos
de unidades pode depender de características que afetaram ou não uma unidade que recebeu um
tratamento dado em vez do efeito do tratamento em si.
Em experimentos randomizados, a randomização permite estimar imparcialmente os efeitos
do tratamento. Para cada covariável, a randomização implica que os grupos de tratamento serão
equilibrados, em média, pela lei dos grandes números. Infelizmente, para estudos observacionais, a
atribuição de tratamentos para sujeitos de pesquisa geralmente não é aleatória. O emparelhamento
tenta imitar a randomização, criando uma amostra de unidades que receberam o tratamento que é
comparável em todas as covariáveis observadas a uma amostra de unidades que não receberam o
tratamento.
Por exemplo, pode-se estar interessado em saber as conseqüências do tabagismo ou as conseqüên-
cias de ir para a universidade. As pessoas "tratadas"são simplesmente aquelas - os fumantes, ou os
graduados da universidade - que, no decorrer da vida cotidiana, passam por aquilo que está sendo
estudado pelo pesquisador. Em ambos os casos, é inviável (e talvez antiético) atribuir aleatoriamente
as pessoas ao hábito de fumar ou a um ensino universitário, por isso estudos observacionais são
necessários. O efeito do tratamento estimado simplesmente comparando um desfecho específico -
taxa de câncer ou renda ao longo da vida - entre os que fumavam e não fumavam ou frequentavam a
universidade e não frequentavam a universidade seria influenciadopor quaisquer fatores que previs-
19.1 Para que serve? 129
sem fumar ou frequentar a universidade, respectivamente. O PSM tenta controlar essas diferenças
para tornar os grupos que recebem tratamento e não tratamento mais comparáveis.
RELATÓRIOS ESTATÍSTICOS
————————————————————————————–
20. Medidas repetidas - Bilirrubina
20.1 Introdução
Durante a digestão o fígado produz uma secreção chamada de bile. Essa substância é produzida
pelo fígado e armazenada na vesícula biliar e sua ação se dá principalmente no intestino onde esta
secreção tem a função de emulsificar gorduras.
Sua estrutura é formada por sais biliares, gorduras, água, ácidos e por pigmentos. O pigmento
predominante da bile é a bilirrubina. Este pigmento amarelado é produzido pela quebra do grupo
prostético heme presente nas células sanguíneas onde a hemoglobina contida nas células é cataboli-
zada em biliverdina. Nesse momento a biliverdina sofre ação da enzima biliverdina redutase que
reduz esta, em bilirrubina.
Alguns problemas tanto metabólicos como injurias do organismo podem gerar problemas
hepáticos e alterações na bilirrubina. Por isso a quantidade excretada dessa substancia é um indicador
importante para diagnóstico de certas doenças. O aumento da bilirrubina sérica indica alterações
em seu metabolismo podendo ser causado tanto pelo aumento de células sanguíneas perdidas como
excesso de produção ou baixa capacidade de catabolizar a substancia pelas células.
Esse aumento de bilirrubina circulante causa o acúmulo do pigmento em diversas regiões do
corpo, principalmente pele e mucosas, fazendo com que estas regiões tornem-se amareladas. É o que
acontece por exemplo com os recém-nascidos que possuem icterícia, pois não possuem fisiologia
hepática completamente madura. Os altos níveis de bilirrubina circulantes são extremamente tóxicos
e prejudiciais à saúde. Também é possível que o acúmulo da bilirrubina se dê por motivos de
destruição das células hepáticas e biliares causado por infecções virais (hepatites) e também pelo
consumo em excesso de certas drogas.
O exame de bilirrubina auxilia o diagnóstico de problemas no fígado, vias biliares ou anemia
hemolítica, por exemplo, já que a bilirrubina é produto da destruição das hemácias e para ser
eliminada pelo organismo necessita ser conjugada a um açúcar no fígado e sofrer a ação da bile.
Com base nesses resultados, resolveu-se estudar a concentração de bilirrubina de 89 indivíduos
(bebês) durante seus primeiros dias de vida. O objetivo é explicar a variação da concentração de
bilirrubina (em µ mol/Ł) em função da idade (Draque et al., 2001). A tabela 20.1 apresenta alguns
20.2 Análise descritiva 131
dos indivíduos avaliados.
Tabela 20.1: Concentração de bilirrubina (em µ mol/Ł) dos indivíduos avaliados.
Indivíduo Dia 1 Dia 2 Dia 3 Dia 4 Dia 5 Dia 6 Dia 8 Dia 10 Dia 12
1 2,70 0,40 0,00 0,50 0,60 0,00 0,00 0,50 0,80
2 4,50 5,50 3,90 2,70 2,90 2,00 1,50 1,30 1,70
3 7,00 9,20 13,10 12,10 12,30 10,30 8,50 6,20 3,80
4 4,40 6,10 8,80 7,40 6,80 6,20 5,50 4,90 3,30
5 4,00 7,70 7,50 10,30 10,60 9,30 7,30 5,80 6,40
6 6,50 7,40 5,30 4,50 2,90 3,30 3,00 3,20 3,40
...
...
...
...
...
...
...
...
...
...
89 2,60 1,40 1,30 1,00 1,60 0,40 0,00 0,30 0,60
A seguir apresentamos dois tópicos referente a análise do conjunto de dados. Primeiramente,
a análise descritiva e posteriormente a análise inferencial. As análises foram feitas no software R
versão 3.4.3.
20.2 Análise descritiva
A tabela a seguir apresenta o sumário descritivo do conjunto de dados a ser analisado.
Tabela 20.2: Sumário descrito do conjunto de dados.
Dia Mínimo Mediana Média Máximo DP CV (%)
1 0 4,50 4,44 9,10 1,99 44,95
2 0 6,10 5,76 11,40 2,92 50,64
3 0 5,80 5,87 14,60 3,86 65,77
4 0 4,60 5,59 14,30 4,12 73,76
5 0 4,10 5,02 14,80 4,02 80,17
6 0 3,30 4,60 13,10 3,90 84,89
8 0 2,80 3,99 13,50 3,70 92,73
10 0 2,70 3,59 13,60 3,39 94,56
12 0 2,10 3,12 12,40 2,97 95,39
Observa-se que a média de bilirrubina aumenta nos primeiros cinco dias e após esse período
existe uma queda. O coeficiente de variação, entretanto, sofre aumento a cada dia avaliado. A seguir
apresentamos o gráfico boxplot para cada uma das idades.
É interessante avaliarmos também o grau de associação entre os dias avaliados. A figura 20.2
apresenta mais detalhes sobre o comportamento desses dias.
132 Capítulo 20. Medidas repetidas - Bilirrubina
Figura 20.1: Boxplot para cada dia avaliado.
Figura 20.2: Coeficiente de correlação (diagonal superior), curva não paramétrica (diagonal principal)
e dispersão (diagonal inferoir)
Observe que os coeficientes de correlação apresentam um decaimento a medida que os dias vão
ficando mais distantes (a correlação entre o dia 1 e 2, por exemplo, é de 0,819, e entre os dias 1 e 12
é 0,485). Esse comportamento indica uma estrutura de correlação auto-regressiva de ordem 1 para
modelar a estrutura de correlação dos dados.
A seguir é apresentado o gráfico de perfis individuais e médios dos recém-nascidos. Observe
que há uma tendência de crescimento da concentração de bilirrubina nos primeiros dias de vida,
porém logo após o terceiro dia de vida esse valor diminui. Note que algumas observações estão
muito distantes da média e outras apresentam comportamento alternado (sobe e desce).
Com base na análise descritiva apresentada, é possível propormos um modelo para explicar a
20.2 Análise descritiva 133
Figura 20.3: Gráfico de perfis individuais e médios.
variabilidade da concentração de bilirrubina (µmol/L)? Podemos pensar, em um primeiro momento,
em tentar modelar por meio de um modelo normal linear multivariado. Entretanto, este modelo não
considera heteroscedasticidade e, portanto, não se adequa a situação. Uma alternativa é ajustar por
meio de um modelo multivariado marginal, pois este considera um modelo de regressão para cada
indivíduo, o que incluiria a modelagem da estrutura de covariância dos dados.
A análise inferencial deste relatório comenta com detalhes cada passo da modelagem utilizada e
considera a abordagem por meio de modelos multivariados marginais para a análise dos dados. São
aplicadas técnicas de diagnóstico para verificação da adequação do modelo, bem como a apresentação
de uma modelagem mais eficiente para análise.
20.2.1 Análise inferencial
No contexto de modelagem por meio de modelos de regressão busca-se sempre dois aspectos
importantes: parcimônia e facilidade de interpretação dos parâmetros do modelo. O primeiro refere-
se a quantidade de parâmetros a serem considerados (o ideal é uma quantidade pequena) e o segundo
refere-se a simplicidade com o que o modelo é apresentado para sua interpretação.
Tendo isso em vista e sabendo da existência de uma estrutura longitudinal dos dados, a primeira
modelagem a ser considerada é a utilização da metodologia do modelo normal multivariado.
Modelo linear multivariado normal
A primeira proposta de modelo é considerar o caso mais simples, isto é,
Yi j = β0+(xi j−1)β1+ ei j,
j = 1,2, ...89, i = 1, ...,9, em que xi j é o dia (1,2,3,4,5,6,8,10,12), em que a concentração de
bilirrubina, correspondente ao instante i, foi medida na j-ésima criança (unidade amostral); Yi j é a
concentração de bilirrubina no instante i da j-ésima criança; E[Yi j|xi j = 1] = β0 é a concentração
esperada de bilirrubina no primeiro dia de vida e β1 é o incremento na concentração esperada de
bilirrubina no intervalo de um dia.
134 Capítulo 20. Medidas repetidas - Bilirrubina
Podemos ainda aumentar o grau dessa equação e modelar por meio de um modelo quadrático ou
cúbico. Ou seja:
Yi j = β0+(xi j−1)β1+(xi j−1)2β2+(xi j−1)3β3+ ei j,
j = 1,2, ...89, i = 1, ...,9, em que xi j é o dia (1,2,3,4,5,6,8,10,12), em que a concentração de
bilirrubina, correspondente ao instante i, foi medida na j-ésima criança (unidade amostral); Yi j é a
concentração de bilirrubina no instante i da j-ésima criança;E[Yi j|xi j = 1] = β0 é a concentração
esperada de bilirrubina no primeiro dia de vida e β1 é o incremento na concentração esperada de
bilirrubina no intervalo de um dia.
Note que para o modelo de grau três as interpretações dos parâmetros já não são tão simples.
Além disso, se considerarmos ei j ∼N (0,σ2) teremos o modelo de regressão linear tradicional
(homoscedástico e com as observações independentes). Entretanto, sabemos que essa abordagem
possui algumas limitações, como por exemplo, não considera estrutura desbalanceadas, não modela
a estrutura de covariância de forma apropriada, não considera a variabilidade intra/entre unidades
amostrais, o número de parâmetros a serem estimados é alto e não modela heteroscedasticidade.
A alternativa para esse caso, portanto, é considerar uma estrutura de modelagem multivariada,
mas que trata cada unidade experimental individualmente. A seguir apresentamos a modelagem.
Modelo Linear Multivariado (marginal)
Metodologia
O modelo linear marginal apresenta a seguinte forma funcional:
Y(n j×1) = X(n j×p)β(p×1)+ ei j(n j×p) ,
em que
– Yj = (Y1 j, ...,Yn j j)
>,n j: número de condições de avaliação associadas a j-ésima unidade
amostral.
– X j : matriz de especificação associada aos parâmetros de regressão (efeitos fixos) da j-ésima
unidade amostral.
– β : vetor dos parâmetros de regressão (não-aleatório e desconhecido).
– e j: Fonte de variação associada j-ésima unidade amostral, e j
ind.∼ Nn j(0,Σ j).
Em particular, para o conjunto de dados em análise, cuja estrutura é balanceada, temos que:
Y(N×1) = X(N×p)β(p×1)+ e(N×p),
com N = ∑89j=1 n j = 89.
O modelo apresenta as seguintes propriedades:
i. E(Y j) = X jβ
ii. Cov(Y j) = Σ j
iii. Y j ∼Nn j(X jβ ,Σ j).
Nesta abordagem, vamos considerar uma estrutura linear, parabólica e cúbica para a modelagem
da média da variável resposta, com algumas propostas para a modelagem da estrutura de correlação
(AR(1), ARMA, uniforme e não estruturada). As estruturas não serão expostas aqui, mas o leitor
pode encontrar detalhes em Rocha (2004).
20.2 Análise descritiva 135
Resultados
Considera-se, portanto, a seguinte estrutura de modelos: homocedástico (com preditor linear e cúbico)
e heteroscedástico (com preditor linear e cúbico). Para cada um dos modelos foram utilizadas as
estrutura de correlação AR(1), ARMA, uniforme (U) e não estruturada (NE). A seguir apresentamos
o AIC e BIC dos modelos ajustados:
Tabela 20.3: AIC e BIC para cada modelo ajustado.
Variância Preditor Correlação AIC BIC
12*Homocedástico Linear AR(1) 2951.235 2969.968
Linear ARMA 2947,945 2971,362
Linear U 3387.353 3406,087
Linear NE 2805.528 2988.180
Parábola AR(1) 2936.581 2959.991
Parábola ARMA 2933.744 2961.837
Parábola U 3375.453 3398.863
Parábola NE 3375.453 3398.863
Cúbica AR(1) 2901.747 2929.832
Cúbica ARMA 2901.452 2934.218
Cúbica U 3349.105 3377.1902
Cúbica NE 2812.444 3004.356
12*Heteroscedástico Linear AR(1) 2891.824 2915.241
Linear ARMA 2889.616 2917.716
Linear U 3384.419 3407.836
Linear NE – –
Parábola AR(1) 2890.820 2918.913
Parábola ARMA 2888.738 2921.512
Parábola U 3375.297 3403.389
Parábola NE – –
Cúbica AR(1) 2867.112 2899.878
Cúbica ARMA 2867.091 2904.537
Cúbica U 3350.320 3383.086
Cúbica NE – –
Pelo AIC o melhor modelo homocedástico é de primeiro grau com estrutura de correlação não
estruturada. O melhor modelo heteroscedástico é o cúbico com estrutura de correlação ARMA.
Considerando o BIC, o melhor modelo homocedástico é cúbico com estrutura de correlação AR(1).
O melhor modelo heteroscedástico é o linear com estrutura de correlação AR(1). Considerando o
critério BIC, temos que a estrutura de correlação é AR(1) com preditor cúbico tanto para o modelo
homocedástico quanto para o modelo heteroscedástico.
Na figura 20.4, podemos observar que os dois ajustes citados não se aproximam dos valores
médios observados.
Dado o comportamento não satisfatório dos modelos ajustados, pois ambos estão distante dos
valores médios observados de cada dia, podemos então, ajustar um modelo de quarto grau, ou seja:
Yi j = β0+(xi j−1)β1+(xi j−1)2β2+(xi j−1)3β3+(xi j−1)4β4+ ei j,
136 Capítulo 20. Medidas repetidas - Bilirrubina
Figura 20.4: Valores observados e modelos ajustados.
na qual cada termo apresenta a mesma estrutura dos modelos anteriores, com adição somente do
parâmetro referente ao quarto grau, e assim verificar se o mesmo consegue ser mais adequado ou
não para os dados observados.
A tabela 20.4 apresenta o comparativo entre o modelo cúbico, ajustado anteriormente, e o modelo
de quarto grau. Observe que pelo critério do AIC o melhor modelo a ser utilizando é o cúbico
com estrutura de correlação não-estruturada (tanto para o caso homocedástico quanto para o caso
heteroscedástico). Pelo critério do BIC o melhor modelo foi auto-regressivo de ordem 1 com grau 4
(tanto para o caso homocedástico quanto para o heteroscedástico).
20.2 Análise descritiva 137
Tabela 20.4: AIC e BIC para cada modelo ajustado.
Variância Preditor Correlação AIC BIC
8*Homocedástico Cúbico AR(1) 2901.7471 2929.8322
Cúbico ARMA 2901,4523 2934,2183
Cúbico U 3349,1051 3377,1902
Cúbico NE 2812,4412 3004,3562
Grau 4 AR(1) 2867,1121 2899,8780
Grau 4 ARMA 2867,0911 2904,5379
Grau 4 U 3350,3209 3383.0869
Grau 4 NE – –
8*Heteroscedástico Cúbico AR(1) 2874,4001 2907,1573
Cúbico ARMA 2875,1183 2912,5551
Cúbico U 3341,1540 3373,9112
Cúbico NE 2783,2274 2979,7705
Grau 4 AR(1) 2842,5132 2879,9500
Grau 4 ARMA 2843,4442 2885,5606
Grau 4 U 3342,5807 3380,0175
Grau 4 NE – –
A figura 20.5, apresenta a diferenças entre os valores observados e os ajustados para cada modelo.
Observe que o modelo heteroscedástico cúbico de grau 4 apresenta um melhor ajuste se comparado
com o modelo cúbico.
Figura 20.5: Valores observados e modelos ajustados.
138 Capítulo 20. Medidas repetidas - Bilirrubina
As estimativas do modelo escolhido são apresentadas na tabela 20.5.
Tabela 20.5: Estimativas dos parâmetros para o modelo heteroscedástico AR(1) de grau 4.
Parâmetro Estimativa Erro padrão p-valor
β0 4,4120 0,4122 < 0,001
β1 1,6803 0,1913 < 0,001
β2 -0,6072 0,0715 < 0,001
β3 0,0695 0,0095 < 0,001
β4 -0,0026 0,0004 < 0,001
Selecionando esse modelo como o melhor dentre os ajustados, precisamos realizar uma análise
de diagnóstico com intuito de estudar os resíduos do modelo, bem como verificar sua robustez.
Diagnóstico
Para a análise de diagnóstico do modelo apresentado podemos utilizar as mesmas técnicas desenvol-
vidas para os modelos lineares, ou seja, distância de Cook, DFbeta, Matriz de alavancagem, entre
outras.
A figura 20.6 apresenta a dispersão dos resíduos do modelo (comportamento aleatório dos
pontos), o histograma do resíduo padronizado (semelhante ao histograma de uma distribuição normal
padrão), os valores ajustados versus resíduos (indicam um comportamento razoável, porém podemos
observar que os pontos não estão dispersos como o esperado para um bom ajuste) e, por fim, o
gráfico quantis-quantis (que indica um ajuste ruim para dados, pois as caudas desse gráfico não estão
dispostos em linha reta).
20.2 Análise descritiva 139
Figura 20.6: Gráficos de diagnóstico do modelo heteroscedástico AR(1) de grau 4.
Para análise de sensibilidade, precisamos verificar se o modelo proposto é robusto, ou seja, se
suas estimativas sofrem alterações dado a ausência de alguma(s) observação(ões). Pelo gráfico dos
resíduos normalizado, podemos observar que um ponto específico apresenta uma distância maior da
reta y = 0 se comparado aos demais. Essa observação corresponde ao indivíduo 68 observado no
dia 12. Retirando essa observação do banco de dados, podemos observar que o modelo apresenta
mudanças significativas nas estimativas do parâmetro, conforme mostra a tabela 20.8.
Tabela 20.6: Estimativas dos parâmetros para o modelo heteroscedástico AR(1) de grau 4 sem o
indivíduo 78.Parâmetro Estimativa Erro padrão p-valor
β0 6,2154 0,4122 0,120
β1 1,6803 0,1913 < 0,001
β2 -0,6072 0,0715 < 0,001
β3 0,0695 0,0095 < 0,001
β4 -0,0026 0,0004 < 0,001
Dessa forma, precisamos partir para uma outra abordagem para a modelagem dos dados. A
metodologia será baseada nos Modelos Lineares Mistos.
140 Capítulo 20. Medidas repetidas - Bilirrubina
Modelo linear misto
20.2.2 Metodologia
O modelo normal linear misto tem sua forma funcional dada por:
Y j(k j×1) = X j(k j×p)β(p×1)+Z j(k j×q)β(q×1)+ e j(k j×p),
com j = 1,2, ...,n e
– Y j = (Y j1, ...,Y jk j), sendo , k j o número de condições de avaliação em que o indivíduo j é
avaliado
– X j é matriz de planejamento associada aos efeitos fixos para o indivíduo j (não-aleatória e
conhecida)
– Z j matriz de planejamento associada aos efeitos aleatórios para o indivíduo j (não-aleatória e
conhecida).
– β : vetor de efeitos fixos (não-aleatório e desconhecido).
– b j: vetor de efeitos aleatórios associado ao indivíduo j (aleatório e desconhecido), b j
ind∼ (0,Ψ).
– e j: vetor de erros associado ao indivíduo j, e j
ind∼ (0,Σ j).
Em particular, o ajuste será feito para dois modelos: um considerando somente o intercepto
como aleatório e outro considerando o intercepto e o coeficiente angular como aleatórios, ou seja:
Yi j = β0+(xi j−1)β1+b1 j + ei j
Yi j = β0+(xi j−1)β1+b1 j +b2 jxi j + ei j,
em que j = 1,2, ...89, i = 1, ...,9, xi j é o dia (1,2,3,4,5,6,8,10,12), em que a concentração de
bilirrubina, correspondente ao instante i, foi medida na j-ésima criança (unidade amostral); Yi j é a
concentração de bilirrubina no instante i da j-ésima criança; E[Yi j|xi j = 1] = β0 é a concentração
esperada de bilirrubina no primeiro dia de vida e β1 é o incremento na concentração esperada de
bilirrubina no intervalo de um dia e b1 j e b2 jxi j são os coeficientes do efeito aleatório.
Os modelos lineares mistos, poranto, são formados pelos efeitos fixos e pelos efeitos aleatórios.
De uma maneira geral, os efeitos fixos modelam as características populacionais e efeitos aleatórios
modelam características individuais.
Resultados
Considerando os dois modelos ajustados - um com intercepto aleatório e outro com intercepto e
coeficiente angular aleatório, cujas estruturas de correlação utilizadas foram a auto-regressiva de
ordem 1 e auto-regressiva média móvel, temos os seguintes resultados:
Tanto pelo critério do AIC quanto pelo critério do BIC, o modelo com efeito aleatório para o
intercepto apresentou o menor valor se comparado aos demais. Utilizando o critério do BIC, vamos
considerar o modelo heteroscedástico com estrutura de correlação AR(1) e com o intercepto como
único fator aleatório para apresentação das estimativas e análise de diagnóstico.
Diagnóstico
A figura 20.7 apresenta a dispersão dos resíduos do modelo (comportamento aleatório dos pontos
concentrado em torno do zero), o histograma do resíduo padronizado (semelhante ao histograma
de uma distribuição normal padrão e com formato bem razoável, se comparado ao modelo anterior
escolhido), os valores ajustados versus resíduos (indicam um comportamento satisfatório, dado que
20.2 Análise descritiva 141
Variância Correlação Efeito aleatório AIC BIC
4*Homocedástico AR(1) Intercepto 2953,2352 2976,6520
AR(1) Intercepto e coef. angular 2957,2352 2990,0187
ARMA Intercepto 2949,9454 2978,0455
ARMA Intercepto e coef. angular 2953,9454 2991,4122
4*Heteroscedástico AR(1) Intercepto 2865,5583 2893,6584
AR(1) Intercepto e coef. angular 2869,5583 2907,0251
ARMA Intercepto 2865,0220 2897,8055
ARMA Intercepto e coef. angular 2869,0220 2911,1722
Tabela 20.7: Estimativas dos parâmetros para o modelo heteroscedástico com estrutura de correlação
AR(1) e com o intercepto como único fator aleatório.
Parâmetro Estimativa Erro padrão p-valor
β0 5,4392 0,3991 < 0,001
β1 -0,2126 0,0245 < 0,001
se encontram em torno do zero) e, por fim, o gráfico quantis-quantis (que indica um ajuste melhor
que o modelo anterior).
142 Capítulo 20. Medidas repetidas - Bilirrubina
Figura 20.7: Gráficos de diagnóstico do modelo heteroscedástico com estrutura de correlação AR(1)
e com o intercepto como único fator aleatório.
Para análise de sensibilidade, precisamos verificar se o modelo proposto como alternatico ao
modelo marginal apresentado no tópico anterior é robusto, ou seja, se suas estimativas sofrem
alterações dado a ausência de alguma(s) observação(ões). Retirando a mesma observação da
modelagem anterior, temos as seguintes estimativas para os parâmetros:
Tabela 20.8: Estimativas dos parâmetros para o modelo heteroscedástico com estrutura de correlação
AR(1) e com o intercepto como único fator aleatório sem o indivíduo 78.
Parâmetro Estimativa Erro padrão p-valor
β0 5,6932392 0,3865 < 0,001
β1 -0,2356 0,0214 < 0,001
Observe que a retirada da observação não afeta as estimativas e erros-padrão do modelo alterna-
tivo, ou seja, é um modelo robusto.
Conclusão
Para a análise de dados longitudinais a literatura apresenta diversas abordagem para a modelagem.
Neste relatório foi apresentado, primeiramente, o modelo linear multivariado normal, porém sua
estrutura não leva em consideração a heteroscedasticidade dos grupos avaliados (característica
apresentada na análise descritiva).
A alternativa é utilizar os conceitos dos modelos lineares multivariados, porém considerando a
modelagem para cada indivíduo (marginal), pois assim a estrutura heteroscedasticidade dos grupos
poderia ser levada em consideração. O ajuste foi feito e o modelo heteroscedástico com estrutura
de correlação auto-regressiva de ordem 1 com grau quatro foi o escolhido para o ajuste dos dados,
considerando o critério BIC.
Na análise de diagnóstico desse modelo verificou-se que uma observação destoava das demais
e foi retirada do banco de dados para um novo ajuste. Foi apresentado que as estimativas dos
parâmetros sofrem alterações significativas e, portanto, não é um modelo robusto.
A terceira alternativa de modelagem é considerar o estudo por meio dos modelos lineares
mistos. Nesta abordagem podemos incluir efeitos aleatórios ao modelo para modelar a estrutura de
dependência dos dados. Considerando também o critério BIC o modelo escolhido para análise foi o
heteroscedástico com estrutura de correlação auto-regressiva de ordem 1 com o intercepto como o
efeito aleatório.
Na primeira análise de diagnóstico, o modelo apresentou bom comportamento. Com intuito
de avaliar sua sensibilidade, foi retirada a mesma observação do modelo marginal (indivíduo 78)
para que fosse realizado um novo ajuste. Verificou-se que a retirada desta observação não afeta
significativamente o modelo, tornando-o robusto.
O modelo linear misto foi então o melhor modelo para o ajuste dos dados, se comparado aos
demais utilizados neste relatório. Outras abordagens podem ser consideradas, dado o comportamento
da variável resposta (um exemplo seria modelar por meio do modelo linear misto generalizado).
Referências bibliográficas
1. Alencar, F. L. C. (2012). Modelo de regressão beta retangular. Monografia. UFC, Ceará.
2. Alencar, F. L. C. (2016). Diagnóstico de influência para uma família de modelos de regressão
para dados de taxas e proporções. Dissertação de mestrado. UFPE, Pernambuco.
3. Andreoni, S. (1989). Modelos de efeitos aleatórios para análise de dados longitudinais não
balanceados em relação ao tempo. Dissertação de mestrado. IME-USP, São Paulo.
4. Artes, R. (1997). Extensões da teoria das equações de estimação generalizadas a dados
circulares e modelos de dispersão. Tese de doutorado. IME-USP, São Paulo.
5. Artes, R. e Botter, D. A. (2005). Funções de Estimação em Modelos de Regressão. 9 Escola
de Modelos de Regressão - ABE. São Pedro: São Paulo.
6. Bayes, C., e Bazán, J. (2014). An em algorithm for beta-rectangular regression models.
7. Bayes, C. L., Bazán, J. L. e García, C. (2012).A new robust regression model for proportions.
International Society for Bayesian Analysis, 7, 4, 841-866.
8. Byrd, R. H., Lu, P., Nocedal, J., e Zhu, C. (1995). A limited memory algorithm for bound
constrained optimization. SIAM Journal on Scientific Computing, 16, 5, 1190-1208.
9. Box, G. E. e Cox, D. R. (1964). An analysis of transformations. Journal of the Royal Statistical
Society: Series B (Methodological), 211-252.
10. Costa, S. C. (2004). Modelos lineares generalizados mistos para dados longitudinais. Tese de
doutorado. ESALQ/USP, São Paulo.
144 Capítulo 20. Medidas repetidas - Bilirrubina
11. Cribari-Neto, F. e Zeileis, A. (2010). Beta regression in R. Journal of Applied Statistics, 2, 34,
1-24.
12. Crowder, M. (1987). On linear and quadratic estimating function, Biometrika, 74, 591-597.
13. Dempster, A. P., Laird, N. M., e Rubin, D. B. (1977). Maximum likelihood from incomplete
data via the E-M algorithm. Journal of the Royal Statistical Society, 39, 1-38.
14. Espinheira, P. L., Ferrari, S. L. P. e Cribari-Neto, F. (2008a). On beta regression residuals,
Journal of Applied Statistics 35, 407-419.
15. Espinheira, P. L., Ferrari, S. L. P. e Cribari-Neto, F. (2008b). Influence diagnostics in beta
regression. Computational Statistics and Data Analysis, Elsevier, 52, (9), 4417-4431.
16. Ferrari, S. L. P. e Cribari-Neto, F. (2004). Beta regression for modeling rates and proportions,
Journal of Applied Statistics 31 (7), 799-815.
17. García, C., Pérez, J. G. e Vandorp, J. R. (2011). Modeling heavy-tailed, skewed and peaked
uncertainty phenomena with bounded support. Statistical Methods & Applications, Springer,
20, (4), 463-486.
18. Godambe, V. P. (1960). An optimum property of regular maximum likelihood estimation,
Annals of Mathematical Statistis 31, 1208-1211.
19. Hanh, E. D. (2008). Mixture densities for project management activity times: Arobust appro-
ach to pert. European Journal of Operational Research, Elsevier, 188, (2), 450-459.
20. Heyde, C. C. (1997). Quasi-Likelihood And Its Application: A General Approach to Optimal
Parameter Estimation. New York: Springer Science & Business Media.
21. Jorgensen, B. (1987). Exponential dispersion models (with discussion). Journal of the Royal
Statistical Society, 49, 127-169.
22. Jorgensen, B. e Labouriau, R. S. (1994). Exponential families and theoretical inference,
Lecture notes, University of British Columbia, British Columbia.
23. Jorgensen, B. (1997a). Proper dispersion models. Brazilian Journal of Probability and Statis-
tics (ERRO).
24. Jorgensen, B. (1997b). The Theory of Dispersion Models. London: Chapman & Hall.
25. Kieschnick, R. e McCullough, B. D. (2003). Regression analysis of variates observed on
(0,1): percentages, proportions and fractions. Statistical modelling, SAGE Publications, 3, (3),
193-213.
26. Laird, N. M. e Ware, J. H. (1982). Random-Effects Models for Longitudinal Data. Biometrics,
20.2 Análise descritiva 145
38, 963-974.
27. Liang, K. Y. e Zeger, S. L. (1986). Longitudinal data analysis using generalized linear models.
Biometrika, 73, 13-22.
28. Martkatou, M. (2000). Mixture models, robustness, and the weighted likelihood methodology.
Biometrics, Wiley On line Library, 56, (2), 483-486.
29. McCulloch, C.E. e Searle, S.R. (2001). Generalized, Linear, and Mixed Models. New York:
John Wiley & Sons.
30. Nelder, J. A. e Weddeburn, R. W. M. (1972). Generalized Linear Models. Journal of the Royal
Statistical Society Series A, 135, 370-384.
31. Neter, J., Kutner, M. H., Naschstheim, C. J. e Wasserman, W. (1996). Applied Linear Statisti-
cal Models. IE M Graw Hil, Chicago.
32. Nobre, J. S. (2004). Métodos de diagnóstico para modelos lineares mistos. Dissertação de
mestrado. IME/USP, São Paulo.
33. Ospina, P.L.E. (2007). Regressão beta. Tese de doutorado. IME/USP, São Paulo.
34. Paula, G.A. (2003). Modelos de regressão com apoio computacional. IME/USP, São Paulo.
(http://www.ime.usp.br/?giapaula).
35. Paulino, P. (2001). Maximum likelihood estimation of models with beta-distributed dependent
variables, Political Analysis, SPM-PMS APSA, 9, (4) 325-346.
36. Prentice, R. L. e Zhao, L. P. (1991). Estimating equations for parameters in means and
covariances of multivariate discrete and continuous responses, Biometrika, 47, 825-839.
37. R Core Team (2018). R: A language and environment for statistical computing. R Foundation
for Statistical Computing. Disponível em http://www.R-project.org/. Vienna, Austria. .
38. Silva, A. R. S. (2015). Modelos de regressão beta retangular heteroscedásticos aumentados
em zeros e uns. Dissertação de mestrado. Unicamp, São Paulo.
39. Silva, A. R. S., Azevedo, C. L. N., Bazán, J. L. e Nobre, J. S. (2017). Likelihood- based
inference for zero-and/or-one augmented rectangular beta regression models. Relatório téc-
nico, disponível em https://www.ime.unicamp.br/sites/default/files/pesquisa/
relatorios/rp-2017-07.pdf. Unicamp, São Paulo.
40. Silva, A. R. S., Azevedo, C. L. N., Bazán, J. L. e Nobre, J. S. (2017). Bayesian infe-
rence for zero-and/or-one augmented rectangular beta regression models. Relatório téc-
nico, disponível em https://www.ime.unicamp.br/sites/default/files/pesquisa/
relatorios/rp-2017-12.pdf. Unicamp, São Paulo.
146 Capítulo 20. Medidas repetidas - Bilirrubina
41. Simas, A. B., Barreto-Souza, W. e Rocha, A. V. (2010). Improved estimators for a general
class of beta regression models. Computational Statistics & Data Analysis, Elsevier, 54, 2,
348-366.
42. Singer, J. M. e Andrade, D. F. (1986). Análise de Dados Longitudinais. VII Simpósio Nacional
de Probabilidade e Estatística. São Paulo: Campinas.
43. Smithson, M. e Verkuilen, J. (2006). A better lemon-squeezer? maximum likelihood regres-
sion with beta distributed dependent variables. Psychological Methods, 11, 54-71.
44. Song, P. X. -K; Qiu, Z. e Tan, M. (2004). Modelling heterogenous dispersion in marginal
models for longitudinal proportional data, Biometrical, 46, 5, 540-553.
45. Song, P. X. -K e Tan, M. (2000). Marginal models for longitudinal continuous proportional
data, Biometrics, 56, 496-502.
46. Venezuela, M. K. (2003). Modelos lineares generalizados para análise de dados com medidas
repetidas. Dissertação de mestrado. IME/USP, São Paulo.
47. Venezuela, M. K., Botter, D. A. e Sandoval, M. C. (2007). Diagnostic tehniques in generalized
estimating equations, Journal of Statistial Computation and Simulation, 77, 879-888
48. Venezuela, M. K. (2008). Equação de estimação generalizada e influência local para modelos
de regressão beta com medidas repetidas. Tese de doutorado. IME/USP, São Paulo.
49. Wang, J. e Luo, S. (2015). Bayesian multivariate augmented Beta rectangular regression mo-
dels for patient-reported outcomes and survival data, Statistical methods in medical research,
1-20.
50. Ware, J.H. (1985). Linear models for the analysis of longitudinal studies. Statistician,39,
95-101.
51. Wedderburn, R. W. M. (1974). Quasi-likelihood functions, generalized linear models, and the
gauss-newton method, Biometrika, 61, 31-38.
52. Zeger, S. L. e Liang, K. Y. (1986). Longitudinal data analysis for disrete and continuous
outcomes, Biometrika, 42, 121-130.
Bibliografia
Ferrari, Silvia e Francisco Cribari-Neto (2004). “Beta regression for modelling rates and proportions”.
Em: Journal of Applied Statistics 31.7, pp. 799–815.
	I CONCEITOS INICIAIS ————————————————————————————–
	Análise de Variância
	Motivação do estudo
	Modelo para uma população
	Inferência
	Modelo para duas populações
	Inferência, resíduos e ANOVA
	Modelo para mais de duas populações
	Inferência, resíduos e ANOVA
	Teste de igualdade de médias
	Comparação de médias
	II MODELOS CLÁSSICOS ————————————————————————————–
	Modelo de regressão linear simples
	Introdução
	Suposição do Modelo de Regressão Linear
	Estimaçãodos parâmetros
	Propriedade dos estimadores
	Análise de variância
	Coeficiente de determinação
	Esperança da soma de quadrados
	Teste de hipóteses para os parâmetros
	Intervalos de confiança
	Para 0
	Para 1
	Estimação e previsão em um x=x0 específico
	Diagnóstico
	Modelos linearizados
	Transformações de variáveis
	Transformação de Box-Cox
	Modelo de regressão linear simples passando pela origem
	Estimação do parâmetro
	Propriedades dos estimadores
	Análise de Variância
	Coeficiente determinação
	Exercícios
	Aplicações em dados reais
	Adicionar
	Modelo de regressão linear múltipla
	Modelo de regressão linear simples na forma matricial
	Suposição do modelo de regressão linear múltipla
	Estimação dos parâmetros
	Propriedade dos estimadores
	Análise de Variância
	Teste de hipóteses
	Coeficiente de determinação múltipla
	Intervalo de confiança
	Intervalo de previsão
	Técnicas de diagnóstico
	Avaliação do ajuste
	Análise de sensibilidade
	Técnicas gráficas
	Exercícios
	Aplicações em dados reais
	Venda de imóveis
	Modelo linear multivariado
	III MODELOS LINEARES GENERALIZADOS ————————————————————————————–
	Modelos Lineares Generalizados
	Introdução
	Família exponencial
	Funções de ligação e ligações canônicas
	Função escore e informação de Fisher no processo de estimação
	Teste de hipóteses
	Função desvio
	Teste da razão de verossimilhança
	Teste de Wald
	Teste de escore
	Teste de F
	Técnicas de diagnóstico em MLG
	Introdução
	Análise de resíduos
	Análise de sensibilidade
	Modelos para dados binários
	Modelo de Regressão Binomial - MRB
	Modelos para dados de contagem
	Modelo de Regressão Poisson - MRPois
	Modelos de Regressão Binomial Negativa - MRBN
	Aplicações em dados reais
	Infecção de ouvido
	Modelos para dados positivos assimétricos
	Resposta com distribuição gama
	Resposta com distribuição normal inversa
	Regressão Logística
	Introdução
	O modelo
	Estimação dos parâmetros
	Interpretação dos parâmetros
	Adequação do modelo
	Aplicações em dados reais
	Tempo de estoque
	Risco de inadimplência (utilizando o software SAS)
	Câncer de próstata (utilizando o software SAS)
	IV EXTENSÕES I ————————————————————————————–
	Quase-verossimilhança
	Introdução
	Modelo quasi-binomial
	Modelo quasi-Poisson
	Equações de Estimação Generalizadas
	Introdução
	Modelos de probabilidade composta
	Introdução
	Modelo Poisson-gama
	Modelo Beta-binomial
	Modelo Beta-binomial
	Modelo Logístico-Normal
	Modelos inflacionados de zeros
	Introdução
	Modelos mistos
	Introdução
	Modelo Linear Misto
	Metodologia
	Modelo Linear Misto Generalizado
	Modelos Marginais
	Introdução
	Modelo Linear Multivariado (marginal)
	V EXTENSÕES II ————————————————————————————–
	Modelos Aditivos Generalizados
	Introdução
	Modelo de Regressão Beta e suas extensões
	Modelo de Regressão Beta
	Modelo de Regressão Beta Retangular
	Propensity Score Matching
	Para que serve?
	Medidas repetidas - Bilirrubina
	Introdução
	Análise descritiva
	Análise inferencial
	Metodologia
	Bibliografia

Mais conteúdos dessa disciplina