Buscar

Regressão linears UFF

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Universidade Federal Fluminense
Instituto de Matemática e Estatística
Regressão Linear Simples
Ana Maria Lima de FariasDepartamento de Estatística
.
Conteúdo
1 Inferência sobre a média e a variância de uma população normal 2
2 O Modelo Clássico de Regressão Linear Simples 5
2.1 Um Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Estimação dos parâmetros por mínimos quadrados . . . . . . . . . . . . . . . . . 10
2.4 Inclinação da reta de regressão e coeficiente de correlação . . . . . . . . . . . 13
2.5 A reta de regressão amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 O coeficiente de determinação R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7 Propriedades dos estimadores de mínimos quadrados . . . . . . . . . . . . . . . 17
2.8 O estimador de σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.9 Distribuição amostral dos estimadores β̂0, β̂1 e σ̂ 2 . . . . . . . . . . . . . . . . . 262.10 Inferência no modelo de regressão linear simples . . . . . . . . . . . . . . . . . . 28
2.11 Análise de variância no modelo de regressão linear simples . . . . . . . . . . . 29
2.12 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Capítulo 1
Inferência sobre a média e a variância deuma população normal
Seja Y1, Y2, . . . , Yn uma amostra aleatória simples de uma população normal com média µ evariância σ 2. Isso significa que as Yi’s são independentes e identicamente distribuídas (iid),cada uma com distribuição N(µ, σ 2). Então temos que E(Yi) = µ e podemos escrever
Yi = µ + ui
em que os ui’s são iid e ui ∼ N(0; σ 2); os ui’s são os erros estocásticos ou aleatórios. Esseé o modelo teórico subjacente ao nosso problema.
Na Figura 1.1 ilustra-se essa situação; aí, usamos um eixo cartesiano bidimensional e ofato de E(Yi) não depender de qualquer outra variável X está ilustrado pelo tipo de relação:E(Yi) é constante, qualquer que seja o valor de X.Os valores observados são representados pelos pontos e a partir desses valores temosque estimar µ, ou seja, temos que ajustar uma reta Y = µ̂ da “melhor forma possível”. Vejaa Figura 1.2. Note que os valores observados não estarão sobre a reta Y = µ̂; na verdade,eles apresentam uma dispersão em torno dessa reta “ótima”. Podemos escrever, então, que
Yi = µ̂ + εi
em que εi = Yi − µ̂é o resíduo. Note que o resíduo é a diferença entre o valor realmente observado e o valordado pelo nosso modelo, ou seja, o resíduo é a diferença entre o valor observado e o valorajustado pelo modelo.
2
CAPÍTULO 1. INFERÊNCIA SOBRE A MÉDIA E A VARIÂNCIA DE UMA POPULAÇÃONORMAL
Figura 1.1 – Função de regressão populacional – Yi = µ + ui
Figura 1.2 – Função de regressão amostral – Yi = µ̂ + εi
Para estimar a média populacional µ, vimos que a média amostral é o estimador “na-tural”. Na verdade, Y é também o estimador de mínimos quadrados, ou seja, Y minimiza asoma dos quadrados dos resíduos. Vamos denotar por Q(µ) essa soma dos quadrados dosresíduos. Então Q(µ̂) = n∑i=1 ε2i =
n∑
i=1 (Yi − µ̂)2O valor µ̂ que minimiza essa soma (para um bom ajuste, os resíduos devem ser pequenos!) éobtido derivando-se Q(µ̂) com relação a µ̂, igualando-se essa derivada a zero e confirmando
Departamento de Estatística – Ana Maria Farias 3
CAPÍTULO 1. INFERÊNCIA SOBRE A MÉDIA E A VARIÂNCIA DE UMA POPULAÇÃONORMAL
que o ponto é realmente um ponto de mínimo.
dQ(µ̂)dµ̂ = 0 ⇔ −2 n∑i=1 (Yi − µ̂) = 0
⇔ n∑i=1 (Yi − µ̂) = 0⇔
n∑
i=1 Yi − nµ̂ = 0⇔ µ̂ = Y
d2Q(µ̂)dµ̂2
∣∣∣∣µ̂=Y = 2n > 0Logo, µ̂ = Y é, de fato, um ponto de mínimo, e Y é o estimador de mínimos quadrados de µ.
Como Y é uma combinação linear de normais, vimos que
Y ∼ N (µ; σ 2n
)⇒ √nY − µσ ∼ N(0; 1)
(n− 1)S2σ 2 ∼ χ2(n− 1) (1.1)√nY − µS ∼ t(n− 1) (1.2)onde S2 = 1n− 1 n∑i=1 (Yi − Y )2 = 1n− 1
n∑
i=1 ε2ié o estimador não-viesado de σ 2. Note que esse estimador é a soma dos quadrados dosresíduos, dividida por n − 1. A partir de (1.2) e (1.1) obtivemos intervalos de confiança econstruímos testes de hipóteses para a média e para a variância de uma população normal.
Departamento de Estatística – Ana Maria Farias 4
Capítulo 2
O Modelo Clássico de Regressão LinearSimples
2.1 Um Exemplo
Consideremos uma população formada por 60 famílias, para as quais queremos fazer umestudo sobre os gastos com consumo. Na tabela 2.1 apresentamos um conjunto de dadoshipotéticos sobre a renda líquida semanal e gastos semanais com consumo. Aqui estamossupondo que podemos dividir as 60 famílias em grupos com aproximadamente a mesma renda.
Tabela 2.1 – Renda e consumo semanal de 60 famílias
Renda familiar semanal80 100 120 140 160 180 200 220 240 260Despesas 55 65 79 80 102 110 120 135 137 150semanais 60 70 84 93 107 115 136 137 145 152com 65 74 90 95 110 120 140 140 155 175consumo 70 80 94 103 116 130 144 152 165 17875 85 98 108 118 135 145 157 175 18088 113 125 140 160 189 185115 162 191Total 325 462 445 707 678 750 685 1043 966 1211Número de famílias 2 6 5 7 6 6 5 7 6 7
A forma de interpretar essa tabela é a seguinte: por exemplo, para uma renda semanalde $80, existem 5 famílias, cujos gastos variam de $55 a $75. Cada coluna da tabelafornece a distribuição condicional de Y (consumo), dado o valor de X (renda). Como essesdados representam toda a população, podemos calcular as probabilidades condicionais P(Y =Yj |X = Xi) ≡ P(Y |Xi). Por exemplo, P(Y = 70 |X = 80) = 15 .
5
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Então, para X = 80 podemos calcular distribuição de probabilidades condicionais:Y 55 60 65 70 75P(Y |X = 80) 1/5 1/5 1/5 1/5 1/5e para essa distribuição temos que
E(Y |X = 80) = 55× 15 + 60× 15 + 65× 15 + 70× 15 + 75× 15 = 65Da mesma forma, podemos calcular as distribuições de probabilidades condicionais com asrespectivas esperanças condicionais para todos os valores de X . Essas distribuições estãoresumidas na tabela 2.2 abaixo.Tabela 2.2 – Distribuição condicional do consumo dada a renda
Renda familar semanal (X )80 100 120 140 160 180 200 220 240 260Probabilidades 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7condicionais 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7P(Y |Xi) 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/71/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/71/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/71/6 1/7 1/6 1/6 1/7 1/6 1/71/7 1/7 1/7E(Y |Xi) 65 77 89 101 113 125 137 149 161 173
Na Figura 2.1 temos o gráfico que representa os gastos individuais e as rendas das 60famílias. A reta aí exibida representa o comportamento das médias ou esperanças condicio-nais para cada valor da renda. Podemos ver que, para cada nível de renda, há variações nosgastos individuais mas existe uma tendência crescente média, isto é, aumentando a renda, ogasto médio com consumo tende a aumentar. Mais precisamente, E (Y |Xi) aumenta à medidaque aumenta a renda.
O que esse exemplo ilustra é o conceito de curva de regressão populacional, que nadamais é que o lugar geométrico das esperanças condicionais da variável dependente Y paravalores fixos das variáveis independentes. No caso de uma variável independente, podemosdefinir a função de regressão populacional
E (Y |Xi) = f (Xi) (2.1)A função f pode ser qualquer. O modelo mais simples é supô-la linear, o que nos dá o modelolinear E (Y |Xi) = β0 + β1Xi (2.2)Nesse caso, temos a função de regressão linear populacional.
O que a função de regressão linear populacional nos dá é o comportamento médio dapopulação, para cada nível de renda X . Podemos ver, no entanto, que para cada nível de
Departamento de Estatística – Ana Maria Farias 6
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Figura 2.1 – Reta de regressão populacional – Yi = β0 + β1Xi + ui
renda X , existe uma flutuação dos valores de Y em torno da sua esperança condicional. NaFigura 2.2,esse fato é ilustrado para a situação em que os Yi’s vêm de uma distribuiçãonormal. Então, para uma determinada família com renda Xi temos que o gasto com consumopode ser escrito como Yi = E (Y |Xi) + ui (2.3)No caso do modelo linear, essa equação se torna:Yi = β0 + β1Xi + ui (2.4)
O termo ui é chamado perturbação ou erro estocástico.Na prática, temos apenas uma amostra da população, o que equivale a dizer que, paracada X , temos um único valor observado de Y . E a partir dessa amostra temos que estimara reta de regressão populacional. Isso significa que a partir da amostra temos que obter afunção de regressão amostral (essa é a versão amostral da equação (2.2) ):Ŷi = β̂0 + β̂1Xi (2.5)onde Ŷi é um estimador para E (Y |Xi) e β̂0 e β̂1 são estimadores para β0 e β1. Para cadaobservação específica, temos a seguinte equação, que é a contrapartida amostral de (2.4):Yi = β̂0 + β̂1Xi + ûi ≡ β̂1 + β̂2Xi + εique nos diz que os valores observados de Y estão em torno da reta de regressão amostral,conforme ilustrado na Figura 2.3. Os εi, que são a contrapartida amostral dos ui, sãochamados resíduos ou erros.
Departamento de Estatística – Ana Maria Farias 7
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Figura 2.2 – Reta de regressão populacional – Yi = β0 + β1Xi + ui – modelolinear normal
Figura 2.3 – Reta de regressão amostral – Yi = β̂0 + β̂1Xi + εi
A questão fundamental que se coloca é como “escolher” a função de regressão amostralde forma que ela seja uma boa aproximação da função de regressão populacional, isto é, temosque determinar β̂0 e β̂1 de modo que eles estejam próximos dos verdadeiros (e desconhecidos)valores de β0 e β1 .
Departamento de Estatística – Ana Maria Farias 8
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
2.2 O Modelo
O modelo é dado pela seguinte equaçãoE(Yi|Xi) = β0 + β1Xiou
Yi = β0 + β1Xi + ui (2.6)com as seguintes hipóteses:
1. As Xi’s são não estocásticas ou não correlacionadas com os ui’s.2. Os erros ui’s são variáveis aleatórias normais tais que:(a) E (ui) = 0 ∀ i(b) Var(ui) = σ 2 ∀ i (homocedasticidade)(c) Cov (ui , uj) = 0 ∀ i 6= j
Essas propriedades podem ser resumidas através da seguinte notaçãoui ∼ IN (0 , σ 2) ∀ i (2.7)onde IN significa “independente e normal”. Veja a Figura 2.2.
Como os Yi’s são funções lineares de variáveis aleatórias normais, segue que eles pró-prios são também normais. Temos que:E(Yi) = β0 + β1Xi ∀ i → Reta de regressão populacionalVar(Yi) = σ 2 ∀ iCov(Yi , Yj ) = 0 ∀ i 6= j
Esses resultados seguem facilmente das seguintes propriedades da esperança, da vari-ância e da covariância de variáveis aleatórias: se a e b são constantes e X e Y são variáveisaleatórias, entãoE(X + a) = E (X ) + a Var(X + a) = Var(X ) Cov(X + a, Y + b) = Cov(X, Y )
De fato, como os Xi’s são não estocásticos, temos queE (Yi) = E(β0 + β1Xi + ui) = β0 + β1Xi + E(ui) = β0 + β1Xi + 0Var(Yi) = Var(β0 + β1Xi + ui) = Var(ui) = σ 2Cov (Yi , Yj) = Cov(β0 + β1Xi + ui, β0 + β1Xj + uj ) = Cov(ui, uj ) = 0
Podemos, então, resumir os resultados sobre os Yi’s da seguinte forma:Yi ∼ IN (β0 + β1Xi , σ 2) (2.8)
Departamento de Estatística – Ana Maria Farias 9
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
2.3 Estimação dos parâmetros por mínimos quadrados
A reta de regressão populacional é
E (Yi|Xi) = β0 + β1Xi
O objetivo é estimar essa reta a partir de uma amostra, obtendo-se a reta de regressãoamostral Ŷi = β̂0 + β̂1Xi
O erro dessa estimativa é dado pelo resíduo
εi = Yi − Ŷi = Yi − β̂0 − β̂1Xi (2.9)
O método dos mínimos quadrados consiste em determinar β̂0 e β̂1 que minimizem asoma dos quadrados dos resíduos, isto é, que minimizem
Q (β̂0 , β̂1) = n∑i=1
(Yi − β̂0 − β̂1Xi)2 (2.10)
Calculando as derivadas parciais de primeira e segunda ordem obtemos que:
∂Q∂β̂0 = −2
n∑
i=1
(Yi − β̂0 − β̂1Xi)
= −2 n∑i=1 Yi + 2
n∑
i=1 β̂0 + 2β̂1
n∑
i=1 Xi= −2nY + 2nβ̂0 + 2nβ̂1X∂∂β̂0
( ∂Q∂β̂0
) = 2n > 0
∂Q∂β̂1 = −2
n∑
i=1
(Yi − β̂0 − β̂1Xi)Xi
= −2 n∑i=1 XiYi + 2
n∑
i=1 β̂0Xi + 2
n∑
i=1 β̂1X 2i
= −2 n∑i=1 XiYi + 2β̂0
n∑
i=1 Xi + β̂1
n∑
i=1 X 2i
∂∂β̂1
( ∂Q∂β̂1
) = n∑i=1 X 2i > 0
Departamento de Estatística – Ana Maria Farias 10
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Igualando as derivadas de primeira ordem a zero, obtemos:
∂Q∂β̂0 = 0 ⇔ −
n∑
i=1 Yi +
n∑
i=1 β̂0 + β̂1
n∑
i=1 Xi = 0
⇔ n∑i=1 Yi −
n∑
i=1 β̂0 − β̂1
n∑
i=1 Xi = 0 (2.11)⇔ β̂0 + β̂1X = Y (2.12)
∂Q∂β̂1 = 0 ⇔ −2
n∑
i=1 XiYi + 2β̂0
n∑
i=1 Xi + β̂1
n∑
i=1 X 2i = 0
⇔ n∑i=1 XiYi = β̂0
n∑
i=1 Xi + β̂1
n∑
i=1 X 2i (2.13)
⇔ β̂0 n∑i=1 Xi + β̂1
n∑
i=1 X 2i =
n∑
i=1 XiYi (2.14)As equações (2.12) e (2.14) são chamadas equações normais.
Da equação (2.12) obtemos que
β̂0 = Y − β̂1X
Substituindo na equação (2.14), obtemos:(Y − β̂1X) n∑i=1 Xi + β̂1
n∑
i=1 X 2i =
n∑
i=1 XiYi ⇒(Y − β̂1X)nX + β̂1 n∑i=1 X 2i =
n∑
i=1 XiYi ⇒
nX Y + β̂1( n∑i=1 X 2i − nX 2
) = n∑i=1 XiYi ⇒
β̂1 =
n∑
i=1XiYi − nX Yn∑
i=1X 2i − nX 2
=
n∑
i=1
(Xi − X) (Yi − Y )
n∑
i=1
(Xi − X)2 (2.15)
Departamento de Estatística – Ana Maria Farias 11
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Aqui usamos as seguintes igualdades:
n∑
i=1
(Xi − X) (Yi − Y ) = n∑i=1 (XiYi − XiY − XYi + X Y )
= n∑i=1 XiYi − Y
n∑
i=1 Xi − X
n∑
i=1 Yi +
n∑
i=1 X Y
= n∑i=1 XiYi − YnX − XnY + nX Y
= n∑i=1 XiYi − nX Y
n∑
i=1
(Xi − X)2 = n∑i=1
(X 2i − 2XiX + X 2)
= n∑i=1 X 2i − 2X
n∑
i=1 Xi + nX 2
= n∑i=1 X 2i − 2XnX + nX 2
= n∑i=1 X 2i − nX 2
Como as derivadas de segunda ordem são positivas, temos, de fato, um ponto de mínimo.
Estabelecendo as seguintes notações:
SXX = n∑i=1 (Xi − X)2 SXY =
n∑
i=1
(Xi − X) (Yi − Y ) (2.16)
podemos escrever os estimadores de mínimos quadrados como:
β̂1 = SXYSXX (2.17)β̂0 = Y − β̂1X (2.18)
Note que, das equações (2.9), (2.11) (2.13), resultam as seguintes propriedades dosresíduos: ∑ εi = 0 (2.19)∑ εiXi = 0 (2.20)Essas duas equações são a contrapartida das hipóteses feitas sobre os ui’s na população:ui’s e εi’s têm média zero e são não correlacionados com os Xi’s.
Departamento de Estatística – Ana Maria Farias 12
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
2.4 Inclinação da reta de regressão e coeficiente de correla-ção
O coeficiente β̂1 é o coeficiente angular ou inclinação da reta de regressão amostral; sendoassim, ele estima o quanto Y varia quando X varia de 1 unidade. Por outro lado, o coeficientede correlação entre duas variáveis mede o grau de associação linear entre elas. Sendo assim,é razoável esperar que haja alguma relação entre β̂1 e o coeficiente de correlação entre X eY . Por definição, o coeficiente de correlação populacional entre duas variáveis X e Y é
ρXY = Cov (X, Y )σXσYonde Cov (X, Y ) é a covariância entre X e Y , σX e σY são os desvios padrão de X e Y , definidospor Cov (X, Y ) = E [X − E(X )] [Y − E(Y )]
σX =√Var (X ) =√E [X − E(X )]2
σY =√Var (Y ) =√E [Y − E(Y )]2Dada uma amostra da população bidimensional (X, Y ), esses parâmetros são estimados por:
Ĉov(X, Y ) = 1n n∑i=1 (Xi − X ) (Yi − Y )
σ̂X (X ) =
√√√√1n n∑i=1 (Xi − X)2 =
√√√√1n n∑i=1 X 2i − X 2
rXY =
n∑
i=1
(Xi − X) (Yi − Y )√ n∑
i=1
(Xi − X)2√ n∑i=1 (Yi − Y )2
= SXY√SXX SYY
Isso pode ser reescrito como
rXY = SXY√SXX SYY = SXY√SXX SYY ×
√SXX√SXX = SXYSXX
√SXXSYYou rXY = β̂1√SXXSYY (2.21)
O coeficiente de correlação é uma medida de associação linear entre as variáveis X eY , mas ele não quantifica qualquer relação de causa/efeito. Temos, assim, que ele é uma
Departamento de Estatística – Ana Maria Farias 13
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
quantidade simétrica, isto é, rXY = rYX . Já para o coeficiente β̂1 não existe tal simetria; emmuitos casos, ajustar uma regressão de X em Y não tem sequer sentido econômico.
Outras propriedades importantes do coeficiente de correlação são que (i) ele varianointervalo [−1, 1]; (ii) valores próximos de 1 indicam forte associação linear positiva (isto é,crescendo X , Y tende a crescer na mesma direção) e valores próximos de −1 indicam forteassociação linear negativa; (iii) valores próximos de 0 indicam ausência de associação linear.Aqui cabe ressaltar que essa é uma medida de associação linear; por exemplo, se Y = X 2numa relação perfeita, o coeficiente de correlação entre X e Y será nulo, apesar da relaçãoexata entre as variáveis.
2.5 A reta de regressão amostral
A reta de regressão amostral é dada pela seguinte equação:
Ŷi = β̂1 + β̂1Xi = Y − β̂1X + β̂1Xiou Ŷi = Y + β̂1 (Xi − X) (2.22)
A partir dessa equação obtemos as seguintes propriedades da reta:
1. A reta passa pelo ponto (X, Y ) .De fato: fazendo Xi = X na equação, resulta Ŷi = Y .2. A média dos Y ’s estimados é igual à média dos Y ’s observados. Embora os Ŷi nãocoincida extamente com os Yi, em média, os valores são iguais.De fato:
Ŷ = 1n∑ Ŷi = 1n∑[Y + β̂1 (Xi − X)] = 1n∑Y+ β̂1n ∑(Xi − X) = 1nnY+ β̂1n ×0 = Y
3. Os resíduos são não correlacionados com os valores preditos Ŷi.De fato: usando a definição de correlação amostral e a equação (2.19), tem-se que;
Cov(εi, Ŷi) = 1n∑ εiŶi −
(1n∑ εi
)(1n∑ Ŷi
) = 1n∑ εiŶi= 1n [∑ εi (β̂0 + β̂1Xi)] = 1n [β̂0∑ εi + β̂1∑ εiXi]Das equações (2.19) e (2.20), conclui-se que
Cov(εi, Ŷi) = 0 (2.23)
Departamento de Estatística – Ana Maria Farias 14
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
4. Vamos calcular a soma dos quadrados dos resíduos ou erros, que denotaremos por SQE .Noa capítulo anterior, vimos que aSQ estava diretamente relacionada à estimativa deσ 2.
SQE = ∑ ε2i =∑(Yi − Ŷi)2 =∑[(Yi − Y )− β̂1 (Xi − X)]2 == ∑(Yi − Y )2 + β̂21∑(Xi − X)2 − 2β̂1∑(Xi − X) (Yi − Y ) =
= SYY + S2XYS2XX SXX − 2β̂1SXY = SYY + S2XYSXX − 2S2XYSXXou SQE = SYY − β̂ 1SXY (2.24)Como, em geral, SYY > 0 (note que SYY mede a variância dos Yi’s) podemos escrever:
SQE = SYY (1− β̂ SXYSYY
) = SYY (1− S2XYSXXSYY
)
ou seja SQE = SYY (1− r2XY ) (2.25)
2.6 O coeficiente de determinação R2
Consideremos a função de regressão amostral ilustrada na Figura 2.4 a seguir. O segmentoverde representa o resíduo Ti − Ŷi para uma observação específica e o segmento laranjarepresenta a distância vertical Ŷi − Y para essa mesma observação. Daí podemos ver que éválida a seguinte decomposição:
Yi − Y = (Yi − Ŷi)+ (Ŷi − Y) (2.26)
Isso significa que a variação de Yi em torno de sua média pode ser decomposta em 2parcelas:
• Yi − Ŷi resíduo• Ŷi − Y parte explicada pela regressão (note que no lugar de Yi aparece Ŷi)
Elevando ambos os membros de (2.26) ao quadrado e somando para todas as observa-ções, obtemos:
n∑
i=1
(Yi − Y )2 = n∑i=1
[(Yi − Ŷi)+ (Ŷi − Y)]2 =
= n∑i=1
(Yi − Ŷi)2 + n∑i=1
(Ŷi − Y)2 + 2 n∑i=1
(Yi − Ŷi)(Ŷi − Y)
Departamento de Estatística – Ana Maria Farias 15
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Figura 2.4 – Yi − Y = (Yi − Ŷi)+ (Ŷi − Y)
Mas
n∑
i=1
(Yi − Ŷi)(Ŷi − Y) = n∑i=1
(Yi − Ŷi) Ŷi − Y n∑i=1
(Yi − Ŷi) = n∑i=1 εiŶi − Y
n∑
i=1 εi = 0pelas equações (2.19) e (2.23). Segue, então, que:
n∑
i=1
(Yi − Y )2 = n∑i=1
(Yi − Ŷi)2 + n∑i=1
(Ŷi − Y)2 (2.27)
Vamos estabelecer as seguintes notações/definições:
• n∑i=1 (Yi − Y )2 = SQT = soma dos quadrados total (Note que SQT = SYY )
• n∑i=1(Yi − Ŷi)2 = SQE = soma dos quadrados dos resíduos ou erros
Departamento de Estatística – Ana Maria Farias 16
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
• n∑i=1(Ŷi − Y)2 = SQR = soma dos quadrados devidos à regressão
Dessa forma, podemos escrever:SQT = SQE + SQR (2.28)Como, em geral, a soma dos quadrados total é diferente de zero, podemos escrever:
1 = SQESQT + SQRSQTNum ajuste “bom”, a soma dos quadrados dos resíduos deve ser pequena, isto é, SQE ' 0 e,portanto, SQRSQT ' 1. Isso nos leva a definir o coeficiente de determinação como uma medidada bondade do ajuste:
R2 = SQRSQT =
n∑
i=1
(Ŷi − Y)2
n∑
i=1
(Yi − Y )2 (2.29)
Usando (2.25), obtemos que:
R2 = SQRSQT = SQT − SQESQT = 1− SQESQT = 1− SYY
(1− r2XY )SYY = r2XYLogo, rXY = ±√R2 (2.30)
No contexto de regressão, o coeficiente de determinação R2 faz mais sentido, uma vezque estamos “explicando” Y através de X. Além disso, veremos que no contexto de regressãolinear múltipla (mais de uma variável explicativa X ), o coeficiente de correlação simples passaa ter um significado bem mais restrito.
2.7 Propriedades dos estimadores de mínimos quadrados
TEOREMA 2.1 Os estimadores β̂0 e β̂1 são combinações lineares das variáveis aleatóriasYi.
Demonstração
β̂1 = SXYSXX =
n∑
i=1
(Xi − X) (Yi − Y )SXX =
n∑
i=1
(Xi − X)YiSXX − YSXX
n∑
i=1
(Xi − X) = n∑i=1
(Xi − X)SXX Yi
Departamento de Estatística – Ana Maria Farias 17
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Definindo ci = (Xi − X)SXX (2.31)temos que β̂1 = n∑i=1 ciYi (2.32)o que prova o resultado para β̂1.Para o estimador β̂0 temos que:
β̂0 = Y − β̂1X = 1n n∑i=1 Yi − X
n∑
i=1 ciYi =
n∑
i=1
(1n − ciX
)Yi
Definindo di = 1n − ciX (2.33)resulta que β̂0 = n∑i=1 diYi (2.34)
�
TEOREMA 2.2 Os coeficientes ci e di satisfazem as seguintes propriedades:
n∑
i=1 ci = 0
n∑
i=1 c2i = 1SXX
n∑
i=1 ciXi = 1 (2.35)
n∑
i=1 di = 1
n∑
i=1 d2i =
n∑
i=1X 2inSXX
n∑
i=1 diXi = 0 (2.36)n∑
i=1 cidi = − XSXX (2.37)
Demonstração
• n∑
i=1 ci = 1SXX
n∑
i=1
(Xi − X) = 1SXX × 0 = 0
Departamento de Estatística – Ana Maria Farias 18
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
•
n∑
i=1 c2i =
n∑
i=1
(Xi − X)2S2XX = SXXS2XX = 1SXX
• n∑
i=1 ciXi = 1SXX
n∑
i=1
(Xi − X)Xi = 1SXX
n∑
i=1
(Xi − X) (Xi − X + X) =
= 1SXX
n∑
i=1
(Xi − X)2 + XSXX
n∑
i=1
(Xi − X) = SXXSXX + XSXX × 0 = 1
• n∑
i=1 di =
n∑
i=1
(1n − ciX
) = 1n × n− X n∑i=1 ci = 1•
n∑
i=1 d2i =
n∑
i=1
(1n − ciX
)2 = n∑i=1 1n2 + X 2
n∑
i=1 c2i − 2Xn
n∑
i=1 ci = 1n + X
2SXX =
= SXX + nX 2nSXX =
n∑
i=1X 2i − nX 2 + nX 2nSXX = 1nSXX
n∑
i=1 X 2i• n∑
i=1 diXi =
n∑
i=1
(1n − ciX
)Xi = 1n n∑i=1 Xi − X
n∑
i=1 ciXi = X − X × 1 = 0• n∑
i=1 cidi =
n∑
i=1 ci
(1n − ciX
) = 1n n∑i=1 ci − X
n∑
i=1 c2i = 0− XSXX
�
TEOREMA 2.3 β̂0 e β̂1 são estimadores não viesados de β0 e β1 respectivamente.
Demonstração
E (β̂1) = E ( n∑i=1 ciYi
) = n∑i=1 ciE (Yi) =
n∑
i=1 ci (β0 + β1Xi) =
= β0 n∑i=1 ci + β1
n∑
i=1 ciXi = β0 × 0 + β1 × 1 = β1
Departamento de Estatística – Ana Maria Farias 19
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
E (β̂0) = E ( n∑i=1 diYi
) = n∑i=1 diE (Yi) =
n∑
i=1 di (β0 + β1Xi) =
= β0 n∑i=1 di + β1
n∑
i=1 diXi = β0 × 1 + β1 × 0 = β0
�
TEOREMA 2.4 As variâncias dos estimadores β̂0 e β̂1 são dadas por
Var(β̂1) = σ 2SXX (2.38)
Var(β̂0) = ∑X 2inSXX σ 2 (2.39)
Demonstração
Var(β̂1) = Var( n∑i=1 ciYi
) = n∑i=1 c2i Var (Yi)+
∑
i6=j cicj Cov (Yi, Yj) =
n∑
i=1 c2i σ 2+
∑
i6=j cicj×0 = σ
2SXX
Var(β̂0) = Var( n∑i=1 diYi
) = n∑i=1 d2i Var (Yi)+
∑
i6=j didj Cov (Yi, Yj) =
n∑
i=1 d2i σ 2+
∑
i6=j didj×0 =
n∑
i=1X 2inSXX σ 2
�
TEOREMA 2.5 As distribuições dos estimadores β̂0 e β̂1 são dadas por
β̂0 ∼ N (β0; ∑X 2inSXX σ 2
) (2.40)
β̂1 ∼ N (β1; σ 2SXX
) (2.41)
Departamento de Estatística – Ana Maria Farias 20
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Demonstração
Como β̂0 e β̂1 são ambos combinações lineares das variáveis normais Yi, seque queβ̂0 e β̂1 também têm distribuição normal. A média e a esperança são como calculadas nosteoremas anteriores.
�
TEOREMA 2.6 A covariância entre β̂0 e β̂1 é dada por
Cov(β̂0, β̂1) = − XSXX σ 2 (2.42)
Demonstração
Lembrando que os Yi’s são variáveis aleatórias normais independentes (logo, Cov (Yi, Yj ) =0 para i 6= j), resulta que:
Cov(β̂0, β̂1) = Cov( n∑i=1 diYi ;
n∑
i=1 ciYi
) = Cov (d1Y1 + · · ·+ dnYn ;c1Y1 + · · ·+ cnYn)
= Cov (d1Y1; c1Y1) + · · ·+ Cov (d1Y1; cnYn) + · · ·+Cov (dnYn; c1Y1) + · · ·+ Cov (dnYn; cnYn)= Cov (d1Y1; c1Y1) + · · ·+ Cov (dnYn; cnYn)
= n∑i=1 cidi Var (Yi) =
n∑
i=1 cidiσ 2 = − XSXX σ 2
�
TEOREMA 2.7 [GAUSS-MARKOV] Dadas as hipóteses do modelo de regressão linear clás-sico, os estimadores de mínimos quadrados β̂0 e β̂1 têm a menor variância dentro da classedos estimadores lineares não viesados.
Demonstração
PARTE 1: Seja β˜1 um estimador linear não viesado de β1. Isso significa que:
β˜1 =∑ kiYi E (β˜1) = β1
Mas
E (β˜1) = β1 ⇔ E (∑ kiYi) = β1 ⇔∑ kiE (Yi) = β1 ⇔∑ ki (β0 + β1Xi) = β1 ⇔∑ ki = 0 ∑ kiXi = 1
Departamento de Estatística – Ana Maria Farias 21
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Lembrando que os Yi’s são normais independentes com a mesma variância σ 2, temosque: Var(β˜1) = σ 2∑ k2iComo queremos o estimador linear não viesado de mínima variância, temos que
min∑ k2isujeito às restrições ∑ ki = 0∑ kiXi = 1
Usando o método dos multiplicadores de Lagrange, tomemos as derivadas parciais de
Q (k1, . . . , kn, λ1, λ2) =∑ k2i − λ1∑ ki − λ2 (∑ kiXi − 1)
∂Q∂ki = 0⇔ 2ki − λ1 − λ2Xi = 0 i = 1, 2, . . . , n (2.43)
∂Q∂λ1 = 0⇔∑ ki = 0 (2.44)
∂Q∂λ2 = 0⇔∑ kiXi = 1 (2.45)
Somando as n equações dadas em (2.43), obtemos:
2∑ ki − nλ1 − λ2∑Xi = 0 (2.46)
Multiplicando as equações (2.43) por Xi e somando, obtemos:
2∑ kiXi − λ1∑Xi − λ2∑X 2i = 0 (2.47)
Substituindo as equações (2.44) e (2.45) nas equaçòes (2.46) e (2.47), obtemos o seguintesistema:  nλ1 + λ2
∑Xi = 0
λ1∑Xi + λ2∑X 2i = 2ou  λ1 + λ2X = 0nλ1X + λ2∑X 2i = 2
Departamento de Estatística – Ana Maria Farias 22
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Da primeira equação resulta que λ1 = −λ2XSubstituindo na segunda, resulta:
−nλ2X 2 + λ2∑X 2i = 2⇒ λ2 (∑X 2i − nX 2) = 2⇒ λ2 = 2SXX
Da equação (2.43) temos que:
ki = 12 (λ1 + λ2Xi)Substituindo os valores de λ1 e λ2 resulta:
ki = 12 (−λ2X + λ2Xi) = 12λ2 (Xi − X) = 12 2SXX (Xi − X) =
(Xi − X)SXX
Então, o estimador linear não viesado de mínima variância é
β˜1 = n∑i=1
(Xi − X)SXX Yi =
n∑
i=1 ciYi = β̂1o que prova o resultado para β̂1.
PARTE 2: Seja β˜0 um estimador linear não viesado de β0. Isso significa que:
β˜0 =∑ kiYi E (β˜0) = β0
MasE (β˜0) = β0 ⇔ E (∑ kiYi) = β0 ⇔∑ kiE (Yi) = β0 ⇔∑ ki (β0 + β0Xi) = β0 ⇔∑ ki = 1 ∑ kiXi = 0
Lembrando que os Yi’s são normais independentes com a mesma variância σ 2, temosque: Var(β˜0) = σ 2∑ k2iComo queremos o estimador linear não viesado de mínima variância, temos que
min∑ k2isujeito às restrições ∑ ki = 1∑ kiXi = 0
Departamento de Estatística – Ana Maria Farias 23
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Usando o método dos multiplicadores de Lagrange, tomemos as derivadas parciais de
Q (k1, . . . , kn, λ1, λ2) =∑ k2i − λ1 (∑ ki − 1)− λ2∑ kiXi
∂Q∂ki = 0⇔ 2ki − λ1 − λ2Xi = 0 i = 1, 2, . . . , n (2.48)
∂Q∂λ1 = 0⇔∑ ki = 1 (2.49)
∂Q∂λ2 = 0⇔∑ kiXi = 0 (2.50)
Somando as n equações dadas em (2.48), obtemos:
2∑ ki − nλ1 − λ2∑Xi = 0 (2.51)
Multiplicando as equações (2.48) por Xi e somando, obtemos:
2∑ kiXi − λ1∑Xi − λ2∑X 2i = 0 (2.52)
Substituindo as equações (2.49) e (2.50) nas equaçòes (2.51) e (2.52), obtemos o seguintesistema:  nλ1 + λ2
∑Xi = 2
λ1∑Xi + λ2∑X 2i = 0ou 
λ1 + λ2X = 2n
nλ1X + λ2∑X 2i = 0Tirando o valor de λ1 na primeira equação e substituindo na segunda, resulta:(2n − λ2X
)∑Xi + λ2∑X 2i = 0⇒ 2X − nλ2X 2 + λ2∑X 2i = 0⇒ λ2 = − 2XSXX
Da equação (2.48) temos que:
ki = 12 (λ1 + λ2Xi)Substituindo os valores de λ1 e λ2 resulta:
ki = 12
(2n − λ2X + λ2Xi
) = 12
[2n + λ2 (Xi − X)
] = 12
[2n − 2XSXX (Xi − X)
] = 1n−X
(Xi − X)SXX
Departamento de Estatística – Ana Maria Farias 24
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Então, o estimador linear não viesado de mínima variância é
β˜0 = n∑i=1
[1n − X
(Xi − X)SXX
]Yi = n∑i=1 diYi = β̂0o que prova o resultado para β̂0. �
Observação
Vamos analisar a fórmula que dá a variância de β̂1 :
Var(β̂1) = σ 2SXXPara SXX fixo, Var(β̂1) é diretamente proporcional a σ 2; então, quanto maior a variânciapopulacional, maior será a variância de β̂1. Por outro lado, para um determinado valor fixode σ 2, Var (β̂1) é inversamente proporcional a SXX , ou seja, quanto maior a dispersão dosvalores de X em torno da sua média, menor será Var(β̂1) .
2.8 O estimador de σ 2
Nas expressões das variâncias dos estimadores, aparece a variância σ 2 dos erros ui. Emgeral, tal variância não é conhecida e precisamos estimá-la. No modelo populacional, os errosaleatórios ui representam o desvio de cada observação em relação à média populacional, queé dada pela função de regressão linear populacional (FRLP). Quando estamos trabalhandocom uma amostra da população, passamos a ter uma reta de regressão estimada, a função deregressão linear amostral (FRLA), estimada pelo método dos mínimos quadrados. O desviode cada observação a essa reta estimada é o resíduo, e, então, o resíduo εi é a contrapartidaamostral dos erros aleatórios ui. Sendo assim, é de se esperar que a contrapartida amostral(estimador) da variância dos ui esteja associada com a variância dos resíduos.Consideremos o estimador da variância dos resíduos dado por (a menos de uma cons-tante): ∑ (εi − ε)2 =∑ ε2i = SQEuma vez que ∑ εi = 0. Da equação (2.24 temos que∑ ε2i = SQE = SYY − β̂21SXX
Tomando esperança, temos que:
E(∑ ε2i ) = E(SYY − β̂21SXX) = E(∑Yi2 − nY 2)− SXX E(β̂12)= ∑E (Yi2)− nE(Y 2)− SXX E(β̂21)
Departamento de Estatística – Ana Maria Farias 25
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Da definição de variância de uma variável aleatória X qualquer, temos que Var (X ) =E (X 2)− [E (X )]2 e isso implica que E (X 2) = Var (X ) + [E (X )]2 . Então
E(∑ ε2i ) =∑{Var (Yi) + [E (Yi)]2}−n{Var (Y )+ [E (Y )]2}−SXX {Var(β̂1)+ [E(β̂1)]2}
Como os Yi’s são variáveis aleatórias independentes todas com a mesma variância σ 2, istoé, Yi ∼ IN(β0 + β1Xi; σ 2), segue queE (Y ) = β0 + β1X
Var (Y ) = σ 2nSubstituindo esses resultados e os resultados sobre Yi e β̂1 obtém-se que:
E(∑ ε2i ) =∑[σ 2 + (β0 + β1Xi)2]− nσ 2n − n (β0 + β1X)2 − SXX σ 2SXX − SXXβ21 =
= nσ 2 + nβ20 + 2β0β1∑Xi + β21∑X 2i − σ 2 − nβ20 − 2nβ0β1X − nβ21X 2 − σ 2 − SXXβ21 =
= (n− 2) σ 2 + 2nβ0β1X + β21∑X 2i − 2nβ0β1X − β21 (SXX + nX 2) =
= (n− 2) σ 2 − β21 (SXX + nX 2 −∑X 2i ) = (n− 2) σ 2 − β21 (∑X 2i − nX 2 + nX 2 −∑X 2i )
ou seja, E(∑ ε2i ) = (n− 2) σ 2ou ainda E(∑ ε2in− 2
) = σ 2
Isso significa que um estimador não viesado para σ 2 é dado pela soma dos quadrados doserros, dividida por n− 2. σ̂ 2 = ∑ ε2in− 2 = SQREn− 2 (2.53)
2.9 Distribuição amostral dos estimadores β̂0, β̂1 e σ̂ 2
Vamos agora apresentar os resultados sobre as distribuições amostrais dos estimadores β̂0,β̂1 e σ̂ 2. Esses resultados são a base para a inferência estatística no modelo de regres-são linear simples; com eles poderemos construir intervalos de confiança e fazer testes dehipóteses sobre os parâmetros do modelo.
TEOREMA 2.8 Os estimadores β̂0 e β̂1 são independentes dos resíduos εi.
Departamento de Estatística – Ana Maria Farias 26
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Demonstração
Como estamos lidando com variáveis normais, basta provar que a covariância é nula.Temos que:
Cov(β̂0, εi) = Cov(β̂0, Yi − β̂0 − β̂0Xi) = Cov(β̂0, Yi)− Var(β̂0)− Xi Cov(β̂0, β̂1) =
= Cov(∑djYj , Yi)− ∑X 2inSXX σ 2 − Xi
(− XSXX σ 2
)
= di Var (Yi)− ∑X 2inSXX σ 2 + XiXSXX σ 2= (1n − Xi − XSXX X
) σ 2 − ∑X 2inSXX σ 2 + XiXSXX σ 2 =
= σ 2n − XiXSXX σ 2 + X
2SXX σ 2 −
∑X 2inSXX σ 2 + XiXSXX σ 2 =
= σ 2n −
∑X 2i − nX 2nSXX σ 2 = σ 2n − SXXnSXX σ 2 = 0
Cov(β̂1, εi) = Cov(β̂1, Yi − β̂0 − β̂1Xi) = Cov(β̂1, Yi)− Cov(β̂0, β̂1)− Xi Var(β̂1) =
= Cov(∑ cjYj , Yi)− (− XSXX σ 2
)− Xi σ 2SXX = ci Var (Yi) + XSXX σ 2 − Xi σ 2SXX == (Xi − XSXX
) σ 2 + XSXX σ 2 − Xi σ 2SXX =
(Xi − XSXX
) σ 2 − (Xi − XSXX
) σ 2 = 0
�TEOREMA 2.9 Temos o seguinte resultado sobre a dsitribuição amostral de σ̂ 2(n− 2) σ̂ 2σ 2 ∼ χ2(n− 2) (2.54)
Não apresentaremos a demonstração deste teorema.
O erro padrão de uma estimativa é definido como o estimador do desvio padrão daestimativa. No caso de β̂0 e β̂1, o desvio padrão de ambos depende de σ , o desvio padrãopopulacional. Substituindo esse parâmetro pelo seu estimador, obtemos o erro padrão decada estimador. Denotando por EP o erro padrão, temos que:
EP(β̂0) =
√∑X 2inSXX σ̂ (2.55)
EP(β̂1) =√ 1SXX σ̂ (2.56)
Departamento de Estatística – Ana Maria Farias 27
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
TEOREMA 2.10
β̂0 − β0EP(β̂0) ∼ t(n− 2) (2.57)β̂1 − β1epβ̂1 ∼ t(n− 2) (2.58)
Demonstração
Esse resultado segue diretamente da definição da distribuição t de student e dasdistribuições dos estimadores β̂0, β̂1 e σ̂ 2. Das distribuições de β̂0, β̂1 resulta que
β̂0 − β1√∑X2inSXX σ ∼ N(0, 1)
β̂1 − β1√ 1SXX σ ∼ N(0, 1)e essas variáveis são independentes de εi ∀i; logo, elas são independentes também de σ̂ 2,pois esse é a soma dos quadrados dos εi’s. Da definição da distribuição t de Student temosque β̂0 − β0√∑X2inSXX σ√ 1n− 2 (n− 2) σ̂ 2σ 2
= β̂0 − β0√∑X2inSXX σ̂ =
β̂0 − β0ep(β̂0) ∼ t(n− 2)
β̂1 − β1√ 1SXX σ√ 1n− 2 (n− 2) σ̂ 2σ 2
= β̂1 − β1σ̂√SXX
= β̂1 − β1ep(β̂1) ∼ t(n− 2)
�
2.10 Inferência no modelo de regressão linear simples
A partir das distribuições amostrais de β̂0 e β̂1 podemos construir intervalos de confiança etestes de hipóteses sobre os parâmetros do modelo. Um teste de hipótese fundamental é
H0 : β1 = 0H1 : β1 6= 0
Departamento de Estatística – Ana Maria Farias 28
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
e esse teste é construído com base na distribuição amostral de β̂1 sob H0:
β̂1EP(β̂1) ∼ t(n− 2)
Assim, basta comparar o valor ∣∣∣ β̂1EP(β̂1)∣∣∣ com a abscissa da distribuição t de Studentassociada ao nível de significância desejado. Se∣∣∣∣∣ β̂1EP(β̂1)
∣∣∣∣∣ > tα/2;n−2
rejeita-se H0. Note que a rejeição de H0 neste caso significa que a variável independente X“explica” Y .
Os intervalos de confiança para β0 e β1 têm a seguinte forma:
β̂0 ± tα/2;n−2 ·EP(β̂0)
β̂1 ± tα/2;n−2 ·EP(β̂1)
2.11 Análise de variância no modelo de regressão linear sim-ples
O conceito de variância está associado à dispersão dos dados em torno de sua média.Lembre-se que Var(X ) = E[X − E(X )]2 e para uma população de tamanho N , represen-tada pela variável aleatória X com média µ, cujos valores são X1, X2, . . . , XN , temos queVar(X ) = σ 2 = 1N N∑i=1(Xi − µ)2. Além disso, a partir de uma amostra de tamanho n, podemosestimar a variância populacional por S2 = 1n− 1 n∑i=1(Xi − X )2.No modelo de regressão linear simples, temos a seguinte decomposição para a somados quadrados total: n∑
i=1 Yi − Y )2 =
n∑
i=1 (Yi − Ŷi)2 +
n∑
i=1 (Ŷi − Y )2 (2.59)
• O termo n∑i=1(Yi − Y )2 está associado à variância dos Yi’s.
• Como Ŷ = Y , segue que o termo n∑i=1(Ŷi − Y )2 está associado à variância dos Ŷi’s.
Departamento de Estatística – Ana Maria Farias 29
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
• Já o termo n∑i=1(Yi − Ŷi)2, que é a soma dos quadrados dos resíduos, está associado àestimativa da variância do modelo , ou seja, à variância dos ui’s.
Vemos, então, cada uma das somas de quadrados envolvidas na equação (2.59) estáassociada a uma determinada variância no modelo de regressão linear simples.
A toda soma de quadrados está associado um número chamado graus de liberdade. Po-demos pensar nesse número como sendo o número de combinações lineares das observaçõesnecessárias para se obter a respectiva soma de quadrados.
Vamos ver o caso da soma dos quadrados total SQT = n∑i=1 (Yi − Y )2. Dadas as ob-servações Y1, Y2, . . . , Yn, temos que a soma dos desvios em torno da média é zero, isto é,n∑
i=1
(Yi − Y ) = 0. Então, precisamos apenas de n− 1 desvios Yi − Y para calcular SQT , istoé, por exemplo, se conhecemos Y1 − Y , . . . , Yn−1 − Y , temos condições de calcular o últimodesvio e, portanto, SQT . Logo, o número de graus de liberdade associado à SQT é n − 1.Esse resultado vale em qualquer modelo. Uma outra forma de pensar é a seguinte: para cal-cular SQT, precisamos calcular Y ; logo, sobraram n− 1 “pedaços” de informação disponíveispara calcular SQT .
Com relação à SQR = n∑i=1(Ŷi − Y )2, vimos que SQR = β̂21SXX . Como SXX é fixo, SQRdepende de apenas uma combinação linear das observações (lembre-se que β̂1 = ∑ ciYi ).Logo, o número de graus de liberdade associado à SQR é 1 no modelo de regressão linearsimples.
Os resíduos nos dão a parte não explicada pelo modelo. No caso do modelo de re-gressão linear simples, o modelo tem 2 parâmetros e cada um deles é estimado por umacombinação linear das observações: β̂1 = ∑ ciYi e β̂0 = ∑diYi. Então, precisamos de 2combinações lineares para ajustar tal modelo aos dados. Logo, a parte não explicada, istoé, o que “sobrou”, corresponde a n − 2 graus de liberdade. Logo, o número de graus deliberdade associado à SQE é n− 2 no modelo de regressão linear simples.
Note que, como a igualdade (2.59) vale para as somas de quadrados, um resultadoanálogo vale também para os graus de liberdade dessas somas de quadrados: n − 1 =(n− 2) + 1.
Num bom modelo espera-se que SQR seja capaz de explicar toda a variabilidade dosY ’s, isto é, espera-se que SQR seja próxima de SQT (equivalentemente, SQE deve serpequena). Foi visto que (n− 2)σ̂ 2σ 2 = SQEσ 2 ∼ χ2(n− 2) (2.60)Note que o número de graus de liberdade da distribuição qui-quadrado é exatamente onúmero de graus de liberdade associado à soma de quadrados!
Departamento de Estatística – Ana Maria Farias 30
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Por outro lado, se β1 = 0, então β̂1 ∼ N (0, σ 2SXX
) ou equivalentemente, √SXXσ β̂1 ∼N (0, 1) . Logo, se β1 = 0, β̂21SXXσ 2 = SQRσ 2 ∼ χ2(1) (2.61)Como antes, o número de graus de liberdade da distribuição qui-quadrado é o número degraus de liberdade associado à soma de quadrados.
Além disso, as variáveis dadas em (2.60) e (2.61) são independentes (Vimos que β̂0 eβ̂1 são independentes dos resíduos). Logo, sob a hipótese de que β1 = 0, temos 2 variáveisqui-quadrado independentes e, portanto, a razão
F =
SQRσ 21SQEσ 2n− 2
= SQR1SQEn− 2
tem distribuição F de Fisher-Snedecor com (1, n− 2) graus de liberdade.
Quando dividimos uma soma de quadrados pelo seu número de graus de liberdade,obtemos o que é chamada a média quadrática. Usando a abreviatura MQ para média qua-drática, podemos escrever o resultado acima na seguinte forma resumida: se β1 = 0, então
F = MQRMQE ∼ F (1, n− 2) (2.62)
Como usar esse resultado para testar a significância do modelo? Note que testar asignificância do modelo como um todo equivale a testar a hipótese de que a variável X (s)realmente explica Y . No modelo de regressao linear simples, isso equivale a testar se β1 = 0.Se essa hipótese é verdadeira, então SQR deve ser praticamente zero. o mesmo ocorrendocom F . Dito de outra forma, se a hiťťotese nula não é verdadeira, o valor de F deve sergrande. ou seja, deve estar na cauda superior da distribuição. Por (2.62), se a hipótesenula é verdadeira (isto é, a variável X não explica Y ), então a razão F tem distribuiçãoF (1, n−2). Caímos, então, no procedimento usual de teste de hipótese, só que agora usandoa distribuição F : se o valor da estatística F tiver probabilidade muito pequena, isto é, estiverna cauda superior da distribuição, devemos rejeitar H0, ou seja, devemos rejeitar a hipótesede que a variável independente X não explica Y . Nesse caso dizemos que a regressão éestatisticamente significante.
Os programas computacionais de regressão apresentam os resultados referentes àssomas de quadrados em forma de uma tabela, normalmente chamada tabela ANOVA (doinglês ANalysis Of Variance). No caso do modelo de regressão linear simples, ela tem aseguinte forma, dada na tabela 2.3:
Nas colunas SQ e gl temos as somas dos quadrados e os respectivosgraus de liberdade.Na coluna MQ temos as respectivas médias quadráticas; note que só aparecem as médias
Departamento de Estatística – Ana Maria Farias 31
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
Tabela 2.3 – Tabela da ANOVA
Fonte SQ gl MQ F ProbRegressão SQR 1 MQR = SQR1Erro SQE n− 2 MQE = SQEn−2 F = MQRMQE pTotal SQT n− 1
quadráticas residual e devida à regressão. A média quadrática total, igual à variância dosY ’s, em geral não é apresentada na tabela da ANOVA. Na coluna F aparece o valor da razãoF , que deve ser usado para testar a significância da regressão, ou seja, para testar
H0 : β1 = 0
Como a tabela da distribuição F é mais complexa que as tabelas das distribuiçõest-Student e qui-quadrado, mais do que nunca torna-se necessária a apresentação da proba-bilidade de significância da estatística de teste F . Esse é o valor P apresentado na colunaProb. O que esse valor nos dá é a probabilidade de se observar um valor maior ou igual a Fnuma distribuição F com 1 e n− 2 g.l.. Como visto, se essa probabilidade é muito pequena(menor que o nível de significância desejado), significa que o valor observado da estatísticaF está na cauda da distribuição, ou seja, devemos rejeitar a hipótese nula.
2.12 Exemplo
Consideremos os dados apresentados na tabela 2.4 a seguir, onde temos a taxa de abandonodo emprego (Y ) na indústria (por 100 empregados) e a taxa de desemprego (X ) 1. Consi-derando a primeira das variáveis como a variável dependente Y, vamos usar o EXCEL paraajustar um modelo de regressão linear simples a esses dados.
Tabela 2.4 – Dados de abandono de emprego e taxa de desemprego
Ano Y X Ano Y X1960 1,3 6,2 1967 2,3 3,61961 1,2 7,8 1968 2,5 3,31962 1,4 5,8 1969 2,7 3,31963 1,4 5,7 1970 2,1 5,61964 1,5 5,0 1971 1,8 6,81965 1,9 4,0 1972 2,2 5,61966 2,6 3,2
Na Figura 2.5 temos os resultados da análise de regressão. Vamos identificar cada umdos resultados apresentados.
1Dados extraídos de Maddala(1992), p. 109.
Departamento de Estatística – Ana Maria Farias 32
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo 0,808182
R-Quadrado 0,653158
R-quadrado ajustado 0,621627
Erro padrão 0,322421
Observações 13
ANOVA
gl SQ MQ F F de significação
Regressão 1 2,153413 2,153413 20,714768 0,000828
Resíduo 11 1,143510 0,103955
Total 12 3,296923
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 99,0% Superior 99,0%
Interseção 3,366258 0,331084 10,167388 0,000001 2,637547 4,094969 2,337973 4,394543
Desemprego -0,286212 0,062885 -4,551348 0,000828 -0,424621 -0,147803 -0,481521 -0,090902
Figura 2.5 – Saída do Excel para os dados da tabela 2.4
Estatísticas da Regressão
• R Múltiplo: Raiz quadrada do R2• R-Quadrado: Coeficiente de determinação R2 definido por:
R2 = SQRegSQT = 1− SQRSQT
• R-Quadrado ajustado: Coeficiente de determinação que leva em conta o número devariáveis independentes, sendo definido por:
R2 = 1− SQRn−2SQTn−1 = 1− MQRMQTEsse coeficiente passa a ter maior importância nos modelos de regressão múltipla, poisele leva em conta o “preço” de se incluir mais variáveis no modelo, uma vez que R2sempre aumenta quando se acrescentam variáveis.
• Erro padrão: Estimativa σ̂ do desvio padrão dos erros. Lembre-se que
σ̂ =√SQRn− 2 =√MQR
• Observações: Número de observações• ANOVA
Esta é a tabela da análise de variância, conforme explicado na seção 2.11.
Departamento de Estatística – Ana Maria Farias 33
CAPÍTULO 2. O MODELO CLÁSSICO DE REGRESSÃO LINEAR SIMPLES
• Coeficientes
A próxima tabela apresenta os resultados sobre os coeficientes estimados. Na primeiralinha temos informações sobre o intercepto e na linha seguinte, sobre o(s) coeficiente(s) da(s)variável independente.
Na primeira coluna (Coeficientes) temos a estimativa do coeficiente e na segunda coluna(Erro Padrão), o desvio padrão estimado dessa estimativa (ver equações 2.55 e 2.56).
Na terceira coluna (Stat t), temos o valor da estatística t para o teste bilateral dahipótese nula de que o respectivo coeficiente é nulo. A estatística de teste nesse caso é
t = β̂iEP(β̂i)e é esse valor que é dado na terceira coluna.
Na quarta coluna temos a probabilidade de significância de tal estatística, isto é, nessacoluna temos a probabilidade de uma variável com distribuição t-Student com n − 2 grausde liberdade ser maior que o valor observado, em mó dulo. No exemplo, temos:P (t(11) > 10, 16739) = 0, 0000006 P (t(11) > 4, 55135) = 0, 0008283Essas probabilidades são calculadas com a função DIST.T.BC do Excel, da seguinte forma:DIST .T .BC (10, 16739; 11) = 0, 0000006 DISTT (4, 55135; 11; 2) = 0, 0008283No exemplo, como essas probabilidades são menores que 1%, devemos rejeitar a hipótesenula de que o respectivo coeficiente é nulo.
Nas próximas colunas temos o intervalo de confiança para os coeficientes. São dadosos limites inferiores e superiores, trabalhando-se inicialmente com nível de confiança de 95%(valor default do programa) e depois com o nível de confiança especificado pelo usuário. Oslimites do intervalo de confiança são dados porβ̂i ± tα/2 × ep(β̂i)A abscissa pode ser obtida através da função INV.T da seguinte forma:tα/2 = INV .T (0, 05; 11) = 2, 20098627para o nível de confiança de 95% e portα/2 = INVT (0, 01; 11) = 3, 10581527para o nível de confiança de 99%.
Os limites dos respectivos intervalos de confiança para o intercepto são dados por:3, 36626± 2, 20098627× 0, 33108 = [2, 63756; 4, 09496]para o nível de confiança de 95% e3, 36626± 3, 10581527× 0, 33108 = [2, 33798; 4, 39453]para o nível de confiança de 99%.
Departamento de Estatística – Ana Maria Farias 34

Continue navegando