regresslide

Cálculo Numérico

•

ESTÁCIO

marcos

02/11/2015

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 92 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 92 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 92 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Cálculo Numérico

30.960 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Regressão Linear Simples
Vı´ctor Hugo Lachos Da´vila
hlachos@ime.unicamp.br
Departamento Estatı´stica-IMECC
Universidade Estadual de Campinas
Campinas, Sa˜o Paulo, Brasil
Regressa˜o Linear Simples – p. 1/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Regressa˜o Linear Simples – p. 2/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Regressa˜o Linear Simples – p. 2/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Variação dos salarios e taxa de desemprego (Fig 2);
Regressa˜o Linear Simples – p. 2/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Variação dos salarios e taxa de desemprego (Fig 2);
Demanda dos productos de uma firma e publicidade;
Regressa˜o Linear Simples – p. 2/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Variação dos salarios e taxa de desemprego (Fig 2);
Demanda dos productos de uma firma e publicidade;
Sob dois pontos de vista:
Explicitando a forma dessa relação: regressa˜o.
Quantificando a força dessa relação: correlac¸a˜o.
Regressa˜o Linear Simples – p. 2/60
Observações
1) Regressão vs Causação
Uma relação estatística por sí propria não implica uma
causação
Para atribuir causação, devemos invocar a alguma
teoría (p.e. econômica)
2) Regressão (AR) vs Correlação (AC)
na AC há tratamento simetrico das variáveis
na AR a variável explanatoria é fixa
na AC presupõe-se que as duas variaveís são
aleatórias
Regressa˜o Linear Simples – p. 3/60
Dados Hipotéticos
Os dados se referem à renda semanal (X) e as despensas
de consumo (Y) (em US$), de uma população total de 60
familias. As 60 familias foram divididas em 10 grupos de
renda (Fig 3 e 4).
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
X 70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Total 325 462 445 707 678 750 685 1043 966 1211
E(Y|X) 65 77 89 101 113 125 137 149 161 173
Regressa˜o Linear Simples – p. 4/60
Função de Regressão Populacional
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeficientes de
regressão.
Regressa˜o Linear Simples – p. 5/60
Função de Regressão Populacional
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeficientes de
regressão.
Cada valor individual Yi será determinado pelo valor médio
da função linear (µY |x) mais um termo que representa um
erro aleatório,
Regressa˜o Linear Simples – p. 5/60
Função de Regressão Populacional
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeficientes de
regressão.
Cada valor individual Yi será determinado pelo valor médio
da função linear (µY |x) mais um termo que representa um
erro aleatório,
Yi = µY |x + εi = β0 + β1xi + εi,
onde εi é o erro estocástico que satisfaz E(εi|xi) = 0
Regressa˜o Linear Simples – p. 5/60
Em geral, a variável resposta pode estar relacionada com
k variáveis explicativas X1, . . . Xk obedecendo à equação :
Y = β0 + β1X1 + . . .+ βkXk + ε,
A equação é denominada modelo de regressão linear
múltipla.
Regressa˜o Linear Simples – p. 6/60
Em geral, a variável resposta pode estar relacionada com
k variáveis explicativas X1, . . . Xk obedecendo à equação :
Y = β0 + β1X1 + . . .+ βkXk + ε,
A equação é denominada modelo de regressão linear
múltipla.
O adjetivo "linear"é usado para indicar que o modelo é
linear nos parâmetros β1, . . . , βk e não porque Y é função
linear dos X ’s. Por exemplo, uma expressão da forma
Y = βo + β1 logX1 + β2X
3
2 + ε é um modelo de regressão
linear múltipla, mas o mesmo não acontece com a
equação Y = β0 + β1Xβ21 + β3X22 + ε.
Regressa˜o Linear Simples – p. 6/60
Significado do erro estocástico
Caráter vago da teoria
Falta de dados disponíveis
Variávies essenciais vs variáveis periféricas
Caráter aleatório da natureza
Principio da parcimônia
Forma funcional equivocada
Regressa˜o Linear Simples – p. 7/60
Função de Regressão Amostral(FRA)
A tarefa agora é estimar a FRP com base em informações
amostrais
Yi = Ŷi + ε̂i = β̂0 + β̂1Xi + ε̂i, i = 1, . . . , n,
onde β̂0 e β̂1 são estimadores de β0 e β1, respectivamente
e ε̂i = Yi − Ŷi a componente residual (Fig 5). Precisamos
formular uma regra ou método que torne tal aproximação o
mais próximo possível!
Exercicio: Resolva o problema 2.16 do livro texto.
Regressa˜o Linear Simples – p. 8/60
Estimação: Método de MQO
Suponha que tem-se n pares de observações amostrais
(x1, y1), . . . , (xn, yn). A soma de quadrados dos desvios
das observações em relação à FRA é:
Q =
n∑
ε̂2i =
n∑
(yi − β̂0 − β̂1xi)2.
O método de mínimos quadrados ordinarios (MQO)
escolhe β̂1 e β̂2 (únicos) de forma que, para qualquer
amostra, Q é o menor possível. Após uma simple algebra
tem-se
Regressa˜o Linear Simples – p. 9/60
βˆ0 + βˆ1
n∑
i=1
xi =
n∑
i=1
yi(1)
βˆ0
n∑
i=1
xi + βˆ1
n∑
i=1
x2i =
n∑
i=1
xiyi.
As equações (1) recebem o nome de equações normais
de mínimos quadrados.
Regressa˜o Linear Simples – p. 10/60
A solução dessas equações fornece os EMQ, βˆ0 e βˆ1,
dados por:
βˆ0 = y¯ − βˆ1x¯.
βˆ1 =
n∑
i=1
xiyi −
�
n
P
i=1
xi
��
n
P
i=1
yi
�
n
n∑
i=1
x2i −
�
n
P
i=1
xi
�
2
n
.
onde x¯ =
n
P
i=1
xi
n
e y¯ =
n
P
i=1
yi
n
.
Regressa˜o Linear Simples – p. 11/60
Notações especiais
Sxx =
n
X
i=1
(xi − x¯)2 =
n
X
i=1
x2i −
�
n
P
i=1
xi
�
2
n
=
n
X
i=1
x2i − nx¯2,
Sxy =
n
X
i=1
(xi − x¯)(yi − y¯) =
n
X
i=1
(xi − x¯)yi =
n
X
i=1
xiyi −
�
n
P
i=1
xi
��
n
P
i=1
yi
�
n
=
n
X
i=1
xiyi − nx¯y¯,
Syy =
n
X
i=1
(yi − y¯)2 =
n
X
i=1
(yi − y¯)yi =
n
X
i=1
y2i −
�
n
P
i=1
yi
�
2
n
=
n
X
i=1
y2i − ny¯2.
Os EMQ de β0 e β1 em termos da notação acima são:
βˆ0 = y¯ − βˆ1x¯, βˆ1 = Sxy
Sxx
, byi − y¯ = bβ1(xi − x¯).
Regressa˜o Linear Simples – p. 12/60
Observaçoes sobre os EMQ
Os EMQ dependem só de quantidades observáveis
São estimadores pontuais
A linha de regressão amostral é facilmente obtida
Ŷi = β̂0 + β̂1Xi
O valor médio do resíduo ǫ̂i é zero
Os residuos ǫ̂i são não correlacionados com Xi e Ŷi.
Regressa˜o Linear Simples – p. 13/60
Exemplo 1
O gerente de uma cadeia de supermercados deseja
desenvolver um modelo com a finalidade de estimar as
vendas médias semanais (em milhares de dólares)
Y - Vendas semanais; e
X - Número de clientes.Estas variáveis foram observadas em 20 supermercados
escolhidos aleatóriamente.
X 907 926 506 741 789 889 874 510 529 420
Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12
X 679 872 924 607 452 729 794 844 1010 621
Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41
Regressa˜o Linear Simples – p. 14/60
Aplicação
Considerando os dados do exemplo 1
n = 20
n
X
i=1
xi = 907 + 926 + . . .+ 621 = 14.623; x¯ = 731, 15
n
X
i=1
yi = 11, 20 + 11, 05 + . . .+ 7, 41 = 176, 11; y¯ = 8, 8055
n
X
i=1
x2i = (907)
2 + (926)2 + . . .+ (621)2 = 11.306.209
n
X
i=1
y2i = (11, 20)
2 + (11, 05)2 + . . .+ (7, 41)2 = 1.602, 0971
n
X
i=1
xiyi = (907)(11, 20) + (11, 05)(926) . . .+ (7, 41)(621) = 134.127, 90
Regressa˜o Linear Simples – p. 15/60
Sxx =
n
X
i=1
x2i − n(x¯)2 = 11.306.209− 20(731, 15)2 = 614.603
Sxy =
n
X
i=1
xiyi − n(x¯)(y¯) = 134.127, 90− 20(8, 8055)(731, 15) = 5.365, 08
Syy =
n
X
i=1
y2i − n(y¯)2 = 1.609, 0971− 20(8, 8055) = 51, 3605.
As estimativas dos parâmetros do MRLS são:
βˆ1 =
Sxy
Sxx
=
5.365, 08
614.603
= 0, 00873; βˆ0 = y¯−βˆ1x¯ = 8, 8055−(0, 00873)(731, 15) = 2, 423
Portanto, a linha de regressão ajustada ou estimada para esses dados são:
yˆ = 2, 423 + 0, 00873x.
Regressa˜o Linear Simples – p. 16/60
400 500 600 700 800 900 1000
6
7
8
9
1
0
1
1
Numero de clientes
V
e
n
d
a
s
 
s
e
m
a
n
a
i
s
Regressa˜o Linear Simples – p. 17/60
Suponha que tem-se interesse em prever as vendas
semanais para um supermercado com 600 clientes.
No modelo de regressão ajustado basta substituir
X = 600, ísto é,
yˆ = 2, 423 + (0, 00873)(600) = 7, 661.
Regressa˜o Linear Simples – p. 18/60
Suponha que tem-se interesse em prever as vendas
semanais para um supermercado com 600 clientes.
No modelo de regressão ajustado basta substituir
X = 600, ísto é,
yˆ = 2, 423 + (0, 00873)(600) = 7, 661.
A venda semanal de 7,661 mil dólares pode ser
interpretada com uma estimação da venda média semanal
verdadeira dos supermercados com X = 600 clientes,
Regressa˜o Linear Simples – p. 18/60
Suponha que tem-se interesse em prever as vendas
semanais para um supermercado com 600 clientes.
No modelo de regressão ajustado basta substituir
X = 600, ísto é,
yˆ = 2, 423 + (0, 00873)(600) = 7, 661.
A venda semanal de 7,661 mil dólares pode ser
interpretada com uma estimação da venda média semanal
verdadeira dos supermercados com X = 600 clientes, ou
como uma estimação de uma futura venda de um
supermercado quando o número de clientes for X = 600.
Regressa˜o Linear Simples – p. 18/60
Suposições do método de MQO
(i) E(ε|X) = 0, V ar(ε|X) = σ2 (desconhecido).
(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada pelo
experimentador.
(iv) o modelo de regressão esta especificado da forma
correta
(v) n> número de variáveis explanatorias
(iv) não ha multicolinearidade perfeita
Regressa˜o Linear Simples – p. 19/60
Propriedades dos EMQ
Se as suposições do método de MQO são válidas, então
E(βˆ1) = β1, V ar(βˆ1) =
σ2
Sxx
= σ2
bβ1
.
E(βˆ0) = β0, V ar(βˆ0) = σ
2
[
1
n
+ x¯
2
Sxx
]
= σ2
bβ0
.
Cov(βˆ0, βˆ1) = −σ2x¯Sxx
Exercicio 2.
Regressa˜o Linear Simples – p. 20/60
Estimação de σ2
Os resíduos,
ei = yi − yˆi
são empregados na estimação de σ2. A soma de
quadrados residuais ou soma de quadrados dos erros,
denotado por SQR é:
SQR =
n∑
i=1
e2i =
n∑
i=1
(yi − yˆi)2
Pode-se demonstrar que o valor esperado da soma de
quadrados dos residuais SQR, é dado por:(Exercício 3)
E(SQR) = (n− 2)σ2
Regressa˜o Linear Simples – p. 21/60
Portanto, um estimador não viciado de σ2, é
σˆ2 =
SQR
n− 2 = QMR (Quadrado me´dio residual),
Uma fórmula mais conveniente para o cálculo da SQR é
dada por:
SQR = Syy − βˆ1Sxy.
A estimativa de σ2 para o exemplo 1.
σˆ2 =
SQR
n− 2 =
Syy − βˆ1Sxy
n− 2
=
51, 3605− (0, 00873)(5.365, 08)
20− 2 = 0, 2513.Regressa˜o Linear Simples – p. 22/60
Previsão
Seja xp o valor para o qual deseja-se prever (ou projetar) o
valor médio E(Y |xp) e o valor individual de Y .
- Previsão média
Ŷi é um estimador não viciado de E[Y |xp], dado que
E(Ŷi) = E(βˆ0 + βˆ1xp) = β0 + β1xp = E(Y |xp)
V ar(Ŷi) = σ
2[ 1
n
+ (xi−x¯)
2
sxx
]
- Previsão individual (Exercicio 4.)
V ar(Ŷpart) = σ
2[1 + 1
n
+ (xi−x¯)
2
sxx
]
Na pratica sustituimos σ2 (desconhecido), pelo estimador
consistente σ̂2 Regressa˜o Linear Simples – p. 23/60
Coeficiente de Determinação (r2)
O r2 é uma medida de qualidade do ajustamento. No caso
de regressão linear simples o coeficiente de determinação
é o quadrado do coeficiente de correlação.(Fig 6)
(Yi − Y¯ ) = (Yi − Yˆi − Y¯ + Yˆi)
n∑
i=1
(Yi − Y¯ )2 =
n∑
i=1
(Yˆi − Y¯ )2 +
n∑
i=1
(Yi − Yˆi)2
SQT = SQM + SQR
1 =
SQM
SQT
+
SQR
SQT
⇒ r2 = SQM
SQT
=
s2xy
sxxsyy
Regressa˜o Linear Simples – p. 24/60
Teorema de Gauss-Markov
Se as suposições MQO são satisfeitas, os EMQ da classe
de estimadores lineares não viesados têm variância
mínima, isto é, são os melhores estimadores lineares não
viesados. (Prova)
Para que normalidade?
A estimação é a metade do caminho, a outra metade é
teste se hipóteses, para isto, suposições adicionais são
necessárias.
uma alternativa é considerar tamanhos de amostra o
suficientemente grandes (estimação de máxima
verossimilhança)
a outra é supor que ǫi ∼ N(0, σ2) (O modelo de
regressão normal simple clássico)
Regressa˜o Linear Simples – p. 25/60
Propiedades dos EMQ sob Normalidade
A justificão teórica da premissa de normalidade é o TLC
β1 =
n∑
i=1
kiYi =
n∑
i=1
ki(β1 + β2xi + ǫi) ∼ N(.)
β̂0 ∼ N(β0, σ2
bβ0
), β̂1 ∼ N(β1, σ2
bβ1
),
(n− 1)σ̂2/σ2 ∼ χ2(n− 2)
A distribuição de β̂0 e β̂1 é independente de σ̂2
(Exercicio 5.)
β̂0 e β̂1 têm variância mínima dentro de toda classe dos
estimadores não viesados, sejam ou não lineares (Rao)
Yi|Xi ∼ N(β0 + β1Xi, σ2) Regressa˜o Linear Simples – p. 26/60
Teste de hipóteses sobre β1
Suponha que se deseje testar a hipótese de que a
inclinação é igual a uma constante representada por β1,0.
As hipóteses apropriadas são:
H0 : β1 = β1,0, vs H1 : β1 6= β1,0
A estatística
T =
βˆ1 − β1,0√
σˆ2/Sxx
,
tem distribuição t-Student com n− 2 graus de liberdade
sob H0 : β1 = β1,0. Rejeita-se H0 se
|Tobs| > tα/2, n−2.
Regressa˜o Linear Simples – p. 27/60
Teste de hipóteses sobre β0
H0 : β0 = β0,0, vs H1 : β0 6= β0,0
A estatística
T =
βˆ0 − β0,0√
σˆ2[ 1
n
+ x¯
2
Sxx
]
que tem distribuição t-Student com n− 2 graus de
liberdade. Rejeitamos a hipóteses nula se |Tobs| > tα/2, n−2.
Regressa˜o Linear Simples – p. 28/60
Teste de significância do MRLS
H0 : β1 = 0, vs H1 : β1 6= 0,
Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir que
não há nenhuma relação linear entre X e Y.
Regressa˜o Linear Simples – p. 29/60
Se H0 : β1 = 0 é rejeitado, implica que X tem importância
para explicar a variabilidade de Y
Regressa˜o Linear Simples – p. 30/60
Exemplo
Teste de significância para o MRLS para os dados do
exemplo 1, com α = 0, 05.
As hipóteses são H0 : β1 = 0, vs H1 : β1 6= 0
Do exemplo tem-se:
βˆ1 = 0, 00873, n = 20 Sxx = 614, 603, σˆ
2 = 0, 2512,
De modo que a estatística de teste, é:
Tobs =
βˆ1√
σˆ2/Sxx
=
0, 00873√
0, 2513/614.603
= 13, 65.
Como Tobs = 13, 65 > t0,03,18 = 2, 101, rejeita-se a hipótese
H0 : β1 = 0.
Regressa˜o Linear Simples – p. 31/60
Análise de variância
Se a hipótese nula H0 : β1 = 0 é verdadeira, a estatística
F =
SQM/1
SQR/(n− 2) =
QMreg
QMR
∼ F (1, n− 2),
Portanto, rejeita-se H0 se F0bs> Fα, 1, n−2.
As quantidades
QMreg = SQM
1
, (quadrado médio devido à regressão) e
QMR = SQR
(n−2) ( quadrado médio residual)
Regressa˜o Linear Simples – p. 32/60
Tabela de ANOVA
Fonte de Soma de Graus de Quadrado
variação Quadrados Liberdade Médio F
Regressão SQM 1 QMreg QMreg
QMR
Residual SQR n− 2 QMR
Total SQT n− 1
Regressa˜o Linear Simples – p. 33/60
Tabela de ANOVA
Fonte de Soma de Graus de Quadrado
variação Quadrados Liberdade Médio F
Regressão SQM 1 QMreg QMreg
QMR
Residual SQR n− 2 QMR
Total SQT n− 1
Exemplo: o procedimento de análise de variância para
testar se de fato existe relação linear entre o número de
clientes (X) e as vendas semanais (Y), no modelo
proposto para os dados do exemplo 1. Relembre que
Syy = 51, 3605, βˆ1 = 0, 00873, Sxy = 5.365, 08 e n = 20.
Regressa˜o Linear Simples – p. 33/60
A soma de quadrados da regressão é
SQM = βˆ1Sxy = (0, 00873)(5.365, 08) = 46, 8371
enquanto a soma de quadrados dos residuais é:
SQR = SQT − βˆ1Sxy = 51, 3605− 46, 8371 = 4, 5234
Regressa˜o Linear Simples – p. 34/60
A soma de quadrados da regressão é
SQM = βˆ1Sxy = (0, 00873)(5.365, 08) = 46, 8371
enquanto a soma de quadrados dos residuais é:
SQR = SQT − βˆ1Sxy = 51, 3605− 46, 8371 = 4, 5234
A ANOVA para testar H0 : β1 = 0. Nesse caso, a
estatística de teste é
F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536.
Regressa˜o Linear Simples – p. 34/60
A soma de quadrados da regressão é
SQM = βˆ1Sxy = (0, 00873)(5.365, 08) = 46, 8371
enquanto a soma de quadrados dos residuais é:
SQR = SQT − βˆ1Sxy = 51, 3605− 46, 8371 = 4, 5234
A ANOVA para testar H0 : β1 = 0. Nesse caso, a
estatística de teste é
F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536.
Como Fobs = 186, 4536 > F0,05,1,18 = 4, 41 rejeita-se H0, ao
nível de significância de 5%.
Regressa˜o Linear Simples – p. 34/60
Tabela de ANOVA para Ex. 1
Fonte de Soma de Graus de Quadrado
variação Quadrados Liberdade Médio F
Regressão 46, 8371 1 46, 8371 186,45
Residual 4, 5234 18 0, 2513
Total 51, 3605 19
Regressa˜o Linear Simples – p. 35/60
Intervalo de confiança para β0 e β1
Se para o MRLS é válida a suposição de que os
εi ∼ NID(0, σ2), então
(βˆ1 − β1)/
√
QMR/Sxx e (βˆ0 − β0)/
√
QMR[
1
n
+
x¯2
Sxx
]
são variáveis aleatórias com distribuição t-Student com
n− 2 graus de liberdade.
Um intervalo de 100(1− α)% de confiança para β1 :
IC(β1; 1−α) =
(
βˆ1 − tα
2
, n−2
√
QMR
Sxx
; βˆ1 + tα
2
, n−2
√
QMR
Sxx
)
Regressa˜o Linear Simples – p. 36/60
De modo similar, um intervalo de 100(1− α)% de confiança
para β0 é dado por:
IC(β0; 1− α) =
(
βˆ0 − tα
2
, n−2
√
QMR[
1
n
+
x¯2
Sxx
]
βˆ0 + tα
2
, n−2
√
QMR[
1
n
+
x¯2
Sxx
]
)
A seguir é obtido um intervalo de 95% de confiança para a
inclinação do MRLS com os dados do exemplo 1,
Regressa˜o Linear Simples – p. 37/60
Relembre que n = 20, βˆ1 = 0, 00873, Sxx = 614, 603 e
QMR = 0, 2513. Para 1−α = 0, 95, tem-se t0,025, 18 = 2, 101.
IC(β1; 0, 95) = (βˆ1 − E ; βˆ1 + E)
E = t0,025,18
√
QMR
Sxx
= 2, 101
√
0,2513
614.603
= 0, 00134
IC(β1; 0, 95) = (0, 00873− 0, 00134; 0, 00873 + 0, 00134)
= (0, 00739; 0, 01007)
Regressa˜o Linear Simples – p. 38/60
Intervalo de confiança para resposta
média
O interesse consiste em estimar um intervalo de confiança
para
E(Y |X = x0) = µY |x0 = β0 + β1x0.
Um estimador pontual de µY |x0 é
µˆY |xo = Yˆ = βˆ0 + βˆ1x0.
Se εi ∼ NID(0, σ2) é válida, pode-se demonstrar
T =
µˆY |xo − µY |xo√
QMR
[
1
n
+ (x0−x¯)
2
Sxx
] ∼ t(n− 2)
Regressa˜o Linear Simples – p. 39/60
Int. conf. 100(1− α)% para µY |x0
IC(µˆY |x; 1− α) =
(
µˆY |xo − E; µˆY |xo + E
)
onde E = tα
2
, n−2
√
QMR[ 1
n
+ (x0−x¯)
2
Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de confiança da venda, média, semanal
para todos supermercados com 600 clientes.
Regressa˜o Linear Simples – p. 40/60
Int. conf. 100(1− α)% para µY |x0
IC(µˆY |x; 1− α) =
(
µˆY |xo − E; µˆY |xo + E
)
onde E = tα
2
, n−2
√
QMR[ 1
n
+ (x0−x¯)
2
Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de confiança da venda, média, semanal
para todos supermercados com 600 clientes.
No modelo ajustado µˆY |x0 = 2, 423 + 0, 00873x0. Para
x0 = 600, obtém-se µˆY |x0 = 7, 661.
Regressa˜o Linear Simples – p. 40/60
Int. conf. 100(1− α)% para µY |x0
IC(µˆY |x; 1− α) =
(
µˆY |xo − E; µˆY |xo + E
)
onde E = tα
2
, n−2
√
QMR[ 1
n
+ (x0−x¯)
2
Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de confiança da venda, média, semanal
para todos supermercados com 600 clientes.
No modelo ajustado µˆY |x0 = 2, 423 + 0, 00873x0. Para
x0 = 600, obtém-se µˆY |x0 = 7, 661. Também,
x¯ = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20
e 1− α = 0, 95 ⇒ t0,05,18 = 2, 101.
Regressa˜o Linear Simples – p. 40/60
Int. conf. 100(1− α)% para µY |x0
IC(µˆY |x; 1− α) =
(
µˆY |xo − E; µˆY |xo + E
)
onde E = tα
2
, n−2
√
QMR[ 1
n
+ (x0−x¯)
2
Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de confiança da venda, média, semanal
para todos supermercados com 600 clientes.
No modelo ajustado µˆY |x0 = 2, 423 + 0, 00873x0. Para
x0 = 600, obtém-se µˆY |x0 = 7, 661. Também,
x¯ = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20
e 1− α = 0, 95 ⇒ t0,05,18 = 2, 101.
E = 2, 101
√
0, 2513[ 1
20
+ (600−731,15)
2
614.603
] = 0, 292
Regressa˜o Linear Simples – p. 40/60
IC(µY |x0 ; 0, 95) = (7, 661− 0, 292; 7, 661 + 0, 292)
= (7, 369; 7, 935)
Regressa˜o Linear Simples – p. 41/60
Previsão de novas observações
Uma aplicação muito importante de um modelo de
regressão é a previsão de novas ou futuras observações
de Y, (Y0) correspondente a um dado valor da variável
explicativa X, x0, então
Yˆ0 = βˆ0 + βˆ1x0
é o melhor estimador pontual de Y0.
Um intervalo de 100(1− α)% de confiança para uma futura
observação é dado por:
IC(Y0; 1− α) = (Yˆ − E; Yˆ + E)
onde E = tα
2
, n−2
√
QMR[1 + 1
n
+ (x0−x¯)
2
Sxx
]
Regressa˜o Linear Simples – p. 42/60
Exemplo
Suponha agora, tem-se interesse em encontrar um
intervalo de previsão de 95% das vendas semanais de um
supermercado com 600 clientes.
Considerando os dados do exemplo 1, Yˆ = 7, 661 e o
intervalo de predição é:
E = 2, 101
√
0, 2513[1 + 1
20
+ (600−731,15)
2
614.603
] = 1, 084
IC(Y0; 0, 95) = (7, 661− 1, 084; 7, 661 + 1, 084)
= (6, 577; 8, 745).
Regressa˜o Linear Simples – p. 43/60
Bandas de confiança do 95% para µY |x0 (CI) e
Y0 (ICP)
Regressa˜o Linear Simples – p. 44/60
Adequação do modelo de regressão
Análise residual,
Regressa˜o Linear Simples – p. 45/60
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Regressa˜o Linear Simples – p. 45/60
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidos
como
ei = yi − yˆi, i = 1, . . . , n
onde yi é uma observação real de Y e yˆi é o valor
correspondente estimado através do modelo de regressão.
Regressa˜o Linear Simples – p. 45/60
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidos
como
ei = yi − yˆi, i = 1, . . . , n
onde yi é uma observação real de Y e yˆi é o valor
correspondente estimado através do modelo de regressão.
Resíduos padronizados
di =
ei√
QMR
, i = 1, . . . , n
Regressa˜o Linear Simples – p. 45/60
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinaçãoOs resíduos de um modelo de regressão são definidos
como
ei = yi − yˆi, i = 1, . . . , n
onde yi é uma observação real de Y e yˆi é o valor
correspondente estimado através do modelo de regressão.
Resíduos padronizados
di =
ei√
QMR
, i = 1, . . . , n
Regressa˜o Linear Simples – p. 45/60
Regressa˜o Linear Simples – p. 46/60
Gráfico de resíduos do exemplo 1
Regressa˜o Linear Simples – p. 47/60
Exemplo: Coeficiente de
Determinação
Para os dados dos supermercados do exemplo1,
determinar R2.
Regressa˜o Linear Simples – p. 48/60
Exemplo: Coeficiente de
Determinação
Para os dados dos supermercados do exemplo1,
determinar R2. Da definição tem-se:
R2 =
SQM
SQT
=
46, 8371
51, 3605
= 0, 912
Regressa˜o Linear Simples – p. 48/60
Exemplo: Coeficiente de
Determinação
Para os dados dos supermercados do exemplo1,
determinar R2. Da definição tem-se:
R2 =
SQM
SQT
=
46, 8371
51, 3605
= 0, 912
Esse resultado significa que o modelo ajustado explicou
91,2% da variação na variável resposta Y (vendas
semanais). Isto é, 91,2% da variabilidade de Y é explicada
pela variável regressora X (número de clientes).
Regressa˜o Linear Simples – p. 48/60
Analise de Correlação
Suponha que se deseja desenvolver um modelo de
regressão que relacione a resistência ao corte dos pontos
de soldadura com o diâmetro dos mesmos. Neste caso,
não é possível controlar o diâmetro de soldadura. O que
pode ser feito é selecionar ao acaso n pontos de
soldadura e observar o diâmetro (Xi) e a resistência ao
corte (Yi) de cada um deles. Portanto, (Xi, Yi) são
variáveis aleatórias distribuídas de maneira conjunta.
Regressa˜o Linear Simples – p. 49/60
Suponha que a distribuição conjunta de Xi e Yi tenha uma
distribuição normal bivariada cuja função de densidade é
dada por
Regressa˜o Linear Simples – p. 50/60
Suponha que a distribuição conjunta de Xi e Yi tenha uma
distribuição normal bivariada cuja função de densidade é
dada por
f(x, y) =
1
2πσ1σ2
√
1− ρ2 exp
{
1
2(1− ρ2)
[(
x− µ1
σ1
)2
+
(
y − µ2
σ2
)2
− 2ρ
(
x− µ1
σ1
)(
y − µ2
σ2
)]}
Regressa˜o Linear Simples – p. 50/60
Suponha que a distribuição conjunta de Xi e Yi tenha uma
distribuição normal bivariada cuja função de densidade é
dada por
f(x, y) =
1
2πσ1σ2
√
1− ρ2 exp
{
1
2(1− ρ2)
[(
x− µ1
σ1
)2
+
(
y − µ2
σ2
)2
− 2ρ
(
x− µ1
σ1
)(
y − µ2
σ2
)]}
onde µ1 e σ21 são a média e variância de X e µ2 e σ22 são a
média e variância de Y e, ρ é coeficiente de correlac¸a˜o entre X
e Y.
Regressa˜o Linear Simples – p. 50/60
A densidade condicional de Y para um valor dado X = x é
dado por (exercicio 5.)
f(y|x) = 1√
2πσY |x
exp
−12
(
yi − β0 − β1x
σ2Y |x
)2
Regressa˜o Linear Simples – p. 51/60
A densidade condicional de Y para um valor dado X = x é
dado por (exercicio 5.)
f(y|x) = 1√
2πσY |x
exp
−12
(
yi − β0 − β1x
σ2Y |x
)2
onde β0 = µ2 − µ1ρσ2σ1 , β1 = σ2σ1ρ e σ2Y |x = σ22(1− ρ2)
Regressa˜o Linear Simples – p. 51/60
A densidade condicional de Y para um valor dado X = x é
dado por (exercicio 5.)
f(y|x) = 1√
2πσY |x
exp
−12
(
yi − β0 − β1x
σ2Y |x
)2
onde β0 = µ2 − µ1ρσ2σ1 , β1 = σ2σ1ρ e σ2Y |x = σ22(1− ρ2)
A distribuição condicional de Y dado X = x é normal com
média
E(Y |X = x) = β0 + β1x
e variância σ2Y |x.
Regressa˜o Linear Simples – p. 51/60
Estimadores de β0, β1 e ρ
βˆ0 = Y¯ − βˆ1X¯
P
P
P
s
P P
Regressa˜o Linear Simples – p. 52/60
Estimadores de β0, β1 e ρ
βˆ0 = Y¯ − βˆ1X¯
βˆ1 =
Pn
i=1 Yi(Xi−X¯)
Pn
i=1(Xi−X¯)2 =
SXY
SXX
P
s
P P
Regressa˜o Linear Simples – p. 52/60
Estimadores de β0, β1 e ρ
βˆ0 = Y¯ − βˆ1X¯
βˆ1 =
Pn
i=1 Yi(Xi−X¯)
Pn
i=1(Xi−X¯)2 =
SXY
SXX
ρˆ = r =
n
P
i=1
Yi(Xi−X¯)
s
n
P
i=1
(Xi−X¯)2
n
P
i=1
(Yi−Y¯ )2
= SXY√
SXXSY Y
Regressa˜o Linear Simples – p. 52/60
Estimadores de β0, β1 e ρ
βˆ0 = Y¯ − βˆ1X¯
βˆ1 =
Pn
i=1 Yi(Xi−X¯)
Pn
i=1(Xi−X¯)2 =
SXY
SXX
ρˆ = r =
n
P
i=1
Yi(Xi−X¯)
s
n
P
i=1
(Xi−X¯)2
n
P
i=1
(Yi−Y¯ )2
= SXY√
SXXSY Y
βˆ1 =
(
SY Y
SXX
)1/2
r
Regressa˜o Linear Simples – p. 52/60
Teste de hipóteses
H0 : ρ = 0 vs H1 : ρ 6= 0
A estatística de teste apropriada é
T =
r
√
n− 2√
1− r2
∼
sob H0 t(n− 2)
Regressa˜o Linear Simples – p. 53/60
Teste de hipóteses
H0 : ρ = 0 vs H1 : ρ 6= 0
A estatística de teste apropriada é
T =
r
√
n− 2√
1− r2
∼
sob H0 t(n− 2)
A hipótese nula deverá ser rejeitada se |Tobs| ≥ tα/2, n−2.
Esse teste é equivalente ao teste de hipóteses H0 : β1 = 0.
Regressa˜o Linear Simples – p. 53/60
H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.
Regressa˜o Linear Simples – p. 54/60
H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.
Para amostras de tamanho moderado grande (n ≥ 30), a
estatística
Regressa˜o Linear Simples – p. 54/60
H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.
Para amostras de tamanho moderado grande (n ≥ 30), a
estatística
Zr = arctanh r =
1
2
ln
1 + r
1− r
tem distribuição aproximadamente normal com média
µZr = arctanh ρ =
1
2
ln
1 + ρ
1− ρ
e variância σ2Zr = (n− 3)−1.
Regressa˜o Linear Simples – p. 54/60
A estatística de teste apropriada é:
Z = (arctanh r − arctanh ρ0) (n− 3)1/2.
Regressa˜o Linear Simples – p. 55/60
A estatística de teste apropriada é:
Z = (arctanh r − arctanh ρ0) (n− 3)1/2.
Se H0 : ρ = ρ0 é verdadeira, a estatística Z tem,
aproximadamente, distribuição normal padrão. Portanto,
H0 deverá ser rejeitada se |Zobs| ≥ zα/2.
Regressa˜o Linear Simples – p. 55/60
Intervalo de confiança para ρ
Um intervalo aproximado de 100(1− α)% de confiança
para o coeficiente de correlação ρ, que é dado por:
IC(ρ; 1− α) =
(
tanh
[
arctanh r − zα/2√
n− 3
]
;
tanh
[
arctanh r + zα/2√
n− 3
])
,
onde tanhw = ew−e−w
ew+e−w
.
Regressa˜o Linear Simples – p. 56/60
Exemplo 2
Suponha que se tenha interesse em medir a força da
relação linear de dois produtos diferentes com relação ao
preço em várias cidades do mundo.
Y - Preço de uma libra de frango; e
X - Preço de uma caixa de suco.
Regressa˜o Linear Simples – p. 57/60
Caixa com seis Uma libra
Cidade sucos (X) de frango (Y )
Frankfurt 3,27 3,06
Hong Kong 2,22 2,34
Londres 2,28 2,27
Manila 3,04 1,51
México 2,33 1,87
Nova York 2,69 1,65
París 4,07 3,09
Sidney 2,78 2,36
Tokyo 5,97 4,85
Regressa˜o Linear Simples – p. 58/60
Dos dados da tabela são obtidos os valores seguintes:
n = 9;
n∑
i=1
Xi = 28, 65; X¯ = 3, 183;
n∑
i=1
X2i = 28, 65 = 102
SXX = 11, 4594;
n∑
i=1
Yi = 23, 00; Y¯ = 2, 5566;
n∑
i=1
Y 2i = 67
SY Y = 8, 3522;
n∑
i=1
XiYi = 81, 854; SXY = 8, 6437
r =
SXY√
SXXSY Y
=
8, 6437√
(11, 4594)(8, 3522)
= 0, 883.
Regressa˜o Linear Simples – p. 59/60
H0 : ρ = 0 (não relação linear entre X e Y )
H1 : ρ 6= 0 (há relação linear entre X e Y )
O valor calculado para a estatística do teste foi
Tobs =
r
√
n− 2√
1− r2 =
0, 883
√
9− 2√
1− (0, 883)2 = 4, 98.
Para α = 0, 05, tem-se que t0,025,7 = 2, 365 < Tobs = 4, 98,
logo, rejeita-se H0 : ρ = 0 ao nível de significância de
α = 5%.
Regressa˜o Linear Simples – p. 60/60
	Objetivos
	Objetivos
	Objetivos
	Objetivos
	Objetivos
	Observac {c}~{o}es
	Dados Hipot'{e}ticos
	Func {c}~{a}o de Regress~{a}o Populacional
	Func {c}~{a}o de Regress~{a}o Populacional
	Func {c}~{a}o de Regress~{a}o Populacional
	Significado do erro estoc'{a}stico
	Func {c}~{a}o de Regress~{a}o Amostral(FRA)
	Estimac {c}~{a}o: M'{e}todo de MQO
	Notac {c}~{o}es especiaisObservac {c}oes sobre os EMQ 
	Exemplo 1
	Aplicac {c}~{a}o
	Suposic {c}~{o}es do m'{e}todo de MQO
	Propriedades dos EMQ
	Estimac {c}~{a}o de $sigma ^2$
	Previs~{a}o
	Coeficiente de Determinac {c}~{a}o ($r^2$)
	Teorema de Gauss-Markov
	small {Propiedades dos EMQ sob Normalidade}
	Teste de hip'{o}teses sobre $nulleta _1$
	Teste de hip'{o}teses sobre $nulleta _0$
	Teste de signific^{a}ncia do MRLS
	Exemplo
	An'{a}lise de vari^{a}ncia
	Tabela de ANOVA
	Tabela de ANOVA
	Tabela de ANOVA para Ex. 1
	Intervalo de confianc {c}a para $nulleta _0$ e $nulleta _1$
	Intervalo de confianc {c}a para resposta m'{e}dia
	Int. conf. $100(1-alpha )$% para $mu _{Y|x_0}$ 
	Int. conf. $100(1-alpha )$%nullpara $mu _{Y|x_0}$ 
	Int. conf. $100(1-alpha )$%nullpara $mu _{Y|x_0}$ 
	Int. conf. $100(1-alpha )$%nullpara $mu _{Y|x_0}$ 
	Previs~{a}o de novas observac {c}~{o}es
	Exemplo
	small {Bandas de confianc {c}a do 95% para $mu _{Y|x_0}$ (CI)nulle $Y_0$ (ICP)}
	Adequac {c}~{a}o do modelo de regress~{a}o
	Adequac {c}~{a}o do modelo de regress~{a}o
	Adequac {c}~{a}o do modelo de regress~{a}o
	Adequac {c}~{a}o do modelo de regress~{a}o
	Adequac {c}~{a}o do modelo de regress~{a}o
	Gr'{a}fico de res'{i }duos do exemplo 1
	Exemplo: Coeficiente de Determinac {c}~{a}o
	Exemplo: Coeficiente de Determinac {c}~{a}o
	Exemplo: Coeficiente de Determinac {c}~{a}o
	Analise de Correlac {c}~{a}o
	Estimadores de $nulleta _0,$ $nulleta _1$ e $nullho $
	Estimadores de $nulleta _0,$ $nulleta _1$ e $nullho $
	Estimadores de $nulleta _0,$ $nulleta _1$ e $nullho $
	Estimadores de $nulleta _0,$ $nulleta _1$ e $nullho $
	Teste de hip'{o}teses
	Teste de hip'{o}teses
	Intervalo de confianc {c}a para $nullho $
	Exemplo 2