AULA 11-REGRESSAO EST2

•

UFF

0

Carolina Frauches

30/05/2014

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística II

3.212 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ESTATÍSTICA II
Professora
Kelly Alonso
REGRESSÃO LINEAR
www.vep.uff.br
Email: kellyalonso@uol.com.br
Quando duas variáveis possuem certo grau de relacionamento
(verificado pela correlação), podemos aplicar a análise de regressão que vai
nos permitir descrever através de um modelo matemático, a relação entre
duas variáveis, partindo de n observações das mesmas. Em particular
estudaremos a regressão linear que se trata de uma reta.
Ao estudarmos regressão linear devemos definir uma variável de
resposta, (dependente) àquela que mede um resultado de um estudo que
denotamos y; e uma variável explicativa (independente), àquela que explica
ou influencia mudanças em uma variável de resposta que denotamos por x.ou influencia mudanças em uma variável de resposta que denotamos por x.
Por exemplo, quantidade de cigarros consumida por dia, x, e
capacidade pulmonar, y.
A reta de regressão é uma linha reta que descreve como uma
variável de resposta y muda quando uma variável explicativa x muda. Em
geral, utilizamos uma reta de regressão para predizer o valor de y dado um
valor de x.
Tipos de Modelos de Regressão
Modelos de Modelos de Modelos de Modelos de 
RegressãoRegressãoRegressãoRegressão
2+ Variáveis 2+ Variáveis 2+ Variáveis 2+ Variáveis 
ExplicativasExplicativasExplicativasExplicativas
1 variável 1 variável 1 variável 1 variável 
explicativaexplicativaexplicativaexplicativa
LinearLinearLinearLinear
NãoNãoNãoNão----
LinearLinearLinearLinear
SimplesSimplesSimplesSimples
NãoNãoNãoNão----
LinearLinearLinearLinear
MúltiplaMúltiplaMúltiplaMúltipla
LinearLinearLinearLinear
Vamos supor que o valor esperado de y varia com x de acordo com
uma equação de primeiro grau.
onde α e β são parâmetros do modelo.
O modelo de regressão linear simples é dado por:
em que εi é o erro aleatório da observação i. Em poucas palavras o modelo de
regressão é dado pelo valor predito por x segundo uma função mais um erro
aleatório.
E[ y ] xα β= +
i i iy xα β ε= + +
yiyiyi
xi
εi
yi
xi
εi
Existem diversos métodos para estimar os valores α e β. Dentre eles
temos o Método dos Mínimos Quadrados (MMQ) ou Método dos Mínimos
Quadrados ordinários (MQO). Este método consiste em minimizar a soma dos
erros quadráticos.
Precisamos determinar os valores de α e β tal que minimizem a expressão
para isso calculamos as derivadas parciais:
Chamaremos de a e b às estimativas para α e β, então
( ) ( )
222
i i i i i
ˆS y y y xε α β= = − = − +  ∑ ∑ ∑
S
0
α
∂
=
∂
S
0
β
∂
=
∂e
Chamaremos de a e b às estimativas para α e β, então
em que xi e yi são os valores observados.
A chamada equação ou reta de regressão é dada por: .
A diferença entre os valores das observações e os preditos é chamada de
resíduo, , sendo que ei pode ser considerado uma estimativa do erro aleatório
εi.
( )
i i i i
22
i i
n x y x y
b
n x x
−
=
−
∑ ∑ ∑
∑ ∑
i iy b x
a
n
−
=∑ ∑ e
yˆ a bx= +
XbYa −=ou
O coeficiente angular é dado por:
Exemplo 1: Consideremos uma amostra aleatória, formada por dez dos 98
alunos de uma classe da faculdade A e pelas notas obtidas por eles em
Matemática e Estatística. Determine a reta de regressão.
Diagrama de dispersão
Como a correlação em estudo tem como “imagem” uma reta
ascendente, ela é chamada correlação linear positiva.
b
( )
i i i i
22
i i
n x y x y
b
n x x
−
=
−
∑ ∑ ∑
∑ ∑
i iy b x
a
n
−
=∑ ∑ XbYa −=ou
b
a
a=0,89 e b=0,86 y = 0,89 +0,86x
Cartas Clientes
1 1
2 1
3 2
4 2
5 4
Exemplo 2: Após várias campanhas de mala direta você está
interessado na relação entre o número de cartas enviadas e o número
de novos clientes. Você possui os seguintes dados:
4
clientesclientesclientesclientes
0
1
2
3
4
0 1 2 3 4 5
cartascartascartascartas
Tabelas para Estimação dos Parâmetros
Xi Yi Xi
2
Yi
2
XiYi
1 1 1 1 1
2 1 4 1 22 1 4 1 2
3 2 9 4 6
4 2 16 4 8
5 4 25 16 20
15 10 55 26 37
Solução
( )
i i i i
22
i i
n x y x y
b
n x x
−
=
−
∑ ∑ ∑
∑ ∑
7,0
)15()55(5
)10)(15()37(5
2
=
−
−
=b
y b x−∑ ∑ XbYa −= 1,0
)15)(7,0()10(
−=
−
=ai iy b x
a
n
−
=∑ ∑ XbYa −=ou 1,05
)15)(7,0()10(
−=
−
=a
y = -0,10 +0,70x
DistribuiDistribuiççãoão dos dos ResResííduosduos
• Os resíduos de uma regressão são os erros de predição. 
• Diferença entre o valor real e o predito pelo modelo.
�erro da relativo à observação i : ei = Yi - Yi
� Desvio padrão σe
� É também o desvio padrão (sY/X ) de Y/X (Y dado X)
^
� É também o desvio padrão (sY/X ) de Y/X (Y dado X)
• A média dos resíduos é, por força do método MQO, nula
quando medida na amostra.
• Supondo que os erros tem uma distribuição Normal(0,σe ). 
Y/(X=x) terá uma distribuição Normal(Y, σe ). 
EstimativaEstimativa do do ErroErro PadrãoPadrão (S.E)(S.E)
LeiaLeia--se: se: DesvioDesvio PadrãoPadrão do do ErroErro de de PrediPrediççãoão
s
e e
n P
Y Y
n P
Y/X
i
i
n
i i
i
n
=
−
− −
=
−
− −
= =
∑ ∑( ) ( )2
1
2
1
1 1
$
=eS n P n P
s
Y b Y b X Y
n P
Y/X
Y/X
i i
i
n
i i
i
n
i
n
− − − −
=
− −
− −
= ==
∑ ∑∑ 2 0
1
1
11
1 1
1
P = 1
p: número de variáveis explicativas
(na regressão simples =1)
e
AvaliaAvaliaçção do Modeloão do Modelo
• A equação de regressão estimada pode ser vista como uma 
tentativa para explicar as variações na variável dependente Y que 
resultam das alterações na variável independente X.
• Seja a média dos valores observados para a variável dependente.
• Uma medida útil associada à reta de regressão é o grau em que as 
predições baseadas na equação de regressão, , superam as 
predições baseadas em .y
iyˆ
y
predições baseadas em .
• Isto é, se as predições baseadas na reta não são melhores que as 
baseadas no valor médio, então não adianta dispormos de uma 
equação de regressão.
• Se a dispersão (erro) associada à reta é muito menor que a 
dispersão (erro) associada a média, as predições baseadas na reta 
serão melhores que as baseadas na média.
y
iy
Medidas de VariaMedidas de Variaççãoão
DecomposiDecomposiçção da Variaão da Variaççãoão
Coeficiente de DeterminaCoeficiente de Determinaççãoão
Coeficiente de DeterminaCoeficiente de Determinaççãoão
a
Cartas Clientes
1 1
2 1
3 2
4 2
5 4
Voltando ao Exemplo 2: Após várias campanhas de mala direta você
está interessado na relação entre o número de cartas enviadas e o
número de novos clientes. Você possui os seguintes dados:
y = -0,10 +0,70x
Qual é o coeficiente de determinação?
Xi Yi Xi
2
Yi
2
XiYi
1 1 1 1 1
2 1 4 1 2
3 2 9 4 6
4 2 16 4 8
5 4 25 16 20
15 10 55 26 37
a
y = -0,10 +0,70x
8167,0
)2)(5()26(
)2)(5()37)(7,0()10)(1,0(
2
2
2 =
−
−+−
=r
Então, 81.67% da variação no número de cliente é devido a cartas enviadas por
mala direta.
Coeficiente de CorrelaCoeficiente de Correlaççãoão
)
Coeficiente de CorrelaCoeficiente de Correlaççãoão
• No exemplo anterior,
� Logo, há uma forte relação positiva entre x e y.
9037,00,8167 +==xyr
• Nota: O coeficiente de determinação nos dá medida entre 
0 e 1 ao passo que o coeficiente de correlação da amostra 
dá entre -1 e +1. 
� O coeficiente de correlação é restrito à relação linear entre 
duas variáveis, o coeficiente de determinação é geral.
AnAnáálise de variância lise de variância 
Teste de significância global do modeloTeste de significância global do modelo
• Testa se existe uma relação linear entre X e Y
• Hipóteses� H0: β1 = 0 (Não existe relacão linear) 
� H : β ≠ 0 (Existe Relacionamento linear) � H1: β1 ≠ 0 (Existe Relacionamento linear) 
• Distribuição amostral do estimador de MQO de β1 
é uma distribuição F com P e (n - P -1) graus de 
liberdade no numerador e denominador, 
respectivamente.
p: número de variáveis explicativas
(na regressão simples =1)
TestandoTestando a a significânciasignificância Global Global 
• Usa a estatística F= MSR/MSE
• MSR= Mean Square of the Regression= SSR/p
• MSE= Mean Square of the Error= SSE/(n-p -1)
• Hipóteses
0: =βH
• Teste para p=1
� regressão simples
2
1*
−
=
n
SSE
SSR
F
)2,1(F se H Rejeite *0 −> nF
0: 10 =βH
0: 11 ≠βH
AnAnáálise de variância lise de variância 
Teste de significância global do modeloTeste de significância global do modelo
MSR= 
SSR1Regressão
FMédia dos 
Quadrados
Soma dos 
Quadrados
Graus de 
Liberdade
Fonte de 
Variação
MSR= 
SSR1Regressão
FMédia dos 
Quadrados
Soma dos 
Quadrados
Graus de 
Liberdade
Fonte de 
Variação
MSR1
SSR
SSTn-1Total
MSE= 
SSEn-2Erro
MSR= 
SSTn-1Total
MSE= 
SSEn-2Erro
MSR= 
MSE
MSR
2−n
SSE
1
Xi Yi Xi
2
Yi
2
XiYi
1 1 1 1 1
2 1 4 1 2
3 2 9 4 6
4 2 16 4 8
5 4 25 16 20
15 10 55 26 37
SSR = 4,9
SSR
MSR = = 4,9
y = -0,10 +0,70x
0,6
1,3
2
2,7
3,4
yˆ a bx
SSR = 4,9
SSE = 1,1
SST = 6
1
SSR
2−n
SSE
MSE
MSR
F =
MSR = = 4,9
MSE = = 0,3667
= 13,36
Exemplo anteriorExemplo anterior
13,364,90004,90001Regressão
FMédia dos 
Quadrados
Soma dos 
Quadrados
Graus de 
Liberdade
Fonte de 
Variação
13,364,90004,90001Regressão
FMédia dos 
Quadrados
Soma dos 
Quadrados
Graus de 
Liberdade
Fonte de 
Variação
6,00004Total
0,36671,10003Erro
6,00004Total
0,36671,10003Erro
Exemplo anteriorExemplo anterior
rdenominado no 3 emumerador no
 liberdade degrau 1 com 1,10F tabelaPela
0,05
0,05 =
=α
numerador
10,13
• Como F>F0,05, rejeita-se H0 num nível de 
significância de 5%, ou seja há evidências de que a 
relação entre X e Y observada na amostra seja 
significante.
AnAnááliselise dos dos ResResííduosduos de de RegressãoRegressão
• Análise gráfica dos resíduos
� Gráfico dos resíduos vs. Xi
� Erros
– Diferença entre o valor real de Yi e o predito pelo
modelo.
i
modelo.
• Objetivos
� Examinar a forma funcional (Modelo Linear vs. Modelo
Não-Linear)
� Avaliar possíveis violações das hipóteses do modelo
� Identificar Outliers