Análise de Regressão e Correlação

•

Raimunda Silveira De Souza Carneiro Eem

DIEGO NATHA BONIFACIO RODRIGUES

01/12/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Análise de Regressão e Correlação
Prof. Victor Hugo Lachos Dávila
Departamento Estatı́stica
Universidade Estadual de Campinas, (UNICAMP-IMECC)
Campinas, Brasil
Análise de Regressão e Correlação – p. 1/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Análise de Regressão e Correlação – p. 2/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Análise de Regressão e Correlação – p. 2/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Número de cliente e vendas; e
Análise de Regressão e Correlação – p. 2/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Número de cliente e vendas; e
Tempo de estudo e nota na prova;
Análise de Regressão e Correlação – p. 2/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Número de cliente e vendas; e
Tempo de estudo e nota na prova;
Sob dois pontos de vista:
Explicitando a forma dessa relação: regress ão.
Quantificando a força dessa relação: correlaç ão.
Análise de Regressão e Correlação – p. 2/29
Exemplo 1
O gerente de uma cadeia de supermercados deseja
desenvolver um modelo com a finalidade de estimar as
vendas médias semanais (em milhares de dólares)
Y - Vendas semanais; e
X - Número de clientes.
Estas variáveis foram observadas em 20 supermercados
escolhidos aleatóriamente.
X 907 926 506 741 789 889 874 510 529 420
Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12
X 679 872 924 607 452 729 794 844 1010 621
Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41
Análise de Regressão e Correlação – p. 3/29
Diagrama de dispersão
Análise de Regressão e Correlação – p. 4/29
Diagrama de dispersão
400 500 600 700 800 900 1000
6
7
8
9
10
11
Numero de clientes
Ve
nd
as
 se
ma
na
is
Análise de Regressão e Correlação – p. 4/29
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeficientes de
regressão.
Análise de Regressão e Correlação – p. 5/29
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeficientes de
regressão.
O valor real de Y será determinado pelo valor médio da
função linear (µY |x) mais um termo que representa um erro
aleatório,
Análise de Regressão e Correlação – p. 5/29
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeficientes de
regressão.
O valor real de Y será determinado pelo valor médio da
função linear (µY |x) mais um termo que representa um erro
aleatório,
Y = µY |x + ε = β0 + β1x + ε,
onde ε é o erro aleatório.
Análise de Regressão e Correlação – p. 5/29
Modelo de Regressão Linear Simples
Um modelo de regressão linear simples (MRLS) descreve
uma relação entre uma variável independente (explicativa
ou regressora) X e uma variável dependente (resposta) Y ,
nos termos seguintes:
Y = β0 + β1X + ε,(1)
onde β0 e β1 são constantes (parâmetros) desconhecidas
e ε é o erro aleatório.
Análise de Regressão e Correlação – p. 6/29
Suposições do MRLS
(i) E(ε) = 0 V ar(ε) = σ2 (desconhecido).
(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada pelo
experimentador.
(iv) ε ∼ N(0, σ2)
Análise de Regressão e Correlação – p. 7/29
Suposições do MRLS
(i) E(ε) = 0 V ar(ε) = σ2 (desconhecido).
(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada pelo
experimentador.
(iv) ε ∼ N(0, σ2)
Se (i)-(iv) se verificarem, então a variável dependente Yi é
uma v.a. com distribuição normal com variância σ2 e
média µYi|xi , sendo
E(Y |Xi = x) = µYi|x = β0 + β1x.
Análise de Regressão e Correlação – p. 7/29
Estimação dos parâmetros do MRLS
Suponha que tem-se n pares de observações
(x1, y1), . . . , (xn, yn).
Análise de Regressão e Correlação – p. 8/29
Estimação dos parâmetros do MRLS
Suponha que tem-se n pares de observações
(x1, y1), . . . , (xn, yn). A figura mostra uma representação
gráfica dos dados observados e um candidato para a linha
de regressão.
Análise de Regressão e Correlação – p. 8/29
Ao utilizar o modelo (1), é possível expressar as n
observações da amostra como:
yi = β0 + β1xi + εi, i = 1, . . . , n.(2)
E a soma de quadrados dos desvios das observações em
relação à linha de regressão é:
Q =
n
∑
ε2i =
n
∑
(yi − β0 − β1xi)2.
Análise de Regressão e Correlação – p. 9/29
Os estimadores de mínimos quadrados (EMQ) de β0 e β1
denotados por β̂0 e β̂1 devem satisfazer as seguintes
equações:
∂Q
∂β0
|β̂0,β̂1 = −2
n
∑
i=1
(yi − β̂0 − β̂1xi) = 0,
∂Q
∂β1
|β̂0,β̂1 = −2
n
∑
i=1
(yi − β̂0 − β̂1xi)xi = 0.
Análise de Regressão e Correlação – p. 10/29
Após simplificar as expressões anteriores, tem-se:
β̂0 + β̂1
n
∑
i=1
xi =
n
∑
i=1
yi(3)
β̂0
n
∑
i=1
xi + β̂1x
2
i =
n
∑
i=1
xiyi.
As equações (3) recebem o nome de equações normais
de mínimos quadrados.
Análise de Regressão e Correlação – p. 11/29
A solução dessas equações fornece os EMQ, β̂0 e β̂1,
dados por:
β̂0 = ȳ − β̂1x̄.
β̂1 =
n
∑
i=1
xiyi −
�
nP
i=1
xi
��
nP
i=1
yi
�
n
n
∑
i=1
x2i −
�
nP
i=1
xi
�
2
n
.
onde x̄ =
nP
i=1
xi
n
e ȳ =
nP
i=1
yi
n
.
Análise de Regressão e Correlação – p. 12/29
Portanto, a linha de regressão estimada ou ajustada é :
ŷ = β̂0 + β̂1x
e estima a média da variável dependente para um valor da
variável explicativa X = x, µY |x.
Note que cada par de observações satisfaz a relação:
yi = β̂0 + β̂1xi + ei, i = 1, . . . , n
onde ei = yi − ŷi recebe o nome de resı́duo .
Análise de Regressão e Correlação – p. 13/29
Notações especiais no MRLS
Sxx =
nX
i=1
(xi − x̄)
2 =
nX
i=1
x2i −
�
nP
i=1
xi
�
2
n
=
nX
i=1
x2i − nx̄
2,
Sxy =
nX
i=1
(xi − x̄)(yi − ȳ) =
nX
i=1
(xi − x̄)yi =
nX
i=1
xiyi −
�
nP
i=1
xi
��
nP
i=1
yi
�
n
=
nX
i=1
xiyi − nx̄ȳ,
Syy =
nX
i=1
(yi − ȳ)
2 =
nX
i=1
(yi − ȳ)yi =
nX
i=1
y2i −
�
nP
i=1
yi
�
2
n
=
nX
i=1
y2i − nȳ
2.
Os EMQ de β0 e β1 em termos da notação acima são:
β̂0 = ȳ − β̂1x̄, β̂1 =
Sxy
Sxx
.
Análise de Regressão e Correlação – p. 14/29
Exemplo de aplicação
Sxx =
nX
i=1
x2i − n(x̄)
2 = 11306209 − 20(731, 15)2 = 614603
Sxy =
nX
i=1
xiyi − n(x̄)(ȳ) = 134127, 90 − 20(8, 8055)(731, 15) = 5365, 08
Syy =
nX
i=1
y2i − n(ȳ)
2 = 1609, 0971 − 20(8, 8055) = 51, 3605.
As estimativas dos parâmetros do MRLS são:
β̂1 =
Sxy
Sxx
=
5365, 08
614603
= 0, 00873; β̂0 = ȳ−β̂1x̄ = 8, 8055−(0, 00873)(731, 15) = 2, 423.
Portanto, a linha de regressão ajustada ou estimada para esses dados são:
ŷ = 2, 423 + 0, 00873x.
Análise de Regressão e Correlação – p. 15/29
400 500 600 700 800 900 1000
6
7
8
9
10
11
Numero de clientes
Ve
nd
as
 se
m
an
ais
Análise de Regressão e Correlação – p. 16/29
Estimação de σ2
Os resíduos,
ei = yi − ŷi
são empregados na estimação de σ2. A soma de
quadrados residuais ou soma de quadrados dos erros,
denotado por SQR é:
SQR =
n
∑
i=1
e2i =
n
∑
i=1
(yi − ŷi)2
Pode-se demonstrar que o valoresperado da soma de
quadrados dos residuais SQR, é dado por:
E(SQR) = (n − 2)σ2
Análise de Regressão e Correlação – p. 17/29
Portanto,
σ̂2 =
SQR
n − 2 = QMR (Quadrado m édio residual ),
é um estimador não viciado de σ2,
Uma fórmula mais conveniente para o cálculo da SQR é
dada por:
SQR = Syy − β̂1Sxy.
Análise de Regressão e Correlação – p. 18/29
Exemplo
Com os dados do exemplo, é feita a estimação da
variância σ2. Nesse caso, Syy = 51, 3605, Sxy = 5365, 08 e
β̂1 = 0, 00873.
Portanto, a estimativa de σ2 para o exemplo 1.
σ̂2 =
SQR
n − 2 =
Syy − β̂1Sxy
n − 2
=
51, 3605 − (0, 00873)(5365, 08)
20 − 2 = 0, 2513.
Análise de Regressão e Correlação – p. 19/29
Teste de hipóteses sobre β1
Suponha que se deseje testar a hipótese de que a
inclinação é igual a uma constante representada por β1,0.
As hipóteses apropriadas são:
H0 : β1 = β1,0, vs H1 : β1 6= β1,0
A estatística
T =
β̂1 − β1,0
√
σ̂2/Sxx
,
tem distribuição t-Student com n − 2 graus de liberdade
sob H0 : β1 = β1,0. Rejeita-se H0 se
|Tobs| > t1−α/2, n−2.
Análise de Regressão e Correlação – p. 20/29
Teste de hipóteses sobre β0
H0 : β0 = β0,0, vs H1 : β0 6= β0,0
A estatística
T =
β̂0 − β0,0
√
σ̂2[ 1
n
+ x̄
2
Sxx
]
que tem distribuição t-Student com n − 2 graus de
liberdade. Rejeitamos a hipóteses nula se
|Tobs| > t1−α/2, n−2.
Análise de Regressão e Correlação – p. 21/29
Teste de significância do MRLS
H0 : β1 = 0, vs H1 : β1 6= 0,
Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir que
não há nenhuma relação linear entre X e Y.
Análise de Regressão e Correlação – p. 22/29
Se H0 : β1 = 0 é rejeitado, implica que X tem importância
ao explicar a variabilidade de Y
Análise de Regressão e Correlação – p. 23/29
Exemplo
Teste de significância para o MRLS para os dados do
exemplo 1, com α = 0, 05.
As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0
Análise de Regressão e Correlação – p. 24/29
Exemplo
Teste de significância para o MRLS para os dados do
exemplo 1, com α = 0, 05.
As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0
Do exemplo tem-se:
β̂1 = 0, 00873, n = 20 Sxx = 614603, σ̂
2 = 0, 2512,
De modo que a estatística de teste, é:
Tobs =
β̂1
√
σ̂2/Sxx
=
0, 00873
√
0, 2513/614603
= 13, 65.
Análise de Regressão e Correlação – p. 24/29
Exemplo
Teste de significância para o MRLS para os dados do
exemplo 1, com α = 0, 05.
As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0
Do exemplo tem-se:
β̂1 = 0, 00873, n = 20 Sxx = 614603, σ̂
2 = 0, 2512,
De modo que a estatística de teste, é:
Tobs =
β̂1
√
σ̂2/Sxx
=
0, 00873
√
0, 2513/614603
= 13, 65.
Como Tobs = 13, 65 > t0,975,18 = 2, 101, rejeita-se a hipótese
H0 : β1 = 0.
Análise de Regressão e Correlação – p. 24/29
Adequação do modelo de regressão
Análise residual,
Análise de Regressão e Correlação – p. 25/29
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Análise de Regressão e Correlação – p. 25/29
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidos
como
ei = yi − ŷi, i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.
Análise de Regressão e Correlação – p. 25/29
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidos
como
ei = yi − ŷi, i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.
Resíduos padronizados
di =
ei√
QMR
, i = 1, . . . , n
Análise de Regressão e Correlação – p. 25/29
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidos
como
ei = yi − ŷi, i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.
Resíduos padronizados
di =
ei√
QMR
, i = 1, . . . , n
Análise de Regressão e Correlação – p. 25/29
Análise de Regressão e Correlação – p. 26/29
Gráfico de resíduos do exemplo 1
Análise de Regressão e Correlação – p. 27/29
Coeficiente de Determinação
A quantidade:
R2 = 1 − SQR
SQT
onde, SQT =
n
∑
i=1
(Ŷi − Ȳ )2, recebe o nome de coeficiente de
determinaç ão que é usado para julgar a adequação do
modelo de regressão.
Pode ser interpretado como a proporção da variabilidade
presente nas observações da variável resposta Y, que é
explicada pela variável independente X no modelo de
regressão.
Análise de Regressão e Correlação – p. 28/29
Exemplo
Para os dados dos supermercados do exemplo1,
determinar R2.
Análise de Regressão e Correlação – p. 29/29
Exemplo
Para os dados dos supermercados do exemplo1,
determinar R2. Da definição tem-se:
R2 = 0, 912
Análise de Regressão e Correlação – p. 29/29
Exemplo
Para os dados dos supermercados do exemplo1,
determinar R2. Da definição tem-se:
R2 = 0, 912
Esse resultado significa que o modelo ajustado explicou
91,2% da variação na variável resposta Y (vendas
semanais). Isto é, 91,2% da variabilidade de Y é explicada
pela variável regressora X (número de clientes).
Análise de Regressão e Correlação – p. 29/29
	Objetivos
	Objetivos
	Objetivos
	Objetivos
	Objetivos
	Exemplo 1
	Diagrama de dispers~{a}o
	Diagrama de dispers~{a}o
	Modelo de Regress~{a}o Linear Simples
	Suposic {c}~{o}es do MRLS
	Suposic {c}~{o}es do MRLS
	Estimac {c}{~a}o dos par{^a}metros do MRLS
	Estimac {c}{~a}o dos par{^a}metros do MRLS
	Notac {c}{~o}es especiais no MRLS
	Exemplo de aplicac {c}~{a}o
	Estimac {c}~{a}o de $sigma ^2$
	Exemplo
	Teste de hip{'o}teses sobre $�eta _1$
	Teste de hip{'o}teses sobre $�eta _0$
	Teste de signific^{a}ncia do MRLS
	Exemplo
	Exemplo
	Exemplo
	Adequac {c}{~a}o do modelo de regress{~a}o
	Adequac {c}{~a}o do modelo de regress{~a}o
	Adequac {c}{~a}o do modelo de regress{~a}o
	Adequac {c}{~a}o do modelo de regress{~a}o
	Adequac {c}{~a}o do modelo de regress{~a}o
	Gr{'a}fico de res{'i }duos do exemplo 1
	Coeficiente de Determinac {c}~{a}o
	Exemplo
	Exemplo
	Exemplo