Buscar

Correlação e Regressão

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Correlac¸a˜o e Regressa˜o
Correlac¸a˜o e Regressa˜o
Professora Ana Herm´ınia Andrade
Universidade Federal do Amazonas
Faculdade de Estudos Sociais
Departamento de Economia e Ana´lise
Per´ıodo 2016.1
Correlac¸a˜o e Regressa˜o
Introduc¸a˜o
Sa˜o duas te´cnicas estreitamente relacionadas, que visa estimar
uma relac¸a˜o que possa existir entre duas varia´veis na
populac¸a˜o;
Correlac¸a˜o: resume o grau de relacionamento entre duas
varia´veis (X e Y , por exemplo).
Regressa˜o: tem como resultado uma equac¸a˜o matema´tica
que descreve o relacionamento entre varia´veis.
Correlac¸a˜o e Regressa˜o
Correlac¸a˜o
Objetivo: determinar (mensurar) o grau de relacionamento
entre duas varia´veis.
Observac¸a˜o: E´ importante ressaltar que o conceito de
correlac¸a˜o refere-se a uma associac¸a˜o nume´rica entre duas
varia´veis, na˜o implicando, necessariamente, relac¸a˜o de
causa-e-efeito, ou mesmo uma estrutura com interesses
pra´ticos.
O comportamento conjunto de duas varia´veis quantitativas
pode ser observado por meio de um tipo de gra´fico, chamado
gra´fico de dispersa˜o.
Correlac¸a˜o e Regressa˜o
Gra´fico de Dispersa˜o
Correlac¸a˜o e Regressa˜o
Coeficiente de correlac¸a˜o linear de Pearson
Uma medida do grau e do sinal da correlac¸a˜o linear entre duas
varia´veis (X ,Y ) e´ dado pelo Coeficiente de Correlac¸a˜o
Linear de Pearson, definido por:
r =
Cov(X ,Y )
SXSY
,
em que SX e SY representam o desvio padra˜o amostral das
varia´veis X e Y , respectivamente, e Cov(X ,Y ) e´ a covariaˆncia
entre elas, definida por:
Cov(X ,Y ) =
n∑
i=1
(xi − x¯)(yi − y¯)
n − 1
Correlac¸a˜o e Regressa˜o
Propriedades do Coeficiente de Correlac¸a˜o Linear
Este coeficiente e´ adimensional, logo na˜o e´ afetado pelas
unidades de medidas das varia´veis X e Y .
O sinal positivo indica que as varia´veis sa˜o diretamente
proporcionais, enquanto que o sinal negativo indica que a
relac¸a˜o entre as varia´veis e´ inversamente proporcional.
Temos que
−1 ≤ r ≤ 1
Se r = −1, dizemos que a correlac¸a˜o e´ perfeita negativa.
Se r = 0, dizemos que a correlac¸a˜o e´ nula.
Se r = 1, dizemos que a correlac¸a˜o e´ perfeita positiva.
Se 0 < r < 1, dizemos que a correlac¸a˜o e´ positiva.
Se −1 < r < 0, dizemos que a correlac¸a˜o e´ negativa.
Correlac¸a˜o e Regressa˜o
Alguns exemplos
Correlac¸a˜o e Regressa˜o
Teste de Hipo´teses para o Coeficiente de
Correlac¸a˜o
1. Definic¸a˜o das hipo´teses:
H0 : r = 0
H1 : r 6= 0
2. Fixar o n´ıvel de significaˆncia α;
3. Calcular a estat´ıstica do teste t:
Tc = r
√
n − 2
1− r2
Correlac¸a˜o e Regressa˜o
Teste de Hipo´teses para o Coeficiente de
Correlac¸a˜o
4. Definir a regia˜o cr´ıtica do teste (RC):
em que t = t(n−2;α/2) obtido da tabela da distribuic¸a˜o
t-Student com n − 2 graus de liberdade.
5. Se Tc pertence a RC ⇒ rejeitar H0. Se Tc na˜o pertence a RC
⇒ na˜o rejeitar H0.
6. Concluir sobre a decisa˜o tomada no passo 5.
Correlac¸a˜o e Regressa˜o
Regressa˜o Linear Simples
Iniciaremos o estudo de regressa˜o com a formulac¸a˜o mais
simples, relacionando uma varia´vel Y, chamada de varia´vel
resposta ou dependente, com uma varia´vel X, denominada
de varia´vel explicativa ou independente.
Este tipo de modelo em que buscamos explicar uma varia´vel Y
como uma func¸a˜o linear de apenas uma varia´vel X e´
denominado de modelo de regressa˜o linear simples.
Varia´vel independente (X ) Varia´vel dependente (Y )
Temperatura do forno (◦C) Resisteˆncia mecaˆnica da ceraˆmica (MPa)
Quantidade de aditivo (%) Octanagam da gasolina
Renda(R$) Consumo(R$)
Memo´ria RAM do computador (Gb) Tempo de resposta do sistema (s)
A´rea constru´ıda do imo´vel (m2) Prec¸o do imo´vel (R$)
Correlac¸a˜o e Regressa˜o
Regressa˜o Linear Simples
A aplicac¸a˜o da ana´lise de regressa˜o e´ geralmente feita sob
um referencial teo´rico, que justifique uma relac¸a˜o matema´tica
de causalidade. Ale´m disso, a varia´vel X normalmente e´
controlada (na˜o aleato´ria) e Y e´ uma varia´vel aleato´ria.
A ana´lise de regressa˜o tambe´m parte de um conjunto de
observac¸o˜es pareadas (x1, y1), (x2, y2), . . . , (xn, yn), relativas
a`s varia´veis X e Y. Suponha que podemos escrever a relac¸a˜o
entre as duas varia´veis, da seguinte maneira:
Yi = α + βxi + �i ,
Correlac¸a˜o e Regressa˜o
Regressa˜o Linear Simples
Yi e´ a varia´vel aleato´ria associada a` i-e´sima observac¸a˜o de Y;
xi e´ a i-e´sima observac¸a˜o do valor fixado para a varia´vel
independente (e na˜o aleato´ria) X;
�i e´ o erro aleato´rio da i-e´sima observac¸a˜o, isto e´, o efeito de
uma infinidade de fatores que esta˜o afetando a observac¸a˜o de
Y de forma aleato´ria;
α e β sa˜o paraˆmetros que precisam ser estimados.
Correlac¸a˜o e Regressa˜o
Estimando os Paraˆmetros do Modelo
Queremos encontrar a reta que passe o mais pro´ximo poss´ıvel dos
pontos observados
O me´todo de m´ınimos quadrados e´ usado para estimar os
paraˆmetros do modelo (α e β) e consiste em fazer com que a soma
dos erros quadra´ticos seja menor poss´ıvel, ou seja, este me´todo
consiste em obter os valores de α e β que minimizam a expressa˜o:
S =
n∑
i=1
�2i =
n∑
i=1
(Yi − α− βxi )2
Correlac¸a˜o e Regressa˜o
Me´todo de M´ınimos Quadrados
Aplicando-se derivadas parciais a` expressa˜o anterior, e
igualando-se a zero, acharemos as seguintes estimativas para
α e β, as quais chamaremos de a e b, respectivamente:
b =
n
n∑
i=1
xiYi −
(
n∑
i=1
xi
)(
n∑
i=1
Yi
)
n
n∑
i=1
x2i −
(
n∑
i=1
xi
)2
e
a =
n∑
i=1
Yi − b
n∑
i=1
xi
n
Correlac¸a˜o e Regressa˜o
Me´todo de M´ınimos Quadrados
A chamada equac¸a˜o (reta) de regressa˜o e´ dada por:
yˆ = b + ax
e para cada valor xi (i = 1, . . . , n) temos, pela equac¸a˜o de
regressa˜o, o valor predito:
yˆi = b + axi
A diferenc¸a entre os valores observados e os preditos e´
chamada de res´ıduo:
ei = yi − yˆi
Correlac¸a˜o e Regressa˜o
Me´todo de M´ınimos Quadrados
O res´ıduo relativo a` i-e´sima observac¸a˜o (ei ) pode ser
considerado uma estimativa do erro aleato´rio (�i ) desta
observac¸a˜o (veja ilustrac¸a˜o abaixo).
Como medir a “qualidade” do modelo?
Correlac¸a˜o e Regressa˜o
O Coeficiente de Determinac¸a˜o (R2)
O coeficiente de determinac¸a˜o e´ uma medida descritiva da
proporc¸a˜o da variac¸a˜o de Y que pode ser explicada por
variac¸o˜es em X, segundo o modelo de regressa˜o especificado.
Ele e´ dado pela seguinte raza˜o:
R2 =
n∑
i=1
(yˆ − y¯)2
n∑
i=1
(yi − y¯)2
=
variac¸a˜o explicada pelo modelo
variac¸a˜o total
onde y¯ =
n∑
i=1
yi
n
.
Note que 0 ≤ R2 ≤ 1. Se R2 = 0, o modelo na˜o tem nenhum
poder explicativo. Se R2 = 1, o poder explicativo do modelo e´
total.
Correlac¸a˜o e Regressa˜o
Teste de Hipo´teses para o Coeficiente β
1. Definic¸a˜o das hipo´teses:
H0 : β = 0
H1 : β 6= 0
2. Fixar o n´ıvel de significaˆncia α;
3. Calcular a estat´ıstica do teste t:
Tc =
|b|
Sb
em que S2b =
n∑
i=1
(yi − yˆi )2
(n−2)
n∑
i=1
(xi − x¯)2
.
Correlac¸a˜o e Regressa˜o
Teste de Hipo´teses para o Coeficiente β
4. Definir a regia˜o cr´ıtica do teste (RC):
em que t = t(n−2;α/2) obtido da tabela da distribuic¸a˜o
t-Student com n − 2 graus de liberdade.
5. Se Tc pertence a RC ⇒ rejeitar H0. Se Tc na˜o pertence a RC
⇒ na˜o rejeitar H0.
6. Concluir sobre a decisa˜o tomada no passo 5.
Correlac¸a˜o e Regressa˜o
Exemplo
Considere um experimento em que se analisa a octanagem da
gasolina (Y) em func¸a˜o da adic¸a˜o de um novo aditivo (X).
Para isso, foram realizados ensaios com os percentuais de
1, 2, 3, 4, 5 e 6% de aditivo. Os resultados sa˜o mostrados no
gra´fico de dispersa˜o.
Correlac¸a˜o e Regressa˜o
Exemplo
O Coeficiente de Correlac¸a˜o Linear de Pearson para os dados
acima foi de: x¯ = 3, 5 e y¯ = 82, 8.
x Y xi − x¯ Yi − Y¯ (xi − x¯) · (Yi − Y¯ ) (xi − x¯)2 (Yi − Y¯ )2
1 80, 5 −2, 5 −2, 3 5, 75 6, 25 5, 29
2 81, 6 −1, 5 −1, 2 1, 80 2, 25 1, 44
3 82, 1 −0, 5 −0, 7 0, 35 0, 25 0, 49
4 83, 7 0, 5 0, 9 0, 45 0, 25 0, 81
5 83, 9 1, 5 1, 1 1, 65 2, 25 1, 21
6 85, 0 2, 5 2, 2 5, 5 6, 25 4, 84
Σ 21 496, 8 15, 5 17, 5 14, 08
Cov(X ,Y ) =
15, 5
5
= 3, 1
r =
3, 1√
17,5
5
√
14,08
5
= 0, 9874 (forte relac¸a˜o linear)
Correlac¸a˜o e Regressa˜o
Exemplo
A reta de regressa˜o que explica a octanagem da gasolina (Y)
em func¸a˜o da adic¸a˜o do novo aditivo (X) e´ dada por:
Ensaio (i) x Y x2i xiYi
1 1 80, 5 1 80, 5
2 2 81, 6 4 163, 2
3 3 82, 1 9 246, 3
4 4 83, 7 16 334, 8
5 5 83, 9 25 419, 5
6 6 85, 0 36 510, 0
Soma 21 496, 8 91 1754, 3
Correlac¸a˜o e Regressa˜o
Exemplo
As estimativas para α e β sa˜o, respectivamente:
b =
6 · (1754, 3)− (21) · (496, 8)
6 · (91)− (21)2 =
93
105
∼= 0, 886
e
a =
496, 8− (0, 886) · (21)
6
∼= 79, 7.
Assim, teremos a seguinte reta de regressa˜o:
yˆ = 79, 7 + 0, 886x .
Por exemplo, se for adicionado x = 5, 5% de aditivo,
esperamos um ı´ndice de octanagem de
yˆ = 79, 7 + (0, 886) · (5, 5) = 84, 573.
Correlac¸a˜o e Regressa˜o
Exemplo
A tabela abaixo mostra que os valores preditos pelo modelo
esta˜o bastante pro´ximos dos valores observados no
experimento.
Tabela: Valores preditos [yˆi = 79, 7 + 0, 886xi ] e res´ıduos (ei = yi − yˆi ).
xi Yi yˆi ei
1 80, 5 80, 586 −0, 086
2 81, 6 81, 472 0, 128
3 82, 1 82, 358 −0, 258
4 83, 7 83, 244 0, 456
5 83, 9 84, 130 −0, 230
6 85, 0 85, 016 −0, 016
Correlac¸a˜o e Regressa˜o
Exemplo
O coeficiente de determinac¸a˜o para os dados da octanagem
da gasolina e´ calculado da seguinte forma:
xi Yi y¯ yˆi yi − y¯ yˆi − y¯ (yi − y¯)2 (yˆi − y¯)2
1 80, 5 82, 8 80, 586 −2, 3 −2, 21 5, 29 4, 90
2 81, 6 82, 8 81, 472 −1, 2 −1, 33 1, 44 1, 77
3 82, 1 82, 8 82, 358 −0, 7 −0, 44 0, 49 0, 20
4 83, 7 82, 8 83, 244 0, 9 0, 44 0, 81 0, 20
5 83, 9 82, 8 84, 130 1, 1 1, 33 1, 21 1, 77
6 85, 0 82, 8 85, 016 2, 2 2, 21 4, 84 4, 90
Soma 14, 08 13, 73
R2 =
13, 73
14, 08
∼= 0, 975
Correlac¸a˜o e Regressa˜o
Exemplo
Finalmente, realizamos um Teste de Hipo´teses para verificar a
significaˆncia do Modelo de Regressa˜o Linear Simples:
H0 : β = 0
H1 : β 6= 0
Calculando a estat´ıstica de teste:
S2b =
n∑
i=1
(yi − yˆi )2
(n − 2)
n∑
i=1
(xi − x¯)2
=
0, 35
(6− 2) · 17, 5 = 0, 005.
Tc =
|b|
Sb
=
0, 886
0, 0707
= 12, 53
Como Tc = 12, 53 > t(4;0,025) = 2, 776 conclu´ımos ao n´ıvel de
significaˆncia de 5%, que o modelo de regressa˜o e´ significativo, ou seja,
podemos considerar existeˆncia de uma relac¸a˜o linear entre as varia´veis.
Correlac¸a˜o e Regressa˜o
Exemplo
A tabela abaixo mostra a altura e os pesos, arredondados para
cent´ımetros e quilogramas de uma amostra, selecionada
aleatoriamente, de 10 estudantes de um Cole´gio Estadual.
Peso x 70 63 72 60 66 70 74 65 62 67
Altura Y 155 150 180 135 156 168 178 160 132 145
a) Cacule os coeficientes da reta de regrssa˜o.
b) Estimar o peso de um aluno, cuja altura e´ de 168 cm.
Correlac¸a˜o e Regressa˜o
Exemplo
Correlac¸a˜o e Regressa˜o
Exemplo

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais