Livro Analise de regressão
402 pág.

Livro Analise de regressão


DisciplinaMatemática Financeira58.003 materiais1.516.454 seguidores
Pré-visualização50 páginas
O coeficiente de correlação simples para uma amostra 
Inicialmente, desenvolveremos o conceito do coeficiente de correlação (r) para uma 
amostra de n pares de valores iX , iY (i = 1, 2, ..., n). 
Para obter uma medida de correlação sem a influência da média (tendência 
central) e da variância (dispersão), vamos utilizar variáveis reduzidas, definidas por 
 
1
)( 2
\u2212
\u2211
=
\u2212
=
n
x
x
Xs
XX
v
i
ii
i (3.1) 
e 
 
1
)( 2
\u2212
\u2211
=
\u2212
=
n
y
y
Ys
YY
z
i
ii
i (3.2) 
Como as variáveis reduzidas não têm dimensão, esta transformação também 
elimina qualquer influência da unidade de medida. 
As figuras 3.1, 3.2 e 3.3 apresentam três diferentes resultados que poderiam ser 
obtidos quando colocamos os pontos ( ii zv , ) em um gráfico. 
 
 
 
 
 
 
 104 
Figura 3.1. Correlação Figura 3.2. Correlação 
 Positiva negativa 
Figura 3.3. Correlação 
aproximadamente igual a 
zero 
 
Se X e Y estão positivamente correlacionados, isto é, se X e Y tendem a variar no 
mesmo sentido, então a maioria dos pontos ( ii zv , ) estará no 1o e no 3o quadrantes, 
como ocorre na figura 3.1.Uma vez que, para pontos localizados nesses quadrantes, o 
produto ii zv é positivo, o valor de ii zv\u2211 será, neste caso, positivo e relativamente alto. 
Se X e Y estão negativamente correlacionados, isto é, se X e Y tendem a variar 
em sentidos opostos, então a maioria dos pontos ( ii zv , ) estará no 2o e no 4o quadrantes, 
como ocorre na figura 3.2. Uma vez que, para pontos localizados nesses quadrantes, o 
produto ii zv é negativo, o valor de ii zv\u2211 será, neste caso, negativo e de valor absoluto 
relativamente alto. 
Se não existe correlação, os pontos ( ii zv , ) estarão distribuídos pelos quatro 
quadrantes, como ocorre na figura 3.3. Então ii zv\u2211 será igual a zero ou terá valor 
absoluto pequeno, pois as parcelas positivas (correspondendo a pontos no 1o e 3o 
quadrantes) são anuladas pelas parcelas negativas (correspondendo a pontos no 2o e 4o 
quadrantes). 
 
 
 105 
Portanto, o valor de ii zv\u2211 pode ser utilizado como medida de correlação. 
Entretanto, em termos absolutos, esse valor tende a crescer com o número de 
observações. Então, o coeficiente de correlação simples é definido por 
 
1\u2212
\u2211
=
n
zv
r ii 
Considerando (3.1) e (3.2), obtemos 
 
22
ii
ii
yx
yx
r
\u2211\u2211
\u2211
= (3.3) 
Comparando (3.3) com (2.28), verificamos que o quadrado do coeficiente de 
correlação é igual ao coeficiente de determinação da regressão linear simples. 
Já vimos que 
 10 2 \u2264\u2264 r 
Então, 
 11 \u2264\u2264\u2212 r 
É importante assinalar que um coeficiente de correlação igual a zero não implica 
em ausência de relação entre as duas variáveis. Isso é mostrado na figura 3.4, onde, 
apesar de o coeficiente de correlação ser nulo, é evidente que existe uma relação 
parabólica entre X e Y. Portanto, um coeficiente de correlação nulo somente implica 
ausência de relação linear entre as duas variáveis. 
 
Figura 3.4. Relação parabólica entre X e Y, onde r = 0 
 
 
 106 
Para exemplificar, consideremos os 6 pares de valores dados na tabela 3.1 e 
representados na figura 3.5. Pode-se imaginar que cada par de valores são as notas 
tiradas por um aluno em duas disciplinas. 
Tabela 3.1 Amostra de 6 pares de valores iX , iY 
iX iY iX iY 
4 6 6 8 
4 7 8 7 
6 6 8 8 
 
Obtemos 
 6
6
36
==X ; 7
6
42
==Y 
 16
6
36232)(
22
22
=\u2212=
\u2211
\u2212\u2211=\u2211
n
X
Xx ii 
 4
6
42298)(
22
22
=\u2212=
\u2211
\u2212\u2211=\u2211
n
Y
Yy ii 
 4
6
4236256 =\u22c5\u2212=\u2211\u2211\u2212\u2211=\u2211
n
YX
YXyx iiiiii 
 5,0
416
4
=
\u22c5
=r 
Vejamos a relação que existe entre o coeficiente de correlação e o coeficiente de 
regressão. 
Como 
 2
2
222 x
y
yx
xy
x
xyb
\u2211
\u2211
\u2211\u2211
\u2211
=
\u2211
\u2211
= , 
verificamos, considerando (3.3), que 
 )(
)(
2
2
Xs
Ys
r
x
y
rb =
\u2211
\u2211
= (3.4) 
onde 
 
1
)(
2
\u2212
\u2211
=
n
x
Xs i e 
1
)(
2
\u2212
\u2211
=
n
y
Ys i 
Mostraremos agora que o quadrado do coeficiente de correlação é igual ao 
produto das estimativas dos coeficientes de regressão de Y em relação a X e de X em 
 
 
 107 
relação a Y. Representando essas estimativas por XYb \u22c5 e YXb \u22c5 respectivamente, podemos 
escrever 
 2x
xyb XY
\u2211
\u2211
=
\u22c5
 e 2y
xyb YX
\u2211
\u2211
=
\u22c5
 
Segue-se, imediatamente, que 
 YXXY bbr \u22c5\u22c5=2 (3.5) 
Para a amostra apresentada na tabela 3.1, temos: 
 25,0
16
4
2 ==\u2211
\u2211
=
\u22c5
x
xyb XY , 14
4
2 ==\u2211
\u2211
=
\u22c5 y
xyb YX 
 e 225,0 rbb YXXY ==\u22c5\u22c5 
Também podemos obter as retas de regressão de Y em relação a X e de X em 
relação a Y, que são, respectivamente, 
XY 25,05,5\u2c6 += 
e 
YX +\u2212= 1\u2c6 
 
 
Figura 3.5. Retas de regressão de Y em relação a X e de X em relação a Y, 
para os dados da tabela 3.1. 
 
 
 108 
Para ilustrar melhor o conceito de correlação, consideremos um outro exemplo. 
A tabela 3.2, transcrita de Yule e Kendall (1940), apresenta as freqüências (em 
centenas) de casamentos na Inglaterra e na Irlanda, em 1933, conforme as idades do 
marido (X) e da mulher (Y). 
TABELA 3.2. Número de casamentos em função da idade do marido e da mulher, na 
Inglaterra e na Irlanda, em 1933. 
Idade 
da 
mulher 
Idade do marido em anos (limite inferior do intervalo) 
Total 
15 20 25 30 35 40 45 50 55 60 65 70 75 
15 33 189 56 8 2 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 288 
20 18 682 585 106 19 5 2 1 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 1418 
25 1 140 511 179 40 14 6 3 1 1 \u2013\u2013 \u2013\u2013 \u2013\u2013 896 
30 \u2013\u2013 11 75 101 42 20 10 5 2 1 1 \u2013\u2013 \u2013\u2013 268 
35 \u2013\u2013 2 10 24 28 19 13 8 5 2 1 \u2013\u2013 \u2013\u2013 112 
40 \u2013\u2013 \u2013\u2013 1 5 9 14 12 10 6 4 2 1 \u2013\u2013 64 
45 \u2013\u2013 \u2013\u2013 \u2013\u2013 1 3 5 9 9 7 4 3 1 \u2013\u2013 42 
50 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 1 3 7 6 5 3 1 \u2013\u2013 26 
55 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 1 3 5 4 3 1 \u2013\u2013 17 
60 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 1 1 4 3 2 \u2013\u2013 11 
65 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 1 1 3 2 1 8 
70 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 \u2013\u2013 1 1 1 3 
Total 52 1024 1238 424 143 78 56 47 34 26 20 9 2 3153 
Fonte:Yule e Kendall (1940), p. 198. 
 
Podemos, para facilitar os cálculos, utilizar as seguintes variáveis auxiliares: 
 
5
5,27\u2212
=
i
i
XV , i = 1, 2, ..., 13 (3.6) 
e 
 
5
5,27\u2212
=
j
j
Y
Z , j = 1, 2, ..., 12 (3.7) 
Devemos ressaltar que o coeficiente de correlação entre V e Z é igual ao 
coeficiente de correlação entre X e Y (ver exercício 3.9). 
Note que essas variáveis auxiliares assumem valor zero no ponto médio da 
classe de 25 a 30 anos e são medidas em unidades de 5 anos. 
Representando por ijf as freqüências em cada cela, por iF as freqüências totais 
para cada classe de idade do marido e por iG as freqüências totais para cada classe de 
idade da mulher, temos: 
 
 
 109 
2924,0
3153
922
==
\u2211
=
n
FVV ii 
2353,0
3153
742
\u2212=
\u2212
=
\u2211
=
n
GZ
Z jj 
39,9438
3153
9229708)(
22
22
=\u2212=
\u2211
\u2212\u2211=\u2211
n
FV
FVFv iiiiii 
38,6915
3153
7427090
)( 2222
=\u2212=
\u2211
\u2212\u2211=\u2211
n
GZ
GZGz jjjjjj 
98,6472
3153
)742(9226256))(( =\u2212\u2212=\u2211\u2211\u2212\u2211\u2211=\u2211\u2211
n
GZFVfZVfzv jjiiijjiijji 
8012,0
))(( 22
=
\u2211\u2211
\u2211\u2211
=
jjii
ijji
GzFv
fzv
r 
As retas de regressão de Z em relação a V e de V em relação a Z são, 
respectivamente, 
 )2924,0(6858,02353,0\u2c6 \u2212+\u2212= VZ 
e 
 )2353,0(9360,02924,0\u2c6 ++= ZV 
Considerando (3.6) e (3.7) obtemos, após simplificações, as equações de 
regressão de Y em relação a X e de X em relação a Y: 
 XY 686,05,6\u2c6 += 
e 
 YX 936,03,4\u2c6 += 
É interessante assinalar, na tabela 3.2, as celas modais das distribuições 
condicionais de XY | ; elas mostram, grosseiramente, a posição
Annanda
Annanda fez um comentário
salvou meu TCC! obrigada!
0 aprovações
Douglas
Douglas fez um comentário
Muito obrigado por compartilhar!
0 aprovações
Carregar mais