Buscar

aula 25

Prévia do material em texto

Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
1 
 
Regressão e Correlação Linear 
 
Até o momento, vimos técnicas estatísticas em que se estuda uma variável de cada 
vez, estabelecendo-se sua distribuição de freqüências, média, desvio padrão, etc. Em 
muitos casos, porém, é necessário estudar duas ou mais variáveis ao mesmo tempo. Por 
exemplo, pode-se obter mais informações estudando peso e altura juntos do que estudando 
cada um separadamente; ou ainda, renda mensal junto com gastos com livros. Neste 
capítulo veremos alguns métodos usados para estudar ao mesmo tempo duas variáveis. 
Em geral estuda-se duas variáveis ao mesmo tempo com o objetivo de determinar se 
há alguma relação entre elas e, se houver, qual o tipo dessa relação. Pode-se, por exemplo, 
pesquisar uma relação entre idade e tempo de sobrevivência em casos de cirurgia, ou 
procurar saber que tipo de relação (linear, exponencial ou outra) existe entre tempo de 
permanência de um paciente num programa de atendimento domiciliar e os custos do 
atendimento. Outras vezes estudam-se duas variáveis conjuntamente na expectativa de se 
poder usar uma delas para prever a outra. Por exemplo, será que se pode prever o gasto de 
uma família com balas e chocolates conhecendo-se a sua renda mensal? 
 
Fundamentos 
 
Quando se consideram duas variáveis aleatórias ao mesmo tempo, X e Y, as técnicas 
estatísticas aplicadas são as de regressão e correlação. As duas técnicas estão relacionadas, 
mas são usadas para diferentes propósitos. 
O objetivo mais comum da análise de regressão é obter uma equação que possa ser 
usada para prever ou estimar o valor de uma variável em função de um dado valor de uma 
outra variável. A análise de correlação, por outro lado, é usada para se obter uma medida 
do grau ou da força da associação entre duas variáveis. 
Tanto para regressão como para correlação, os dados consistem de pares de medidas 
selecionadas da população de interesse. Por exemplo, um comitê elaborador de vestibular 
(FUVEST, p. ex.) pode querer saber se há alguma associação entre a média das notas 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
2 
obtidas na escola de 2º grau e a média das notas obtidas no exame vestibular. Os dados 
podem ser arranjados como abaixo, onde o par de números (Xi, Yi) dá as médias das notas 
do 2º grau e do vestibular para o i-ésimo aluno da amostra. 
 
Aluno 
Média do 2º 
grau 
Média do 
vestibular 
1 X1 Y1 
2 X2 Y2 
ξ ξ ξ 
n Xn Yn 
 
A decisão final sobre se é razoável ou não assumir que existe uma relação entre Y e 
X será baseada na análise de regressão e correlação. Obtém-se uma equação matemática 
expressando uma relação entre Y e X e usa-se testes de hipóteses para se decidir se a 
equação é provável ou não. Caso a equação seja provável, ela pode ser usada para predizer 
possíveis valores de Y a partir de valores de X. 
Antes, porém, de se fazer uma análise de regressão para um conjunto de pares de 
dados é importante escolher adequadamente quais as duas variáveis que se vai estudar 
conjuntamente. Se, por exemplo, há o interesse em estudar o consumo de balas, biscoitos e 
chocolates por família de uma dada região, deve-se inicialmente construir alguma hipótese 
sobre quais variáveis podem estar associadas a ele. Por exemplo, algumas dessas variáveis 
poderiam ser renda familiar, número de crianças na família, número de pessoas na família, 
idade média da família, etc. 
Uma vez determinadas as duas variáveis que serão estudadas, deve-se definir qual 
será considerada como a variável dependente e qual será a variável independente. A 
variável independente, em geral descrita por x, é a que vai determinar o comportamento da 
outra variável, por isto chamada de dependente, em geral descrita por y. A variável 
dependente (y) é aquela que queremos estudar e a variável independente (x) é aquela que, 
segundo nossa hipótese, causa alguma modificação em y. Em textos de economia costuma-
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
3 
se chamar a variável independente de exógena, porque ela está fora do sistema em 
estudo, e a variável dependente de endógena, porque ela faz parte do sistema em estudo. 
Em muitos casos é fácil determinar, entre duas variáveis, qual deve ser a 
independente e qual será a dependente. Usando de novo o exemplo do consumo familiar 
de balas, biscoitos e chocolates, vemos que esta deve ser a variável dependente quando se 
escolhe a renda familiar como outra variável, a qual seria então a variável independente. 
Seria absurdo supor que é o consumo de guloseimas que determina a renda de uma 
família. Agora, em um caso em que se quer estudar as variáveis vendas de jornais 
sensacionalistas (tipo Notícias Populares) e vendas de bebidas alcoólicas em uma dada 
região fica mais difícil decidir qual deve ser tratada como dependente e qual como 
independente. Em casos como este a decisão sobre qual variável será a dependente e qual 
será a independente depende do modelo teórico ou da interpretação adotada pelo 
investigador, mas isto não irá influenciar os métodos de regressão e correlação descritos a 
seguir. 
 
O diagrama de dispersão 
 
A técnica mais simples e provavelmente mais útil para estudar a relação entre duas 
variáveis é o diagrama de dispersão. Em um diagrama de dispersão, cada um dos n pares 
de observações (Xi,Yi), i = 1, ..., n, é representado graficamente como um único ponto. Os 
Xs são colocados no eixo horizontal (abscissa) e os Ys são colocados no eixo vertical 
(ordenada). Olhando para o arranjo dos pontos no gráfico, pode-se discernir um padrão 
indicador da forma funcional subjacente aos dados. Algumas possíveis formas funcionais 
estão indicadas a seguir: 
 
X
Y
 
X
Y
 
X
Y
 
a) linear b) não-linear c) sem relação 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
4 
 
O caso (a) é o de uma relação linear entre Y e X, que pode ser representada por uma 
reta. O caso (b) é o de uma relação curvilínea, ou não-linear, que pode ser representada por 
uma função não-linear. O caso (c) é um em que não há relação entre Y e X: o valor de Y 
(maior ou menor) não depende de X. 
Nesta aula, só iremos considerar relações lineares. 
 
Regressão linear simples 
 
Como exemplo introdutório da análise de regressão, vamos considerar dados 
relacionando pressão sangüínea sistólica com nível de dosagem de uma droga anti-
hipertensão. 
 
Nível de dosagem da droga 
(mg) 
Pressão sangüínea sistólica média 
(mm Hg) 
2 278 
3 240 
4 198 
5 132 
6 111 
 
Olhando para os dados, vemos que alguma relação existe entre eles: quanto maior o 
nível de dosagem, menor a pressão sangüínea. Estes dados estão mostrados no diagrama 
de dispersão abaixo. Observe que nem todos os pontos caem exatamente sobre uma linha 
reta, mas a tendência é que os valores de Y decresçam de uma maneira aproximadamente 
linear à medida que os valores de X cresçam. Isto indica que a relação entre Y e X pode 
ser linear e pode ser descrita por uma linha reta. Vamos tentar determinar uma “equação” 
para essa reta. 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
5 
0
50
100
150
200
250
300
1 2 3 4 5 6 7
Nível de dosagem da droga anti-hipertensiva
Pr
es
sã
o 
sa
ng
üí
ne
a 
sis
tó
lic
a
 
 Diagrama de dispersão para os dados da tabela acima. 
 
Qualquer linha reta tem a forma geral: bXaY += , onde b dá a inclinação da linha e a 
é o ponto onde a linha cruza o eixo Y. Para quaisquer dois pontos, é fácil determinar a 
linha reta que os une; porém, para três ou mais pontos,como no caso em questão, é em 
geral impossível encontrar uma linha reta que passe por todos os pontos. Neste caso, o que 
se tenta fazer é encontrar a linha reta que melhor represente a configuração dos pontos. 
Uma ilustração disto é dada pelo gráfico abaixo: 
 
 
O chapéu sobre o Y, (Ŷ), indica que a reta da 
figura, cuja equação é bXaY +=ˆ , é uma 
estimativa para a hipotética reta verdadeira. As 
distâncias dos pontos para a linha são dadas 
por: iii YYd ˆ−= , onde ii bXaY +=ˆ . A reta 
bXaYˆ += tenta minimizar as distâncias (ou 
desvios, ou ainda resíduos) id dos pontos para 
ela: pode-se perceber isto visualmente. 
Para o gráfico acima, 
1
d é positiva, 
2
d é negativa e 
3
d é positiva. Poderíamos somar 
as três distâncias e tentar encontrar alguma maneira matemática de minimizar seu valor. 
Porém, é comum que desvios em torno de algum valor se anulem quando somados, como 
no caso do desvio médio. 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
6 
Para se medir o grau de adequação (ou ajuste) de uma linha reta a um conjunto de 
pontos, é mais conveniente calcular a soma dos quadrados dos desvios. Esta é sempre uma 
quantidade positiva e é a que se costuma usar para medir o ajuste dos pontos pela reta: 
( )∑∑ −= 22 iˆii YYd . 
O método usado para se encontrar a reta que mais se ajuste a um conjunto de pontos 
utilizando a fórmula acima é chamado de método dos mínimos quadrados e a reta 
calculada é chamada de reta de regressão. O método é chamado de “mínimos quadrados” 
porque o seu objetivo é encontrar a reta Yˆ que minimize a soma dos quadrados da 
equação. A discussão formal deste método não será feita aqui. Apenas os seus princípios 
serão dados. Para uma dada reta bXaY +=ˆ , a soma dos quadrados dos desvios é escrita 
como 
( ) ( )∑ ∑ −−=−=Φ 22ˆ iii bXaYYY . 
Esta somatória pode ser vista como uma função dos parâmetros a e b, pois variando-se os 
valores de a e de b altera-se o valor da soma dos quadrados dos desvios. Note que a forma 
funcional desta função é a de um parabolóide (pois a dependência de maior ordem em a e 
b é quadrática), de maneira que existe um par (a, b) para o qual ela tem um valor mínimo. 
Pela teoria dos máximos e mínimos do Cálculo, o ponto de mínimo (a, b) é determinado 
pela condição de que ele seja um extremo, ou seja 
.0 e 0 =
∂
Φ∂
=
∂
Φ∂
ba
 
Calculando as derivadas chega-se a um sistema de equações algébricas com duas 
incógnitas, a e b. Resolvendo esse sistema de equações chega-se aos valores de a e b: 
( )( )
( )∑
∑
−
−−
=
i
i
i
ii
XX
YYXX
b 2 ; XbYa −= , 
onde X e Y são as médias dos valores de X e Y, respectivamente. Há uma fórmula mais 
simples para o cálculo de b, que pode ser obtida expandindo-se os termos entre parênteses. 
O resultado (tente obtê-lo como exercício) é: 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
7 
∑ ∑
∑ ∑ ∑
⎟
⎠
⎞
⎜
⎝
⎛
−
−
=
i i
ii
i i i
iiii
XXn
YXYXn
b 2
2
, 
onde n é o número de pares de pontos. 
Voltando agora ao exemplo sobre pressão sangüínea sistólica, temos que a reta de 
regressão que melhor se ajusta à amostra de pontos ( )ii YX , é dada por 
bXaYˆ += 
onde a e b são dados pelas fórmulas acima. Para calcular a reta de regressão devemos 
montar uma tabela como a mostrada abaixo: 
 
Dados para o cálculo da linha de regressão para nível de dosagem da droga (X) e pressão 
sangüínea sistólica (Y): 
n X Y X2 Y2 X.Y 
1 2 278 4 77284 556 
2 3 240 9 57600 720 
3 4 198 16 39204 792 
4 5 132 25 17424 660 
5 6 111 36 12321 666 
Soma 20 959 90 203833 3394 
 
A partir dos valores da tabela, calculamos: 
8191
5
959 ,
n
YY ==∑= ; 04
5
20 ,
n
XX ==∑= 
2,44
50
2210
2090.5
959.203394.5
2 −=−=−
−
=b ; 
( ) 6368042448191 ,, ,,XbYa =−−=−= 
X,,Yˆ 2446368 −= 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
8 
Gráfico de Ŷ=368,6-
44,2X 
 
Conhecendo-se a equação para a reta, ela pode ser traçada determinando-se 2 pontos. 
Por exemplo, para 2=X e 7=X a equação dá, respectivamente: 2280,Yˆ = e 259,Yˆ = . É 
assim que se traçou o gráfico acima. Note que a reta traçada representa bem os pontos do 
gráfico de dispersão, pelo menos visualmente. Ainda nesta aula, quando tratarmos de 
correlação linear, veremos como medir de maneira quantitativa a força desse ajuste linear 
entre os pontos e a reta. 
 
A variância em torno da linha de regressão 
 
Assim como se pode definir uma variância (ou desvio padrão) de um conjunto de 
pontos em torno de seu valor médio Y , também se pode definir uma variância (ou desvio 
padrão) de um conjunto de pontos ordenados Yi em torno da sua linha de regressão Ŷ. Esta 
quantidade, denotada por 2XYS , é definida como 
( )
2
ˆ 2
2
−
−
=
∑
n
YY
S i
i
XY , 
e a sua raiz quadrada, chamada de erro padrão da previsão, é dada por 
2
XYXY SS = . 
Esta última quantidade é análoga ao desvio padrão visto nas aulas de estatística descritiva. 
Ela dá uma medida do desvio “médio” dos valores observados Yi em relação ao valor 
predito Ŷ pela linha de regressão. Note que a única diferença da definição de 2XYS para a da 
variância usual é que se dividiu por n − 2 ao invés de por n − 1. 
Ŷ=368,6 – 44,2 X 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
9 
Para um conjunto grande de dados a computação de cada ( )YYi ˆ− é trabalhosa 
quando deve ser feita manualmente. Existe, porém, uma fórmula algebricamente 
equivalente par 2XYS que simplifica os cálculos: 
( ) ( )
2
222
2
−
−−−
=
∑ ∑
n
XXbYY
S i
ii
XY . 
Com o uso da tabela para os dados de pressão sistólica temos: 
( ) 1,117,122
3
0,368
25
102,444,19904 2
2
2 ==⇒==
−
×−−
= XYXYXY SSS 
Da fórmula acima, vê-se que a variância em relação à reta Ŷ é igual à variância em 
relação à média Y se 0=b (inclinação nula) e se n for muito grande, de maneira que 
.12 −≅− nn 
 
O coeficiente de correlação linear 
 
Em geral, na análise de correlação, procura-se determinar a “força” de uma relação 
funcional entre duas variáveis. A medida mais comumente usada para o grau de associação 
linear entre Y e X é o chamado coeficiente de correlação de Pearson (ou simplesmente 
coeficiente de correlação), denotado por r, e definido como 
( )( )
( ) ( )
n
YY
n
XX
n
YYXX
r
∑∑
∑
−−
−−
=
22
 
. 
O termo no numerador desta fórmula é chamado de covariância de X e Y. Note que ele se 
parece muito com a variância, só que agora aparecem os desvios tanto de X como de Y em 
relação às suas médias. A covariância mede a variação conjunta de X e Y em torno de suas 
médias. Já o termo no denominador é o produto do desvio padrão de X pelo desvio padrão 
de Y. Expandindo-se os termos entre parênteses, a fórmula do coeficiente de correlação 
pode ser reescrita em uma forma mais fácil para o cálculo, que é a seguinte (tente obtê-la 
como exercício): 
 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
10 
( )[ ] ( )[ ]∑ ∑∑ ∑
∑∑∑
−−
−
=
2222 YYnXXn
YXXYn
r 
 
Os valores de r estão sempre no intervalo 11 +≤≤− r . Um valor “grande” de r 
(positivo ou negativo) indica uma forte relação linear entre X e Y. Um valor negativo de r 
indica que grandes valores de X estão associados a baixos valores de Y, ou baixos valores 
de X estão associados a grandes valores de Y (o produto ( )( )∑ −− YY XX será negativo 
nos dois casos). Já um valor positivo de r indica que grandes valores de X estão associados 
a grandes valores de Y e que baixos valores de X estão associadosa baixos valores de Y 
(tanto ( )∑ − XX como ( )∑ −YY terão os mesmos sinais nos dois casos). 
Os sinais de r e de b (a inclinação da reta Ŷ) são os mesmos: quando a inclinação da 
reta é negativa, a correlação também é negativa, indicando uma relação inversa entre Y e 
X. Igualmente, uma relação positiva existe entre Y e X quando r e b são positivos. Uma 
relação positiva exata ocorre quando 1+=r (todos os pontos estão exatamente sobre a 
reta), e uma relação negativa exata ocorre quando 1−=r (todos os pontos também estão 
exatamente sobre a reta, só que ela tem inclinação negativa). Quando 0=r , isto significa 
que não há relação linear entre as variáveis Y e X. Note que r pode ser zero e ainda assim 
existir possivelmente alguma relação funcional entre as duas variáveis, mas não-linear. 
 
Diagramas de dispersão para os quais 0=r 
 
 
 
Exercícios Exemplo 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
11 
 
1. Predizer a nota média de um estudante de uma universidade ao final do seu primeiro 
ano com base na sua nota média do exame vestibular. Seleciona-se uma amostra de 
interesse (por exemplo estudantes de Biologia da USP/Ribeirão) e toma-se suas notas 
médias no vestibular e no primeiro ano da universidade. Constrói-se uma tabela, um 
diagrama de dispersão e, caso se desconfie que haja uma relação linear, determina-se a 
linha de regressão e o coeficiente de correlação. 
 
Estudante 
Média do vestibular 
(X) 
Média do primeiro ano 
(1≤C.R.≤5) (Y) 
1 24 1,5 
2 61 3,5 
3 30 1,7 
4 48 2,7 
5 60 3,4 
6 32 1,6 
7 19 1,2 
8 22 1,3 
9 41 2,2 
10 46 2,7 
 
182
10
821
10
,,
Yi
Y === ∑ ; 338
10
383
10
,
X
X === ∑ 
( )∑ =− 120982 ,XX ; ( )∑ =− 54,62YY 
( )( )∑ =−− 16116,YY XX 
 
Com o auxílio dos dados obtidos: 
( )( )
( )
05,0
1,2098
16,116 
2 ==
−
−−
=
∑
∑
XX
YYXX
b , 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
12 
( )( ) 06,03,38 0554,018,2 =−=−= XbYa . 
Então: 
XY 05,006,0ˆ += 
 
Diagrama de dispersão para os dados do exemplo 
 
 
Variância em torno de Ŷ: 
( ) ( )
=
−
−−−
=
∑ ∑
2
222
2
n
XXbYY
S iyXY 
( ) ( )
⇒=
−
= 012,0
8
1,209805,054,6 2 
⇒Erro padrão da previsão 11,02 === XYXY SS 
 
Coeficiente de correlação: 
( )( )
( ) ( ) ( )( )
990
536612098
16116
22
,
, ,
,
YYXX
YY XXr ==
∑ ∑ −−
∑ −−= (forte relação 
linear positiva) 
 
Um estudante com média no vestibular = 40 teria, de acordo com a análise de regressão 
feita, C.R. no 1º ano = Ŷ = 0,06+0,05 (40) = 2,27. 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
13 
 
2. A tabela abaixo fornece os valores médios, antes da 2ª Guerra Mundial, da ingestão 
diária de calorias e da taxa de mortalidade infantil para alguns países selecionados. 
Países 
Nº de calorias por 
pessoa por dia (X) 
Taxa de 
mortalidade infantil 
por 1.000 (Y) 
Argentina 2.730 98,8 
Burma 2.080 202,1 
Ceilão 1.920 182,8 
Chile 2.240 240,8 
Colômbia 1.860 155,6 
Cuba 2.610 116,8 
Egito 2.450 162,9 
Índia 1.970 161,6 
Uruguai 2.380 94,1 
a) Faça o diagrama de dispersão para estes dados; 
b) Calcule a reta de regressão para os dados e desenhe-a no diagrama; 
c) Calcule o coeficiente de correlação. 
 
2249=X ; 157=Y ; ( )( )∑ −=−− 67163YY XX ; 
( ) 7852892 =∑ − XX ; ( )∑ =− 187402YY . 
( )( )
( )
08550
785289
67163
2
,
XX
YY XXb −=−=
∑ −
∑ −−= ; 
( ) 349224908550157 =×−−=−= ,XbYa ; Xˆ,Yˆ 08550349−= 
( )( )
( ) ( )
55360
121311
67163
18740785289
67163
22
,
YYXX
YY XXr −=−=
×
−
=
∑ ∑ −−
∑ −−= 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
14 
90
110
130
150
170
190
210
230
250
1800 2000 2200 2400 2600 2800
 
 
3. Os lucros de uma companhia no período de 1990 a 1994 são dados abaixo. Obtenha a 
reta de regressão e o coeficiente de correlação para os dados. Com base na reta obtida, 
estime o lucro para 1995. 
 
Ano 
(t) 
X 
Lucro 
(milhões 
US$) 
( )XX − ( )YY − ( )2XX − ( )2YY − ( )XX − ( )YY − 
1990 0 2,3 - 2 
- 
2,16 
4 4,67 4,32 
1991 1 2,9 - 1 
- 
1,56 
1 2,43 1,56 
1992 2 5,2 0 0,74 0 0,55 0 
1993 3 5,8 1 1,34 1 1,80 1,34 
1994 4 6,1 2 1,64 4 2,69 3,28 
 
Quando uma das variáveis é o ano, não é conveniente usá-la para fazer os cálculos 
(isso os tornaria muito trabalhosos). É mais fácil definir uma outra variável X a partir do 
tempo em anos. Por exemplo, aqui escolheu-se o ano de 1990 como o ano para o qual X = 
0. A partir daí, acrescenta-se 1 à variável X para cada ano. Portanto: 
 
⇒==== 46453222510 ,/,Y;/X 
( )( ) ( ) ( )∑ ∑ ∑ ⇒=−=−=−−⇒ 141221025010 ,YY;XX;,YY XX 
Reta de Regressão 
Probabilidade e Estatística I – Antonio Roque – Aula 25 
 
 
15 
⇒=×−=−===⇒ 3622051464051
10
510 ,,,XbYa;,,b 
X,,Yˆ 051362 +=⇒ 
95280
0211
5010
141210
5010 ,
,
,
,
,r ==
×
= 
A estimativa de lucros para 95 é: 
617505136251995 ,,,Yˆx =×+=⇒=→ 
2
3
4
5
6
7
90 91 92 93 94 95
Ano
Lu
cr
o 
(m
ilh
õe
s U
S$
)

Continue navegando