Correlacao_e_regressao_completo

Probabilidade e Estatística

•

UFSCAR

0

Fernando Bonfim

02/12/2013

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Probabilidade e Estatística

29.905 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Correlação e Regressão Linear Simples 
 
Ao se analisar dados de uma pesquisa, muitas vezes, tem-se o interesse em se 
analisar a existência de associação entre duas variáveis. Aqui estudaremos a 
associação entre duas variáveis quantitativas. 
Exemplos: 
1) O número anual de visitantes em um destino turístico pode estar associado à 
quantidade gasta em propaganda sobre aquela localidade. 
2) A arrecadação anual de impostos gerados pelo setor de locação de 
automóveis pode estar associada à frota do setor. 
3) A demanda por um pacote turístico pode estar associada ao preço do pacote. 
 
Uma ferramenta que nos permite observar o tipo de relação entre duas variáveis 
quantitativas é o Diagrama de Dispersão. Esse gráfico consiste na representação 
no plano cartesiano, de pontos formados pelos pares de observações de duas 
variáveis. 
 
Exemplo 1. Considere os dados a seguir referente à frota de veículos (X) do setor de 
locação de automóveis e a arrecadação de impostos do setor (Y). 
Frota (x) em milhares Impostos (Y) em milhões 
155,0 584 
178,0 671 
181,9 697 
203,7 790 
223,8 867 
250,2 941 
283,6 1056 
318,8 1273 
363,4 1443 
 
 
 
 
 
 
 
Diagrama de dispersão para os dados do Exemplo 1. 
 
 
No exemplo, vemos que para valores maiores de X, há uma tendência em 
obtermos valores maiores de Y. Em outras palavras, quanto maior a frota há 
uma tendência em se obter uma maior arrecadação de impostos. Dizemos 
então, que existe uma correlação linear positiva entre X e Y. 
O termo linear é usado para enfatizar que os pontos do diagrama estão 
dispersos em torno de uma reta. E o termo linear positiva é para indicar que há 
uma tendência em obtermos valores maiores de Y para valores maiores de X. 
Pode ocorrer também, de se ter uma correlação linear negativa. Isso ocorre, 
quando há uma tendência em se obter valores menores de uma variável para 
valores maiores da outra. O exemplo 3, do preço de um pacote turístico e a 
demanda pelo pacote, é um exemplo de variáveis que devemos esperar uma 
correlação linear negativa. Um gráfico de dispersão dessas variáveis seria da 
forma: 
 
O interesse quando se estuda correlação linear é quantificar o quão próximos os 
pontos estão de uma reta. Quanto mais próximos os pontos estão de uma reta 
mais forte é a associação entre as duas variáveis. A seguir veremos uma 
maneira de se quantificar a associação entre duas variáveis. 
 
Coeficiente de correlação linear 
O coeficiente de correlação linear é uma mede o grau de associação entre duas 
variáveis quantitativas. Dada uma amostra de pares de observações de duas 
variáveis X e Y: ���, ���, ���, ���, … , ��	, �	� o coeficiente de correlação linear pode 
ser calculado por: 
 �
�
�
��
���
, 
 
em que, ��� � ∑ ����	��� �
∑ ��
�
��� ∑ ��
�
���
	
; 
��� � ∑ ��
�	
��� �
�∑ ��
�
��� �
� 
	
; 
��� � ∑ ��
�	
��� �
�∑ ��
�
��� �
� 
	
. 
 
Observações: 
a) �1 � 
 � 1 , quanto mais próximo de -1 ou de 1, mais forte será a 
correlação linear; 
b) 
 0 indica correlação linear negativa; 
c) 
 " 0 indica correlação linear positiva. 
d) 
 # 0 indica a ausência de correlação linear, porém mesmo quando 
 # 0 
pode haver outro tipo de correlação. 
 
Exemplo. Calcule o coeficiente de correlação linear entre as variáveis frota (x) e 
impostos (Y). 
Solução. Para calcular o coeficiente de correlação linear, construímos a seguinte 
tabela auxiliar. 
x Y XY X2 Y2 
155,0 584 90520,0 24025,00 341056 
178,0 671 11943,0 31684,00 450241 
181,9 697 126784,3 33087,61 485809 
203,7 790 160923,0 41493,69 624100 
223,8 867 194034,6 50086,44 751689 
250,2 941 235438,2 62600,04 885481 
283,6 1056 299481,6 80428,96 1115136 
318,8 1273 405959,7 101697,21 1620529 
363,4 1443 524530,5 132132,25 2082249 
∑ ��	��� = 
2.158,6 
∑ ��	��� = 
8.322 
∑ ����	��� = 
2.157.110 
∑ ��
�	
��� = 
557235,2 
∑ ��
�	
��� = 
8.356.290 
 
 
Da tabela obtemos: 
��� � 2.157.110 �
�.�(),*+).,�� 
-
 = 161.124,4; 
��� � 39.506,98; ��� � 661.214 
 � �*�.��3,3
√,-.(5*,-)+**�.��3
� 0,9969. 
Fernando
Pencil
Fernando
Pencil
Fernando
Pencil
Fernando
Typewriter
Positiva;
Fernando
Typewriter
Negativa;
O valor obtido para o coeficiente de correlação está próximo de 1, indicando que há 
uma forte correlação linear positiva entre as variáveis X (frota) e Y(impostos do 
setor). 
 
Exercício. A seguir são apresentados os dados sobre a chegada de Turistas 
internacionais na América do Sul e no Brasil. Construa um diagrama de dispersão e 
calcule o coeficiente de correlação. Com base nos resultados obtidos discuta a 
existência de correlação entre essas duas variáveis e a forma de correlação se 
houver. 
Tabela. Chegada de turistas internacionais. Fonte: OMT 
Ano América do Sul Brasil 
2000 15,2 5,3 
2001 14,6 4,8 
2002 12,7 3,8 
2003 13,7 4,1 
2004 16,2 4,8 
2005 18,3 5,4 
2006 18,8 5 
2007 20,1 5 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
A seguir são apresentados alguns gráficos de dispersão. Em cada caso, escolha 
uma opção para o valor do coeficiente de correlação que seja mais adequada ao 
diagrama apresentado e indique se há correlação e o tipo de correlação se houver. 
 
a) 0 " 
 " 1 
b) �1 " 
 " 0 
c) 
 # 0 
d) 
 � �1 
e) 
 � 1 
 
 
a) 0 " 
 " 1 
b) �1 " 
 " 0 
c) 
 # 0 
d) 
 � �1 
e) 
 � 1 
 
 
 
a) 0 " 
 " 1 
b) �1 " 
 " 0 
c) 
 # 0 
d) 
 � �1 
e) 
 � 1 
 
 
a) 0 " 
 " 1 
b) �1 " 
 " 0 
c) 
 # 0 
d) 
 � �1 
e) 
 � 1 
 
a) 
b) 6� 0 " 
 " 1 
 b) �1 " 
 " 0 
d) 7� 
 # 0 
e) 8� 
 � �1 
 9� 
 � 1 
 
 
 
a) 0 " 
 " 1 
b) �1 " 
 " 0 
c) 
 # 0 
d) 
 � �1 
e) 
 � 1 
 
 
 
 
 
Exercícios. Em cada caso, construa o diagrama de dispersão, obtenha o 
coeficiente de correlação e discuta os resultados. 
 
1) Os dados a seguir se referem aos gastos com propagandas e vendas em 
milhares de reais. 
Propaganda 2 4 6 8 8 12 
Vendas 58 70 105 88 118 117 
 
 
 
 
 
 
 
Regressão Linear 
 
Vimos anteriormente que o diagrama de dispersão, nos permite observar a 
existência de algum tipo de associação entre duas variáveis quantitativas. Vimos 
também que o coeficiente de correlação linear nos permite quantificar o “grau” de 
associação entre duas variáveis, isto é, o quanto os pontos do diagrama de 
dispersão se aproximam de uma reta. 
Em algumas situações, sabendo que duas variáveis estão correlacionadas, 
podemos tentar prever valores de uma das variáveis em função da outra. 
 
Exemplo. Considere os dados a seguir e o diagrama de dispersão entre as 
variáveis propaganda e vendas. 
Propaganda 2 4 6 8 8 12 
Vendas 58 70 105 88 118 117 
 
Figura. Diagrama de dispersão para vendas x propaganda 
 
O diagrama de dispersão da figura sugere que há uma tendência em se obter 
valores maiores de vendas para valores maiores investidos em propaganda. E que 
essa tendência é linear, isto é, que os pontos do diagrama estão dispersos em torno 
de uma linha reta (conforme mostra a figura a seguir). 
 
Visto que propaganda e vendas estão correlacionados, podemos então prever 
valores de uma variável em função da outra? Como? 
Para prever valores de uma variável em função da outra, devemos 
estabelecer a equação da reta em torno da qual os pontos do diagrama de dispersão 
se distribuem. A reta a ser obtida é chamada de reta de regressão e sua equação 
é conhecida como equação de regressão. 
A equação de uma reta é dada por � � 6 : ;�. Devemos então estabelecer 
valores de 6 e de ; de tal forma que a reta represente adequadamente a relação 
entre x e y. Os valores de 6e ; da reta de regressão são dados pelas seguintes 
fórmulas: 
 
;< �
∑ ����
�
��� =
∑ 
�
�
��� ∑ ��
�
���
�
∑ ��
��
��� =
�∑ 
�
�
��� �
� 
�
�
�
�
�
 ; 
 
6> � �? � ;<�@ . 
Esses valores nos fornecem uma reta que passa o mais próximo possível de todos 
os pontos do diagrama de dispersão. Isto é, a reta tal que a soma dos quadrados 
das diferenças entre os valores observados e os valores esperados seja a menor 
possível. Assim os valores obtidos usando-se as fórmulas 6> e ;< são chamados de 
estimadores de mínimos quadrados. E a reta ajustada de regressão dada por: 
�> � 6> : ; A� 
é também chamada de reta de mínimos quadrados. 
Vamos então estabelecer uma reta de regressão usando os dados de propaganda e 
vendas. Para isso, vamos definir qual será a variável dependente (Y) e qual será a 
variável independente ou explicativa (x). Considerando que queremos estimar as 
vendas em função da propaganda, vamos definir Y: vendas e x: propaganda. 
 
x 
(propaganda) 
y (vendas) xy x2 Y2 
2 58 116 4 3364 
4 70 280 16 4900 
6 105 630 36 11025 
8 88 704 64 7744 
8 118 944 64 13924 
12 117 1404 144 13689 
40 556 4078 328 54646 
 
Obtenha a equação para as vendas em função da propaganda; 
Qual é a porcentagem na variação das vendas explicada pela propaganda? 
Qual seria a venda estimada para um gasto de 6 mil em propaganda? E para um 
gasto de 7 mil? 
Qual é a mudança esperada no valor das vendas para um aumento de 1 mil em 
propaganda? 
Qual seria a venda estimada se não fosse gasto nada em propaganda? 
Faça um diagrama de dispersão para vendas x propaganda e trace a reta de 
regressão sobre o diagrama. 
 
 
 
 
 
 
 
 
 
Exercícios. 
1) Considere os dados a seguir referente à demanda e ao preço de venda de 
passagens aéreas. 
 
Preço Demanda 
33 300 
25 400 
24 500 
18 600 
12 700 
10 800 
8 900 
4 1000 
 
 
 
a) Ajuste uma reta de regressão para a demanda em função do preço de 
venda. 
b) Calcule a porcentagem da variação da demanda explicada pelo preço; 
c) Interprete os valores de a e b obtidos; 
d) Qual seria o valor esperado da demanda quando os preços eram : 25 e 
10? Qual é o erro associado em relação à demanda observada para esses 
preços? 
e) Faça a previsão da demanda para os seguintes preços: 5 e 30. 
f) Construa o diagrama de dispersão e trace a reta de regressão ajustada.