Baixe o app para aproveitar ainda mais
Prévia do material em texto
Correlação e Regressão Linear Simples Ao se analisar dados de uma pesquisa, muitas vezes, tem-se o interesse em se analisar a existência de associação entre duas variáveis. Aqui estudaremos a associação entre duas variáveis quantitativas. Exemplos: 1) O número anual de visitantes em um destino turístico pode estar associado à quantidade gasta em propaganda sobre aquela localidade. 2) A arrecadação anual de impostos gerados pelo setor de locação de automóveis pode estar associada à frota do setor. 3) A demanda por um pacote turístico pode estar associada ao preço do pacote. Uma ferramenta que nos permite observar o tipo de relação entre duas variáveis quantitativas é o Diagrama de Dispersão. Esse gráfico consiste na representação no plano cartesiano, de pontos formados pelos pares de observações de duas variáveis. Exemplo 1. Considere os dados a seguir referente à frota de veículos (X) do setor de locação de automóveis e a arrecadação de impostos do setor (Y). Frota (x) em milhares Impostos (Y) em milhões 155,0 584 178,0 671 181,9 697 203,7 790 223,8 867 250,2 941 283,6 1056 318,8 1273 363,4 1443 Diagrama de dispersão para os dados do Exemplo 1. No exemplo, vemos que para valores maiores de X, há uma tendência em obtermos valores maiores de Y. Em outras palavras, quanto maior a frota há uma tendência em se obter uma maior arrecadação de impostos. Dizemos então, que existe uma correlação linear positiva entre X e Y. O termo linear é usado para enfatizar que os pontos do diagrama estão dispersos em torno de uma reta. E o termo linear positiva é para indicar que há uma tendência em obtermos valores maiores de Y para valores maiores de X. Pode ocorrer também, de se ter uma correlação linear negativa. Isso ocorre, quando há uma tendência em se obter valores menores de uma variável para valores maiores da outra. O exemplo 3, do preço de um pacote turístico e a demanda pelo pacote, é um exemplo de variáveis que devemos esperar uma correlação linear negativa. Um gráfico de dispersão dessas variáveis seria da forma: O interesse quando se estuda correlação linear é quantificar o quão próximos os pontos estão de uma reta. Quanto mais próximos os pontos estão de uma reta mais forte é a associação entre as duas variáveis. A seguir veremos uma maneira de se quantificar a associação entre duas variáveis. Coeficiente de correlação linear O coeficiente de correlação linear é uma mede o grau de associação entre duas variáveis quantitativas. Dada uma amostra de pares de observações de duas variáveis X e Y: ���, ���, ���, ���, … , �� , � � o coeficiente de correlação linear pode ser calculado por: � � � �� ��� , em que, ��� � ∑ ���� ��� � ∑ �� � ��� ∑ �� � ��� ; ��� � ∑ �� � ��� � �∑ �� � ��� � � ; ��� � ∑ �� � ��� � �∑ �� � ��� � � . Observações: a) �1 � � 1 , quanto mais próximo de -1 ou de 1, mais forte será a correlação linear; b) 0 indica correlação linear negativa; c) " 0 indica correlação linear positiva. d) # 0 indica a ausência de correlação linear, porém mesmo quando # 0 pode haver outro tipo de correlação. Exemplo. Calcule o coeficiente de correlação linear entre as variáveis frota (x) e impostos (Y). Solução. Para calcular o coeficiente de correlação linear, construímos a seguinte tabela auxiliar. x Y XY X2 Y2 155,0 584 90520,0 24025,00 341056 178,0 671 11943,0 31684,00 450241 181,9 697 126784,3 33087,61 485809 203,7 790 160923,0 41493,69 624100 223,8 867 194034,6 50086,44 751689 250,2 941 235438,2 62600,04 885481 283,6 1056 299481,6 80428,96 1115136 318,8 1273 405959,7 101697,21 1620529 363,4 1443 524530,5 132132,25 2082249 ∑ �� ��� = 2.158,6 ∑ �� ��� = 8.322 ∑ ���� ��� = 2.157.110 ∑ �� � ��� = 557235,2 ∑ �� � ��� = 8.356.290 Da tabela obtemos: ��� � 2.157.110 � �.�(),*+).,�� - = 161.124,4; ��� � 39.506,98; ��� � 661.214 � �*�.��3,3 √,-.(5*,-)+**�.��3 � 0,9969. Fernando Pencil Fernando Pencil Fernando Pencil Fernando Typewriter Positiva; Fernando Typewriter Negativa; O valor obtido para o coeficiente de correlação está próximo de 1, indicando que há uma forte correlação linear positiva entre as variáveis X (frota) e Y(impostos do setor). Exercício. A seguir são apresentados os dados sobre a chegada de Turistas internacionais na América do Sul e no Brasil. Construa um diagrama de dispersão e calcule o coeficiente de correlação. Com base nos resultados obtidos discuta a existência de correlação entre essas duas variáveis e a forma de correlação se houver. Tabela. Chegada de turistas internacionais. Fonte: OMT Ano América do Sul Brasil 2000 15,2 5,3 2001 14,6 4,8 2002 12,7 3,8 2003 13,7 4,1 2004 16,2 4,8 2005 18,3 5,4 2006 18,8 5 2007 20,1 5 A seguir são apresentados alguns gráficos de dispersão. Em cada caso, escolha uma opção para o valor do coeficiente de correlação que seja mais adequada ao diagrama apresentado e indique se há correlação e o tipo de correlação se houver. a) 0 " " 1 b) �1 " " 0 c) # 0 d) � �1 e) � 1 a) 0 " " 1 b) �1 " " 0 c) # 0 d) � �1 e) � 1 a) 0 " " 1 b) �1 " " 0 c) # 0 d) � �1 e) � 1 a) 0 " " 1 b) �1 " " 0 c) # 0 d) � �1 e) � 1 a) b) 6� 0 " " 1 b) �1 " " 0 d) 7� # 0 e) 8� � �1 9� � 1 a) 0 " " 1 b) �1 " " 0 c) # 0 d) � �1 e) � 1 Exercícios. Em cada caso, construa o diagrama de dispersão, obtenha o coeficiente de correlação e discuta os resultados. 1) Os dados a seguir se referem aos gastos com propagandas e vendas em milhares de reais. Propaganda 2 4 6 8 8 12 Vendas 58 70 105 88 118 117 Regressão Linear Vimos anteriormente que o diagrama de dispersão, nos permite observar a existência de algum tipo de associação entre duas variáveis quantitativas. Vimos também que o coeficiente de correlação linear nos permite quantificar o “grau” de associação entre duas variáveis, isto é, o quanto os pontos do diagrama de dispersão se aproximam de uma reta. Em algumas situações, sabendo que duas variáveis estão correlacionadas, podemos tentar prever valores de uma das variáveis em função da outra. Exemplo. Considere os dados a seguir e o diagrama de dispersão entre as variáveis propaganda e vendas. Propaganda 2 4 6 8 8 12 Vendas 58 70 105 88 118 117 Figura. Diagrama de dispersão para vendas x propaganda O diagrama de dispersão da figura sugere que há uma tendência em se obter valores maiores de vendas para valores maiores investidos em propaganda. E que essa tendência é linear, isto é, que os pontos do diagrama estão dispersos em torno de uma linha reta (conforme mostra a figura a seguir). Visto que propaganda e vendas estão correlacionados, podemos então prever valores de uma variável em função da outra? Como? Para prever valores de uma variável em função da outra, devemos estabelecer a equação da reta em torno da qual os pontos do diagrama de dispersão se distribuem. A reta a ser obtida é chamada de reta de regressão e sua equação é conhecida como equação de regressão. A equação de uma reta é dada por � � 6 : ;�. Devemos então estabelecer valores de 6 e de ; de tal forma que a reta represente adequadamente a relação entre x e y. Os valores de 6e ; da reta de regressão são dados pelas seguintes fórmulas: ;< � ∑ ���� � ��� = ∑ � � ��� ∑ �� � ��� � ∑ �� �� ��� = �∑ � � ��� � � � � � � � ; 6> � �? � ;<�@ . Esses valores nos fornecem uma reta que passa o mais próximo possível de todos os pontos do diagrama de dispersão. Isto é, a reta tal que a soma dos quadrados das diferenças entre os valores observados e os valores esperados seja a menor possível. Assim os valores obtidos usando-se as fórmulas 6> e ;< são chamados de estimadores de mínimos quadrados. E a reta ajustada de regressão dada por: �> � 6> : ; A� é também chamada de reta de mínimos quadrados. Vamos então estabelecer uma reta de regressão usando os dados de propaganda e vendas. Para isso, vamos definir qual será a variável dependente (Y) e qual será a variável independente ou explicativa (x). Considerando que queremos estimar as vendas em função da propaganda, vamos definir Y: vendas e x: propaganda. x (propaganda) y (vendas) xy x2 Y2 2 58 116 4 3364 4 70 280 16 4900 6 105 630 36 11025 8 88 704 64 7744 8 118 944 64 13924 12 117 1404 144 13689 40 556 4078 328 54646 Obtenha a equação para as vendas em função da propaganda; Qual é a porcentagem na variação das vendas explicada pela propaganda? Qual seria a venda estimada para um gasto de 6 mil em propaganda? E para um gasto de 7 mil? Qual é a mudança esperada no valor das vendas para um aumento de 1 mil em propaganda? Qual seria a venda estimada se não fosse gasto nada em propaganda? Faça um diagrama de dispersão para vendas x propaganda e trace a reta de regressão sobre o diagrama. Exercícios. 1) Considere os dados a seguir referente à demanda e ao preço de venda de passagens aéreas. Preço Demanda 33 300 25 400 24 500 18 600 12 700 10 800 8 900 4 1000 a) Ajuste uma reta de regressão para a demanda em função do preço de venda. b) Calcule a porcentagem da variação da demanda explicada pelo preço; c) Interprete os valores de a e b obtidos; d) Qual seria o valor esperado da demanda quando os preços eram : 25 e 10? Qual é o erro associado em relação à demanda observada para esses preços? e) Faça a previsão da demanda para os seguintes preços: 5 e 30. f) Construa o diagrama de dispersão e trace a reta de regressão ajustada.
Compartilhar