Baixe o app para aproveitar ainda mais
Prévia do material em texto
Probabilidade e Estatística I – Antonio Roque – Aula 25 1 Regressão e Correlação Linear Até o momento, vimos técnicas estatísticas em que se estuda uma variável de cada vez, estabelecendo-se sua distribuição de freqüências, média, desvio padrão, etc. Em muitos casos, porém, é necessário estudar duas ou mais variáveis ao mesmo tempo. Por exemplo, pode-se obter mais informações estudando peso e altura juntos do que estudando cada um separadamente; ou ainda, renda mensal junto com gastos com livros. Neste capítulo veremos alguns métodos usados para estudar ao mesmo tempo duas variáveis. Em geral estuda-se duas variáveis ao mesmo tempo com o objetivo de determinar se há alguma relação entre elas e, se houver, qual o tipo dessa relação. Pode-se, por exemplo, pesquisar uma relação entre idade e tempo de sobrevivência em casos de cirurgia, ou procurar saber que tipo de relação (linear, exponencial ou outra) existe entre tempo de permanência de um paciente num programa de atendimento domiciliar e os custos do atendimento. Outras vezes estudam-se duas variáveis conjuntamente na expectativa de se poder usar uma delas para prever a outra. Por exemplo, será que se pode prever o gasto de uma família com balas e chocolates conhecendo-se a sua renda mensal? Fundamentos Quando se consideram duas variáveis aleatórias ao mesmo tempo, X e Y, as técnicas estatísticas aplicadas são as de regressão e correlação. As duas técnicas estão relacionadas, mas são usadas para diferentes propósitos. O objetivo mais comum da análise de regressão é obter uma equação que possa ser usada para prever ou estimar o valor de uma variável em função de um dado valor de uma outra variável. A análise de correlação, por outro lado, é usada para se obter uma medida do grau ou da força da associação entre duas variáveis. Tanto para regressão como para correlação, os dados consistem de pares de medidas selecionadas da população de interesse. Por exemplo, um comitê elaborador de vestibular (FUVEST, p. ex.) pode querer saber se há alguma associação entre a média das notas Probabilidade e Estatística I – Antonio Roque – Aula 25 2 obtidas na escola de 2º grau e a média das notas obtidas no exame vestibular. Os dados podem ser arranjados como abaixo, onde o par de números (Xi, Yi) dá as médias das notas do 2º grau e do vestibular para o i-ésimo aluno da amostra. Aluno Média do 2º grau Média do vestibular 1 X1 Y1 2 X2 Y2 ξ ξ ξ n Xn Yn A decisão final sobre se é razoável ou não assumir que existe uma relação entre Y e X será baseada na análise de regressão e correlação. Obtém-se uma equação matemática expressando uma relação entre Y e X e usa-se testes de hipóteses para se decidir se a equação é provável ou não. Caso a equação seja provável, ela pode ser usada para predizer possíveis valores de Y a partir de valores de X. Antes, porém, de se fazer uma análise de regressão para um conjunto de pares de dados é importante escolher adequadamente quais as duas variáveis que se vai estudar conjuntamente. Se, por exemplo, há o interesse em estudar o consumo de balas, biscoitos e chocolates por família de uma dada região, deve-se inicialmente construir alguma hipótese sobre quais variáveis podem estar associadas a ele. Por exemplo, algumas dessas variáveis poderiam ser renda familiar, número de crianças na família, número de pessoas na família, idade média da família, etc. Uma vez determinadas as duas variáveis que serão estudadas, deve-se definir qual será considerada como a variável dependente e qual será a variável independente. A variável independente, em geral descrita por x, é a que vai determinar o comportamento da outra variável, por isto chamada de dependente, em geral descrita por y. A variável dependente (y) é aquela que queremos estudar e a variável independente (x) é aquela que, segundo nossa hipótese, causa alguma modificação em y. Em textos de economia costuma- Probabilidade e Estatística I – Antonio Roque – Aula 25 3 se chamar a variável independente de exógena, porque ela está fora do sistema em estudo, e a variável dependente de endógena, porque ela faz parte do sistema em estudo. Em muitos casos é fácil determinar, entre duas variáveis, qual deve ser a independente e qual será a dependente. Usando de novo o exemplo do consumo familiar de balas, biscoitos e chocolates, vemos que esta deve ser a variável dependente quando se escolhe a renda familiar como outra variável, a qual seria então a variável independente. Seria absurdo supor que é o consumo de guloseimas que determina a renda de uma família. Agora, em um caso em que se quer estudar as variáveis vendas de jornais sensacionalistas (tipo Notícias Populares) e vendas de bebidas alcoólicas em uma dada região fica mais difícil decidir qual deve ser tratada como dependente e qual como independente. Em casos como este a decisão sobre qual variável será a dependente e qual será a independente depende do modelo teórico ou da interpretação adotada pelo investigador, mas isto não irá influenciar os métodos de regressão e correlação descritos a seguir. O diagrama de dispersão A técnica mais simples e provavelmente mais útil para estudar a relação entre duas variáveis é o diagrama de dispersão. Em um diagrama de dispersão, cada um dos n pares de observações (Xi,Yi), i = 1, ..., n, é representado graficamente como um único ponto. Os Xs são colocados no eixo horizontal (abscissa) e os Ys são colocados no eixo vertical (ordenada). Olhando para o arranjo dos pontos no gráfico, pode-se discernir um padrão indicador da forma funcional subjacente aos dados. Algumas possíveis formas funcionais estão indicadas a seguir: X Y X Y X Y a) linear b) não-linear c) sem relação Probabilidade e Estatística I – Antonio Roque – Aula 25 4 O caso (a) é o de uma relação linear entre Y e X, que pode ser representada por uma reta. O caso (b) é o de uma relação curvilínea, ou não-linear, que pode ser representada por uma função não-linear. O caso (c) é um em que não há relação entre Y e X: o valor de Y (maior ou menor) não depende de X. Nesta aula, só iremos considerar relações lineares. Regressão linear simples Como exemplo introdutório da análise de regressão, vamos considerar dados relacionando pressão sangüínea sistólica com nível de dosagem de uma droga anti- hipertensão. Nível de dosagem da droga (mg) Pressão sangüínea sistólica média (mm Hg) 2 278 3 240 4 198 5 132 6 111 Olhando para os dados, vemos que alguma relação existe entre eles: quanto maior o nível de dosagem, menor a pressão sangüínea. Estes dados estão mostrados no diagrama de dispersão abaixo. Observe que nem todos os pontos caem exatamente sobre uma linha reta, mas a tendência é que os valores de Y decresçam de uma maneira aproximadamente linear à medida que os valores de X cresçam. Isto indica que a relação entre Y e X pode ser linear e pode ser descrita por uma linha reta. Vamos tentar determinar uma “equação” para essa reta. Probabilidade e Estatística I – Antonio Roque – Aula 25 5 0 50 100 150 200 250 300 1 2 3 4 5 6 7 Nível de dosagem da droga anti-hipertensiva Pr es sã o sa ng üí ne a sis tó lic a Diagrama de dispersão para os dados da tabela acima. Qualquer linha reta tem a forma geral: bXaY += , onde b dá a inclinação da linha e a é o ponto onde a linha cruza o eixo Y. Para quaisquer dois pontos, é fácil determinar a linha reta que os une; porém, para três ou mais pontos,como no caso em questão, é em geral impossível encontrar uma linha reta que passe por todos os pontos. Neste caso, o que se tenta fazer é encontrar a linha reta que melhor represente a configuração dos pontos. Uma ilustração disto é dada pelo gráfico abaixo: O chapéu sobre o Y, (Ŷ), indica que a reta da figura, cuja equação é bXaY +=ˆ , é uma estimativa para a hipotética reta verdadeira. As distâncias dos pontos para a linha são dadas por: iii YYd ˆ−= , onde ii bXaY +=ˆ . A reta bXaYˆ += tenta minimizar as distâncias (ou desvios, ou ainda resíduos) id dos pontos para ela: pode-se perceber isto visualmente. Para o gráfico acima, 1 d é positiva, 2 d é negativa e 3 d é positiva. Poderíamos somar as três distâncias e tentar encontrar alguma maneira matemática de minimizar seu valor. Porém, é comum que desvios em torno de algum valor se anulem quando somados, como no caso do desvio médio. Probabilidade e Estatística I – Antonio Roque – Aula 25 6 Para se medir o grau de adequação (ou ajuste) de uma linha reta a um conjunto de pontos, é mais conveniente calcular a soma dos quadrados dos desvios. Esta é sempre uma quantidade positiva e é a que se costuma usar para medir o ajuste dos pontos pela reta: ( )∑∑ −= 22 iˆii YYd . O método usado para se encontrar a reta que mais se ajuste a um conjunto de pontos utilizando a fórmula acima é chamado de método dos mínimos quadrados e a reta calculada é chamada de reta de regressão. O método é chamado de “mínimos quadrados” porque o seu objetivo é encontrar a reta Yˆ que minimize a soma dos quadrados da equação. A discussão formal deste método não será feita aqui. Apenas os seus princípios serão dados. Para uma dada reta bXaY +=ˆ , a soma dos quadrados dos desvios é escrita como ( ) ( )∑ ∑ −−=−=Φ 22ˆ iii bXaYYY . Esta somatória pode ser vista como uma função dos parâmetros a e b, pois variando-se os valores de a e de b altera-se o valor da soma dos quadrados dos desvios. Note que a forma funcional desta função é a de um parabolóide (pois a dependência de maior ordem em a e b é quadrática), de maneira que existe um par (a, b) para o qual ela tem um valor mínimo. Pela teoria dos máximos e mínimos do Cálculo, o ponto de mínimo (a, b) é determinado pela condição de que ele seja um extremo, ou seja .0 e 0 = ∂ Φ∂ = ∂ Φ∂ ba Calculando as derivadas chega-se a um sistema de equações algébricas com duas incógnitas, a e b. Resolvendo esse sistema de equações chega-se aos valores de a e b: ( )( ) ( )∑ ∑ − −− = i i i ii XX YYXX b 2 ; XbYa −= , onde X e Y são as médias dos valores de X e Y, respectivamente. Há uma fórmula mais simples para o cálculo de b, que pode ser obtida expandindo-se os termos entre parênteses. O resultado (tente obtê-lo como exercício) é: Probabilidade e Estatística I – Antonio Roque – Aula 25 7 ∑ ∑ ∑ ∑ ∑ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − − = i i ii i i i iiii XXn YXYXn b 2 2 , onde n é o número de pares de pontos. Voltando agora ao exemplo sobre pressão sangüínea sistólica, temos que a reta de regressão que melhor se ajusta à amostra de pontos ( )ii YX , é dada por bXaYˆ += onde a e b são dados pelas fórmulas acima. Para calcular a reta de regressão devemos montar uma tabela como a mostrada abaixo: Dados para o cálculo da linha de regressão para nível de dosagem da droga (X) e pressão sangüínea sistólica (Y): n X Y X2 Y2 X.Y 1 2 278 4 77284 556 2 3 240 9 57600 720 3 4 198 16 39204 792 4 5 132 25 17424 660 5 6 111 36 12321 666 Soma 20 959 90 203833 3394 A partir dos valores da tabela, calculamos: 8191 5 959 , n YY ==∑= ; 04 5 20 , n XX ==∑= 2,44 50 2210 2090.5 959.203394.5 2 −=−=− − =b ; ( ) 6368042448191 ,, ,,XbYa =−−=−= X,,Yˆ 2446368 −= Probabilidade e Estatística I – Antonio Roque – Aula 25 8 Gráfico de Ŷ=368,6- 44,2X Conhecendo-se a equação para a reta, ela pode ser traçada determinando-se 2 pontos. Por exemplo, para 2=X e 7=X a equação dá, respectivamente: 2280,Yˆ = e 259,Yˆ = . É assim que se traçou o gráfico acima. Note que a reta traçada representa bem os pontos do gráfico de dispersão, pelo menos visualmente. Ainda nesta aula, quando tratarmos de correlação linear, veremos como medir de maneira quantitativa a força desse ajuste linear entre os pontos e a reta. A variância em torno da linha de regressão Assim como se pode definir uma variância (ou desvio padrão) de um conjunto de pontos em torno de seu valor médio Y , também se pode definir uma variância (ou desvio padrão) de um conjunto de pontos ordenados Yi em torno da sua linha de regressão Ŷ. Esta quantidade, denotada por 2XYS , é definida como ( ) 2 ˆ 2 2 − − = ∑ n YY S i i XY , e a sua raiz quadrada, chamada de erro padrão da previsão, é dada por 2 XYXY SS = . Esta última quantidade é análoga ao desvio padrão visto nas aulas de estatística descritiva. Ela dá uma medida do desvio “médio” dos valores observados Yi em relação ao valor predito Ŷ pela linha de regressão. Note que a única diferença da definição de 2XYS para a da variância usual é que se dividiu por n − 2 ao invés de por n − 1. Ŷ=368,6 – 44,2 X Probabilidade e Estatística I – Antonio Roque – Aula 25 9 Para um conjunto grande de dados a computação de cada ( )YYi ˆ− é trabalhosa quando deve ser feita manualmente. Existe, porém, uma fórmula algebricamente equivalente par 2XYS que simplifica os cálculos: ( ) ( ) 2 222 2 − −−− = ∑ ∑ n XXbYY S i ii XY . Com o uso da tabela para os dados de pressão sistólica temos: ( ) 1,117,122 3 0,368 25 102,444,19904 2 2 2 ==⇒== − ×−− = XYXYXY SSS Da fórmula acima, vê-se que a variância em relação à reta Ŷ é igual à variância em relação à média Y se 0=b (inclinação nula) e se n for muito grande, de maneira que .12 −≅− nn O coeficiente de correlação linear Em geral, na análise de correlação, procura-se determinar a “força” de uma relação funcional entre duas variáveis. A medida mais comumente usada para o grau de associação linear entre Y e X é o chamado coeficiente de correlação de Pearson (ou simplesmente coeficiente de correlação), denotado por r, e definido como ( )( ) ( ) ( ) n YY n XX n YYXX r ∑∑ ∑ −− −− = 22 . O termo no numerador desta fórmula é chamado de covariância de X e Y. Note que ele se parece muito com a variância, só que agora aparecem os desvios tanto de X como de Y em relação às suas médias. A covariância mede a variação conjunta de X e Y em torno de suas médias. Já o termo no denominador é o produto do desvio padrão de X pelo desvio padrão de Y. Expandindo-se os termos entre parênteses, a fórmula do coeficiente de correlação pode ser reescrita em uma forma mais fácil para o cálculo, que é a seguinte (tente obtê-la como exercício): Probabilidade e Estatística I – Antonio Roque – Aula 25 10 ( )[ ] ( )[ ]∑ ∑∑ ∑ ∑∑∑ −− − = 2222 YYnXXn YXXYn r Os valores de r estão sempre no intervalo 11 +≤≤− r . Um valor “grande” de r (positivo ou negativo) indica uma forte relação linear entre X e Y. Um valor negativo de r indica que grandes valores de X estão associados a baixos valores de Y, ou baixos valores de X estão associados a grandes valores de Y (o produto ( )( )∑ −− YY XX será negativo nos dois casos). Já um valor positivo de r indica que grandes valores de X estão associados a grandes valores de Y e que baixos valores de X estão associadosa baixos valores de Y (tanto ( )∑ − XX como ( )∑ −YY terão os mesmos sinais nos dois casos). Os sinais de r e de b (a inclinação da reta Ŷ) são os mesmos: quando a inclinação da reta é negativa, a correlação também é negativa, indicando uma relação inversa entre Y e X. Igualmente, uma relação positiva existe entre Y e X quando r e b são positivos. Uma relação positiva exata ocorre quando 1+=r (todos os pontos estão exatamente sobre a reta), e uma relação negativa exata ocorre quando 1−=r (todos os pontos também estão exatamente sobre a reta, só que ela tem inclinação negativa). Quando 0=r , isto significa que não há relação linear entre as variáveis Y e X. Note que r pode ser zero e ainda assim existir possivelmente alguma relação funcional entre as duas variáveis, mas não-linear. Diagramas de dispersão para os quais 0=r Exercícios Exemplo Probabilidade e Estatística I – Antonio Roque – Aula 25 11 1. Predizer a nota média de um estudante de uma universidade ao final do seu primeiro ano com base na sua nota média do exame vestibular. Seleciona-se uma amostra de interesse (por exemplo estudantes de Biologia da USP/Ribeirão) e toma-se suas notas médias no vestibular e no primeiro ano da universidade. Constrói-se uma tabela, um diagrama de dispersão e, caso se desconfie que haja uma relação linear, determina-se a linha de regressão e o coeficiente de correlação. Estudante Média do vestibular (X) Média do primeiro ano (1≤C.R.≤5) (Y) 1 24 1,5 2 61 3,5 3 30 1,7 4 48 2,7 5 60 3,4 6 32 1,6 7 19 1,2 8 22 1,3 9 41 2,2 10 46 2,7 182 10 821 10 ,, Yi Y === ∑ ; 338 10 383 10 , X X === ∑ ( )∑ =− 120982 ,XX ; ( )∑ =− 54,62YY ( )( )∑ =−− 16116,YY XX Com o auxílio dos dados obtidos: ( )( ) ( ) 05,0 1,2098 16,116 2 == − −− = ∑ ∑ XX YYXX b , Probabilidade e Estatística I – Antonio Roque – Aula 25 12 ( )( ) 06,03,38 0554,018,2 =−=−= XbYa . Então: XY 05,006,0ˆ += Diagrama de dispersão para os dados do exemplo Variância em torno de Ŷ: ( ) ( ) = − −−− = ∑ ∑ 2 222 2 n XXbYY S iyXY ( ) ( ) ⇒= − = 012,0 8 1,209805,054,6 2 ⇒Erro padrão da previsão 11,02 === XYXY SS Coeficiente de correlação: ( )( ) ( ) ( ) ( )( ) 990 536612098 16116 22 , , , , YYXX YY XXr == ∑ ∑ −− ∑ −−= (forte relação linear positiva) Um estudante com média no vestibular = 40 teria, de acordo com a análise de regressão feita, C.R. no 1º ano = Ŷ = 0,06+0,05 (40) = 2,27. Probabilidade e Estatística I – Antonio Roque – Aula 25 13 2. A tabela abaixo fornece os valores médios, antes da 2ª Guerra Mundial, da ingestão diária de calorias e da taxa de mortalidade infantil para alguns países selecionados. Países Nº de calorias por pessoa por dia (X) Taxa de mortalidade infantil por 1.000 (Y) Argentina 2.730 98,8 Burma 2.080 202,1 Ceilão 1.920 182,8 Chile 2.240 240,8 Colômbia 1.860 155,6 Cuba 2.610 116,8 Egito 2.450 162,9 Índia 1.970 161,6 Uruguai 2.380 94,1 a) Faça o diagrama de dispersão para estes dados; b) Calcule a reta de regressão para os dados e desenhe-a no diagrama; c) Calcule o coeficiente de correlação. 2249=X ; 157=Y ; ( )( )∑ −=−− 67163YY XX ; ( ) 7852892 =∑ − XX ; ( )∑ =− 187402YY . ( )( ) ( ) 08550 785289 67163 2 , XX YY XXb −=−= ∑ − ∑ −−= ; ( ) 349224908550157 =×−−=−= ,XbYa ; Xˆ,Yˆ 08550349−= ( )( ) ( ) ( ) 55360 121311 67163 18740785289 67163 22 , YYXX YY XXr −=−= × − = ∑ ∑ −− ∑ −−= Probabilidade e Estatística I – Antonio Roque – Aula 25 14 90 110 130 150 170 190 210 230 250 1800 2000 2200 2400 2600 2800 3. Os lucros de uma companhia no período de 1990 a 1994 são dados abaixo. Obtenha a reta de regressão e o coeficiente de correlação para os dados. Com base na reta obtida, estime o lucro para 1995. Ano (t) X Lucro (milhões US$) ( )XX − ( )YY − ( )2XX − ( )2YY − ( )XX − ( )YY − 1990 0 2,3 - 2 - 2,16 4 4,67 4,32 1991 1 2,9 - 1 - 1,56 1 2,43 1,56 1992 2 5,2 0 0,74 0 0,55 0 1993 3 5,8 1 1,34 1 1,80 1,34 1994 4 6,1 2 1,64 4 2,69 3,28 Quando uma das variáveis é o ano, não é conveniente usá-la para fazer os cálculos (isso os tornaria muito trabalhosos). É mais fácil definir uma outra variável X a partir do tempo em anos. Por exemplo, aqui escolheu-se o ano de 1990 como o ano para o qual X = 0. A partir daí, acrescenta-se 1 à variável X para cada ano. Portanto: ⇒==== 46453222510 ,/,Y;/X ( )( ) ( ) ( )∑ ∑ ∑ ⇒=−=−=−−⇒ 141221025010 ,YY;XX;,YY XX Reta de Regressão Probabilidade e Estatística I – Antonio Roque – Aula 25 15 ⇒=×−=−===⇒ 3622051464051 10 510 ,,,XbYa;,,b X,,Yˆ 051362 +=⇒ 95280 0211 5010 141210 5010 , , , , ,r == × = A estimativa de lucros para 95 é: 617505136251995 ,,,Yˆx =×+=⇒=→ 2 3 4 5 6 7 90 91 92 93 94 95 Ano Lu cr o (m ilh õe s U S$ )
Compartilhar