Baixe o app para aproveitar ainda mais
Prévia do material em texto
CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 1.1 - OBJETIVO DO CAPÍTULO Este capítulo tem como objetivo estudar a maneira como uma variável se relaciona com outras variáveis da mesma população e ainda, medir o grau de associação entre elas. Em muitas situações observamos duas ou mais características simultaneamente, e queremos descobrir o quão ligado estão as duas características envolvidas, ou seja, se o acontecimento de uma interfere no acontecimento de outra. 1.2 - INTRODUÇÃO Freqüentemente procura-se verificar se existe relação entre duas ou mais variáveis, tais como: O peso pode estar relacionado com a idade das pessoas; O consumo das famílias pode estar relacionado com sua renda; As vendas de uma empresa e os gastos promocionais podem relacionar-se, A demanda de um determinado produto e seu preço. Nas Instituições de Ensino Superior – IES há uma relação direta entre a qualidade do ensino e a taxa de inadimplência. O frio está para o setor farmacêutico assim como o dia das mães está para o comércio. Uma vez caracterizada, procura-se descreve-la sob forma matemática, através de uma função. A estimação dos parâmetros dessa função matemática é o objeto da regressão. A origem desse termo remota da Francis Galton (1822-1911), que empregou pela primeira vez num estudo da relação entre alturas pais e filhos. Quando consideramos observações de duas ou mais variáveis, surge um novo problema: as relações que podem existir entre as variáveis estudadas. A partir daí, você pode estudar essas relações, como por exemplo, reduzindo o custo, o preço do produto será reduzido e será possível aumentar a quantidade vendida, ou um funcionário com maior escolaridade terá mais chance de crescer na empresa, etc. Assim, quando consideramos variáveis como peso e altura de um grupo de pessoas, uso do cigarro e incidência do câncer, vocabulário e compreensão da leitura, dominância e submissão, procuramos verificar se existe alguma relação entre as variáveis de cada um dos pares e qual o grau dessa relação. Para isso, é necessário o conhecimento de novas medidas. Sendo a relação entre as variáveis de natureza quantitativa, a correlação é o instrumento adequado para descobrir e medir essa relação. Neste capítulo ficaremos restritos correlação simples, ou linear; mas vale lembrar que em outras aulas veremos regressão exponencial, quadrática dentre outras. Prof. Anderson Dias Gonçalves 2 1.3 - MÉTODO DOS MÍNIMOS QUADRADOS Sempre que utilizamos dados observados para chegar a uma equação matemática que descreve a relação entre duas variáveis, o que constitui um processo conhecido como ajuste de curvas, (ou Modelagem) precisamos encarar três tipos de problemas: Uma vez que tenhamos decidido ajustar uma linha reta a um determinado conjunto de dados, encontramos o segundo tipo de problema, a saber, a determinação da reta particular que, em certo sentido, constitui o melhor ajuste. Para ilustrar o que está em jogo, consideremos o seguinte exemplo. O Sr. Pitágoras é o gerente de uma loja de presentes em uma pequena cidade. Ele acredita que as vendas da loja estejam relacionadas ao número de ônibus de turistas que param na cidade. Coletou os seguintes dados sobre as vendas e o número de ônibus em uma seleção de dias recentes. Veja o quadro abaixo. Número do dia Número de ônibus(x) Vendas ($)(y) 1 24 962 2 30 1181 3 9 578 4 48 1429 5 38 1324 6 15 752 7 5 542 8 38 1355 9 15 788 10 24 998 11 49 1462 12 10 650 13 17 862 14 11 719 15 16 828 Esses quinze pontos de dados (x,y) estão esboçados na figura 1.1 no que se denomina gráfico de dispersão. Isso foi feito com a ajuda de um computador, mas teria sido fácil faze-lo à mão. Para a plotagem desse gráfico poderíamos utilizar softwares como, por exemplo, Excel, MatLab, SPSS, Minitab, dentre outros. No Excel temos a facilidade de utilizar o assistente de gráfico e escolhemos a opção de gráfico de dispersão, como mostra a figura abaixo. Devemos decidir que tipo de curva e, daí, que tipo de equação “de previsão” poderemos utilizar. Devemos encontrar a equação particular que é a melhor em algum sentido. Devemos investigar certas questões relativas aos méritos da equação escolhida e de previsões feitas a partir dela. Prof. Anderson Dias Gonçalves 3 FIG. 1.1 – Assistente de gráfico – Gráfico de Dispersão. Vendas x Número de ônibus 500 600 700 800 900 1000 1100 1200 1300 1400 1500 5 10 15 20 25 30 35 40 45 50 Número de ônibus Nú m er o de v en da s FIG. 1.2 – Gráfico de Dispersão impresso de um computador, software Microsoft Excel. Prof. Anderson Dias Gonçalves 4 Como pode ser visto, os pontos não caem todos sobre uma reta, mas o padrão geral da relação descrito é satisfatoriamente como sendo um modelo linear. Pelo menos não há um desvio acentuado da linearidade, e por isso nos sentimos justificados na decisão de que uma linha reta é a descrição mais adequada da relação subjacente. Chegamos agora ao problema de encontrar a equação de reta que, em certo sentido, constitui o melhor ajuste aos dados e que, esperamos, virá a dar as melhores previsões possíveis de y a partir de x. Do ponto de vista lógico, não há limitações para o número de retas que podem ser traçadas numa folha de papel gráfico. Algumas dessas retas ajustam tão mal aos dados que podemos simplesmente ignora-las, mas muitas outras parecem constituir ajustes mais ou menos bons, e o problema é encontrar justamente a reta que melhor se ajusta aos dados de alguma forma bem definida. Se todos os pontos se situam sobre uma reta, não existe problema, mas isso é um caso extremo, raramente encontrado na prática. O critério que, hoje em dia, é usado quase exclusivamente para definir uma reta de “melhor” ajuste é conhecido como o Método dos Mínimos Quadrados (ou coeficiente de correlação de Pearson). Da maneira que será utilizado aqui, esse método requer que a reta seja ajustada aos dados e tenha a propriedade de que seja mínima a soma dos quadrados das distâncias verticais dos pontos à reta. Definição: Dados n pares de valores ),(),...,,(),,( 2211 nn yxyxyx , chamaremos de coeficiente de correlação entre as duas variáveis x e y a: n y y n x x n yx yx yxcorr i i i i ii ii 2 2 2 2 . . ),( , com 1),(1 yxcorr (1) Assim: se a correlação entre duas variáveis é perfeita e positiva, então 1),( yxcorr ; se a correlação é perfeita e negativa, então 1),( yxcorr ; se não há correlação entre as variáveis, então 0),( yxcorr . Se 3,0),(0 yxcorr há uma correlação muita fraca entre as variáveis e, praticamente, nada podemos concluir sobre a relação entre as variáveis em estudo. Se 6,0),(3,0 yxcorr a correlação é relativamente fraca entre as variáveis. Se 0,1),(6,0 yxcorr a correlação é altamente significativa entre as variáveis. Manualmente, para encontrarmos o coeficiente de correlação entre duas variáveis necessitamos de organizar os dados em uma tabela para facilitar os cálculos.Veja a tabela abaixo para o exemplo das vendas x número de ônibus. Prof. Anderson Dias Gonçalves 5 X y x2 y2 x.y 24 962 576 925444 23088 30 1181 900 1394761 35430 9 578 81 334084 5202 48 1429 2304 2042041 68592 38 1324 1444 1752976 50312 15 752 225 565504 11280 5 542 25 293764 2710 38 1355 1444 1836025 51490 15 788 225 620944 11820 24 998 576 996004 23952 49 1462 2401 2137444 71638 10 650 100 422500 6500 17 862 289 743044 14654 11 719 121 516961 7909 16 828 256 685584 13248 349x 14430y 109672x 152670802y 397825x.y Aplicando a fórmula (1) do coeficiente de correlação à tabela acima obtemos: 9886,0 15 14430 15267080. 15 349 10967 15 )14430)(349( 397825 ),( 22 yxcorr Análise do coeficiente de correlação. Observamos através do cálculo acima que o coeficiente de correlação está no intervalo 1),(6,0 yxcorr e, portanto a correlação é altamente significativo. 1.3.1 - Coeficiente de Correlação: Excel O cálculo do coeficiente de correlação pode ser facilmente encontrado no software Excel. Através da sintaxe CORREL(matriz1;matriz2) obtemos o coeficiente de correlação, onde: Matriz1: é um conjunto de valores independentes (x). Matriz2: é um conjunto de valores dependentes(y). Prof. Anderson Dias Gonçalves 6 FIG 1.4 – Coeficiente de Correlação no Microsoft Excel 1.3.3 - Coeficiente de determinação Como vimos, o coeficiente de correlação )(corr geralmente é utilizado como a primeira avaliação do modelo; outra medida )( 2corr , o coeficiente de determinação, também pode ser útil para uma interpretação mais aprofundada. Na verdade, ele é o coeficiente de correlação ao quadrado, mas o termo geralmente é empregado para descrever a porcentagem de variação nos dados de y que podem ser atribuídos à variação nos dados de x. No nosso exemplo vemos que 9886,0),( yxcorr ; então o coeficiente de determinação é dado por: %73,979773,0)9886,0(),(ãodeterminaç de ecoeficient 22 yxcorr Assim, podemos dizer que %73,97 da variação das vendas é devida à variação no número de ônibus que visita a cidade. 1.4 - MODELO DE REGRESSÃO LINEAR SIMPLES Observando diagrama de dispersão podemos ter uma idéia do tipo de relação entre as duas variáveis. A natureza da relação pode tornar várias formas, desde uma simples relação linear até uma complicada função matemática. Precisamos determinar, com base em uma amostra de dados, a equação de regressão linear simples que melhor que melhor se ajusta aos dados amostrais. Isto é, encontrarmos os coeficientes da reta: bxay ^ Onde: ^ y = o valor estimado (previsto) de y para uma observação x. Prof. Anderson Dias Gonçalves 7 O nosso problema é determinar os valores dos parâmetros a e b , de modo que a reta se ajuste ao conjunto de pontos, isto é: estimar a e b de algum modo eficiente. Para o cálculo dos coeficientes utilizaremos o Método dos Mínimos Quadrados. Os coeficientes são determinados através de: n x x n yx yx b i i ii ii 2 2 n x b n y a ii Continuando com o exemplo do Sr. Pitágoras, podemos determinar a e b como se segue: 80,21 15 )349( 10967 15 )14430).(349( 397825 22 2 n x x n yx yx b i i ii ii 60,454 15 349 .80,21 15 14430 n x b n y a ii A partir daí temos podemos encontrar a equação linear dada por: xy 80,2160,454 ^ Vendas x Número de ônibus 0 300 600 900 1200 1500 1800 0 10 20 30 40 50 60 Número de ônibus Ve nd as FIG 1.5 – Equação de Regressão Plotada no Microsoft Excel Prof. Anderson Dias Gonçalves 8 Vendas x Número de ônibus 0 300 600 900 1200 1500 1800 0 10 20 30 40 50 60 Número de ônibus Ve nd as FIG 1.6 – Equação de Regressão e pontos dispersos – Microsoft Excel 1.4.1 – Ajuste de Curvas: Excel No software Excel, podemos encontrar os coeficientes a e b através da seguinte sintaxe: FIG 1.7 –Cálculo dos coeficientes da Equação de Regressão – Microsoft Excel a = INCLINAÇÃO (val_conhecidos_y;val_conhecidos_x) b = INTERCEPÇÃO (val_conhecidos_y;val_conhecidos_x) Prof. Anderson Dias Gonçalves 9 1.5 - PREVISÃO DE VALORES Tendo-se determinado a Equação de Regressão, podemos agora prever y para cada x e vice-versa. Antes de mostrarmos exemplos de previsão, cabem duas observações: O valor previsto na Equação de Regressão indica que esse é o valor mais provável. A previsão de uma variável a partir de outra sempre implica em uma possibilidade de erro, que é tanto maior quanto mais heterogêneo os resultados forem e tanto menor quanto maior for a correlação entre as variáveis. Vejamos agora como fazer previsão utilizando a Equação de Regressão. Sabemos que a Equação de Regressão do problema do Sr. Pitágoras é dado por: xy 80,2160,454 ^ Para os resultados obtidos em nosso problema, de quanto seriam as vendas em um dia que tivéssemos 35 ônibus? 60,121735.80,2160,454 ^ y Portanto, para 35 ônibus, o valor mais provável das vendas é de 60,1217$R . 1.5.1 – Previsão de valores: No Excel No software Excel, podemos encontrar a previsão de um valor através da seguinte sintaxe: PREVISÃO(x;val_conhecidos_y;val_conhecidos_x) X é o ponto de dados cujo valor você deseja prever. Val_conhecidos_y é o intervalo de dados ou matriz dependente. Val_conhecidos_x é o intervalo de dados ou matriz independente. FIG 1.8 – Cálculo de previsão – Microsoft Excel Prof. Anderson Dias Gonçalves 10 1.6 - ERRO PADRÃO ESTIMADO O encontro de um modelo para a equação linear da Equação de Regressão não é perfeita, ao contrário, implica necessariamente a possibilidade de erro. O Erro-Padrão de Estimativa, erro em que incorremos ao tomar a medida prevista em vez da medida real, é determinado aplicando-se a seguinte fórmula: 2 . 2 n yxbyay yxSest iiii Para nosso exemplo, teríamos: 2 . 2 n yxbyay yxSest iiii 14,49 215 )397825.80,21()14430.60,454(15267080 . yxSest Com base nesse resultado, podemos verificar que nossos cálculos de previsão de vendas está associado a um erro de R$ 49,14 para mais ou para menos. É recomendável que uma reta de regressão seja acompanhada dos valores observados quer dizer, que a equação seja expressa juntamente com sua reta no Diagrama de Dispersão de modo a se ter uma idéia visual da aproximação dos pontos em relação a essa reta, para evitar distorçõesa respeito da aproximação entre valores observados e estimados. 1.6.1 – Erro padrão estimado: Excel No software Excel, podemos encontrar o Erro Padrão Estimado através da seguinte sintaxe: EPADYX(val_conhecidos_y;val_conhecidos_x) Val_conhecidos_y é uma matriz ou intervalo de pontos de dados dependentes. Val_conhecidos_x é uma matriz ou intervalo de pontos de dados independentes. FIG. 1.9 –Cálculo do Erro Padrão Estimado – Microsoft Excel Prof. Anderson Dias Gonçalves 11 1.7 - QUADRO RESUMO 9886,0),( yxcorr %73,979773,0)9886,0(),(ãodeterminaç de ecoeficient 22 yxcorr 80,21b 60,454a Equação de Regressão Linear: xy 80,2160,454 ^ 14,49. yxSest REFERÊNCIAS BISQUERRA, Rafael,;SARRIERA, Jorge Castellá; MARTÍNEZ, Francesc. Introdução à Estatística – Enfoque informático com o pacote estatístico SPSS.São Paulo: Artmed, 2002. BRAULE, Ricardo. Estatística Aplicada com Excel: para cursos de administração e economia. Rio de Janeiro: Elsevier, 2001. BUSSAB, Wilson de O.; MORETTIN, Pedro A. Estatística Básica. 5ª Ed. São Paulo: Saraiva, 2004. FREUND, John E. Estatística Aplicada: Economia, administração e contabilidade. 11ª Ed. Porto Alegre: Bookman, 206. LAPPONI, Juan Carlos. Estatística Usando o Excel. 4ª Ed. Rio de Janeiro: Campus, 2005. MARTINS, Gilberto de A. Estatística Geral e Aplicada. 2ª Ed. São Paulo: Atlas, 2002. MORETTIN, Luiz Gonzaga. Estatística Básica – Inferência. São Paulo: Makron, 2000. MORETTIN, Luiz Gonzaga. Estatística Básica – Probabilidade. São Paulo: Makron, 2000. SMAILES, Joanne; MCGRANE, Ângela. Estatística Aplicada à Administração com Excel. São Paulo, Atlas, 2002. SOARES, JOSE FRANCISCO; FARIAS, ALFREDO ALVES DE; CESAR, CIBELE COMINI. Introdução à Estatística. 2ª Ed. Rio de Janeiro: LTC, 2002. Prof. Anderson Dias Gonçalves 12 ATIVIDADE PRÁTICA 1) Uma empresa de embalagens plásticas preocupada com a demanda (y) de seu produto resolveu elaborar um estudo sobre as variações dos preços de venda (x). Após esse estudo e levantamento de dados, obteve as informações condensadas na tabela a seguir: Meses Jan. Fev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Preço de venda (x) 16 18 20 23 26 28 30 33 35 Demanda(y) 1200 1150 950 830 800 760 700 690 670 A partir das informações, responda às questões relativas aos itens: a) Construindo o diagrama de dispersão, podemos afirmar, quanto à sua evolução, que o sistema se comporta de forma aproximadamente linear? b) Após ter construído o diagrama de dispersão, os pontos apresentam um comportamento linear crescente ou decrescente? c) As variáveis demanda e preços de mercado caminham, em termos de evolução, no mesmo sentido ou em sentidos opostos? d) Calcule e interprete o coeficiente de correlação linear simples. e) Estabeleça a equação de regressão linear (reta de ajustamento). f) Represente em um mesmo sistema de eixos a dispersão dos dados yx, e a reta de regressão. g) Qual a previsão da demanda, quando os preços atingirem os patamares de 25x e 50x ? h) Se você fosse o gerente dessa empresa, qual das duas previsões dadas acima, no item (g), você aceitaria como mais próxima da situação real? Justifique sua resposta. 2) Uma empresa de componentes eletrônicos preocupada com a sua linha de montagem resolveu elaborar um estudo sobre as variações das semanas de experiências de seus trabalhadores e o número de componentes rejeitados. Após esse estudo e levantamento de dados, obteve as informações condensadas na tabela a seguir: Trabalhador amostrado 1 2 3 4 5 6 7 8 9 10 11 12 Semanas de experiência(x) 7 9 6 14 8 12 10 4 2 11 1 8 Quantidade de Rejeitados(Y) 26 20 28 16 23 18 24 26 38 22 32 25 A partir das informações, responda às questões relativas aos itens: a) Construindo o diagrama de dispersão, podemos afirmar, quanto à sua evolução, que o sistema se comporta de forma aproximadamente linear? b) Após ter construído o diagrama de dispersão, os pontos apresentam um comportamento linear crescente ou decrescente? c) A quantidade de componentes rejeitados e o número de semana de experiência caminham, em termos de evolução, no mesmo sentido ou em sentidos opostos? d) Calcule e interprete o coeficiente de correlação linear simples. e) Estabeleça a equação de regressão linear (reta de ajustamento). f) Represente em um mesmo sistema de eixos a dispersão dos dados yx, e a reta de regressão. g) Quantos componentes danificados terão, quando o número de semanas de experiência atingir os patamares de 13x e 20x ? Prof. Anderson Dias Gonçalves 13 h) Se você fosse o gerente de produção dessa empresa, qual das duas previsões dadas acima, no item (g), você aceitaria como mais próxima da situação real? Justifique sua resposta. 3) Uma empresa de transportes forneceu os seguintes dados com relação a uma amostra de viagens feitas, dando a distância viajada e o tempo gasto. A empresa está interessada em desenvolver um modelo para prever o tempo gasto com uma viagem, se a distância a ser viajada for conhecida. Distância (km) Tempo (horas) 200 3,2 120 2,0 175 3,0 150 2,0 300 4,7 320 5,5 240 3,8 180 2,8 210 3,4 260 4,5 Apresente os dados utilizando um diagrama de dispersão apropriado. a) Encontre o coeficiente de correlação e a equação da linha de regressão e declare-os claramente. b) Dois caminhões estão prestes a deixar a garagem. Um fará uma viajem de 90 km, e enquanto o outro viajará 220 km. Utilizando sua equação de regressão linear, estime o tempo de viagem para cada caminhão. Quanto de confiança você teria em cada uma dessas respostas? 4) A academia de ginástica Pemberton’s decidiu ilustrar uma abordagem teórica de como os exercícios aeróbicos e ingestão de calorias podem afetar o peso. Doze dos membros estabelecidos na academia registraram cuidadosamente o número de minutos de exercícios aeróbicos que praticaram no decorrer de uma semana, juntamente com a sua ingestão calórica mensal. Esses dados são apresentados na tabela seguinte. Perda de peso (lb) Exercício aeróbico (min) Calorias ingeridas 0,6 112 9560 2,8 190 7752 1,4 171 11981 1,4 148 8338 2,6 193 10202 3,8 235 7252 3,3 237 8097 2,5 176 8121 2,6 185 8300 2,0 186 11216 3,3 228 7212 1,1 65 7631 a) Calcule o coeficiente de correlação entre a perda de peso e os exercícios aeróbico. Utilizando esse valor, calcule o coeficiente de determinação e defina seu significado nesse contexto. b) Dados os valores de resumo para a relação entre perda de peso e as calorias ingeridas, calcule cor(x,y). Comparando-o com os coeficiente de correlação encontrado em (a), determine qual dos fatores contribui mais para a perda de peso. Fornecendo motivos adequados estatisticamente para sua escolha.
Compartilhar