Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ESCOLA TÉCNICA FEDERAL DA PARAÍBA DISCIPLINA : ESTATÍSTICA PROFESSORA : Solange Delgado Moreira Correlação e Regressão Linear Simples (resumido e adaptado em relação ao original) 1 - Introdução A análise da correlação e regressão compreende a análise de dados amostrais para saber se e como duas ou mais variáveis estão relacionadas uma com a outra numa população. Vamos estudar a situação de duas variáveis quantitativas por meio de dados provenientes de variáveis emparelhadas (pares de dados). A análise de correlação dá um número que resume o grau de relacionamento entre duas variáveis; a análise de regressão tem como resultado uma equação matemática que descreve o relacionamento. A equação pode ser usada para estimar, ou predizer, valores futuros de uma variável quando se conhecem ou se supõem conhecidos valores da outra variável. A análise de correlação é útil em trabalhos exploratórios, quando um pesquisador ou analista procura determinar quais variáveis são potencialmente importantes e o interesse está basicamente no grau ou força de relacionamento. Em educação e psicologia, frequentemente se dá maior ênfase ao grau ou força do relacionamento. Em outras áreas, como administração, economia, pesquisa médica, agricultura, focaliza-se mais a natureza do relacionamento, e a análise de regressão é o instrumento principal. Os dados para a análise de regressão e correlação provêm de observações de variáveis emparelhadas. Por exemplo, peso e altura de cada indivíduo. 2 – Correlação linear O objetivo do estudo correlacional é a determinação da força de relacionamento entre duas observações emparelhadas. O termo “correlação” significa literalmente “co-relacionamento”, pois indica até que ponto os valores de uma variável estão relacionados com os de outra. Há muitos casos em que pode existir relacionamento entre duas variáveis quantitativas. Por exemplo: - Gasto com lazer e renda familiar - Lucro e vendas - Nota e horas de estudo - Notas de Estatística e Notas de Matemática 2 Problemas como esses se prestam à análise de correlação. Primeiramente faremos um gráfico denominado diagrama de dispersão. O diagrama de dispersão é traçado no sistema cartesiano, onde cada eixo representa uma das variáveis. Para cada par de valores, marcamos um ponto. Quando duas variáveis crescem no mesmo sentido, dizemos que entre elas existe correlação positiva. Quando duas variáveis crescem em sentidos opostos, dizemos que entre elas existe correlação negativa. Quando uma variável cresce e a outra varia ao acaso, dizemos que entre elas existe correlação nula. A correlação pode ser linear ou não-linear. Neste estudo, analisaremos apenas a correlação linear simples (simples porque envolve apenas duas variáveis). Pode-se visualizar o tipo de correlação nos diagramas de dispersão. O grau de relacionamento entre duas variáveis é sintetizado pelo coeficiente de correlação, representado por r. O coeficiente de correlação foi desenvolvido pelo matemático Karl Pearson, por isso ele é conhecido como “r “de Pearson. O coeficiente de correlação tem duas propriedades que caracterizam a natureza de uma relação entre duas variáveis. Uma é o seu sinal (+ ou -) e a outra é sua magnitude. O sinal é o mesmo que o do coeficiente angular de uma reta imaginária que se ajustasse aos dados se fosse traçada num diagrama de dispersão, e a magnitude de r indica quão próximos da “reta” estão os pontos individuais. Mais precisamente podemos dizer: 1. O valor de r varia de -1 a 1, isto é, -1 r 1. 2. Um relacionamento positivo ( r é + ) entre duas variáveis indica que a valores altos (baixos) de uma das variáveis, correspondem valores altos (baixos) da outra. 3. Um relacionamento negativo (r é -) significa que a valores altos (baixos) de uma variável correspondem valores baixos (altos) da outra. 4. Um relacionamento zero (r 0) indica que alguns valores altos estão em correspondência com valores baixos e outros estão em correspondência com valores altos. 5. O sinal de r é sempre o mesmo sinal de b, o coeficiente angular de uma reta imaginária ajustada aos dados. Note-se que não é necessário calcular essa reta. Para obter o valor de r, utilizamos a fórmula : r = [ n (xy) - (x y)] / [ n ( x 2 ) - (x) 2 ][ n ( y 2 ) - ( y) 2 ] 3 Exemplo Verifique se existe um forte relacionamento entre as variáveis apresentadas na tabela a seguir : x y x 2 y 2 xy 1 1 1 1 1 2 2 4 4 4 3 4 9 16 12 4 5 16 25 20 5 8 25 64 40 15 20 55 110 77 Solução : r = 0,98 Como o coeficiente de correlação varia de -1 a +1, concluimos que existe alta correlação positiva entre x e y. 3 - Regressão linear A regressão linear simples constitui uma tentativa de estabelecer uma equação matemática linear que descreva o relacionamento entre duas variáveis. Há vários modos de se utilizar as equações de regressão . Uma é em situações em que as duas variáveis medem aproximadamente a mesma coisa, mas uma delas é relativamente dispendiosa, ou difícil de lidar, enquanto que a outra não. Outra utilização das equações de regressão é explicar valores de uma variável em termos da outra. Isto é, podemos suspeitar de uma relação de causa e efeito entre duas variáveis. Deve-se notar, entretanto, que a lógica de uma relação casual deve provir de teorias externas ao âmbito da estatística. A análise de regressão apenas indica qual relacionamento matemático pode existir, se existir algum. Uma terceira aplicação de regressão: predizer valores futuros de uma variável. Os pontos traçados no diagrama de dispersão podem ficar praticamente sobre uma linha reta. Sabemos que a equação da reta é y = a + bx, onde a é o coeficiente linear da reta e, b o coeficiente angular da reta. Na nossa equação de regressão, a e b são determinados por b = [ n ( xy) - ( x ) ( y ) ] / [ n ( x 2 ) - (x) 2 ] 4 a = [ y - b x ] / n A reta de regressão que representa nosso exemplo 1 é y = -1,1 + 1,7 x (verifique). Dado um valor x, que não foi observado na amostra, podemos prever (como já dissemos), y . Por exemplo, para x = 4,5 , utilizando a reta de regressão, chegamos a y = 6,55 . É importante evitar estimar valores de y fora do intervalo de x. A previsão de y é melhor quanto mais próximos da reta estiverem todos os pontos 4 - Exercícios 1- Calcule o coeficiente de correlação para os dados abaixo. Faça o diagrama de dispersão e obtenha a reta de regressão. x 1 2 3 4 5 y 2 4 6 8 10 2 - As horas de estudo de 11 estudantes para um determinado teste e as respectivas notas nesse teste são dadas abaixo: Horas de estudo (X) 3 3 7 4 8 5 8 11 6 6 9 Notas (Y) 44 36 70 50 85 60 70 95 84 72 86 a) Calcule o coeficiente de correlação linear de Pearson entre X e Y (Interprete-o); b) Determine a reta estimada de regressão de Y sobre X; c) Quanto da variação total de Y é explicada pela variável X no modelo de regressão? Isto é, determine o coeficiente de explicação r 2 (Interprete-o). d) Se o estudante estudar por 12 horas, que nota pode esperar tirar? 6.5 - Bibliografia -Vieira, Sonia - Wada, Ronaldo . Estatística Introdução Ilustrada. Ed. Atlas S.A. -Stevenson , William J. Estatística Aplicada à Administração. Ed. Harbra Ltda
Compartilhar