Baixe o app para aproveitar ainda mais
Prévia do material em texto
163 Capítulo 5 Regressão Linear simples Seção 1 Correlação linear simples Os métodos que você estudou até o momento são eficazes para analisar e interpretar somente uma variável de cada vez. Se eles servem para a análise de uma variável, como analisar e comparar duas variáveis simultaneamente? Para compreender como solucionar tal situação, você irá conhecer a correlação linear simples. A correlação é uma ferramenta destinada ao estudo da relação entre duas variáveis quantitativas, além de fornecer a intensidade dessa relação. Para você estudar como usar a correlação linear simples, é importante que você conheça o que é diagrama de dispersão e o coeficiente de correlação linear de Pearson. Conheça melhor esses assuntos a seguir. Diagrama de dispersão O diagrama de dispersão ajuda a definir a correlação entre duas variáveis quantitativas de modo gráfico. Em outras palavras, a relação entre duas variáveis, X e Y, pode ser vista em um diagrama, no qual são marcados os pontos correspondentes aos pares ordenados gerados pela relação X→Y, e (x,y) são esses pares ordenados. Dessa forma, constrói-se um diagrama de dispersão. Quanto mais esses pontos estão próximos à reta imaginária gerada pela nuvem de pontos, mais forte será a correlação. Observe o gráfico a seguir e acompanhe os exemplos apresentados. No gráfico abaixo, os pares ordenados são gerados pela relação entre a altura das pessoas em centímetros e o peso em quilos. MIRANDA, Joseane Borges de. Probabilidade e Estatística. Palhoça: UnisulVirtual, Ano. 2016 . 164 Capítulo 5 Gráfico 5.1 − Diagrama de dispersão Fonte: Elaboração do autor (2006). Coeficiente de correlação linear de Pearson O coeficiente de correlação permite que você analise a força ou a existência da correlação entre duas variáveis. Considerando que n é o número de observações (tamanho da amostra), o coeficiente será dado pela seguinte fórmula. ( )( )[ ] ( )[ ] ( )[ ]2222 . ... yynxxn yxyxnrxy ∑−∑∑−∑ ∑∑−∑ = Em que: r = resultado do coeficiente de correlação linear de Pearson; n = número de observações; x = valores assumidos pela variável X; y = valores assumidos pela variável Y. O coeficiente de Pearson pode variar de −1 a +1 → [−1,+1]. Quanto ao resultado de r, você deve considerar cinco situações, descritas no quadro a seguir. 165 Probabilidade e Estatística Quadro 5.1 − Resultados possíveis do valor de x Valor de r Correlação entre as variáveis r próximo de 0 Correlação linear pouco significativa. r = 0 Não há correlação linear entre as variáveis. r próximo de –1 Há correlação linear negativa (significativa). r = –1 Há correlação linear negativa perfeita. r próximo de +1 Há correlação linear positiva (significativa). r = +1 Há correlação linear positiva perfeita. Fonte: Elaboração do autor (2006). Tipos de correlações Segundo os resultados de r, as correlações podem assumir diferentes tipos, os quais você pode acompanhar detalhadamente a seguir. a) Correlação linear positiva Neste caso, o coeficiente de Pearson estará entre 0 e 1 → intervalo (0,1). É próximo de 1, é forte, porém não é igual a 1, perto de 1, estamos falando em algo acima de 0,8. Note que os pontos estão perto da reta de regressão, porém não estão exatamente em cima da reta. Gráfico 5.2 − Correlação linear positiva: altura e peso Fonte: Elaborado pelo autor (2006). Interpretação: se o x cresce o y cresce também, no exemplo, se a altura cresce, o peso cresce; se o x decresce o y decresce também. 166 Capítulo 5 b) Correlação linear perfeita positiva Neste caso, o coeficiente de Pearson r será igual a +1, neste caso, os pontos estão perfeitamente alinhados em cima da reta. Gráfico 5.3 − Correlação linear perfeita positiva: altura e peso Fonte: Elaborado pelo autor (2006). A interpretação é a mesma, ou seja, se o x cresce, o y cresce também. No exemplo, se altura cresce, o peso cresce e, se o x decresce, o y decresce também. Dizemos que eles apresentam a mesa tendência. c) Correlação linear negativa Neste caso, o coeficiente de Pearson estará entre 0 e −1, no caso próximo de −1: intervalo [−1,0]. Gráfico 5.4 − Correlação linear perfeita negativa: idade e nota Fonte: Elaborado pelo autor (2006). Interpretação: o x cresce e o y decresce, no exemplo, se a idade cresce, a nota decresce; e, se o x decresce, o y cresce, no exemplo, se a idade decresce, a nota cresce. São inversamente proporcionais. 167 Probabilidade e Estatística d) Correlação linear perfeita negativa Neste caso, o coeficiente de Pearson r será −1: os pontos estão perfeitamente alinhados sobre a reta de regressão. Gráfico 5.5 − Correlação linear perfeita negativa: idade e nota 7 8 9 10 11 12 13 14 15 16 Fonte: Elaborado pelo autor (2006). A interpretação é a mesma, ou seja, se o x cresce, o y decresce, no exemplo, se a idade cresce, a nota decresce; e, se o x decresce, o y cresce. e) Correlação linear nula ou ausência de correlação A seguir, veja um exemplo de quando não há correlação entre as variáveis X e Y, neste caso, o coeficiente de Pearson é igual a zero, r = 0. Note que não há uma tendência nos pontos de dispersão, diferentemente dos exemplos anteriores. Gráfico 5.6 − correlação linear nula ou ausência de correlação: altura e nota Fonte: Elaborado pelo autor (2006). 168 Capítulo 5 Como calcular o coeficiente de correlação? Para obter esta resposta, acompanhe com atenção o exemplo. Exemplo: calcule o coeficiente de correlação de Pearson e construa o diagrama de dispersão para uma turma de alunos, correlacionando altura e peso, descritos a seguir. Tabela 6.1 – Altura e peso dos alunos de uma série Fonte: Elaboração do autor (2006). Calculando passo a passo. Passo 1: acrescente, na tabela, mais três colunas para auxiliar nos cálculos. Some os elementos da coluna x (altura) e escreva o total na última linha, obtendo, assim, a Some os elementos da coluna y (peso) e escreva o total na última linha, obtendo, assim, a (veja tabela). Passo 2: calcule os elementos da terceira coluna (x.y), multiplicando cada um dos elementos da coluna x por cada um dos elementos da coluna y. (160).(61) = 9760 (155).(56) = 8680 (152).(55) = 8360 ...... (177).(77) = 13629 Em seguida, some todos eles e escreva o total na última linha, obtendo, assim, a 169 Probabilidade e Estatística Passo 3: calcule os elementos da quarta coluna (x2), elevando ao quadrado, cada um dos elementos da coluna x. (160)2 = 25600 (155)2 = 24025 (152)2 = 23104 .... (177)2=31329 Em seguida, some todos eles e escreva o total na última linha, para obter, assim, a Passo 4: calcule os elementos da quinta coluna (y2), elevando, ao quadrado, cada um dos elementos da coluna y. (61)2 = 3721 (56)2 = 3136 (55)2 = 3025 .... (77)2 = 5929 Em seguida, some todos eles e escreva o total na última linha, para obter, assim, o Passo 5: calcule o coeficiente de correlação utilizando a fórmula vista anteriormente. n = número de observações (10 alunos) → n = 10. Os elementos, a seguir, foram calculados nos passos anteriores: Observação: é importante lembrar que: 1. ≠ Note que no primeiro caso, você multiplica os elementos x e y, depois soma a multiplicação no fim, e, no segundo caso, você soma x e y primeiro, depois multiplica a soma final. 170 Capítulo 5 2. ≠ Neste caso, a diferença consiste no elevar ao quadrado, no primeiro caso, você eleva ao quadrado cada variável x, depois soma. No segundo caso, você soma primeiro o x e depois eleva a soma ao quadrado. Se você escrever na fórmula, terá: Passo 6: agora, construa o diagrama de dispersão. Para construí-lo; você deve marcar os pontos de cada par ordenado, usando, para isso, os valores da coluna das alturas, como x, eda coluna dos pesos, como y, formando (x, y). Veja o gráfico a seguir. Gráfico 5.7 − Altura e peso Fonte: Elaborado pelo autor (2006). 171 Probabilidade e Estatística Interpretação do resultado final do coeficiente de correlação: o coeficiente de correlação resultou em um número positivo e próximo de 1 (r = 0,98), sendo assim, a correlação entre a altura dos alunos e o peso é positiva (significativa), ou seja, quanto maior a altura do aluno, maior será seu peso, e, quanto menor for a sua altura, menor será o seu peso. Seção 2 Análise de regressão linear Para fazer a análise da regressão, nos casos em que é possível estabelecer uma correlação entre duas variáveis, você terá que usar essa relação para prever valores para uma delas (sempre a variável que for adotada como Y), mas isso só será possível quando for conhecido o valor da outra variável, no caso, a variável X. E essa previsão só tem significado caso a força da correlação seja significativa ou perfeita (quando r está próximo ou igual a +1 ou −1). Essa força dá-se pela proximidade dos pontos do diagrama de dispersão à reta de regressão. A reta de regressão é obtida pela aproximação dos pontos do diagrama. Para encontrar uma equação que auxilie a prever os valores de Y, usa-se o Método dos Mínimos Quadrados, o qual você conhecerá a seguir. A escolha da variável que será o Y está relacionada à variável que o pesquisador deseja estimar. No exemplo anterior, se a intenção é a de estimar o peso dos alunos, então o Y deve ser a variável peso. Caso a necessidade fosse a de estimar a altura dos alunos, a variável Y passaria a ser a altura. Método dos mínimos quadrados Pode-se representar a reta imaginária pela equação exposta na sequência. Reta de regressão: Sendo: 172 Capítulo 5 Em que: = valor predito de y (a ser estimado); x = valor da variável x para determinado elemento da amostra; y = valor da variável y para determinado elemento da amostra; n = nº total de observações (tamanho da amostra); b = a intersecção do eixo y (ou coeficiente linear da reta); a = coeficiente de inclinação da reta (ou coeficiente angular da reta). Ao predizer um valor de Y com base em determinado valor de X, quanto mais significativa a correlação linear, mais precisa torna-se a previsão. Interpolação: estimativas com valores entre os da série. Extrapolação: estimativas com valores fora dos da série. Resíduo: é a diferença entre um valor amostral, observado Y, e o valor predito, com base na equação de regressão. A tabela, a seguir, descreve as alturas e os pesos dos alunos de uma turma. Você deverá: a. construir a equação de uma reta de regressão para prever o peso dos alunos; b. prever o peso ( ) de um aluno com 175 cm (x) de altura. Tabela 5.2 – Altura e peso dos alunos de uma série Fonte: Elaborado pelo autor (2006). 173 Probabilidade e Estatística Calculando passo a passo. • Para o item a: Considerando que a tabela é a mesma do exemplo da Seção 1 (cálculo do coeficiente de correlação), não será necessário calcular as colunas nem os totais (veja a tabela). Equação da reta de regressão → Passo 1: sendo assim, você pode começar calculando a inclinação da reta (a). Inclinação da reta (a): Agora, identifique os elementos da fórmula: n = 10. Os elementos, a seguir, foram calculados nos passos anteriores; ; ; ; . Se você escrever na fórmula, terá: 174 Capítulo 5 Passo 2: calcule a intersecção com o eixo y, item (b). Intersecção do eixo y (b): Agora, identifique os elementos da fórmula: n = 10. Os elementos, a seguir, foram calculados nos passos anteriores. ; ; . Passo 3: construa a equação da reta de regressão. Após calcular a e b, tem-se: a = 0,72; b = − 53,76; • Para o item b: Fazer a previsão para um aluno que mede 175 cm. Você deve usar 175 como X = 175. Substituir o valor de X na equação de regressão. Como interpretar? A previsão para o peso deste aluno que mede 175 cm é de 72,24 Kg. 175 Probabilidade e Estatística Atividades de autoavaliação Ao final de cada unidade, você realizará atividades de autoavaliação. O gabarito está disponível no final do livro didático, mas se esforce para resolver as atividades sem a ajuda do gabarito, pois, assim, você estará promovendo (e estimulando) a sua aprendizagem. 1. Uma turma da oitava série realizou avaliações em duas disciplinas, Matemática e Biologia; as notas obtidas estão na tabela abaixo. Usando estes dados, calcule o que se pede. Aluno Nota Matemática Nota Biologia X.Y X2 Y2 1 9,5 3,4 32,3 90,3 11,6 2 9,0 5,4 48,6 81,0 29,2 3 8,5 6,0 51,0 72,3 36,0 4 8,0 6,0 48,0 64,0 36,0 5 8,0 5,0 40,0 64,0 25,0 6 7,5 7,0 52,5 56,3 49,0 7 7,5 9,0 67,5 56,3 81,0 8 6,0 7,5 45,0 36,0 56,3 9 5,0 8,0 40,0 25,0 64,0 10 4,0 8,0 32,0 16,0 64,0 Totais 73,0 65,3 456,9 561,0 452,0 a. Calcule o coeficiente de correlação entre as duas variáveis, identifique o tipo de correlação e interprete o resultado. b. Construa uma equação para a relação indicada (a equação da reta de regressão) para possibilitar o cálculo de estimativas para a nota de Biologia (Y), segundo a nota de Matemática (X). c. Estime a nota de Biologia, considerando que um aluno tenha tirado nota 6,5 (X) em Matemática. Substitua na equação da reta construída no item b.
Compartilhar