Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disciplina: Análise Estatística Aula 9: Correlação e Regressão Linear Apresentação Nesta aula, veremos como correlacionar amostras de dados obtidas em pesquisas, que, apesar de terem sido retiradas da uma mesma população, possuem parâmetros diferentes. Aprenderemos como estimar pontos não existentes em uma série de dados, mas necessários para análise ou interpretação dos resultados, utilizando a equação de regressão linear. Objetivos Aprender a definição de Correlação, bem como das suas espécies (correlação positiva, negativa e curvilínea) e como calcular o coeficiente de correlação linear; Compreender correlação linear e o coeficiente de correlação linear; Aprender o modelo de regressão linear simples, as propriedades da equação de regressão e como estimar seus parâmetros; Compreender o ajustamento de reta, ressaltando o conceito de interpolação e extrapolação. Correlação e Regressão Nas aulas anteriores procuramos descrever a distribuição de valores de uma única variável. A partir desse ponto podemos aprender a calcular as medidas de tendência central, variabilidade e demais parâmetros. Quando, porém, consideramos observações de duas ou mais variáveis surge um novo problema, do tipo, como verificar as relações que podem existir entre as variáveis estudadas. Para esse tipo de análise, as medidas estudadas não são eficientes. Assim, quando consideramos variáveis como peso e estatura de um grupo de pessoas, uso do cigarro e incidência de problemas pulmonares, procura-se verificar se existe alguma relação entre as variáveis de cada um dos pares e qual é essa relação. Uma vez caracterizada a relação quantitativa, procuramos descrevê-la através de uma função matemática. A regressão é o instrumento adequado para determinação dos parâmetros dessa função e medir essa relação. Se todos os valores das variáveis satisfazem exatamente uma equação, diz-se que elas estão perfeitamente correlacionadas ou que há correlação perfeita entre elas. Dica Quando estão em jogo somente duas variáveis, fala-se em correlação e regressão simples. Quando se trata de mais de duas variáveis, fala-se em correlação e regressão múltipla. Correlação É de conhecimento matemático que a área e o comprimento do lado do quadrado estão relacionados. Essa é uma relação perfeitamente definida e pode ser expressa por meio de uma sentença matemática, algumas vezes chamada de relação funcional: 2 A = ℓ Onde A é a área e ℓ é o lado do quadrado. Vejamos, agora, a relação que existe entre peso e altura das pessoas de um grupo. Fica claro de essa relação não é a do mesmo tipo e nem tão precisa quanto a anterior. Uma vez que pessoas de alturas diferentes tenham pesos iguais e, da mesma forma, pessoas com alturas iguais possuam pesos diferentes. Entretanto, quanto maior a altura, maior o peso. Neste caso dizemos que peso-altura possui uma relação estatística. Diagrama de Dispersão Um exemplo interessante é separar as notas das provas de alunos de uma mesma turma da faculdade A. vejamos duas disciplinas da área de exatas, por exemplo, matemática e estatística. Separando uma amostra de notas de 10 alunos escolhidos aleatoriamente, teremos: ALUNOS NOTAS MATEMÁTICA ESTATÍSTICA (x ) (y ) 01 5,0 6,0 02 8,0 9,0 03 7,0 8,0 04 10,0 10,0 05 6,0 5,0 06 7,0 7,0 07 9,0 8,0 08 3,0 4,0 09 8,0 6,0 10 2,0 2,0 Para esboçar um diagrama de dispersão, primeiro traça-se o sistema de eixos cartesianos ortogonais. Depois se representa uma das variáveis no eixo “x” (horizontal) e a outra no eixo “y”(vertical). Colocam-se, então os valores das variáveis sobre os respectivos eixos e marca-se um ponto para cada par de valores. 2 i i Esse diagrama nos fornece uma ideia grosseira, porém útil da correlação existente entre as variáveis. Correção Linear De um modo geral, os pontos de uma análise estatística colocados no gráfico cartesiano, possuem a forma aproximada de uma elipse em diagonal. Logo, quanto mais fina for essa elipse, mais ela se aproximará de uma reta. Essa reta pode ser chamada de “imagem” da correlação. A correlação linear é a aproximação dessa elipse em uma reta que mais se aproxime da maioria dos pontos dados. Neste exemplo a “imagem” é uma reta crescente, então é denominada correlação linear positiva. Correlação Linear Positiva Os pontos do gráfico têm como “imagem” uma reta crescente. Correlação Linear Negativa Os pontos do gráfico têm como “imagem” uma reta decrescente. Correção Não – Linear Os pontos do gráfico têm como “imagem” uma curva. Não há Correlação Quando os pontos, por sua elevada dispersão, não segue nenhum dos casos anteriores, dizemos que não há correlação. Coeficiente de Correlação Linear Dizemos que duas ou mais variáveis expressam a relação de causa e efeito ou se elas variam concomitantemente, se elas são variáveis consideradas correlacionadas. Nesta situação é dita que essas variáveis possuem correlação linear, no caso de sua “imagem” ser uma reta. E o instrumento de medida desta correlação linear é o coeficiente de correlação. Através do valor deste coeficiente sabemos o grau de intensidade da correlação entre as duas variáveis, bem como, o sentido dessa correlação (negativo ou positivo). Utilizaremos o coeficiente de correlação de Pearson, que é dado por: Onde n é o número de observações, ou seja, o tamanho da amostra. O resultado obtido para r deve estar no intervalo fechado [– 1, 1]. Podemos concluir que: Se a correlação entre duas variáveis é perfeita e positiva, então: r = +1 Se a correlação entre duas variáveis é perfeita e positiva, então: r = –1 Se não há correlação entre as variáveis, então: r = 0 r = n ∑ − (∑ ) (∑ )x i y i x i y i [n ∑ − (∑ ] [n ∑ − (∑ ]x 2 i x i ) 2 y 2 i y i ) 2 √ Saiba mais Para que possamos descrever a relação por meio do coeficiente de correlação de Pearson é fundamental que ela se aproxime da função linear. A maneira prática de verificar essa linearidade é a inspeção do diagrama de dispersão. Se a elipse apresenta reentrâncias ou saliências mais acentuadas, provavelmente trata-se da correlação curvilínea. O r mede a intensidade, ou grau, de um relacionamento linear. Não serve para medir a intensidade de um relacionamento não-linear. Em função do coeficiente de correlação é possível concluir a relação entre as variáveis: 0,6 ≤ |r| ≤ 1 É considerada boa a correlação entre as variáveis, é possível tirar conclusões significativas sobre o comportamento simultâneo das variáveis. 0,3 ≤ |r| < 0,6 A correlação entre as variáveis é relativamente fraca. 0 < |r| < 0,3 A correlação entre as variáveis é muito fraca e não é possível concluir praticamente nada sobre a relação das variáveis em estudo. Vamos analisar a correlação das notas de matemática e estatística dos alunos da amostra selecionada? ALUNOS NOTAS x y x,yMATEMÁTICA (x) ESTATÍSTICA (y) 1 5 6 36 36 36 2 8 9 64 81 72 3 7 8 49 64 56 4 10 10 100 100 100 5 6 5 36 25 30 2 2 6 7 7 49 49 49 7 9 8 81 64 72 8 3 4 16 16 16 9 8 6 49 36 42 10 2 2 4 4 4 Soma (∑) 65 65 481 475 473 Solução Substituindo os valores da tabela na fórmula do coeficiente de Pearson Onde aparece o símbolo de somatório (∑), deve-se colocar o valor referente à soma de toda a coluna ao qual o somatório está relacionado. Por exemplo ∑x y = 473 que corresponde a soma de todos os valores da coluna x.y da tabela. O resultado r = 0,91 indica uma correlação linear positiva altamente significativa entre as duas variáveis. Regressão Todas as vezes que temos duas variáveis com certa correlação e desejamos estudar uma variável em função da outra, fazemos uma análise de regressão. O objetivo principal da análise de regressão é realizar a relação entre as duas variáveis, a partir de um modelo matemático linear,partindo de n observações das mesmas. A variável sobre a qual desejamos fazer a estimativa é denominada variável dependente e a outra recebe o nome de variável independente. Considerando X a variável independente e Y a variável dependente, vamos determinar o ajustamento da reta obtendo a função definida por: Y = aX + b r = n ∑ − (∑ ) (∑ )x i y i x i y i [n ∑ − (∑ ] [n ∑ − (∑ ]x 2 i x i ) 2 y 2 i y i ) 2 √ i i r = = = = 0, 91112 (10) ⋅ (473) − (65) ⋅ (65) [(10) ⋅ (481) − ] [(10) ⋅ (475) − ] (65) 2 (65) 2 √ 505 585.525√ 505 307125√ Onde a e b são parâmetros. Voltando ao exemplo das notas de matemática e estatística, verificamos que existe uma correlação acentuada entre as variáveis, r = 0,91. Vimos ainda pela forma do diagrama de dispersão, que se trata de uma correlação retilínea. Determinando parâmetros Vamos, agora, determinar os parâmetros a e b com a ajuda das fórmulas a seguir: Para determinar o parâmetro b é necessário calcular a média dos valores de x ( ) e y ( ). Para o cálculo de b teremos: Estimativa da equação a = n ∑ − (∑ ) (∑ )x i y i x i y i n ∑ − x 2 i (∑ )x i 2 i x¯ i y¯ = = x¯ ∑ x i n y¯ ∑ y i n b = − ay¯ x¯ Agora a equação de regressão pode ser montada. Lembrando que os parâmetros foram obtidos através da amostra de dados, logo temos uma estimativa da verdadeira equação de regressão. Desta forma representaremos a equação: Onde é o valor estimado de Y. Substituindo paramentros Voltemos então para o exercício das notas de matemática e estatística (consulte a tabela clicando aqui). Substituindo os valores na fórmula do parâmetro a, teremos: Calculando as médias: Substituindo os valores na fórmula do parâmetro b, teremos: b = 6,5 – 0,8632 x 6,5 = 6,5 – 5,6108 = 0,8892 Com os parâmetros determinados: a = 0,86 e b = 0,89, a equação será: Elaborando o gráfico Para que possamos traçar o gráfico da reta, é necessário pelo menos 2 pontos da reta, logo, basta escolhermos 2 valores para X: = aX = bY ˆ Y ˆ a = = = = = 0,8632 n ∑ − (∑ )x i y i y i n ∑ − x 2 i (∑ )x i 2 10.473 − (65) (65) 10.481 − (65) 2 4730 − 4225 4810 − 4225 505 585 = = = 6,5 e = = = 6,5 x¯ ∑ x i n 65 10 y¯ ∑ y i n 65 10 = 0, 86X + 0, 89 Y ˆ X = 0 ⇒ = 0, 89 Y ˆ X = 5 ⇒ = 0, 86 x 5 + 0, 89 = 5, 19Y ˆ Observando as notas vemos que a menor nota é 2 e a maior nota é 10, então 4,5 ∈ [2 , 10]. Dizemos então que foi feita uma interpolação, isto é, a estimativa de uma nota dentro da faixa abrangida pelos dados da amostra. Da mesma forma vemos que 1,5 não faz parte da relação de notas, fazendo a estimativa dessa nota: Observando as notas vemos que 1,5 ∉ [2 , 10]. Dizemos então que foi feita uma extrapolação, isto é, a estimativa de uma nota fora da faixa abrangida pelos dados da amostra. Atenção Uma norma básica no uso da regressão linear é a de nunca extrapolar, exceto quando considerações teóricas ou experimentais demonstrem a possibilidade de extrapolação. Notas Tabela ALUNOS NOTAS x y x,yMATEMÁTICA (x) ESTATÍSTICA (y) X = 1, 5 ⇒ = 0, 86 x 1, 5 + 0, 89 = 2, 18 Y ˆ 2 2 1 5 6 36 36 36 2 8 9 64 81 72 3 7 8 49 64 56 4 10 10 100 100 100 5 6 5 36 25 30 6 7 7 49 49 49 7 9 8 81 64 72 8 3 4 16 16 16 9 8 6 49 36 42 10 2 2 4 4 4 Soma (∑) 65 65 481 475 473 Referências CRESPO, Antônio Arnot. Estatística fácil. 19.ed. São Paulo: Saraiva, 2009. KAZMIER, Leonard J. Estatística aplicada à Economia e Administração. 4.ed. Porto Alegre: Artmed, 2007 Próximos Passos Conceituaremos o que são números Índices bem como sua importância como ferramenta a ser utilizada por administradores; Abordaremos também o conceito de relativo – relação de preços, relação de quantidade e relação de valor. Explore mais Pesquise na internet, sites, vídeos e artigos relacionados ao conteúdo visto. Em caso de dúvidas, converse com seu professor online por meio dos recursos disponíveis no ambiente de aprendizagem.
Compartilhar