Baixe o app para aproveitar ainda mais
Prévia do material em texto
29/05/2018 1 Regressão linear e correlação Motivação • Queremos estudar a relação entre duas variáveis ou de uma variável com demais variáveis. ▫ O perímetro de um quadrado e o tamanho do lado do quadrado ▫ O perímetro de um retângulo e o tamanho do lado do retângulo ▫ A quantidade de oxigênio em um rio e a temperatura da água. ▫ A quantidade de defeitos produzidos por uma injetora e o tempo de operação da máquina. ▫ O área da chapa de madeira e a quantidade de furos e cortes realizados na chapa. Exemplo – Correlação linear simples número de observações nível de hidrocarboneto pureza 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,4 93,65 11 1,19 93,54 12 1,15 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,2 90,39 17 1,26 93,25 18 1,32 93,41 19 1,43 94,89 20 0,95 87,33 86 88 90 92 94 96 98 100 102 0,8 1 1,2 1,4 1,6 Gráfico de dispersão pureza Nível hidrocarboneto pureza Exemplos Valores diminuem com aumento de x 29/05/2018 2 Exemplos Valores crescem com aumento de x Exemplos Valores se repetem de forma cíclica Exemplos Valores dispersos Correlação linear simples • Mas como verificar se existe ou não uma correlação linear entre dois dados? • Queremos saber o quanto os pontos de aproximam de uma reta. • Uma das medidas de correlação linear é dada pela covariância que é definida por: 29/05/2018 3 Correlação simples • A covariância é um indicador do grau e do sinal da correlação 86 88 90 92 94 96 98 100 102 0,8 1 1,2 1,4 1,6 Gráfico de dispersão pureza Exemplo 1 – encontre a covariância dos dados abaixo número de observações nível de hidrocarboneto pureza 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,4 93,65 11 1,19 93,54 12 1,15 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,2 90,39 17 1,26 93,25 18 1,32 93,41 19 1,43 94,89 20 0,95 87,33 �̅=1,196 �� = 92,156 número de observações nível de hidrocarboneto pureza �� − �̅ �� − �� (�� − �̅). (�� − ��) 1 0,99 90 -0,206 -2,146 0,442076 2 1,02 89,1 -0,176 -3,106 0,546656 3 1,15 91,4 -0,046 -0,726 0,033396 4 1,29 93,7 0,094 1,584 0,148896 5 1,46 96,7 0,264 4,574 1,207536 6 1,36 94,5 0,164 2,294 0,376216 7 0,87 87,6 -0,326 -4,566 1,488516 8 1,23 91,8 0,034 -0,386 -0,01312 9 1,55 99,4 0,354 7,264 2,571456 10 1,4 93,7 0,204 1,494 0,304776 11 1,19 93,5 -0,006 1,384 -0,0083 12 1,15 92,5 -0,046 0,364 -0,01674 13 0,98 90,6 -0,216 -1,596 0,344736 14 1,01 89,5 -0,186 -2,616 0,486576 15 1,11 89,9 -0,086 -2,306 0,198316 16 1,2 90,4 0,004 -1,766 -0,00706 17 1,26 93,3 0,064 1,094 0,070016 18 1,32 93,4 0,124 1,254 0,155496 19 1,43 94,9 0,234 2,734 0,639756 20 0,95 87,3 -0,246 -4,826 1,187196 1,196 92,156 10,15638 ��� = ��,����� �� =0,5345 Coeficiente de correlação • Em geral, o coeficiente de correlação de Pearson é o mais utilizado para determinar se dois dados tem correlação ou não. • O coeficiente de correlação de Pearson é dado por 29/05/2018 4 Coeficiente de correlação de Pearson • O coeficiente de correlação de Pearson tem como característica, pertencer ao intervalo [-1,1]. • Se r = -1 dizemos que os dados tem correlação linear negativa perfeita e se r = 1 dizemos que os dados tem correlação linear positiva perfeita. • O valor de r pode ser calculado da seguinte forma ��� = �(�� − �̅)(�� − ��) � ��� ��� = �(�� − �̅) � � ��� ��� = �(�� − ��) � � ��� Coeficiente de correlação de Pearson • A amplitude do coeficiente de correlação é -1 para 1. -1 0 1 Se r = -1 existe uma correlação negativa perfeita. Se r = 1 Existe uma correlação positiva perfeita. Se r está próximo de 0 não existe correlação linear. Correlação linear Correlação negativa forte Correlação positiva fraca Correlação positiva forte Correlação não linear x y x y x y x y r = 0,91 r = 0,88 r = 0,42 r = 0,07 Exercício 1: encontrando o coeficiente de correlação Calcule o coeficiente de correlação para os dados dos gastos com propaganda e vendas da empresa informados na Tabela ao lado. O que podemos concluir? Gastos com propaganda, ($1000), x Vendas da empresa ($1000), y 2,4 225 1,6 184 2,0 220 2,6 240 1,4 180 1,6 184 2,0 186 2,2 215 29/05/2018 5 Teste do coeficiente de correlação • Observe que o valor de r é dado por uma amostra de tamanho n. Assim, podemos dizer que r é uma estimativa do verdadeiro coeficiente da população (ρ). • Assim, temos que fazer o teste com um nível de significância α para verificar a hipótese de correlação linear nula, ou seja, H0: ρ=0. • Para isso, usamos a variável t de Student com n-2 graus de liberdade, da seguinte forma: Exercício 3 • Para os dados do Exercício 1, verifique se podemos concluir, ao nível de significância de 5%, que existe uma correlação linear positiva entre dos gastos com propaganda com todas as vendas da empresa (população). Exercício 4 Verificar se podemos, ao nível de 5% de significância, concluir pela existência de correlação positiva entre a altura e o peso das pessoas . pessoa altura (x) peso (y) 1 174 73 2 161 66 3 170 64 4 180 94 5 182 79 6 164 72 7 156 62 8 168 64 9 176 90 10 175 81 Regressão • Problema de regressão: determinar uma função que exprima o relacionamento entre duas variáveis • Admite-se que existe um relacionamento funcional entre os valores x e y, responsável pelo aspecto do diagrama, e que explica grande parte da variação de y com x, ou vice-versa. • Esse relacionamento corresponde à linha existente na figura, que seria a linha de regressão. 29/05/2018 6 Regressão • Na prática, os pontos experimentais terão uma variação em torno da linha representativa dessa função, devido à existência de uma variação aleatória adicional que é chamada variação residual. • Regressão linear simples ▫ A linha de regressão é uma reta simples por se tratar de apenas 2 variáveis (x e y) Regressão linear simples • Inicialmente vamos supor que os dados podem ter seus dados (e relações) descritas por uma “expressão linear simples” 86 88 90 92 94 96 98 100 102 0,8 1 1,2 1,4 1,6 Gráfico de dispersão pureza Hipóteses do modelo usual de regressão • Variável(is) independente(s) isenta(s) de erro; ▫ Apenas y é aleatório. ▫ Supõe-se que x não é aleatória. Por exemplo, podemos medir as temperaturas de um forno em aquecimento de 5 em 5 minutos. O tempo está bem definido, ao passo que as temperaturas deverão ser definidas ao longo do experimento. ▫ X é dita variável independente, enquanto Y é variável dependente. Hipóteses do modelo usual de regressão • Considera-se que os valores da variável aleatória y dependerão dos valores assumidos pelas variáveis independentes e também do acaso. • Variação residual normalmente distribuída; ▫ Considerando: � = � � + ψ, tem-se que ψ é normalmente distribuiída • � �ℎ� ψ(���) • Variância residual constante ▫ ψ é constante em relação a x. 29/05/2018 7 Regressão linear simples • Após verificar se a correlação linear entre duas variáveis é significante, o próximo passo é determinar a equação da linha que melhor modela os dados (linha de regressão). • Pode ser usada para prever o valor de y para um dado valor de x. x y � = � + �� + ψ Modelo de regressão linear simples Onde: � = � + �� é a equação da reta teóricade regressão ψ é a componente aleatória da variação de y �� = � + �� Reta estimativa Onde: � é chamado de coeficiente de regressão linear e estimativa de � � é chamado de coeficiente de regressão angular, estimativa de � Mínimos quadrados • A determinação das estimativas � e � da reta busca minimizar a soma dos quadrados das diferenças da reta com os pontos experimentais A diferença entre o valor y observado e o valor y previsto para um dado valor x na linha. Para um dado valor x, di = (valor y observado) – (valor y previsto) x y }d1 }d 2 d3 { d4{ }d 5 d6 { valor y previsto valor y observad o � = ∑ �� − �̅ �� ∑ �� − �̅ � � = �� − ��̅ �� = � + �� Exemplo 1 • Obter a equação da reta de mínimos quadrados para os seguintes pontos experimentais: X 1 2 3 4 5 6 7 8 y 0,5 0,6 0,9 0,8 1,2 1,5 1,7 2,0 29/05/2018 8 x y 1 0,5 -3,5 -1,75 12,25 2 0,6 -2,5 -1,5 6,25 3 0,9 -1,5 -1,35 2,25 4 0,8 -0,5 -0,4 0,25 5 1,2 0,5 0,6 0,25 6 1,5 1,5 2,25 2,25 7 1,7 2,5 4,25 6,25 8 2 3,5 7 12,25 Total 9,1 42 (�� − �� ��(�� − �� �� − �� � �̅ = 4,5 � �� = 1,15 ��� = 9,1 ��� = 42 � = ��� ��� = 9,1 42 � =0,217 � = �� − ��̅ = 1,15 − 0,217 ∗ 4,5 � = 0,174 �� = �, ���+ �, ���� � = ∑ �� − �̅ �� ∑ �� − �̅ � � = �� − ��̅ Exercício 5 Encontre a equação da reta de regressão para os gastos com propaganda e dados sobre as vendas da empresa. Gastos com propaganda, ($1000), x Vendas da empresa ($1000), y 2,4 225 1,6 184 2,0 220 2,6 240 1,4 180 1,6 184 2,0 186 2,2 215 �� = � + �� Reta passando pela origem � = �� + ψ �� = �� � = ∑ ���� ∑ �� � Modelo teórico Reta estimativa Exemplo 2 • Obter a equação da reta que passa pela origem pelo método de mínimos quadrados para os seguintes pontos experimentais: X 1 2 3 4 5 6 7 8 y 0,5 0,6 0,9 0,8 1,2 1,5 1,7 2,0 �� = �� � = ∑ ���� ∑ �� � Reta estimativa 29/05/2018 9 Exercício 6 - Extrapolação de parâmetros No começo de um determinado mês, as cotações de uma empresa na Bolsa de valores apresentam-se como no quadro que segue. Considerado um modelo linear: a) Obter o coef. Correlaçao da reta? b) Qual seria uma estimativa para o valor da ação para o sexto e sétimo dia? c) Faça o gráfico dessas estimativas. Dia 1 2 3 4 5 Valor da ação 3,8 3,4 3,1 2,4 2,0
Compartilhar