Prévia do material em texto
Estat́ıstica Departamento de Estat́ıstica / UFPB Regressão Análise de Regressão Elementos da Regressão Considere o problema de prever valores para uma variável de interesse Y , que denominaremos de ”variável resposta”. Suponha que Y possua uma relação linear com uma variável x, de tal maneira que possamos considerar que x explica Y e por conta disso, chamaremos x de variável explicativa. A análise de regressão linear consiste em escrever Y como função linear de x, com o objetivo de utilizar informações de x, em geral mais acesśıveis, para prever Y . Exemplos: y é o total das vendas (em reais) por dia de um supermercado. x é o número de clientes por dia de um supermercado. ŷ “ a` bx 2 11 Análise de Regressão Elementos da Regressão Considere o problema de prever valores para uma variável de interesse Y , que denominaremos de ”variável resposta”. Suponha que Y possua uma relação linear com uma variável x, de tal maneira que possamos considerar que x explica Y e por conta disso, chamaremos x de variável explicativa. A análise de regressão linear consiste em escrever Y como função linear de x, com o objetivo de utilizar informações de x, em geral mais acesśıveis, para prever Y . Exemplos: y é o total das vendas (em reais) por dia de um supermercado. x é o número de clientes por dia de um supermercado. ŷ “ a` bx 2 11 Análise de Regressão Elementos da Regressão Considere o problema de prever valores para uma variável de interesse Y , que denominaremos de ”variável resposta”. Suponha que Y possua uma relação linear com uma variável x, de tal maneira que possamos considerar que x explica Y e por conta disso, chamaremos x de variável explicativa. A análise de regressão linear consiste em escrever Y como função linear de x, com o objetivo de utilizar informações de x, em geral mais acesśıveis, para prever Y . Exemplos: y é o total das vendas (em reais) por dia de um supermercado. x é o número de clientes por dia de um supermercado. ŷ “ a` bx 2 11 Modelo de regressão linear simples Yi “ a` bxi ` εi, com i “ 1, . . . , n, (1) em que Yi: variável resposta (ou dependente); xi: variável explicativa (ou independente); εi: erro aleatório; a: intercepto (representa o ponto onde a reta corta o eixo das ordenadas); b: coeficiente angular (representa o quanto varia a média de Y para o aumento de uma unidade em X). 3 11 Interpretação dos coeficientes Para ilustrar a interpretação dos coeficientes, vamos considerar o seguinte exemplo: x: horas de estudo e y: nota na prova de uma amostra de alunos da disciplina de estat́ıstica. Encontramos a reta de regressão: ŷ “ 1` 2x. Vamos ver isso graficamente, desenhando o plano cartesiano. x y 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 ŷ “ 1` 2x (ŷ “ a` bx) a x ŷ “ 1` 2p2q (ŷ “ a` bx) x` 1 ŷ “ 1` 2p2` 1q (ŷ “ a` bpx` 1q) b 4 11 Interpretação dos coeficientes No plano cartesiano, vamos desenhar a reta de regressão: modelo: Y “ a` bx` ε. O modelo real. reta de regressão: ŷ “ a` bx. Equação para uma amostra qualquer. reta ajustada: ŷ “ 1` 2x. Equação obtida a partir da amostra do nosso exemplo. x y 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 ŷ “ 1` 2x (ŷ “ a` bx) a x ŷ “ 1` 2p2q (ŷ “ a` bx) x` 1 ŷ “ 1` 2p2` 1q (ŷ “ a` bpx` 1q) b 4 11 Interpretação dos coeficientes Interpretação do coeficiente a Para interpretar o intercepto a, basta fa- zer x “ 0 na equação ŷ “ a` bx. Para o nosso exemplo, fazer x “ 0 é equivalente ao aluno não estudar (estu- dar 0 horas). Então, quando o aluno não estuda, sua nota ŷ “ 1` 2x “ 1` 2p0q “ 1. Portanto, a “ 1 é a nota média quando o aluno não estuda. x y 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 ŷ “ 1` 2x (ŷ “ a` bx) a x ŷ “ 1` 2p2q (ŷ “ a` bx) x` 1 ŷ “ 1` 2p2` 1q (ŷ “ a` bpx` 1q) b 4 11 Interpretação dos coeficientes Interpretação do coeficiente b Vamos começar escolhendo um valor de x (um tempo de estudo), por exemplo x “ 2. Assim, o aluno que estuda x “ 2 horas, tira em média ŷ “ 1` 2x “ 1` 2p2q “ 5 na prova de estat́ıstica. x y 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 ŷ “ 1` 2x (ŷ “ a` bx) a x ŷ “ 1` 2p2q (ŷ “ a` bx) x` 1 ŷ “ 1` 2p2` 1q (ŷ “ a` bpx` 1q) b 4 11 Interpretação dos coeficientes Interpretação do coeficiente b Agora, vamos adicionar uma unidade a x, isto é, vamos de x “ 2 horas de es- tudo para x “ 3 horas de estudo. Quando isso acontece, o aluno tira em média ŷ “ 1` 2px` 1q “ 1` 2p2` 1q “ 7 na prova de estat́ıstica. x y 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 ŷ “ 1` 2x (ŷ “ a` bx) a x ŷ “ 1` 2p2q (ŷ “ a` bx) x` 1 ŷ “ 1` 2p2` 1q (ŷ “ a` bpx` 1q) b 4 11 Interpretação dos coeficientes Interpretação do coeficiente b Para interpretar o coeficiente angular b, basta adicionar uma unidade a x fazendo x˚ “ x` 1 e então verificar que o novo ŷ˚ é igual a ŷ˚ “ a`bpx˚q “ a`bpx`1q “ a`bx`b ŷ˚ “ ŷ ` b. Para o nosso exemplo, ŷ˚ “ 1`2px`1q “ 1`2x`2 “ ŷ`2. Portanto, a cada uma hora de es- tudo adicional a nota do aluno au- menta em 2 unidades. x y 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 ŷ “ 1` 2x (ŷ “ a` bx) a x ŷ “ 1` 2p2q (ŷ “ a` bx) x` 1 ŷ “ 1` 2p2` 1q (ŷ “ a` bpx` 1q) b 4 11 Reta de Regressão Seja tpx1, y1q, px2, y2q, . . . , pxn, ynqu uma amostra aleatória de tamanho n, na qual, de cada i-ésima unidade amostral, com i “ 1, . . . , n, foi observado os valores xi e yi, das variáveis X e Y , respectivamente. A reta de regressão é definido por: ŷ “ a` bx, em que a “ ȳ ´ bx̄, b “ Sxy Sxx , Sxy “ ř xy ´ nx̄ȳ, Sxx “ ř x2 ´ nx̄2. 5 11 Reta de Regressão Exemplo 1: Considere as amostras de três variáveis apresentadas na tabela a seguir. Obtenha as seguintes retas de regressão: ŷ “ a` bx; ŵ “ a` bx. Amostras das variáveis X, Y e W . x y w 1 1 9 3 4 8 5 5 5 7 6 2 9 8 0 6 11 Exemplo 3: reta ŷ “ a` bx. Para obter a reta ŷ “ a` bx, podemos seguir os seguintes passos: 2 4 6 8 1 2 3 4 5 6 7 8 x y 1. Crie as colunas: x2 e xy. 2. Obtenha os somatórios de todas as colunas. 3. Calcule: x̄ “ ř x n “ 25 5 “ 5. ȳ “ ř y n “ 24 5 “ 4,8. Sxx “ ÿ x2 ´ nx̄2 “ 165´ 5p52q “ 165´ 125 “ 40 Sxy “ ÿ xy ´ nx̄ȳ “ 152´ 5p5qp4, 8q “ 152´ 120 “ 32 x y 1 1 3 4 5 5 7 6 9 8 b “ Sxy Sxx “ 32 40 “ 0,8 a “ ȳ ´ bx̄ “ 4,8´ 0,8p5q “ 0,8. ŷ “ 0,8` 0,8x. 7 11 Exemplo 3: reta ŷ “ a` bx. Para obter a reta ŷ “ a` bx, podemos seguir os seguintes passos: 1. Crie as colunas: x2 e xy. 2. Obtenha os somatórios de todas as colunas. 3. Calcule: x̄ “ ř x n “ 25 5 “ 5. ȳ “ ř y n “ 24 5 “ 4,8. Sxx “ ÿ x2 ´ nx̄2 “ 165´ 5p52q “ 165´ 125 “ 40 Sxy “ ÿ xy ´ nx̄ȳ “ 152´ 5p5qp4, 8q “ 152´ 120 “ 32 x y x2 xy 1 1 12 “1 1 ¨ 1 “1 3 4 32 “9 3 ¨ 4 “12 5 5 52 “25 5 ¨ 5 “25 7 6 72 “49 7 ¨ 6 “42 9 8 92 “81 9 ¨ 8 “72 b “ Sxy Sxx “ 32 40 “ 0,8 a “ ȳ ´ bx̄ “ 4,8´ 0,8p5q “ 0,8. ŷ “ 0,8` 0,8x. 7 11 Exemplo 3: reta ŷ “ a` bx. Para obter a reta ŷ “ a` bx, podemos seguir os seguintes passos: 1. Crie as colunas: x2 e xy. 2. Obtenha os somatórios de todas as colunas. 3. Calcule: x̄ “ ř x n “ 25 5 “ 5. ȳ “ ř y n “ 24 5 “ 4,8. Sxx “ ÿ x2 ´ nx̄2 “ 165´ 5p52q “ 165´ 125 “ 40 Sxy “ ÿ xy ´ nx̄ȳ “ 152´ 5p5qp4, 8q “ 152´ 120 “ 32 x y x2 xy 1 1 1 1 3 4 9 12 5 5 25 25 7 6 49 42 9 8 81 72 ř x “25 ř y “24 ř x2 “165 ř xy “152 b “ Sxy Sxx “ 32 40 “ 0,8 a “ ȳ ´ bx̄ “ 4,8´ 0,8p5q “ 0,8. ŷ “ 0,8` 0,8x. 7 11 Exemplo 3: reta ŷ “ a` bx. Para obter a reta ŷ “ a` bx, podemos seguir os seguintes passos: 1. Crie as colunas: x2 e xy. 2. Obtenha os somatórios de todas as colunas. 3. Calcule: x̄ “ ř x n “ 25 5 “ 5. ȳ “ ř y n “ 24 5 “ 4,8. Sxx “ ÿ x2 ´ nx̄2 “ 165´ 5p52q “ 165´ 125 “ 40 Sxy “ ÿ xy ´ nx̄ȳ “ 152´ 5p5qp4, 8q “ 152´ 120 “ 32 x y x2 xy 1 1 1 1 3 4 9 12 5 5 25 25 7 6 49 42 98 81 72 ř x “25 ř y “24 ř x2 “165 ř xy “152 b “ Sxy Sxx “ 32 40 “ 0,8 a “ ȳ ´ bx̄ “ 4,8´ 0,8p5q “ 0,8. ŷ “ 0,8` 0,8x. 7 11 Exemplo 3: reta ŵ “ a` bx. Para obter a reta ŵ “ a` bx, podemos seguir os seguintes passos: 2 4 6 8 0 2 4 6 8 x w 1. Crie as colunas: x2 e xw. 2. Obtenha os somatórios de todas as colunas. 3. Calcule: x̄ “ ř x n “ 25 5 “ 5. w̄ “ ř w n “ 24 5 “ 4,8. Sxx “ ÿ x2 ´ nx̄2 “ 165´ 5p52q “ 165´ 125 “ 40 Sxw “ ÿ xw ´ nx̄w̄ “ 72´ 5p5qp4, 8q “ 72´ 120 “ ´48 x w 1 9 3 8 5 5 7 2 9 0 b “ Sxw Sxx “ ´48 40 “ ´1,2 a “ w̄ ´ bx̄ “ 4,8´ p´1,2qp5q “ 10,8. ŵ “ 10,8´ 1,2x. 8 11 Exemplo 3: reta ŵ “ a` bx. Para obter a reta ŵ “ a` bx, podemos seguir os seguintes passos: 1. Crie as colunas: x2 e xw. 2. Obtenha os somatórios de todas as colunas. 3. Calcule: x̄ “ ř x n “ 25 5 “ 5. w̄ “ ř w n “ 24 5 “ 4,8. Sxx “ ÿ x2 ´ nx̄2 “ 165´ 5p52q “ 165´ 125 “ 40 Sxw “ ÿ xw ´ nx̄w̄ “ 72´ 5p5qp4, 8q “ 72´ 120 “ ´48 x w x2 xw 1 9 12 “1 1 ¨ 9 “9 3 8 32 “9 3 ¨ 8 “24 5 5 52 “25 5 ¨ 5 “25 7 2 72 “49 7 ¨ 2 “14 9 0 92 “81 9 ¨ 0 “0 b “ Sxw Sxx “ ´48 40 “ ´1,2 a “ w̄ ´ bx̄ “ 4,8´ p´1,2qp5q “ 10,8. ŵ “ 10,8´ 1,2x. 8 11 Exemplo 3: reta ŵ “ a` bx. Para obter a reta ŵ “ a` bx, podemos seguir os seguintes passos: 1. Crie as colunas: x2 e xw. 2. Obtenha os somatórios de todas as colunas. 3. Calcule: x̄ “ ř x n “ 25 5 “ 5. w̄ “ ř w n “ 24 5 “ 4,8. Sxx “ ÿ x2 ´ nx̄2 “ 165´ 5p52q “ 165´ 125 “ 40 Sxw “ ÿ xw ´ nx̄w̄ “ 72´ 5p5qp4, 8q “ 72´ 120 “ ´48 x w x2 xw 1 9 1 9 3 8 9 24 5 5 25 25 7 2 49 14 9 0 81 0 ř x “25 ř w “24 ř x2 “165 ř xw “72 b “ Sxw Sxx “ ´48 40 “ ´1,2 a “ w̄ ´ bx̄ “ 4,8´ p´1,2qp5q “ 10,8. ŵ “ 10,8´ 1,2x. 8 11 Exemplo 3: reta ŵ “ a` bx. Para obter a reta ŵ “ a` bx, podemos seguir os seguintes passos: 1. Crie as colunas: x2 e xw. 2. Obtenha os somatórios de todas as colunas. 3. Calcule: x̄ “ ř x n “ 25 5 “ 5. w̄ “ ř w n “ 24 5 “ 4,8. Sxx “ ÿ x2 ´ nx̄2 “ 165´ 5p52q “ 165´ 125 “ 40 Sxw “ ÿ xw ´ nx̄w̄ “ 72´ 5p5qp4, 8q “ 72´ 120 “ ´48 x w x2 xw 1 9 1 9 3 8 9 24 5 5 25 25 7 2 49 14 9 0 81 0 ř x “25 ř w “24 ř x2 “165 ř xw “72 b “ Sxw Sxx “ ´48 40 “ ´1,2 a “ w̄ ´ bx̄ “ 4,8´ p´1,2qp5q “ 10,8. ŵ “ 10,8´ 1,2x. 8 11 Qualidade do Ajuste da Regressão Definição (Coeficientes de Determinação): O Coeficientes de Determinação é uma medida de qualidade do ajuste que pode ser interpretado como a proporção da variação da resposta Y explicada por X . O R2 é o quadrado da correlação, isto é, R2 “ r2 “ pcorrelaçãoq2, 0 ď R2 ď 1. Se o R2 estiver próximo de zero, dizemos que o modelo não se ajusta bem ao dados. Quanto mais próximo de um estiver o R2, melhor é o ajuste. 9 11 Exemplo 4: Calcule o coeficiente de determinação para as retas ajustadas no Exemplo 3. Reta ŷ “ 0,8` 0,8x Syy “ ÿ y2 ´ nȳ2 “ 142´ 5p4, 82 q “ 26, 8, Sxx “ 40 e Sxy “ 32. Desta forma, a correlação é: rxy “ Sxy a SxxSyy “ 32 a p40qp26,8q “ 0,977. Portanto, o coeficiente de determinação é R2 “ 0,9772 “ 0,955. Resposta: a reta ŷ “ 0,8` 0,8x explica 95,5% da variabilidade total de Y . Reta ŵ “ 10,8´ 1,2x Sww “ ÿ w2 ´ nw̄2 “ 174´ 5p4,82 q “ 58,8, Sxx “ 40 e Sxw “ ´48. Desta forma, a correlação é: rxw “ Sxw ? SxxSww “ ´48 a p40qp58,8q “ ´0,9897. Portanto, o coeficiente de determinação é R2 “ p´0,9897q2 “ 0,9795. Resposta: a reta ŵ “ 10,8´ 1,2x explica 97,95% da variabilidade total de W . 10 11 Referências Bibliográficas Os livros BUSSAB e MORETTIN (2017), COSTA NETO (2002) estão dispońıvel na Minha Biblioteca, que é uma base de livros eletrônicos, em português, que reúne milhares de t́ıtulos acadêmicos das diversas áreas do conhecimento. Para acessar a Biblioteca você deve fazer o login no SIGAA da UFPB e acessar seguindo esta sequência no menu: Biblioteca ´ ą Pesquisar Livros Digitais ´ ą Minha Biblioteca. BUSSAB, W. O.; MORETTIN, P. A. Estat́ıstica Básica. 9ª. ed. São Paulo: Saraiva, 2017. Dispońıvel em: xhttps://sigaa.ufpb.bry. COSTA NETO, P. L. O. Estat́ıstica. 2ª. ed. São Paulo: Edgard Blücher, 2002. Dispońıvel em: xhttps://sigaa.ufpb.bry. 11 / 11 https://sigaa.ufpb.br https://sigaa.ufpb.br 3. Regressão 3.1 Introdução 3.2 O modelo de regressão linear simples 3.3 Interpretação dos coeficientes 3.3 Reta de Regressão 3.4 Qualidade do Ajuste da Regressão