Baixe o app para aproveitar ainda mais
Prévia do material em texto
26/03/2015 1 Regressão Linear Simples - Introdução Prof. Cesar Alexandre de Souza Material desenvolvido em conjunto com a Profa. Adriana Backx Noronha Viana EAD0655 – Técnicas Estatísticas de Projeção Agenda • Apresentação do conceito de Regressão Linear • Método dos Mínimos Quadrados – Introdução • Resolução da Situação Problema 9 com Excel • Coeficiente de Determinação – Introdução • Estimativa do Coeficiente de Determinação na Situação Problema 9 com Excel • Apresentação da Situação Problema 10 e da Atividade 5 O assunto dessa aula encontra-se nas páginas 427 a 444 do livro de Anderson et al (2008) 26/03/2015 2 Conceito Descrever (correlação) Prever (regressão) Explicar! (teoria) • Análise de Regressão Linear: técnica estatística utilizada para prever os valores de uma variável dependente, com base nos valores de uma variável independente (Regressão Simples), ou de diversas variáveis independentes (Regressão Múltipla). Análise de Regressão • Pode ser utilizada para: – Determinar se existe uma relação entre a variável dependente e a (s) independente (s); (análise de correlação e teste de significância) – Determinar a estrutura ou a forma da relação (equação); – Avaliar a intensidade da relação; (coeficiente de determinação) – Predizer os valores da variável dependente (equação). 26/03/2015 3 • A partir das vendas de 7 meses de uma empresa, qual seria sua previsão para o próximo mês? Mês Vendas (Y) 1 650 2 500 3 800 4 400 5 650 6 700 7 500 Média 600 Vendas (Y) 0 200 400 600 800 1000 0 2 4 6 8 Mês Exemplo – Situação Problema 9 • A média é um ponto de referência: uma previsão sem uma variável independente. – Se não temos mais nenhuma informação podemos supor que a venda seja a média dos dados históricos (a média é usada como a melhor previsão). • O objetivo da regressão é melhorar essa previsão de referência com o uso de uma ou mais variáveis independentes que estejam associadas à variável dependente (y) . • A regressão linear simples é o caso em que temos apenas uma variável independente (x) Regressão Linear Simples 26/03/2015 4 • Exemplos: – Até que ponto as vendas estão relacionadas com as despesas de propaganda? – A conscientização dos consumidores quanto à qualidade é determinada pela sua percepção quanto a preços, imagem e atributos da marca? – Como a remuneração está associada a itens como possuir ou não graduação, tempo de experiência e desempenho? – Qual é a relação entre as notas obtidas e horas gastas com a leitura extra-classe? Regressão Linear Simples Exemplo – Situação Problema 9 • Vamos supor que obtivéssemos a informação sobre investimentos em propaganda nesses meses Mês Investimento em Propaganda (X) Vendas (Y) 1 50 650 2 20 500 3 70 800 4 10 400 5 60 650 6 40 700 7 30 500 26/03/2015 5 Diagrama de Dispersão • Gráfico dos valores de duas variáveis, para todos os casos ou observações: – Eixo vertical – variável dependente; – Eixo horizontal – variável independente. – Serve para determinar a forma da relação entre as variáveis, os padrões dos dados ou alertar sobre possíveis problemas; – Indica se a relação entre X e Y pode ser modelada numa linha reta e se o modelo de regressão é apropriado. Exemplo – Diagrama de Dispersão Vendas por Investimentos em Propaganda 200 300 400 500 600 700 800 900 0 20 40 60 80 Investimento em Propaganda Ve nd as Uma inspeção visual permite avaliar se a regressão linear pode ser adequada – mas é importante tomar cuidado com as escalas empregadas, que podem levar a conclusões incorretas 26/03/2015 6 Vendas por Investimentos em Propaganda 200 300 400 500 600 700 800 900 0 20 40 60 80 Investimento em Propaganda Ve nd as ŷ = b0 + b1x Ŷ representa a venda predita O ajuste da reta aos pontos deve ser empregado utilizando um método que seja objetivo e facilmente calculável Exemplo – Ajustando uma reta aos pontos Exemplo – Ajustando uma reta aos pontos Vendas por Investimentos em Propaganda 200 300 400 500 600 700 800 900 0 20 40 60 80 Investimento em Propaganda Ve nd as ŷ = 364,3 + 5,89x O método dos mínimos quadrados é um método que usa os dados amostrais para identificar a reta que “mais se aproxima” dos pontos da amostra, e é usado para encontrar a equação da reta ajustada aos pontos, que é a estimativa da reta de regressão da população. 26/03/2015 7 – No exemplo, a equação da reta obtida pelo método dos mínimos quadrados é Venda Predita = 364,3 + 5,89 x Invest. em Propaganda – Assim, para um investimento em propaganda de 55, pode- se prever uma venda de: Venda Predita = 364,3 + 5,89 x 55 = 688 Embora uma reta tenha sido “ajustada”, cuidados devem ser tomados quanto ao seu grau de ajuste aos dados e ao seu uso para previsão, especialmente utilizando valores para X que estejam fora do intervalo da amostra utilizada Também deve-se tomar o cuidado de analisar cuidadosamente a questão de “causalidade”, pois elas podem estar relacionadas por uma terceira variável omitida do modelo, por exemplo Exemplo – Ajustando uma reta aos pontos Estimação dos Parâmetros do Modelo: Método dos Mínimos Quadrados (MMQ) Y X XbbY o . ˆ 1 Reta de melhor ajuste x1 xn ... x2 xi ... y1 y2 yi yn .. . 26/03/2015 8 Estimação dos Parâmetros do Modelo: Método dos Mínimos Quadrados (MMQ) Y X x1 xn Erros de Predição ... XbbY o . ˆ 1 Reta de melhor ajuste x2 xi y1 ... y2 yi yn .. . Estimação dos Parâmetros do Modelo: Método dos Mínimos Quadrados (MMQ) • A melhor reta seria aquela que minimizasse os erros de predição ( ) ( ) • Possíveis critérios para ajuste de uma reta (minimização dos erros de predição) – Minimizar a soma dos erros ( ) – Minimizar a soma dos valores absolutos dos erros ( ) – Minimizar a soma dos quadrados dos erros ( ) )ˆ( ii YY )ˆ( ii YY )ˆ( ii YY 2 )ˆ( ii YY 26/03/2015 9 Estimação dos Parâmetros do Modelo: Método dos Mínimos Quadrados (MMQ) • A minimização pelo método dos mínimos quadrados significa localizar os valores de bo e b1 para minimizar a função • Substituindo , temos que minimizar a seguinte função para os valores de a e b • onde: – yi = valor observado da variável dependente para a i-ésima observação – xi = valor observado da variável independente para a i- ésima observação 2 )ˆ( ii YYSSE 2 10 )( ii XbbYSSE ioi XbbY . ˆ 1 Estimação dos Parâmetros do Modelo: Método dos Mínimos Quadrados (MMQ) • Minimizar essa expressão requer igualar suas derivadas parciais em bo e b1 a zero 0 0 1 b SSE b SSE o SSE bo b1 26/03/2015 10 Estimação dos Parâmetros do Modelo: Método dos Mínimos Quadrados (MMQ) • Derivando-se as duas expressões é obtido um conjunto de duas equações simultâneas, que, se resolvido, gera as seguintes soluções: x y yx i ii S S r XX YYXX b ,21 )( ))(( XbYb 10 Eq. i Eq. ii Investimento em Propaganda (X) Vendas (Y) (X - X) (Y - Y) (X - X)* (Y - Y) (X - X)2 10 400 -30 -200 6000 900 20 500 -20 -100 2000400 30 500 -10 -100 1000 100 40 700 0 100 0 0 50 650 10 50 500 100 60 650 20 50 1000 400 70 800 30 200 6000 900 Média 40 600 Soma 16500 2800 Desv. Pad 20 128 rxy 0,9195 Verificando o Exemplo Apresentado 89,5 2800 16500 1 b 3,3644089,56000 b 89,5 20 128 9195,01 b 26/03/2015 11 Estimação dos Parâmetros do Modelo: Método dos Mínimos Quadrados (MMQ) • Fórmula Alternativa • Onde (xi; yi) = valor das variáveis independente e dependente para a i-ésima observação • = valor médio para a variável independente • = valor médio para a variável dependente • n = número total de observações nxx nyxyx b ii iiii /)( /)( 221 xbyb 10 x y Eq. iii Vendas por Investimentos em Propaganda 200 300 400 500 600 700 800 900 0 20 40 60 80 Investimento em Propaganda Ve nd as ŷ = 364,3 + 5,89x Qual é o grau de “eficiência” do modelo ao prever os dados? Quanto o nosso modelo melhora nossa capacidade de previsão inicial? Avaliação do Modelo: Ajuste Geral 26/03/2015 12 • Nossa melhor previsão inicial, ou seja, sem a variável dependente, era a média (600) Mês Vendas (Y) Venda Predita (ŷ=y) 1 650 600 2 500 600 3 800 600 4 400 600 5 650 600 6 700 600 7 500 600 Média 600 Exemplo – Situação Problema 9 Assim, se fôssemos estimar o SSE nesse caso, como ŷ1 = Y para todo Yi, a equação seria: 2 )( YYi Essa quantidade é conhecida como variância total do modelo, ou SST É a variação de Y em relação a sua média, que corresponde a um modelo de previsão “base”. Qualquer variável independente acrescentada procurará melhorar a previsão, ou seja, diminuir essa variância 2 )ˆ( ii YY Variância Total do Modelo (SST) 200 300 400 500 600 700 800 900 0 20 40 60 80 V e n d as Investimento em Propaganda Vendas por Investimento em Propaganda ŷ = y = 600 2 )( YYSST i 26/03/2015 13 Exemplo – Situação Problema 9 • Já com a inclusão da variável independente “Investimento em Propaganda”, chegamos a equação Venda Predita = 5,89X+364,3 e calculamos SSE do modelo como descrito no desenvolvimento do MMQ Mês Investimento em Propaganda (X) Vendas (Y) Venda Predita (ŷ) (5,89X+364,3) 1 50 650 658,7 2 20 500 482,0 3 70 800 776,5 4 10 400 423,1 5 60 650 717,6 6 40 700 599,8 7 30 500 540,9 2 )ˆ( ii YYSSE É a variação de Y em relação aos valores previstos pelo modelo, ou seja, uma medida do erro de previsão geral desse modelo Esse erro é sempre menor do que o erro em relação à média Erros em Relação à Previsão (SSE) 200 300 400 500 600 700 800 900 0 20 40 60 80 V e n d as Investimento em Propaganda Vendas por Investimento em Propaganda 2 )ˆ( ii YYSSE ŷ = 364,3 + 5,89x 26/03/2015 14 Avaliação do Modelo: Ajuste Geral • Coeficiente de Determinação (R2) – Variância Total = Variância Não Explicada + Variância Explicada – Variância Total: (SST) – Variância Não Explicada: (SSE) – Variância Explicada: (SSR) 2 )ˆ( ii YY SST SSE SST SSR R 12 Eq. iv 2 )( YYi 2 )ˆ( ii YY Avaliação do Modelo: Ajuste Geral • Coeficiente de Determinação (R2) – É a proporção da variância de Y explicada pelo modelo de regressão – O R2 varia entre 0 (nenhuma explicação) e 1 (perfeita explicação) – Em pesquisas exploratórias, em que as variáveis são menos conhecidas, valores menores são mais aceitáveis do que em áreas onde os parâmetros são mais conhecidos – Ex. Ciências Naturais (R2 >= 0,8 ou maior) vs. Ciências Sociais (R2 >= 0,6 ou menor) 26/03/2015 15 Verificando o Exemplo Apresentado Investimento em Propaganda (X) Vendas (Y) Venda Predita (ŷ) Erros de Previsão pelo Modelo (yi - ŷ) 2 Erros de Previsão pela Média (yi -y) 2 10 400 423,1 533,6 40000,0 20 500 482,0 324,0 10000,0 30 500 540,9 1672,8 10000,0 40 700 599,8 10040,0 10000,0 50 650 658,7 75,7 2500,0 60 650 717,6 4569,8 2500,0 70 800 776,5 552,3 40000,0 Média 40 600 Somas 17768,2 115000,0 Desv. Pad 20 128 8455,01545,01 115000 2,17768 12 R xyrR 9195,08455,0 2 (SSE) (SST) O Modelo de Regressão Linear Simples • Modelo de Regressão Linear Simples yi = 0 + 1xi + i • Equação da Regressão Linear Simples E(y) = 0 + 1x • Equação Estimada da Regressão Linear Simples (reta ajustada) ŷ = b0 + b1x 26/03/2015 16 Situação Problema 10 Fonte- U.S. Department of Transportation - Página 480 - Texto 2 (Anderson et al; Capítulo 12 - Regressão Linear Simples). Cidades % de motoristas habilitados com menos de 21 Acidentes fatais por mil CNH 1 13% 2,962 2 12% 0,708 3 8% 0,885 4 12% 1,652 5 11% 2,091 6 17% 2,627 7 18% 3,83 8 8% 0,368 9 13% 1,142 10 8% 0,645 11 9% 1,028 12 16% 2,801 13 12% 1,405 14 9% 1,433 15 10% 0,039 16 9% 0,338 17 11% 1,849 18 12% 2,246 19 14% 2,855 20 14% 2,352 21 11% 1,294 Cidades % de motoristas habilitados com menos de 21 Acidentes fatais por mil CNH 22 17% 4,1 23 8% 2,19 24 16% 3,623 25 15% 2,623 26 9% 0,835 27 8% 0,82 28 14% 2,89 29 8% 1,267 30 15% 3,224 31 10% 1,014 32 10% 0,493 33 14% 1,443 34 18% 3,614 35 10% 1,926 36 14% 1,643 37 16% 2,943 38 12% 1,913 39 15% 2,814 40 13% 2,634 41 9% 0,926 42 17% 3,256 Atividade 5 • A tabela da situação 10 apresenta dados de 42 cidades americanas, comparando a % de motoristas com menos de 21 anos na cidade e a quantidade de acidentes fatais por mil motoristas, em um determinado ano. a) Analise a relação entre os dados a partir do diagrama de dispersão. O que pode-se concluir pela análise visual da relação entre as variáveis? b) Identifique a equação de regressão (utilizando as equações i e ii apresentadas). c) Verifique o grau de ajuste da equação de regressão calculando o R2 (utilizando a equação iv) d) O que se pode concluir a partir do modelo de regressão obtido? e) Entregue seu trabalho individualmente pelo STOA, em Excel, até quinta-feira, 09/04, às 23h55m
Compartilhar