Baixe o app para aproveitar ainda mais
Prévia do material em texto
Regressão Linear Simples Origem histórica do termo Regressão:Origem histórica do termo Regressão: Francis Galton em 1886 verificou que, embora houvesse uma tendência de pais altos terem filhos altos e pais baixos terem filhos baixos, a altura média de filh d i d d d l di d l “ di ” é lfilhos de pais de uma dada altura tendia a se deslocar ou “regredir” até a altura média da população como um todo. Em outras palavras, a altura dos filhos de pais extraordinariamente altos ou baixos tende a se mover para a altura média da populaçãopopulação. A lei de regressão universal de Galton foi confirmada por Karl Pearson (1903), que coletou mais de mil registros das alturas dos membros de grupos de famílias e verificou que a altura média dos filhos de um grupo de pais altos era inferior a altura de seus pais, e que a altura média dos filhos de um grupo de pais baixos era superior a altura de seus pais. Assim, tanto os filhos altos como baixos “regrediram” em direção a altura média de todos os homens. M d i t t ã d ãModerna interpretação da regressão: Estudo da dependência de uma variável (y) em relação a uma ou mais variáveis (x) com o objetivo de estimar e/ou prever valores. Regressão Linear Simples Muitas pesquisas na área de business trata de modelagem. M d l é t t d iá i tã l i d t iModelar é tentar descrever como as variáveis estão relacionadas entre si. Exemplos: Qual a relação entre o gasto com o consumo de bens alimentares e a renda disponível das pessoas? Qual a relação entre a receita obtida por uma firma e o gasto com propaganda? Qual a relação entre a quantidade de investimento agregado na economia e a taxa O modelo gráfico mais simples relacionando uma variável y com uma variável de juros? O modelo gráfico mais simples relacionando uma variável y com uma variável x é a linha reta. Discutiremos então os modelos lineares simples (linha reta). Suponha que queremos modelar a receita da venda mensal de uma loja em função dos gastos mensais com propaganda. 1ª. Pergunta: Há uma relação exata entre essas duas variáveis, isto é, podemos prever exatamente a receita obtida com as vendas se o gasto com propaganda for especificado?p Não. A quantidade vendida depende de muitas variáveis e não só do gasto com propaganda, como o período do ano, estado geral da economia, estrutura de preços, etc. Entretanto, mesmo se muitas variáveis fossem incluídas no modelo, ainda não seria possível prever exatamente as vendas mensais pois existe o fenômenoseria possível prever exatamente as vendas mensais, pois existe o fenômeno aleatório, que não pode ser modelado ou explicado. Todas as variações nas vendas que não são explicadas serão consideradas como Se acreditarmos que a receita com vendas mensais y será exatamente 10 vezes l d Todas as variações nas vendas que não são explicadas serão consideradas como erro aleatório. o gasto mensal com propaganda x, teremos y = 10x que representa uma relação determinística entre y e x. Se uma linha passa pelos pontos (-1, 3) e (3, 4) e tem um modelo determinístico, podemos obter α e β resolvendo um sistema de 2 equações a duas incógnitas.p β q g xy βα += )1(3 −+= βα )3(4 β )3(4 βα += 13α 4 1 4 = = β α 4 Ex. - Obtenha a equação da reta e desenhe a linha reta que passa pelos pontos q ç q p p p (-2, 2) e (6, 3). Entretanto, se acreditarmos que o modelo deve ser construído permitindo um erro aleatório então teremos um modelo probabilístico que inclui umaerro aleatório, então teremos um modelo probabilístico, que inclui uma relação determinística e um componente aleatório de erro. Se a receita com vendas mensais y for relacionada com o gasto mensal com propaganda x, tal queque y = 10x + erro aleatório, então teremos uma relação probabilística entre y e x. Iniciaremos com o modelo mais simples que é a linha reta:Iniciaremos com o modelo mais simples, que é a linha reta: exy ++= βα onde y é variável dependente x é a variável exógenax é a variável exógena e é o componente aleatório α é o intercepto da reta ou ponto no qual a linha corta o eixo yα é o intercepto da reta ou ponto no qual a linha corta o eixo y β é a inclinação ou o aumento (decréscimo) em y causado por um aumento (decréscimo) em x y β x α Considere os dados da tabela abaixo, mantidos simples para evitar confusões aritméticas. Mês Gasto com Propaganda x ($ 100) Receita com vendas y ($ mil) 1 1 11 1 1 2 2 1 3 3 2 4 4 2 5 5 4 Pressupõe-se que a relação entre a receita e o gasto com propaganda segue um modelo linear de primeira ordem, isto é: exy ++= βα A pergunta é: Como utilizar da melhor forma a informação da tabela para estimar os parâmetros desconhecidos α (intercepto) e β (inclinação)? Um gráfico de dispersão relacionando os pontos é importante para obter valores aproximados dos parâmetros. • y Receitas • • • • xGasto com propaganda O gráfico sugere uma tendência crescente, isto é, y aumenta quando x aumenta. Se g g , , y q colocarmos uma régua e traçarmos uma linha reta, ela passará por três dos cinco pontos. • y 3 4 • • • • 1 2 3 x -1 1 2 3 4 5 Observando-se o gráfico, nota-se que a reta corta o eixo y no ponto -1 e que y aumenta de 1 unidade a cada aumento de uma unidade em x. Portanto, a inclinação é +1 A equação então fica:inclinação é +1. A equação, então, fica: xy +−= 1~ onde o símbolo ~ denota o valor previsto de y a partir de um modelo ajustado visualmente. Uma forma de verificar se a reta se ajusta bem ao conjunto de dados é observando o quanto os dados se distanciam da reta, isto é, calculando os desvios ou a diferença entre o valor observado e o valor estimado de y. • y xy +−= 1~ • • • • x x y xy +−= 1~ )~( yy − 2)~( yy − 1 1 0 (1 0) 1 11 1 0 (1 – 0) = 1 1 2 1 1 (1 – 1) = 0 0 3 2 2 (2 – 2) = 0 0 4 2 3 (2 – 3) = –1 1 5 4 4 (4 4) 0 05 4 4 (4 – 4) = 0 0 Soma = 0 Soma = 2 Movimentando a régua, é possível encontrar várias retas em que a soma dos desvios é igual a zero, mas pode-se demonstrar que existe somente uma reta em que a soma de quadrados dos desvios é mínima. Esta linha é denominada linha de mínimos quadrados ou regressão linear. Outro Exemplo: S h t i t d t d l ã t dSuponha que estamos interessados em estudar a relação entre renda familiar e despesas com alimentação. Selecionaremos residências aleatoriamente com renda familiar de 480 dól ê t i t d t d t f idólares por mês, e entrevistaremos os moradores, perguntando o quanto foi gasto com alimento no mês passado. Gasto com alimento = y = variável aleatória. Mesmo selecionando residências com a mesma renda, a quantia gasta comMesmo selecionando residências com a mesma renda, a quantia gasta com alimentação varia de uma residência para outra por inúmeras razões. -algumas famílias são do gênero gourmet l tê d l t- algumas têm adolescentes - algumas são vegetarianas Curva de Engel - Ernest Engel (1857 – Bélgica) G t f( d )Gastos = f(renda) Engel estabeleceu as primeiras leis empíricas que governam a relação entre renda e despesas. Estudou uma amostra de 153 famílias na Bélgica em 1857. (1) Alimento é o item mais importante no orçamento familiar (2) a proporção do gasto total alocado com alimento diminui quando a renda aumenta. A lei passou a ser uma medida de pobreza: Famílias que gastam mais de 35% da sua renda com alimentos são consideradas pobresda sua renda com alimentos são consideradas pobres. luxodebens 1>yey enecessidad de bens 10 << ye i f ib1< inferioresbens 1<ye A variável aleátoria y tem uma função densidade de probabilidade f(y) que descreve as probabilidades dos diversos valores das despesas com alimentação na população e é na realidade uma funçãocondicional pois está condicionada àna população, e é na realidade uma função condicional, pois está condicionada à renda da família. x = renda mensal da família )480( =xyf função densidade de probabilidade condicional 2)480( σ==xyVar xyxyE μ== )480( despesa mensal média da população com alimentação variância condicional de y)480( σ==xyVar Uma análise econométrica do efeito da despesa pode dar resposta a algumas questões importantes, como: - se a renda mensal aumentar de $20, de quanto, em média, aumentarão as despesas com alimentação? - É possível a despesa mensal com alimentação cair quando a renda aumenta? - Qual a previsão de despesa mensal com alimentação de uma família com renda mensal de $800,00? Planejamentos a longo prazo em supermercados seriam auxiliados tendo estas respostas. Qual deve ser o tamanho do supermercado em bairro pobre eestas respostas. Qual deve ser o tamanho do supermercado em bairro pobre e rico, etc. Para pesquisar a relação entre despesa e renda, devemos construir um modelo econômico e a seguir um modelo econométrico que constituam a base de umaeconômico e a seguir um modelo econométrico que constituam a base de uma análise econômica quantitativa. No nosso exemplo, a teoria econômica sugere que a despesa mensal média com alimentação de uma família, representada por E(y⏐x), depende da renda daç , p p (y⏐ ), p família. A despesa média para as casas com maior renda é maior do que a despesa média para as casas com menor renda.p Faremos a suposição de que a relação entre consumo e renda é linear. Então, o modelo econômico da despesa de uma família com alimentação é: xxyE )( ββμ +== xxyE xy 21)( ββμ +== a função de regressão simples (porque tem 1 variável do lado direito da equação) têm 2 parâmetros β1 e β2 desconhecidos β1 = despesa mensal média com alimentação em uma família com renda zero(intercepto)(intercepto) β2 = variação em E(y⏐x) para uma variação de $1 na renda mensal oupropensão marginal a gastar com alimentação (coeficiente angular) Para usarmos os dados, devemos especificar um modelo econométrico, p que descreva como as variáveis renda e despesa de uma família são geradas. Se tomarmos uma amostra aleatória de famílias com renda mensal de $480, sabemos que os valores efetivos das despesas se distribuirão em torno do valor ⏐médio E(y⏐x). Se fôssemos tomar amostras de despesas domésticas para outros níveis de renda, os valores amostrais também se distribuiriam em torno da média. A figura mostra que, em cada nível de renda, o valor médio da despesa doméstica é dado pela função de regressão. xxyE 21)( ββ += Algumas suposições: A di t ib i ã d l t d édi d 2)( σ=xyVar para todos os valores de x - A distribuição dos valores y em torno de sua média deve ser a mesma para todos os níveis de renda x, isto é, )( σ=xyVar para todos os valores de x. ver figura Æ as funções densidades têm médias diferentes, porém variâncias iguaisiguais. Dados com variância constante são homoscedásticos t l tó i i ifi d l t d d l ã- amostra aleatória, o que significa que, quando se coletam os dados, eles são estatisticamente independentes. O conhecimento de uma despesa nada nos diz quanto ao valor que a outra pode tomar. Nos modelos econométricos, costuma-se propor uma hipótese mais fraca do que a independência estatística que é a da covariância entre yi e yj ser zeroque a independência estatística, que é a da covariância entre yi e yj ser zero. Pressupostos do modelo de regressão linear simples xyE 21)( )1 ββ += 2)var()2 σ=y)var( )2 σy 0),cov( )3 =ji yy cx ≠)4 cx ≠ )4 ( )221 ,~ )5 σββ XNy + Erro Aleatório A essência da análise de regressão é que qualquer observaçãog q q q sobre a variável dependente y pode decompor-se em dois componentes, um sistemático e um aleatório. O componente sistemático de y é sua média e o componente aleatório de y é asistemático de y é sua média, e o componente aleatório de y é a diferença entre y e seu valor médio E(y). xyyEye 21)( ββ −−=−= ou exy ++= 21 ββ as funções densidade de y e e são idênticas, exceto pelo fato da E(e) = 0 Em econometria, costuma-se formular as hipóteses do modelo de ã t d l tó iregressão em termos do erro aleatório e. Pressuposições: exy ++= 21 )1 ββ xyEeE 21)( pois 0)( )2 ββ +== y 21)(p)() ββ )var()( 3) 2 yeVar == σ 0)cov( )4 =jiee ≠5) cx ≠ 5) ),0(~ )6 2σNe Uma diferença entre y e e é que y é observável, enquanto e não é. Se β1 e β2 fossem conhecidos, poderíamos calculá-los.( )xye 21 ββ +−= Como β1 e β2 nunca são conhecidos, é impossível calcular e. É interessante encarar e de maneira ligeiramente diferente EleÉ interessante encarar e de maneira ligeiramente diferente. Ele representa todos os fatores não observáveis que afetam y. Esses fatores fazem com que observações individuais y difiram do Ex.: erro de aproximação devido a forma funcional valor médio β1 + β2x. Gosto do indivíduo (componente comportamental) Estimação dos parâmetros Despesa RendaDespesaDespesa RendaRenda Considere os dados da tabela. São valores observados da variável 1 52,25 258,30 2 58 32 343 1 Despesa Renda 1 52,25 258,30 2 58 32 343 1 DespesaDespesa RendaRenda aleatória y que satisfazem as pressuposições 1 a 6. 2 58,32 343,1 40 269 03 1154 60 2 58,32 343,1 40 269 03 1154 60 M 40 269,03 1154,6040 269,03 1154,60 Como utilizar y e x amostrais para estimar os parâmetros Colocando os dados em um diagrama de dispersão tem-se desconhecidos β1 e β2? Nosso problema é estimar a posição da reta de despesa média. Seria de esperar que essa reta estivesse no meio de todos os pontos já que representa um comportamento médio. Precisamos então dej que ep ese u co po e o éd o. ec s os e o de um critério formal para traçar a reta, e de preferência, que utilizasse todas as informações. O princípio dos mínimos quadrados Vamos empregar uma regra para estimar β1 e β2 baseado no i í i d í i d dprincípio dos mínimos quadrados. Este princípio afirma que, para ajustar uma reta aos valores dos dados, devemos procurar a reta tal que a soma dos quadrados das distâncias verticais de cada ponto à reta seja a menor possível. Tomam se os quadrados das distâncias para evitar que grandesTomam-se os quadrados das distâncias para evitar que grandes distâncias positivas sejam canceladas pelas negativas. As estimativas de mínimos quadrados de β1 e β2 são b1 e b2. A reta ajustada é tt xbby 21ˆ += As distâncias verticais de cada ponto à reta ajustada são os resíduos de mínimos quadrados, que são dados por: ttttt xbbyyye 21ˆˆ −−=−= ttttt yyy 21 Suponha agora que queiramos ajustar aos dados outra retaSuponha agora que queiramos ajustar aos dados outra reta arbitrária, digamos tt xbby * 2 * 1 *ˆ += as estimativas de mínimos quadrados b e b têm a seguinteas estimativas de mínimos quadrados b1 e b2 têm a seguinte propriedade: a soma dos quadrados dos seus resíduos é menor do que a soma dos quadrados dos resíduos de qualquer outra reta, não importando o modo como tal linha possa ter sido traçada por entre os pontos p ç p p representativos dos dados. ( ) ( )∑ ∑∑ ∑ 2*2*22 ( ) ( )∑ ∑∑ ∑ −=≤−= 2*2*22 ˆˆˆˆ tttttt yyeyye O problema agora é encontrar uma forma conveniente para determinar b1 e b2 Dadas as observações amostrais sobre x e ydeterminar b1 e b2 . Dadas as observações amostrais sobre x e y, devemos achar valores dos parâmetros desconhecidos β1 e β2 que minimizem a função soma de quadrados dos erros: ( ) ( )2 1 2121 , ∑ = −−= T i tt xyS ββββ ( ) ( ) 012 21 1 =−⋅−−=∂ ∂ ∑ tt xyS βββ ∑ ∑ =++− 0222 21 tt xTy ββ ∂S ( )( ) 02 21 2 =−−−=∂ ∂ ∑ ttt xxyS βββ 0222 2∑ ∑∑ ββ 0222 221 =++− ∑ ∑∑ tttt xxxy ββ ∑ ∑=+ tt yxbTb 21 ( )∑× tx ∑ ∑ ∑=+ yxxbxb 2 ( )T× ( )∑ ∑∑∑ =+ tttt xyxbxTb 221 ∑ ∑ ∑=+ tttt yxxbxb 21 ( )T× (1) ∑ ∑∑ =+ tttt yxTxTbxTb 221 (2) Fazendo (2) menos (1) obtém-se: ( )[ ] tttttt yxTxyxTxb Σ+ΣΣ−=Σ+Σ− 222 ( )222 tt tttt xxT yxyxTb Σ−Σ ΣΣ−Σ= xby T xb T yb tt 221 −=Σ−Σ= Observe que se xt = c, b2 não existiria, pois o denominador seria 0. - os estimadores de MQ são fórmulas gerais e são variáveis aleatórias - as estimativas de MQ são os valores observados de variáveis aleatórias A Reta de Regressão estimada ou ajustada é: tt xy 1283,07676,40ˆ += A reta ajustada de MQ passa pelo meio dos dados de forma muito precisa, pois uma das características da reta ajustada, baseada nasprecisa, pois uma das características da reta ajustada, baseada nas estimativas de mínimos quadrados dos parâmetros, é que ela passa pelo ponto definido pelas médias amostrais. b2 = 0,13 é o aumento na despensa mensal com alimento quando d l t d $1a renda mensal aumenta de $1. Assim, se a renda aumenta de $100, estima-se em $13 o aumento da despesa mensalaumento da despesa mensal. b = 40 77 é uma estimativa da despesa mensal com alimentaçãob1= 40,77 é uma estimativa da despesa mensal com alimentação de uma família com renda zero. Elasticidades A elasticidade renda da demanda é uma forma conveniente de caracterizar o nível da resposta da despesa do consumidor a variações na renda. y x x y ⋅Δ Δ=η y x x y ∂ ∂ OU como x y ∂ ∂=2β , então x2βη =x∂ y no ponto de média tem-se 69,0 31130 69813,0ˆ 2 =⋅== y xbη p 31,130y uma variação de 1% na renda mensal de uma família acarreta, em média um aumento de aproximadamente 0 7% na despesa commédia, um aumento de aproximadamente 0,7% na despesa com alimentação. Como η < 1 é necessidade e não luxo. Previsão Suponha que queiramos prever a despesa mensal com alimentação de uma família com renda mensal de $750,00, então 137$)750(13,077,40ˆ =⋅+=ty d l d $750 $137prevemos que uma casa com renda mensal de $750 gaste $137 com alimentação. Voltando ao exemplo da receita e gasto com propaganda. Obtenha a e b. tx ty 2tx tt yx 1 1 1 1 2 1 4 2 3 2 9 6 3 2 9 6 4 2 16 8 5 4 25 20 Totais 15 10 55 37 703515018510.1537.5 −−ΣΣ−Σ tttt yxyxTb ( ) 7,050225275)15(55.5 222 ==−=−=Σ−Σ= tt tttt xxT yyb 1,03.7,02 5 157,0 5 10 −=−=−=Σ−Σ= T xb T ya tt • y 4 xy 7010ˆ +−= • • • • 1 2 3 xy 7,01,0 += x1 2 3 4 5 x y xy 7,01,0ˆ +−= )ˆ( yy − 2)ˆ( yy − 1 1 0 6 (1 – 0 6) = 0 4 0 161 1 0,6 (1 0,6) 0,4 0,16 2 1 1,3 (1 – 1,3) = -0,3 0,09 3 2 2,0 (2 – 2) = 0 0 4 2 2,7 (2 – 2,7) = –0,7 0,49 5 4 3 4 (4 3 4) = 0 6 0 365 4 3,4 (4 – 3,4) = 0,6 0,36 Soma = 0 Soma = 1,1 A soma de quadrado dos desvios é 1 1 que é menor do que 2 o valor obtidoA soma de quadrado dos desvios é 1,1, que é menor do que 2, o valor obtido anteriormente. Outros modelos econômicos O d l d ã li i l é it i fl í l dO modelo de regressão linear simples é muito mais flexível do que parece a primeira vista, porque as variáveis x e y podem ser transformações que envolvem logaritmo, quadrados, cubos ou inversos das variáveis econômicas básicas. Na verdade, o modelo é linear nos parâmetros, não se permitindo l (β)expressões como ln(β) xy lnln 21 ββ +=São comuns modelos econômicos como: uma característica interessante desse modelo é que β2 é a elasticidade de y em relação a x. x y yx y ∂ ∂=∂ ∂ 1ln ( ) xx x 1ln 2 21 βββ =∂ +∂= portanto ηβ =⋅∂ ∂= y x x y 2 Ex. - Seja x a quantidade de certo produto, em milhares de unidades, e y o respectivo custo total de produção em milhares de reais. É dada a seguinte amostra de 10 pares de valores. Estime a equação da reta pelo método de mínimos εβα ++= xy quadrados, utilizando-se os dados da tabela abaixo. Arquivo de dados – ex-custo.xls x (1000 unidades) y (R$ 1000,00) 1 7 2 112 11 3 15 4 14 5 18 6 21 7 23 8 30 9 32 10 34 Ex. – Obtenha os valores estimados de y, os resíduos e e a soma de quadrado dos desvios. 10 34 Ex. – Devido ao controle de preço feito pela OPEP, o preço do óleo cru subiu dramaticamente de 1970 a início de 1980. Como resultado, os motoristas também se defrontaram com aumento do preço da gasolina Com base nos dados da tabelase defrontaram com aumento do preço da gasolina. Com base nos dados da tabela abaixo, faça o gráfico de dispersão e obtenha a reta estimada do preço da gasolina em função do preço do óleo. Arquivo de dados – ex-gasol_oleo.xls Ano Gasolina (centavo dolar/galão) y óleo cru ($/barril) x 1973 38 8 3 891973 38.8 3.89 1975 56.7 7.67 1976 59 8.19 1977 62 2 8 571977 62.2 8.57 1978 62.6 9 1979 85.7 12.64 1980 119.1 21.59 1981 133.1 31.77 1982 122.2 28.521982 122.2 28.52 1983 115.7 26.19 1984 112.9 25.88 Ex. – Para testar um novo fertilizante foi feito um experimento. Um terreno foi dividido em 8 partes, a produção de batata em Kg foi pesada e foram colocadas doses diferentes de fertilizantes em cada parte (Kg) obtendo se:doses diferentes de fertilizantes em cada parte (Kg), obtendo-se: Arquivo de dados – ex-batata.xls d d id d dProdução de batatas y quantidade de fertilizante x 25 1 31 1.5 27 2 28 2.5 36 3 35 3.5 32 4 Qual seria a produção de batatas se uma dose de fertilizante de 3,75 Kg fosse 32 4 34 4.5 utilizada?
Compartilhar