Baixe o app para aproveitar ainda mais
Prévia do material em texto
Regressão e Modelagem Material Teórico Responsável pelo Conteúdo: Prof. Ms. Bruno Leonardo Silva Tardelli Revisão Textual: Profa. Ms. Sandra Regina F. Moreira Regressão Linear • Introdução • Regressão Linear Simples e Regressão Linear Múltipla • Exemplo de Regressão Múltipla no Software Gretl • Resultados dos Modelos com Uso do Gretl • Comparação de Modelos: Critérios de Informação e R-quadrado Ajustado • As Hipóteses Básicas do Método MQO · O objetivo central desta unidade é praticar a construção de modelos de regressão múltipla, ou seja, aqueles nos quais mais de uma variável explicativa auxilia a previsão da variável explicada. Além disso, a unidade apresenta as hipóteses básicas do método MQO. OBJETIVO DE APRENDIZADO Regressão Linear Orientações de estudo Para que o conteúdo desta Disciplina seja bem aproveitado e haja uma maior aplicabilidade na sua formação acadêmica e atuação profissional, siga algumas recomendações básicas: Assim: Organize seus estudos de maneira que passem a fazer parte da sua rotina. Por exemplo, você poderá determinar um dia e horário fixos como o seu “momento do estudo”. Procure se alimentar e se hidratar quando for estudar, lembre-se de que uma alimentação saudável pode proporcionar melhor aproveitamento do estudo. No material de cada Unidade, há leituras indicadas. Entre elas: artigos científicos, livros, vídeos e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você também encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua interpretação e auxiliarão no pleno entendimento dos temas abordados. Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discussão, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e aprendizagem. Organize seus estudos de maneira que passem a fazer parte Mantenha o foco! Evite se distrair com as redes sociais. Mantenha o foco! Evite se distrair com as redes sociais. Determine um horário fixo para estudar. Aproveite as indicações de Material Complementar. Procure se alimentar e se hidratar quando for estudar, lembre-se de que uma Não se esqueça de se alimentar e se manter hidratado. Aproveite as Conserve seu material e local de estudos sempre organizados. Procure manter contato com seus colegas e tutores para trocar ideias! Isso amplia a aprendizagem. Seja original! Nunca plagie trabalhos. UNIDADE Regressão Linear Introdução O estudo de regressão linear ultrapassa o estudo de uma única variável explicativa (ou independente) como previsor do comportamento de outra variável, a variável explicada (ou dependente). Afinal, diversas variáveis podem ajudar a explicar o resultado de outra. Algumas daquelas podem ter maior impacto que outras, mas estas, mesmo assim, serem importantes. O objetivo central desta unidade é praticar a construção de modelos de regressão múltipla, ou seja, aqueles nos quais mais de uma variável explicativa auxilia a previsão da variável explicada. Por exemplo, o comportamento da inflação pode ser explicado por diversas variáveis, como a taxa de câmbio, taxa de juros, renda disponível interna e externa. Entretanto, cabe ao econometrista unir a teoria econômica e a estatística para construir o “melhor modelo” possível. De fato, não existe um melhor modelo absoluto, mas o econometrista poderá, a partir de análise econômicoestatística, chegar a um modelo satisfatório para explicar a realidade. Regressão Linear Simples e Regressão Linear Múltipla Um modelo de regressão linear simples pode ser enunciado como: Y X= + +β β ε 1 2 Já um modelo de regressão múltipla se apoia na conjugação de mais de uma variável explicativa. Y X Z= + + + +β β β ε 1 2 3 ... em que: Y = variável explicada (ou independente) X = variável explicativa X Z = variável explicativa Z β1 = intercepto (ou constante) β2 = coeficiente de X β3 = coeficiente de Z ε = termo de erro 8 9 Exemplo de Regressão Múltipla no Software Gretl Para realizar a aplicação dos tópicos apontados ao longo desta unidade, vamos nos concentrar em exemplos ligados a um conjunto de dados coletados de um exercício de Gujarati (2006, p. 192). A variável explicada (dependente) é o consumo per capita de frango em libras-peso. As variáveis explicativas são resumidas por X2, X3, X4, X5 e X6. A descrição de cada uma delas está no quadro 1. Quadro 1 - Descrição das variáveis explicativas do consumo de frango per capita Y Consumo per capita de frango (em libras-peso) X2 Renda real disponível per capita, em US$ X3 Preço real da carne de frango, no varejo, centavos de dólar por libra-peso X4 Preço real da carne suína, no varejo, centavos de dólar por libra-peso X5 Preço real da carne bovina, no varejo, centavos de dólar por libra-peso Vamos simular três modelos para podermos comparar os resultados. Modelo I Y X X= + + +β β β ε1 2 32 3 Neste modelo, o consumo de frango per capita será explicado pela renda real disponível per capita e pelo preço real da carne de frango no varejo. Modelo II Y X X X= + + + +β β β β ε1 3 4 53 4 5 Neste modelo, o consumo de frango per capita será explicado pelo preço real da carne de frango, suína e bovina no varejo. Modelo II Y X X X X= + + + + +β β β β β ε1 2 3 4 52 3 4 5 Neste modelo, o consumo de frango per capita será explicado pela renda real disponível per capita e pelos preços reais das carnes de frango, suína e bovina no varejo. Resultados dos Modelos com Uso do Gretl Para apresentar os resultados dos modelos, é necessário inserir os dados do exemplo. Para tal, siga os passos a seguir, apresentados entre as figuras 1 e 6. 9 UNIDADE Regressão Linear Figura 1 – Abrindo o Gretl Figura 2 – Abrindo dados Figura 3 – Selecionando a tabela 7.9 10 11 Figura 4 – Relação de variáveis da tabela 7.9 Figura 5 – Estimação por MQO Figura 6 – Seleção de modelos 11 UNIDADE Regressão Linear A seguir, são apresentados resultados referentes a cada um dos modelos selecionados. As figuras que acompanham cada modelo apresentam a forma de obtenção a partir do software livre Gretl. Modelo I Y X X= + + +β β β ε 1 2 3 2 3 Figura 7 - Resultados do Modelo I apresentados pelo Gretl MQO, usando as observações 1960-1982 (T = 23) Variável dependente: Y Coeficiente Erro Padrão razão-t p-valor const 34,5156 3,85578 8,9517 <0,0001 *** X2 0,0148836 0,0021935 6,7853 <0,0001 *** X3 -0,213592 0,121905 -1,7521 0,0951 * Média var. dependente 39,66957 D.P. var. dependente 7,372950 Soma resid. quadrados 106,6517 E.P. da regressão 2,309239 R-quadrado 0,910821 R-quadrado ajustado 0,901903 F(2, 20) 102,1340 P-valor (F) 3,18e-11 Log da verossimilhança -50,27744 Critério de Akaike 106,5549 Critério de Schwarz 109,9614 Critério Hannan-Quinn 107,4116 Rô 0,750551 Durbin-Watson 0,432741 O quadro 2 exibe a representação da equação estimada do modelo II. 12 13 Quadro 2 - Equação Estimada do Modelo I Y X X= + + +β β β ε 1 2 3 2 3 Equação estimada: Y X X= + −34 5156 0 0148836 2 0 213592 3, , * , * Interpretação da equação estimada do modelo I As variáveis X2 e X3 indicam, respectivamente, a renda real disponível per capita, em US$ e o preço real da carne de frango, no varejo, centavos de dólar por libra-peso. A equação estimada indica que: · Independentemente da renda real per capita e do preço real da carne de frango no varejo (ou seja, se X2 e X3 fossem iguais a zero), o consumo de carne de frango seria de, aproximadamente, 34,52 libras-peso; · A cada centavo de dólar acrescido na renda real per capita, o consumo de carne de frango aumentaria, em média, aproximadamente, 0,02 libras-peso; e, · A cada centavo de dólar acrescido no preço real da carne de frango, no varejo, o consumo de carne de frango seria reduzido, em média, aproximadamente, 0,21 libras-peso. Importante!Observe que os sinais da equação estimada indicam a direção da variável explicada (ou dependente) em relação a cada uma das variáveis explicativas (ou independentes). Importante! Modelo II Y X X X= + + + +β β β β ε 1 3 4 5 3 4 5 Figura 8 - Resultados do Modelo II apresentados pelo Gretl 13 UNIDADE Regressão Linear MQO, usando as observações 1960-1982 (T = 23) Variável dependente: Y Coeficiente Erro Padrão razão-t p-valor const 35,6808 3,39934 10,4964 <0,0001 *** X3 -0,654097 0,157564 -4,1513 0,0005 *** X4 0,232528 0,0543867 4,2755 0,0004 *** X5 0,115422 0,0243033 4,7492 0,0001 *** Média var. dependente 39,66957 D.P. var. dependente 7,372950 Soma resid. quadrados 72,67063 E.P. da regressão 1,955702 R-quadrado 0,939235 R-quadrado ajustado 0,929641 F(3, 19) 97,89329 P-valor (F) 9,78e-12 Log da verossimilhança -45,86568 Critério de Akaike 99,73137 Critério de Schwarz 104,2733 Critério Hannan-Quinn 100,8737 Rô 0,350998 Durbin-Watson 1,251523 Quadro 3 - Equação Estimada do Modelo II Y X X X= + + + +β β β β ε 1 3 4 5 3 4 5 Equação estimada: Y X X X= − + +35 6808 0 654097 3 0 232528 4 0 115422 5, , * , * , * Interpretação da equação estimada do modelo II As variáveis X3, X4 e X5 indicam, respectivamente, os preços reais das carnes de frango, suína e bovina, no varejo, em centavos de dólar por libra-peso. A equação estimada indica que: · Independentemente dos preços reais das carnes de frango, suína e bovina no varejo (ou seja, se X3, X4 e X5 fossem iguais a zero), o consumo de carne de frango seria de, aproximadamente, 35,68 libras-peso; · A cada centavo de dólar acrescido no preço real da carne de frango, no varejo, o consumo de carne de frango seria reduzido, em média, aproximadamente, 0,65 libras-peso; · A cada centavo de dólar acrescido no preço real da carne suína, no varejo, o consumo de carne de frango seria acrescido, em média, aproximadamente, 0,23 libras-peso. Este resultado reforça a hipótese lógica de que o carne de frango e carne suína seriam bens substitutos entre si em função de um aumento no preço da carne suína poder provocar um aumento no consumo de frango; e, · A cada centavo de dólar acrescido no preço real da carne bovina, no varejo, o consumo de carne de frango seria aumentado, em média, aproximadamente, 0,12 libras-peso. Este resultado reforça a hipótese lógica de que a carne de frango e carne bovina seriam bens substitutos entre si em função de um aumento no preço da carne suína expressar um aumento no consumo de frango. Entretanto, o impacto menor, comparativamente a um aumento na carne suína. 14 15 Modelo III Y X X X X= + + + + +β β β β β ε 1 2 3 4 5 2 3 4 5 Figura 9 - Resultados do Modelo III apresentados pelo Gretl MQO, usando as observações 1960-1982 (T = 23) Variável dependente: Y Coeficiente Erro Padrão razão-t p-valor const 37,2324 3,7177 10,0149 <0,0001 *** X2 0,0050107 0,00489287 1,0241 0,3194 X3 -0,611174 0,162849 -3,7530 0,0015 *** X4 0,198409 0,0637207 3,1137 0,0060 *** X5 0,0695029 0,0509872 1,3631 0,1896 Média var. dependente 39,66957 D.P. var. dependente 7,372950 Soma resid. quadrados 68,66969 E.P. da regressão 1,953198 R-quadrado 0,942580 R-quadrado ajustado 0,929821 F(4, 18) 73,87052 P-valor (F) 6,43e-11 Log da verossimilhança -45,21444 Critério de Akaike 100,4289 Critério de Schwarz 106,1064 Critério Hannan-Quinn 101,8568 Rô 0,450426 Durbin-Watson 1,065034 Quadro 4 - Equação Estimada do Modelo III Y X X X X= + + + + +β β β β β ε 1 2 3 4 5 2 3 4 5 Equação estimada: Y X= + − + +37 2324 0 0050107 2 0 611174 3 0 198409 4 0 0695029, , * , *X , *X , *XX5 15 UNIDADE Regressão Linear Interpretação da equação estimada do modelo III As variáveis X2, X3, X4 e X5 indicam, respectivamente, a renda real disponível per capita, os preços reais das carnes de frango, suína e bovina, todas no varejo, em centavos de dólar por libra-peso. A equação estimada indica que: · Independentemente dos preços reais das carnes de frango, suína e bovina no varejo (ou seja, se X3, X4 e X5 fossem iguais a zero), o consumo de carne de frango seria de, aproximadamente, 37,23 libras-peso; · A cada centavo de dólar acrescido na renda real per capita, o consumo de carne de frango aumentaria, em média, aproximadamente, 0,005 libras-peso; · A cada centavo de dólar acrescido no preço real da carne de frango, no varejo, o consumo de carne de frango seria reduzido, em média, aproximadamente, 0,61 libras-peso; · A cada centavo de dólar acrescido no preço real da carne suína, no varejo, o consumo de carne de frango seria acrescido, em média, aproximadamente, 0,20 libras-peso. Este resultado reforça a hipótese lógica de que a carne de frango e carne suína seriam bens substitutos entre si, em função de um aumento no preço da carne suína poder provocar um aumento no consumo de frango; e, · A cada centavo de dólar acrescido no preço real da carne bovina, no varejo, o consumo de carne de frango seria aumentado, em média, aproximadamente, 0,07 libras-peso. Este resultado reforça a hipótese lógica de que a carne de frango e carne bovina seriam bens substitutos entre si, em função de um aumento no preço da carne suína expressar um aumento no consumo de frango. Entretanto, o impacto menor, comparativamente a um aumento na carne suína. Comparação de Modelos: Critérios de Informação e R-quadrado Ajustado Quando se insere uma nova variável explicativa a um modelo, o resultado imediato é que o grau de explicação do modelo se eleva. Entretanto, isto não implica que o modelo seja estatisticamente melhor que outro. A questão é que em modelos muito extensos, entre outros problemas que podem ocorrer, surge a questão da parcimônia. Ou seja, por mais que a soma dos quadrados dos resíduos tenda a diminuir à medida que novas variáveis explicativas são inseridas em um modelo, este se torna pouco valorizado por não conseguir encontrar os aspetos- chave que, de fato, são os mais relevantes para a resolução de qualquer problema resolvido econometricamente. A comparação de modelos é uma forma de distinguir modelos que tentem explicar a mesma variável, buscando selecionar um modelo que em conjunto, erre menos e ao mesmo tempo seja mais parcimonioso, ou seja, moderado no número de variáveis. 16 17 Tradicionalmente, a comparação de modelos se baseia nos critérios de informação e no R-quadrado ajustado. Os critérios de informação mais utilizados na literatura são o critério de Akaike (CIA) e o critério de Schwarz (CIS). Quanto menor o valor destes critérios, melhor será considerado o modelo. Contrariamente, no caso do R2 Ajustado, quanto maior o valor encontrado em um modelo, melhor este será. Importante! É importante reforçar que para efeito de comparação de modelos não se utiliza o R2, mas sim o R2 ajustado! Para maiores detalhes, consulte Sartoris (2003, p. 271-72). Importante! Tabela 1 - Resultados dos critérios de informação e R2 ajustado para os modelos I, II e III Modelo Critério de Schwarz Critério de Akaike R2 ajustado I 109,9614 106,5549 0,9019 II 104,2733 99,7314 0,9296 III 106,1064 100,4289 0,9298 Os resultados dos critérios de informação e do R2 ajustado na tentativa de comparar modelos e encontrar aquele considerado “mais ideal” indicam que o modelo I foi o “pior” entre os três por apresentar maiores valores dos critérios de informação e por revelar o menor valor de R2 ajustado. Entre os modelos II e III, o modelo II apresentou menores valores em relação aos critérios de informação, mas valor inferior quando o assunto é o R2 ajustado. Entretanto, a literatura de econometria tende a preferir confiar mais nos resultados dos critérios de informação do que no R2 ajustado. Além disso, os valores de R2 ajustado nos modelos II e III são muito próximos. Assim, por conter menores valores nos critérios de informação, o modelo II seria considerado o mais adequado entre os três modelos, se formos considerar somente o aspecto dos critérios de informação. Outra consideraçãoacerca dos resultados é que não somente estes aspectos podem ser utilizados para balizar a escolha por determinado modelo. Nesta unidade, não foram abordados outros aspectos, como: o teste t em cada coeficiente para verificar se cada variável é ou não importante estatisticamente para explicar cada modelo considerado; o teste F, o qual avalia a validade conjunta do modelo verificar se o modelo explica estatisticamente a variável explicada (ou dependente); o valor do R2, que verifica a proporção de explicação de cada modelo em relação à variável explicada (ou dependente). Além disso, tem-se que verificar se as hipóteses básicas do método de MQO estão sendo respeitadas. A seção a seguir apresenta as hipóteses básicas do método de regressão via mínimos quadrados ordinários. A violação de tais hipóteses pode, inclusive, comprometer completamente a validade de um modelo. 17 UNIDADE Regressão Linear As Hipóteses Básicas do Método MQO A validade ou robustez de um modelo de regressão via método dos mínimos quadrados ordinários dependerá da sustentação de algumas hipóteses básicas. O quadro 5 apresenta estas hipóteses com uma explicação prática acerca destas. Quadro 5 - Hipóteses Básicas do MQO Hipóteses Explicações práticas I. Erros têm média zero Implica dizer que os erros de um modelo são distribuídos de modo que parte deles estará acima da reta estimada e parte estará abaixo, de modo que os erros positivos e negativos cancelar-se-ão e, em média, serão iguais a zero. II. Erros são normalmente distribuídos Assume-se que se forem obtidos todos os erros possíveis de um modelo, os quais representam a distância entre a reta populacional (verdadeira) e as informações verdadeiras – de uma variável explicativa X, por exemplo – então estes erros seguiriam uma distribuição normal. Isto implica dizer que erros circulando em torno da reta populacional (verdadeira) de um modelo seriam mais recorrentes que erros mais distantes dessa reta. A reta populacional representaria a média da distribuição normal dos erros. Os erros, então, gravitariam ao redor dessa reta e, a maior parte destes estariam relativamente mais próximos dela. III. Os xi não são correlacionados com os erros Os erros não teriam conexão com as informações das variáveis explicativas do modelo. Se assim o fossem, os valores do termo de erro poderiam estar explicando as variáveis explicativas e o modelo poderia apresentar alguns problemas. IV. A variância dos erros é constante Os erros gravitariam ao redor de uma reta populacional (verdadeira) com distribuição normal e a variância dispersão desses erros seriam constantes ao longo da reta. V. Erros não são autocorrelacionados Se os erros “conversarem” entre si, então haverá um modelo escondido. VI. Cada variável independente Xi não pode ser combinação linear das demais Na prática, implica que o modelo não será possível de ser “rodado” e obter algum resultado no software sem que duas variáveis inseridas no modelo sejam combinações perfeitas uma das outras. Por exemplo, inserindo as variáveis explicativas X2 e X3, se todas as informações de uma variável X1 forem o dobro dos elementos de X2, o modelo não terá qualquer resultado no Gretl e apresentará uma série de mensagens. Fonte: Sartoris (2003, p. 262) / Elaboração própria. Para mais detalhes sobre hipóteses básicas do método MQO, você poderá consultar Sartoris (2003, p. 252-62) e Gujarati (2006, p. 53-61).Ex pl or 18 19 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Livros Estatística Aplicada à Administração e Economia DOANE, David P.; SEWARD, Lori E. Porto Alegre: Grupo A, 2012. (e-book) Álgebra Linear Aplicada a Finanças, Economia e Econometria FONSECA, M. A. R. da. São Paulo: Manole, 2003. Econometria HILL, R. C.; GRIFFITHS, W. E.; JUDGE, G. São Paulo: Saraiva, 2003. Estatística para Administração e Economia MCCLAVE, James T.; BENSON, P.; GEORGE; Sincich Terry. 10.ed. São Paulo: Pearson, 2009. (e-book) Estatística Aplicada: Administração, Economia e Negócios SHARPE, Norean R.; DE VEAUX, Richard D.; VELLEMAN, Paul F. Porto Alegre: Grupo A, 2011. (e-book). Introdução à econometria: uma abordagem moderna WOOLDRIDGE, Jeffrey M. São Paulo: Pioneira Thomson Learning, 2006. 19 UNIDADE Regressão Linear Referências GUJARATI, D. Econometria Básica. 4. ed. São Paulo: Elsevier, 2006. SARTORIS, A. Estatística e Introdução a Econometria. São Paulo: Saraiva, 2003. 20
Compartilhar