Baixe o app para aproveitar ainda mais
Prévia do material em texto
ECONOMETRIA W BA 06 05 _v 1. 0 © 2018 POR EDITORA E DISTRIBUIDORA EDUCACIONAL S.A. Todos os direitos reservados. Nenhuma parte desta publicação poderá ser reproduzida ou transmitida de qualquer modo ou por qualquer outro meio, eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer outro tipo de sistema de armazenamento e transmissão de informação, sem prévia autorização, por escrito, da Editora e Distribuidora Educacional S.A. Presidente Rodrigo Galindo Vice-Presidente de Pós-Graduação e Educação Continuada Paulo de Tarso Pires de Moraes Conselho Acadêmico Carlos Roberto Pagani Junior Camila Braga de Oliveira Higa Carolina Yaly Danielle Leite de Lemos Oliveira Juliana Caramigo Gennarini Mariana Ricken Barbosa Priscila Pereira Silva Coordenador Mariana Ricken Barbosa Revisor Flavio Kaue Fiuza de Moura Editorial Alessandra Cristina Fahl Daniella Fernandes Haruze Manta Flávia Mello Magrini Hâmila Samai Franco dos Santos Leonardo Ramos de Oliveira Campanini Mariana de Campos Barroso Paola Andressa Machado Leal Dados Internacionais de Catalogação na Publicação (CIP) Lima, Marcelo Tavares de L732e Econometria/ Marcelo Tavares de Lima – Londrina: Editora e Distribuidora Educacional S.A. 2018. 108 p. ISBN 978-85-522-1050-4 1. Variáveis dummy. 2. Mercado financeiro. I. Lima, Marcelo Tavares de. Título. CDD 330 Responsável pela ficha catalográfica: Thamiris Mantovani CRB-8/9491 2018 Editora e Distribuidora Educacional S.A. Avenida Paris, 675 – Parque Residencial João Piza CEP: 86041-100 — Londrina — PR e-mail: editora.educacional@kroton.com.br Homepage: http://www.kroton.com.br/ mailto:editora.educacional%40kroton.com.br?subject= http://www.kroton.com.br/ Econometria 3 SUMÁRIO Apresentação da disciplina 04 Tema 01 – Modelos univariados 05 Tema 02 – Séries temporais 24 Tema 03 – Análise de modelos e relaxamento dos pressupostos clássicos 43 Tema 04 – Regressão com variáveis Dummy 60 Tema 05 – Modelos multivariados 76 Tema 06 – Modelos com variável dependente discreta 90 Tema 07 – Tópicos especiais em econometria 105 Tema 08 – Econometria de mercados financeiros 120 ECONOMETRIA 4 Eficiência Energética Apresentação da disciplina Este material apresenta aos usuários da teoria econômica e demais in- teressados no assunto, métodos quantitativos de análises de dados. O método quantitativo a ser desenvolvido neste conteúdo será a econome- tria, cujo objetivo é levar o aluno a entender, desenvolver e aplicar seus métodos de forma correta e eficiente. A econometria segundo Malassise “é uma área e, ao mesmo tempo, um método de estudo utilizado em diversas áreas do conhecimento, porém, de maneira mais profunda nos estudos econômicos” (MALASSISE, 2015, p.11). Em cursos de Economia, a econometria se caracteriza como disci- plina fundamental para a fixação de bases quantitativas da teoria econô- mica. Por isso, também é conhecida como “medição econômica”, sendo a tradução literal de econometria. A econometria é uma ciência social aplicada que se utiliza de conceitos e ferramentas de áreas como matemática, estatística e teoria econômica. Ela surgiu da necessidade de se trabalhar relações quantitativas, cujo in- tuito é tornar possível a refutação ou a aceitação de uma conclusão en- contrada por alguma ferramenta de análise de dados. O termo econometria surgiu por volta de 1926 com base na palavra “bio- metria”, a qual se refere à utilização de métodos estatísticos em pesquisas biológicas. Sua apresentação para a comunidade acadêmica foi feita pelo economista norueguês Ragnar Frisch. A intenção desta disciplina é fazer com que você conheça os diversos mo- delos econométricos existentes, apresentar aplicações práticas, com o intuito de tornar clara a importância de sua utilização na análise de pro- blemas econômicos para a tomada de decisão e para a realização de pre- visões confiáveis. 5 Eficiência Energética TEMA 01 MODELOS UNIVARIADOS Objetivos • Este texto tem como objetivo apresentar e desenvolver os seguintes tópicos: (1) a natureza da análise econo- métrica; (2) o modelo clássico e seus pressupostos e; (3) modelos lineares e não lineares. 6 Eficiência Energética Introdução A econometria faz uso da teoria econômica e de dados da economia, ne- gócios, ciências sociais e estatística, com a intenção de solucionar proble- mas associados a quantidades. Por exemplo, o estudo da quantidade de vendas de um determinado produto em um mercado consumidor que passa por uma situação específica de interesse. O termo econometria surgiu em 1926 através de um economista norue- guês, porém a implementação de seus conceitos surgiu bem antes, em 1838, com a teoria de Duopólio, de Agustin Cournot, o qual estabeleceu por meio dessa teoria que “as quantidades ofertadas no mercado surgem da ação e reação de dois vendedores, obedecendo algumas regras especí- ficas” (MALASSISE, 2015, p.16). A demora no desenvolvimento de estudos econométricos, mesmo depois das pesquisas de Cournot ocorreu por con- ta da dificuldade e da escassez de obtenção de dados confiáveis que per- mitissem o seu uso para a realização de estudos empíricos econométricos. Segundo Matos “os propósitos da econometria são: (a) a mensuração de variáveis; (b) a estimação de parâmetros e; (c) a formulação e teste de hi- póteses” (1995 apud MALASSISE, 2015, p.18). Dados os propósitos, ainda segundo o mesmo autor, os objetivos são: (a) a verificação de teorias econômicas; (b) a avaliação de políticas econômi- cas e, (c) a previsão de valores futuros de variáveis de natureza econômi- ca. Os métodos desenvolvidos neste texto são os métodos de modelos univariados, lineares e não lineares, os quais têm como principal caracte- rística a existência de uma única variável dependente em seu processo de modelagem e, uma ou mais variáveis independentes. 1. A natureza da análise econométrica A afirmação de que em muitas situações o desenvolvimento e a avaliação de uma pesquisa dependem do conhecimento que o pesquisador tem so- bre econometria e análise de regressão, inclusive no que se refere a suas Eficiência Energética 7 potencialidades e a suas limitações, não é nenhum absurdo ou exagero. A econometria é útil para ajudar o pesquisador a separar ideias coerentes de ideias absurdas ou, hipóteses de pesquisa boas daquelas ruins. Por exemplo, numa negociação na bolsa de valores, é melhor esperar a baixa de preços de ações para realizar compra ou, é melhor fazer negociações conforme a teoria do passeio aleatório (random walk)? Qual a melhor ati- tude para ser tomada? Como mencionado anteriormente, a econometria faz a integração da te- oria econômica com a matemática e a estatística, com o propósito de for- mular e testar hipóteses construídas a partir dos fenômenos de natureza econômica através de medidas de variáveis e estimação de parâmetros. Dados os propósitos apresentados, é possível identificar que a econome- tria tem, segundo Malassise (2015), “o objetivo de realizar a verificação de teorias econômicas através de estudos empíricos e as avaliações de políticas econômicas pelo conhecimento de valores numéricos de parâ- metros como elasticidade, multiplicadores, coeficientes técnicos, etc. e, ainda, tem a intenção de realizar previsão de valores futuros de variáveis de natureza econômica”. A econometria pode ser subdividida em duas vertentes: teórica e apli- cada. A teórica se refere ao estudo da estruturação dos modelos teóri- cos existentes, no intuito de avançar com propostas de novos modelos que possam ser mais adequados ou, que possam permitir a solução de problemas, de forma mais eficaz. A econometria aplicada realiza aplica- ções de modelos existentes, os quais são selecionados por informações prévias dos problemas a serem estudados. Em economia, a aplicação da econometria ocorre em problemas de microeconomia, que são estudos que envolvem teoria da demanda, produção, investimento, consumo, dentreoutros. 8 Eficiência Energética ASSIMILE “Econometria é a ciência que lida com a determinação, por métodos estatísticos, das leis quantitativas concretas que ocorrem na vida econômica [...] está ligada à teoria econô- mica e à estatística econômica e tenta por métodos matemá- ticos e estatísticos dar expressão concreta e quantitativa às leis gerais e esquemáticas estabelecidas pela teoria econô- mica” (LANGE, 1961 apud MALASSISE, 2015, p. 13). A análise de regressão é um dos métodos mais importantes da econo- metria aplicada. Com sua utilização, é possível conhecer os efeitos que algumas variáveis exercem sobre outras. Mesmo que não haja relação significativa de causa e efeito entre as variáveis analisadas, com a análi- se de regressão é possível construir uma relação funcional expressa por equações matemáticas. Como pressuposto, a análise de regressão considera que devem existir, no mínimo, duas variáveis para sua viabilidade de aplicação, em que, uma delas é chamada dependente ou endógena (em geral denotada por Y) e, a(s) outra(s), denominada(s) de independente(s) ou exógena(s) (em geral, denotada(s) por X). De forma geral, a análise de regressão pode representar a relação entre as variáveis da seguinte maneira: Y = f (X1, X2, ..., Xk) (1) onde Y representa a variável dependente ou endógena e os Xh = (h = 1,2, ... , k) representam as variáveis explicativas ou exógenas. Considere como aplicação os seguintes exemplos: (1) O estudo do crescimento popula- cional (Y ) em função dos anos analisados (X); (2) Estudo da variação da produção de um item (Y ) segundo o preço de venda (X1) e a renda dos potenciais consumidores (X2). Eficiência Energética 9 Quando, na análise de regressão, tiver uma única variável independente, tem-se o caso particular chamado análise de regressão simples e, quan- do se tiver mais de uma variável independente, tem-se o caso de análise de regressão múltipla. Em toda análise de regressão, a relação funcional construída entre as variáveis dependentes e independentes considera um termo residual ou de erro, o qual significa um ajuste para equilibrar o modelo elaborado, ou seja, ele representa os fatores não considerados no processo de modelagem e que podem ser influentes na relação entre as variáveis analisadas, e por ter uma natureza aleatória, torna os mode- los elaborados em probabilísticos, os quais sob esta condição recebem o nome de modelos estatísticos ou econométricos. 2. O modelo clássico e seus pressupostos No item anterior foi dito que a regressão linear é um dos métodos mais utilizados em estudos econométricos. No entanto, para que possa ser uti- lizada, faz-se necessário que alguns pressupostos sejam garantidos. Tais pressupostos são originários da forma em que o modelo de regressão linear é construído, o qual utiliza o método dos mínimos quadrados ordi- nários (MQO) para sua construção. O seu uso permite que seja possível realizar um processo de interpolação por previsão. Para que o uso da regressão linear seja eficiente, é importante que exista algum grau de correlação linear entre as variáveis analisadas. Portanto, é interessante sempre fazer essa verificação antes de se iniciar qualquer procedimento de construção de modelo, mesmo que seja por conheci- mento a priori. Considere que existam n pares de valores de duas variáveis em um es- tudo econômico, as quais são representadas por Xi e Yi (i = 1,2, ... , n). Considerando que Y seja função linear de X, é possível estabelecer uma regressão linear simples através do seguinte modelo estatístico. 10 Eficiência Energética Yi = ß0 + ß1 Xi + ei (2) onde ß0 e ß1 são parâmetros, Xi é a variável independente, Yi é a variável dependente e ei é o termo erro aleatório. Os parâmetros do modelo de regressão linear simples, ß0 e ß1 são os coefi- cientes linear e angular da reta de regressão ajustada pelo modelo de re- gressão linear simples, respectivamente. O coeficiente angular, também, é conhecido por coeficiente de regressão e, o coeficiente linear por termo constante da equação de regressão. Quando estabelecido um modelo de regressão linear simples, os seguin- tes pressupostos estão em consideração: 1. A relação funcional entre X e Y é linear. 2. Os valores de X são fixos, ou seja, X não é uma variável aleatória. 3. A média do termo erro aleatório é zero. 4. Para um dado valor de X, a variância do erro aleatório ei é sempre a mesma, σ2, conhecida como variância residual. 5. Os erros aleatórios de observações distintas não são correlacionados. 6. Os erros aleatórios possuem distribuição Normal. Ainda é necessário verificar se o número de observações disponíveis é maior que o número de parâmetros do modelo ajustado. Por exemplo, para o ajuste de um modelo de regressão linear simples, são necessárias, no mínimo, três observações, pois, se estiverem disponíveis apenas duas observações, não é possível realizar qualquer tipo de análise estatística. 3. Modelos lineares e não lineares Considerando que o modelo de regressão a ser ajustado aos dados será uma regressão linear simples, o passo inicial a ser realizado é buscar esti- mativas dos parâmetros do modelo, os quais são obtidos a partir de uma amostra de pares de valores para Xi e Yi, os quais correspondem a n pon- tos num gráfico de dispersão. Eficiência Energética 11 A estimativa de um modelo de regressão linear simples é representada pela seguinte equação. onde é a estimativa do valor esperado para o modelo, e são as estimativas dos parâmetros do modelo ajustado. As estimativas dos parâmetros do modelo são obtidas por MQO, o qual consiste em construir estimativas que minimizam a soma de quadrados dos desvios do modelo, que são representados por ei = Yi – e, conse- quentemente, são obtidos os seguintes estimadores dos parâmetros do modelo de regressão linear simples: e ASSIMILE As estimativas dos parâmetros da reta de regressão são ob- tidas a partir de um sistema de equações conhecido como sistema de equações normais, que são A resolução do sistema leva para as equações conhecidas que estimam os valores dos parâmetros. 12 Eficiência Energética EXEMPLIFICANDO Para ver uma aplicação da teoria apresentada, considere o exercício a seguir, disponível em Murolo e Bonetto (2013, p. 42), descrevendo a situação de uma empresa de embalagens plásti- cas. Esta empresa está preocupada com a demanda (Yi) do pro- duto fabricado por ela. Então, resolveu fazer um estudo sobre as variações dos preços de venda (Xi). Fez um levantamento de dados e, obtiveram as informações da seguinte tabela. Tabela 1. Demanda de embalagens plásticas por preço Preço de venda (Xi) 16 18 20 23 26 28 30 33 35 Demanda (Yi) 1200 1150 950 830 800 760 700 690 670 Fonte: Adaptado de Murolo e Bonetti (2013, p. 42). A partir dos dados será construído um modelo de regressão linear simples e, como primeira verificação, será construído um gráfico de dispersão para verificar se existe relação linear entre o preço e a demanda em estudo. O gráfico de dispersão, construído em planilha Microsoft Excel®, indica que há relação linear entre as duas variáveis. Essa verificação está sendo feita de forma subjetiva pelo gráfico, porém é possível fazer uma comprovação da existência de relação linear pelo coeficiente de correlação linear de Pearson. PARA SABER MAIS O coeficiente de correlação (linear) entre duas variáveis é uma estatística que mede o grau de associação existente entre elas. Essa medida varia num intervalo finito de valores, especifica- mente, de –1 a +1. A correlação linear será tanto mais forte entre as variáveis quanto mais próxima estiver de –1 ou +1 e será tanto mais fraca quanto mais próxima estiver de zero. Essa medida pode ser calculada pela seguinte equação: Eficiência Energética 13 Figura 1. Gráfico de dispersão entre demanda e preço Fonte: Elaboração do autor. Agora, reescrevendo os dados, serão calculadas algumas medidas que ajudarão a obter as estimativas dos parâmetros do modelo a serajustado pelo método de mínimos quadrados ordinários. Os resultados para essa etapa encontram-se na tabela 2. Tabela 2. Dados auxiliares Ordem Preço de venda (Xi) Demanda (Yi) Xi2 Yi2 Xi Yi 1 16 1200 256 1440000 19200 2 18 1150 324 1322500 20700 3 20 950 400 902500 19000 4 23 830 529 688900 19090 5 26 800 676 640000 20800 6 28 760 784 577600 21280 7 30 700 900 490000 21000 8 33 690 1089 476100 22770 9 35 670 1225 448900 23450 Total 229 7750 6183 6986500 187290 Fonte: Adaptado de Murolo e Bonetti (2013, p. 42). 14 Eficiência Energética Com os cálculos construídos na tabela auxiliar, pode-se calcular os valo- res das estimativas dos parâmetros com maior facilidade, a partir da linha dos totais, como mostrado a seguir. Coeficiente linear: Coeficiente angular: Portanto, a equação de regressão ajustada será: Se o modelo ajustado for desenhado em um gráfico através da reta ajus- tada, colocada em um gráfico juntamente com os dados originais, com o auxílio do Microsoft Excel®, será obtido o gráfico 2. Gráfico 2. Dados originais com a reta ajustada Fonte: Elaboração do autor. Eficiência Energética 15 Suponha que a empresa deseja estimar a demanda para um determinado preço do produto plástico, por exemplo x = $31. Então, utilizando a equa- ção ajustada, será obtido o seguinte valor para a demanda (quantidade de produto). LINK Como fazer uma regressão linear simples no Excel: Veja como é fácil fazer uma regressão linear simples no Excel e anali- sar se os resultados obtidos são coerentes. Disponível em: <www.voitto.com.br/blog/artigo/regressao-linear-simples- no-excel>. Acesso em: 01 junho 2018. Em muitas situações, o pesquisador desconhece o tipo de relação funcio- nal existente entre variáveis e, mesmo realizando uma análise explorató- ria gráfica, fica difícil de perceber como elas se relacionam. Então, faz-se necessário o uso de técnicas de regressão para explorar modelos conve- nientes sugeridos pelos dados coletados (BUSSAB, 2017). Muitos dos modelos utilizados são chamados não lineares devido ao fato das variáveis envolvidas na modelagem se relacionarem de maneira não linear, diferente do observado no exercício acima. Em outras palavras, considerando um modelo que envolva duas variáveis, se uma reta não for uma descrição adequada para a relação entre elas, certamente, o modelo adequado é do tipo não linear. No entanto, a pergunta que vem é “qual o modelo mais adequado?”. Uma primeira sugestão para responder à pergunta, assim como realiza- do no processo de ajuste de uma regressão linear, seria a construção de um gráfico de dispersão, caso o problema envolva apenas duas variáveis. A forma gráfica identificada com a elaboração do gráfico pode fornecer alguma sugestão de um modelo não linear, por exemplo, um modelo qua- drático, cúbico, exponencial etc. https://www.voitto.com.br/blog/artigo/regressao-linear-simples-no-excel https://www.voitto.com.br/blog/artigo/regressao-linear-simples-no-excel 16 Eficiência Energética Para exemplificar, considere os dados apresentados por Bussab e Morettin (2017, p.491) e, adaptados aqui, onde dispuseram de informações da in- flação brasileira para alguns anos. Os dados e o diagrama de dispersão foram refeitos em Microsoft Excel® e, são apresentados a seguir. Tabela 3. Taxa de inflação no Brasil de 1961 a 1979. Ano (Xi) Inflação (Yi) 1961 9 1963 24 1965 72 1967 128 1969 192 1971 277 1973 373 1975 613 1977 1236 1979 2639 Fonte: Adaptado de Bussab e Morettin (2017, p. 491). Gráfico 3. Diagrama de dispersão dos dados originais Fonte: Adaptado de Bussab e Morettin (2017, p. 491). Eficiência Energética 17 Por conta da forma gráfica do diagrama de dispersão, os autores decidi- ram ajustar um modelo exponencial para a relação entre a inflação e os anos observados. Assim, temos a equação: onde, ɛi representa o termo erro aleatório, e representa a constante de Euler (e ≈ 2,7182 ...) e, neste caso, o erro aleatório aparece de forma multi- plicativa no modelo e não aditiva, como no caso anterior. As estimativas dos parâmetros para este caso, também obtidas pelo mé- todo dos mínimos quadrados, não podem ser adquiridas analiticamente. Então, sem entrar em maiores detalhes, os autores sugeriram o uso de métodos numéricos, tais como, Newton-Raphson, Gauss-Newton, “sco- ring” dentre outros. Para o caso apresentando, por se tratar de um conjunto que envolve ape- nas duas variáveis, uma dependente e a outra independente, é possível realizar transformação nos dados de forma a tornar a equação numa equação linear para se realizar o ajustamento por modelo de regressão linear simples. A transformação aplicada ao modelo sugerido inicialmente foi a logarítmi- ca (na base e) em ambos os lados de (7) e, após sua aplicação, tornou os membros do modelo da seguinte forma Permitindo escrever o modelo na forma: É possível perceber que o modelo transformado é linear. No entanto, é necessário supor que o termo erro aleatório seja estritamente positivo, pois, do contrário, não será possível tomar logaritmos dele. Agora, as de- mais suposições feitas anteriormente para um modelo linear simples po- dem ser aplicadas a este modelo transformado. 18 Eficiência Energética A estimativa dos parâmetros do modelo ajustado foi obtida a partir da equação transformada, cujos dados são replicados na Tabela 4 com o acréscimo de uma coluna contendo os valores transformados da inflação e, com uma codificação conveniente para a variável independente, o ano de observação. Tabela 4. Taxa de inflação no Brasil de 1961 a 1979 Ano (Xi) Ano (Xi*) Inflação (Yi) Yi* = In Yi 1961 0 9 2,2 1963 1 24 3,2 1965 2 72 4,3 1967 3 128 4,8 1969 4 192 5,2 1971 5 277 5,6 1973 6 373 5,9 1975 7 613 6,4 1977 8 1236 7,1 1979 9 2639 7,9 Fonte: Adaptado de Bussab e Morettin (2017, p. 491). Estando o modelo agora linearizado, pode-se utilizar das equações apre- sentadas anteriormente para se obter as estimativas dos seus parâme- tros. Sem entrar em detalhes e, com a ajuda de uma planilha eletrônica, utilizando o ano codificado e os valores de inflação transformados por logaritmo, as estimativas obtidas são iguais a: Logo, a regressão linear ajustada será: O diagrama de dispersão dos dados transformados e da reta ajustada é mostrado na figura 4. Eficiência Energética 19 Gráfico 4. Dados transformados e reta ajustada Fonte: Adaptado de Bussab e Morettin (2017, p. 493). Para escrever o modelo original ajustado, é necessário aplicar uma nova transformação, com a função inversa do logaritmo natural, ou seja, a fun- ção exponencial, cujo resultado será: pois, . O diagrama com os dados originais plotados juntamente com os valores ajustados obtidos pela reta de regressão (11) é mostrado na figura 5. Gráfico 5. Dados originais e valores ajustados Fonte: Adaptado de Bussab e Morettin (2017, p. 491). 20 Eficiência Energética Observa-se que os pontos originais e os estimados (ajustados) pela reta de regressão construída pelo método de mínimos quadrados estão muito próximos, em outras palavras, os gráficos praticamente se sobrepõem. Isso é um indício de que o modelo está adequado à realidade descrita. PARA SABER MAIS Geralmente, quando se trabalha com regressão não linear, uma primeira atitude a se tomar é tentar linearizar, através de transformações matemáticas, a relação funcional entre as variáveis. Existem algumas transformações que são mais utilizadas pelos usuários de modelos de regressão, que são mostradas no quadro a seguir. Quadro – Transformações que geram retas. TIPO EQUAÇÃO TRANSFORMAÇÃO VARIÁVEL X VARIÁVEL Y Linear Y = a + bx Y = a + bx X y Exponencial Y = a.ebx Ln(y) = ln(a) + bx X ln(Y) Logarítmica Y = a + b.ln(x) Y = a + b.ln(x) ln(x) y Potência Y = axb ln y = ln(a) + b.ln(x) ln(x) ln(y) Fonte: FEA USP. Disponível em: <http://www.erudito.fea.usp.br/PortalFEA/Repositorio/445/ Documentos/Regress%C3%A3o%20n%C3%A3o%20linear.doc>. Acesso em: 01 junho 2018. Você consegue pensar em uma situação na qualpossa fazer aplica- ção de regressão linear? Pense em uma situação pessoal sua. Imagine que você deseja escolher entre algumas aplicações bancárias e, para a sua tomada de decisão, decide construir uma equação que posso te ajudar a escolher a mais adequada para seus propósitos. QUESTÃO PARA REFLEXÃO http://www.erudito.fea.usp.br/PortalFEA/Repositorio/445/Documentos/Regress%C3%A3o%20n%C3%A3o%20linear.doc http://www.erudito.fea.usp.br/PortalFEA/Repositorio/445/Documentos/Regress%C3%A3o%20n%C3%A3o%20linear.doc Eficiência Energética 21 4. Considerações Finais • A econometria é um método quantitativo de tomada de decisão que faz uso da teoria econômica e de dados da área de economia. • A análise de regressão é uma das principais técnicas quantitativas utilizadas em estudos econométricos. • A técnica de análise de regressão pode ser dividida em duas: linear e não linear. • Os modelos de regressão lineares são mais simples que os modelos de regressão não linear. Apesar disso, problemas reais, em geral, exigem, com maior frequência, o ajuste de modelos de regressão não linear. Glossário • Constante de Euler: é um número irracional e positivo, cujo loga- ritmo na sua base é chamado natural, logo: e = 2,7182818... . • Duopólio: mercado no qual dois vendedores dividem entre si toda uma produção. • Mínimos quadrados ordinários: é uma técnica de otimização ma- temática que procura encontrar o melhor ajuste para um conjunto de dados tentando minimizar a soma dos quadrados das diferen- ças entre o valor estimado e os dados observados (tais diferenças são chamadas resíduos). • Passeio aleatório: do inglês random walk. É um objeto matemá- tico que descreve um caminho que consiste de uma sucessão de passos aleatórios. Por exemplo, os preços de ativos financeiros se- guem o comportamento de um passeio aleatório. 22 Eficiência Energética VERIFICAÇÃO DE LEITURA TEMA 01 1. A principal área do conhecimento onde a econometria é estudada com maior profundidade é: a) Sociologia. b) Biologia. c) Estatística. d) Estudos econômicos. e) Antropologia. 2. Qual é o método matemático utilizado para estimar coe- ficientes de regressão de um modelo de regressão linear? a) Máximos quadrados ordinários. b) Mínimos quadrados perfeitos. c) Máxima verossimilhança. d) Mínima verossimilhança. e) Mínimos quadrados ordinários. 3. Medida estatística que avalia existência de associação en- tre duas variáveis quantitativas. Estamos falando de: a) Coeficiente de regressão. b) Coeficiente de correlação. c) Coeficiente linear. d) Medida de dispersão. e) Coeficiente de associação. Referências Bibliográficas BUSSAB, W.; MORETTIN, P. Estatística básica. 9. ed. São Paulo: Saraiva, 2017. 554p. HOFFMANN, R. Análise de regressão: uma introdução à econometria. Piracicaba: Portal de livros abertos da USP, 2016. Disponível em <www.producao.usp.br/bitstream/handle/ BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y>. Acesso em: 27 de maio de 2018. http://www.producao.usp.br/bitstream/handle/BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y http://www.producao.usp.br/bitstream/handle/BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y Eficiência Energética 23 LANGE, O. Introdução à econometria. Rio de Janeiro: Fundo de Cultura, 1961. MALASSISE, R. L. S. Econometria. 1. ed. Londrina: Editora e Distribuidora Educacional S/A, 2015. v. 1. 192p. Disponível em: <http://anhanguera.bv3.digitalpages.com.br/ users/publications/9788584822065/pages/-2>. Acesso em: 26 maio 2018. MATOS, O.C. Econometria básica: teoria e aplicações. São Paulo: Atlas, 1995. MUROLO, A.F.; BONETTO, G. Matemática aplicada a administração, economia e contabilidade. São Paulo: Cengage Learning, 2013. 506 p. Gabarito – Tema 01 Questão 1 – Resposta: D A principal área do conhecimento em que a econometria é estudada com maior profundidade é a dos estudos econômicos. Questão 2 – Resposta: E O método matemático utilizado para estimar os coeficientes de um modelo de regressão linear é o método de mínimos quadrados ordinários. Questão 3 – Resposta: B A medida estatística que avalia existência de associação entre duas variáveis quantitativas é o coeficiente de correlação. http://anhanguera.bv3.digitalpages.com.br/users/publications/9788584822065/pages/-2 http://anhanguera.bv3.digitalpages.com.br/users/publications/9788584822065/pages/-2 Eficiência Energética 24 TEMA 02 SÉRIES TEMPORAIS Objetivos • Apresentar conceitos básicos de séries temporais; • Introduzir modelos estacionários e processos pura- mente aleatórios; • Introduzir modelos de volatilidade estocástica; • Introduzir processos não estacionários; • Introduzir modelos autorregressivos e de médias móveis. Eficiência Energética 25 Introdução Agora que você tem uma noção de conceitos básicos de econometria e viu que a análise de regressão é um dos principais métodos estatísticos utilizados para tratamento de dados, vamos apresentar um método que permite construir modelos estatísticos que levam em conta a evolução temporal dos fenômenos. O procedimento de modelagem de dados que leva em conta a evolução temporal de ocorrência dos fenômenos é conhecido como séries tempo- rais. Hoffmann (2016, p.352) define séries temporais como “um conjunto de valores de uma variável ordenados no tempo”. Como exemplo de sé- ries temporais, pode-se citar o conjunto de dados de valores anuais do produto interno bruto (PIB) brasileiro ou, uma série de valores de tempe- raturas máximas de uma cidade, etc. Uma série temporal é um caso particular de um processo estocástico, ou seja, processos controlados por leis probabilísticas, onde, de manei- ra mais formal, pode ser definida por uma família de variáveis X = {Xt, t Є T }, tal que, para cada t Є T , Xt é uma variável aleatória. Em palavras, um processo estocástico pode ser interpretado como uma família de todas as realizações de um fenômeno ou experimento e, uma série temporal é uma dessas realizações. Quando se realiza uma pesquisa com planejamento de coleta de dados em séries temporais, pode-se pensar em muitos objetivos, como por exemplo, segundo Morettin e Toloi (1987, p. 4), “(1) fazer previsões de va- lores futuros das séries; (2) descrever o comportamento das séries e; (3) procurar periodicidades relevantes nos dados. Parte disto, será mostrado neste texto”. 26 Eficiência Energética 1. Modelos estacionários e processos puramente aleatórios O procedimento de análise de dados em séries temporais faz uso de da- dos passados para quantificar as relações históricas. Se o futuro for igual ao passado, tais relações podem ser usadas para realização de previsões para o futuro. No entanto, se o futuro for diferente, as informações histó- ricas podem não ser confiáveis para o futuro. Por isso, é estudada uma im- portante característica das séries temporais, chamada estacionariedade. Uma das suposições mais recorrentes em séries temporais é a de que ela é estacionária, ou seja, de que ela se desenvolve no tempo aleatoria- mente ao redor de uma média constante. Caso uma série temporal que esteja sendo analisada não seja estacionária, será necessário transformá- -la em estacionária ou fazer uso de análise adequada para modelos não estacionários. Uma das transformações mais comuns para tornar uma série temporal em estacionária consiste na tomada das diferenças sucessivas da série temporal original, até que seja obtida uma série estacionária. A primeira diferença de X(t) é definida por: a segunda diferença é: ou seja, De modo geral, a n-ésima diferença de X(t) é: Em situações normais, é suficiente tomar uma ou duas diferenças para tornar uma série em estacionária. Eficiência Energética 27 Stock e Watson (2004, p. 304) definem estacionariedade da seguinte maneira: Uma série temporal Xt é estacionária se a sua distribuição de probabilidade não muda ao longo do tempo, isto é, se a distribuição conjunta (Xs + 1, Xs + 2, ... , Xs + T) não depender de s; caso contrário, diz-se que Xt é não estacionária. [...]A estacionariedade requer que o futuro seja igual ao passado, pelo menos em um sentido probabilístico. Há várias situações em que se têm séries temporais não estacionárias, no entanto, em duas situações, a ausência de estacionariedade torna re- levante uma análise de regressão de séries temporais econômicas da se- guinte maneira: (1) pode haver algum tipo de tendência nas séries; e (2) a regressão pode ser instável ao longo do tempo, ou seja, pode ter quebras. Em séries temporais, o valor da variável X de um determinado período está, de certa maneira, correlacionado com seu valor no período seguinte. A esta característica se dá o nome de autocorrelação ou correlação serial. De forma análoga, a autocovariância é a covariância entre valores adja- centes da série, como Xt e Xt – 1. ASSIMILE Autocorrelação (correlação serial) e autocovariância. A j-ésima autocovariância de uma série temporal Xt é a covari- ância entre Xt e a sua j-ésima defasagem, Xt–j. Já o j-ésimo coe- ficiente de autocorrelação é a correlação entre Xt e Xt–j. Isto é, j-ésima autocovariância = cov(Xt, Xt–j) O j-ésimo coeficiente de autocorrelação, também, é conheci- do como coeficiente de correlação serial (STOCK e WATSON, 2004). “A autocorrelação revela o grau de relação entre as observações, já a função de autocovariância indica a depen- dência entre as observações” (SANTOS, 2016, p. 6). 28 Eficiência Energética Para considerar uma série temporal como estacionária, tendências não podem estar presentes nos dados, enquanto que variações sazonais, po- dem ocorrer tanto em séries estacionárias quanto não estacionárias. A técnica de médias móveis, ou método de suavização, é o método de previsão para dados estacionários mais simples existentes. Com ela, o valor a ser previsto no tempo t + 1 (denotado X̂t + 1) é obtido pela média aritmética das v observações mais recentes da série, ou seja: O termo k da equação determina o número de observações da série que serão utilizadas no cálculo das médias móveis. Não existe método para determinar o melhor valor de k. Por isso, torna-se interessante testar vá- rios valores de k para verificar qual fornecerá o melhor resultado. Uma forma de saber qual o melhor modelo obtido é fazer uso de medidas de acurácia (qualidade do ajuste) que podem fornecer essa informação. As principais medidas existentes são o desvio absoluto médio (DAM), o erro percentual absoluto médio (EPAM), o erro quadrático médio (EQM) e a raiz do erro quadrático médio (REQM), os quais podem ser definidos da seguinte maneira: Uma desvantagem da técnica de médias móveis é que os dados passa- dos têm o mesmo peso no cálculo da média. Para tentar superar isso, é possível obter uma previsão mais precisa atribuindo pesos diferentes aos dados. Eficiência Energética 29 Ao procedimento de atribuição de pesos aos dados para obtenção de uma média é dado o nome de média móvel ponderada, que é uma variação da técnica de médias móveis. Com este procedimento a função de previsão é representada por: em que e . No método de médias móveis ponderadas, além de determinar um valor para k, também é necessário determinar valores para os pesos wi, o que torna a determinação da melhor previsão um pouco mais complicada. Considere o exemplo extraído de Ragsdale (2014, p.449) o qual utiliza da- dos de vendas de equipamentos de áudio e vídeo para residências e car- ros. Na situação, o gerente da loja tenta prever as vendas mensais e faz uso do método de médias móveis para obter os resultados desejados. Após coletar dados sobre vendas mensais para construir uma série tem- poral, o passo seguinte a ser feito é a construção de um gráfico para se ter uma ideia visual da evolução das vendas e identificar características que permitam a escolha de um modelo apropriado para a série tempo- ral. Com a ajuda do Excel® é possível construir facilmente um gráfico de linhas, como mostrado na figura a seguir. 30 Eficiência Energética Figura 1. Dados de vendas e gráfico de linha É possível observar no gráfico 1 que o número de vendas mensais está em torno de 30 a 40 unidades nos últimos dois anos (média) e que parece não haver tendência clara de aumento ou redução das vendas, ou seja, parece haver uma regularidade na série. Portanto, o uso de um método de previsão para dados estacionários parece razoável. O passo seguinte é o ajustamento dos dados para um modelo de médias móveis simples, ou seja, com pesos iguais para as observações. Na situ- ação, o autor utilizou dois valores para k, os valores 2 e 4. Ainda fazendo uso do Excel®, o resultado obtido é mostrado na figura 2. Eficiência Energética 31 Tabela 1. Dados de vendas Mês NúmeroVendas Média Móvel 2 meses Média Móvel 4 meses 1 33 – – 2 38 – – 3 31 35,50 – 4 35 34,50 – 5 30 33,00 34,25 6 36 32,50 33,50 7 34 33,00 33,00 8 39 35,00 33,75 9 39 36,50 34,75 10 36 39,00 37,00 11 40 37,50 37,00 12 38 38,00 38,50 13 37 39,00 38,25 14 39 37,50 37,75 15 32 38,00 38,50 16 38 35,50 36,50 17 37 35,00 36,50 18 39 37,50 36,50 19 37 38,00 36,50 20 35 38,00 37,75 21 37 36,00 37,00 22 34 36,00 37,00 23 35 35,50 35,75 24 36 34,50 35,25 EQM 6,60 7,66 32 Eficiência Energética Figura 2. Gráfico com médias móveis ajustadas Fórmulas das principais células Célula Fórmula Copiado para C5 =MÉDIA(B3:B4) C6:C26 D7 =MÉDIA(B3:B6) D8:D26 C28 =SOMAXMY2($B$7:$B$26;C7:C26)/CONT.NUM(C7:C26) (*) D28 Fonte: Adaptado de Ragsdale (2014, p.450). (*) A função SOMAXMY2 soma os quadrados das diferenças em dois intervalos ou matrizes correspondentes. Pode-se observar que os dados previstos tendem a ser menos voláteis, ou seja, mais suaves, que os dados reais, o que não é surpresa, pois, a técnica de médias móveis tende a compensar os picos e os vales dos dados originais. A precisão relativa das duas previsões feitas pode ser avaliada pelo EQM. Quanto menor o EQM mais acurada é a previsão. Comparando os EQM calculados para as médias móveis, pode-se concluir que as médias mó- veis de dois meses dão previsões mais acuradas que as médias móveis de quatro meses. Eficiência Energética 33 Uma série temporal pode ser descrita pela seguinte equação Xt = f (t) + εt onde t = 1, ... , n e f (t) é chamado sinal e, εt é o ruído. De acordo com as hipóteses feitas sobre f (t), pode-se ter duas classes de modelos: modelos de erro e modelos ARIMA. Nos modelos de erro, f (t) é uma função do tempo completamente deter- minada (parte sistemática ou determinística) e, εt é uma sequência alea- tória, independente de f (t). O termo εt, satisfazendo algumas suposições, é chamado de ruído branco. Os erros do modelo são supostamente não correlacionados, o que intro- duzem grandes limitações na validade dos modelos. Os modelos de erro foram inicialmente utilizados em astronomia e física. No primeiro caso, o interesse era determinar a posição de um planeta em um dado momento do tempo. Enquanto que, na física, são utilizados para fazer medidas com algum grau de erro. Os modelos de erro são clássicos para a análise de séries econômicas, onde f (t) é composta da adição ou multiplicação de um polinômio em t (tempo), de grau geralmente baixo, da forma , que re- presentará a tendência e, um polinômio harmônico, sendo uma combi- nação linear de senos e cossenos com coeficientes constantes da forma , representando as flutuações cíclicas e as varia- ções sazonais. Um último componente do modelo é um termo de erro, significando as flutuações aleatórias. Um modelo de erro clássico para séries temporais pode ser escrito como a soma de três componentes com a seguinte equação: onde, Tt é uma componente de ciclotendência, considerando as flutua- ções cíclicas de longo período, que não podem ser identificadas facilmen- te dos dados brutos. A componente St representa a sazonalidade. 34 Eficiência Energética PARA SABER MAIS O modelo Xt = Tt + St + εt é dito aditivo e é adequado quando a componente sazonal St não depende das outras componen- tes do modelo. Se a componente sazonalvariar com a ten- dência, o modelo mais apropriado é o modelo multiplicativo, dado por Xt = Tt · St · εt, o qual pode se tornar num modelo aditivo com a aplicação de uma transformação logarítmica. Também, é possível considerar modelos mistos, como Xt = Tt St + εt ou modelos mais complexos. Ao se utilizar técnicas que removam as componentes Tt e St de uma série temporal, o que sobra é apenas a componente aleatória ou residual εt e, como dito anteriormente, é suposto que esta componente seja um pro- cesso estocástico puramente aleatório, ou seja, um ruído branco. Para casos em que a suposição de erros não correlacionados não é ga- rantida, os modelos ARIMA são mais úteis, pois trabalham melhor sob tal condição. Duas classes de processos podem ser descritas pelos modelos ARIMA: (1) Processos lineares estacionários (processo autorregressivo (AR), proces- so de médias móveis (MA) e, processos autorregressivo médias móveis (ARMA)) e, (2) processos lineares não estacionários homogêneos (ARIMA). 2. Modelos de volatilidade estocástica Uma característica presente em séries de ativos financeiros é o que ficou conhecido como volatilidade, que é uma medida de risco e, pode ser de- finida de muitas maneiras, porém não é diretamente observável. Aqui, volatilidade será o desvio padrão condicional de uma variável financeira, em geral, um retorno1. 1 Variação relativa de preços de ativos financeiros. Eficiência Energética 35 A volatilidade de uma série temporal é modelada apropriadamente pelos modelos heterocedásticos condicionais. Nesses modelos, a volatilidade de um retorno num dado instante de tempo, depende de retornos passa- dos e de outras informações disponíveis até esse dado instante. Um modelo típico para a volatilidade de retornos, segundo Morettin (2016), é dado na forma , onde é a média condicional de rt dada a informação até o instante t – 1, ht é a variância condicional, tam- bém obtida até o instante t – 1 e εt é um ruído branco. Os modelos apropriados para séries financeiras que apresentam a vari- ância condicional evoluindo no tempo são os que melhor modelam a vo- latilidade de retornos dos ativos financeiros. Os modelos de volatilidade estocástica admitem que a volatilidade varie com o tempo. Os modelos da família ARCH (modelos autorregressivos com heterosce- dasticidade condicional) supõem que a volatilidade depende dos retornos passados. Os modelos que foram propostos inicialmente não possuíam essa suposição e foram criados por Taylor, um pesquisador da área de modelagem financeira. Morettin (2016) define que uma série de retornos rt segue um modelo de volatilidade estocástica se , onde εt é uma sequência estacionária, com média zero e ht, a variância condicional de rt, é uma se- quência estacionária, com função densidade de probabilidade f (h). Taylor construiu uma formulação mais simples para o modelo de volatili- dade estocástica, a qual supõe que o logaritmo da volatilidade, , seja dado por ht = α0 + α1ht-1 + nt , na qual nt é uma sequência estacionária gaussiana, ou seja, com distribuição normal, com média zero e variância , independente de εt. Também existem outras formulações do modelo de volatilidade estocástica na literatura. No entanto, elas não serão abor- dadas neste texto. 36 Eficiência Energética PARA SABER MAIS Outras formulações para o modelo de volatilidade estocás- tica foram divulgadas na literatura, sendo que apresentare- mos duas delas. Uma proposta por Kim et. al. no ano de 1998, em que o pesquisador construiu a forma canônica para a vo- latilidade estocástica e a outra formulação, construída por Jaquier et al. no ano de 1994 em que o modelo para a volatili- dade é trabalhado com distribuição log-qui-quadrada para o quadrado do ruído branco (MORETTIN, 2016). 3. Processos não estacionários Os modelos apresentados na primeira seção deste texto são apropriados para descrever séries estacionárias, ou seja, séries que se desenvolvem no tempo em torno de uma média constante. Muitas séries econômicas e financeiras são não estacionárias, mas, tornam-se estacionárias quan- do recebem uma aplicação do cálculo diferença ou, outra transformação, como feito em (1). O passeio aleatório é o modelo mais simples para uma série temporal não estacionária. Diz-se que uma série temporal Xt segue um passeio ale- atório se a variação em Xt for independente e identicamente distribuída (iid), ou seja, se: A ideia básica de um passeio aleatório é a de que o valor da série temporal do dia seguinte será o valor do dia atual mais uma variação imprevisível. A variância de um passeio aleatório aumenta ao longo do tempo, de for- ma que, a distribuição de Xt varia ao longo do tempo. No caso de não esta- cionariedade em variância, algumas transformações, como a logarítmica, podem estabilizá-la e, tornar a série temporal em estacionária. Eficiência Energética 37 Segundo Morettin (2016) existem, basicamente, duas formas de ge- rar processos não estacionários e que sejam não explosivos. O primei- ro deles é obtido com a inclusão em um processo estacionário de se- gunda ordem2 de uma tendência determinística como , obtendo-se um processo trend-stationary. O termo é denominado função de transferência e é uma função de B, o operador translação para o passado, dada da seguinte forma: . O operador translação para o passado B realiza a operação de translação com uma série temporal do tipo e, de forma geral, . O segundo processo não estacionário não explosivo considera um pro- cesso linear geral com raiz unitária3, da forma , com . O processo é não estacionário porque . É possível explorar outras características de processos não estacionários. No entanto, elas estão além do objetivo deste texto, por isso, não serão apresentadas. Aos interessados em aprofundar no assunto, orientamos a consulta de Morettin e Toloi (2006). 4. Modelos autorregressivos e de médias móveis A hipótese de erros não correlacionados traz uma série de limitações na validação de modelos do tipo . Portanto, para situações onde essa suposição não é garantida, os modelos ARIMA são apropriados e utilizados. A classe de modelos ARIMA foi apresentada para a comunidade científi- ca em 1976 pelos pesquisadores ingleses George E. P. Box e Gwilym M. Jenkins. Na situação, o método ficou conhecido como modelos de Box & Jenkins. 2 Processo estocástico fracamente estacionário e que segue algumas condições estatísticas. 3 Condição necessária para que uma série temporal modelada por ARMA(p,q) se torne estacionária. 38 Eficiência Energética Morettin (2006) afirma que três classes de processos podem ser descri- tas pelos modelos ARIMA: (1) processos lineares estacionários; (2) pro- cessos lineares não estacionários homogêneos e; (3) processos de me- mória longa. Neste texto será abordado um caso particular de um processo linear es- tacionário, um processo autorregressivo e de médias móveis de ordens p e q: ARMA(p,q), os quais têm como principal propósito a realização de previsão. De maneira formal, tem-se que um processo linear geral é dado por: em que µ é um parâmetro que determina o nível da série temporal e, εt é um ruído de média 0 e variância σ2, ou seja, um ruído branco. Os modelos ARMA(p,q) são dados da forma onde, são os operadores autorregressivos e de médias móveis, respectivamente. A parte autorregressiva do modelo con- sidera na modelagem os valores passados e a parte de médias móveis considera os termos de erro como uma combinação linear com termos de erro passados. O modelo (11) pode ser reescrito, de forma compacta, como: onde, Um caso particular de um modelo ARMA, muito utilizado é o ARMA(1,1), com suposição de µ = 0 e p = q = 1, ou seja . Para este modelo o operador autorregressivo é φ(B) e, o operador de médias móveis θ(B) = 1 – θB. Santos (2016, p.17) faz uma aplicação de modelos ARMA(2,1) para sé- ries temporais sobre os dados de ativo financeiro da Usiminas, a maior Eficiência Energética 39 companhia siderúrgica doBrasil. A série temporal utilizada continha cerca de 3899 observações e foi obtida do portal Yahoo Finance. Os dados são referentes ao período que vai de 19/06/2000 a 22/03/2016. LINK Trabalho de conclusão de curso com conteúdo de aplica- ções de modelos para séries temporais. Disponível em: <http://bdm.unb.br/bitstream/10483/15683/1/2016_Samille AmaralSantos.pdf>. Acesso em: 14 junho 2018. Muitas outras características existem para modelos ARMA(p,q). No entan- to, não serão apresentadas neste texto. Aos interessados em se aprofun- dar neste tipo de modelagem e, especificamente, em modelagem para séries financeiras, podem consultar Morettin (2016). Você sabia que a metodologia estatística para séries temporais pode ser utilizada em diversas áreas profissionais? Tente identificar um conjunto de dados da sua área de atuação, em que apresente algum tipo de informação/evolução ao longo de um determinado período do tempo cronológico. Construa um gráfico desse conjunto de dados e, tente encontrar algum tipo de comportamento, como tendência crescente ou decrescente, sazonalidade, etc. QUESTÃO PARA REFLEXÃO 5. Considerações Finais • Este texto apresentou conceitos básicos de séries temporais. • Foram apresentados processos estacionários e uma modelagem simples para séries com esta característica. http://bdm.unb.br/bitstream/10483/15683/1/2016_SamilleAmaralSantos.pdf http://bdm.unb.br/bitstream/10483/15683/1/2016_SamilleAmaralSantos.pdf 40 Eficiência Energética • Foram apresentados processos não estacionários e algumas de suas características. • Foi apresentada a modelagem ARMA(p,q) e algumas de suas supo- sições necessárias para a aplicação adequada em séries temporais. Glossário • Autorregressivo: tipo de modelagem de dados para séries tem- porais, o qual utiliza informações passadas da série para construir um modelo. • Sazonalidade: qualidade ou estado de sazonal. Sazonal é um ad- jetivo que se refere ao que é temporário, ou seja, que é típico de determinada estação ou período do ano. • Tendência: o que leva alguém a seguir um determinado caminho ou a agir de certa forma; predisposição, propensão. • Trend-stationary: do inglês, significa tendência estacionária. VERIFICAÇÃO DE LEITURA TEMA 02 1. Escolha a alternativa que mostra um exemplo de série temporal. a) O resultado de um lançamento de um dado. b) Os resultados do lançamento de vários dados ao mes- mo tempo. c) Os resultados do lançamento diário de um dado. d) A escolha de uma das faces do dado. e) A escolha de duas faces de dois dados, uma face em cada um deles. Eficiência Energética 41 2. A primeira coisa a se fazer quando deseja-se construir um modelo para uma série temporal é um gráfico da série ori- ginal. Assinale a alternativa que justifica a construção des- se gráfico. a) Identificação de características (tendência, sazonalida- de etc.). b) Tornar o relatório estatístico dos resultados mais atrativo. c) Fazer uso de um programa computacional. d) Tornar o processo de modelagem subjetivo. e) Identificar se os dados são séries temporais. 3. Caracteriza uma série temporal que varia em torno de um nível constante ao longo do tempo. Assinale a alternativa que contém essa característica de uma série temporal. a) Sazonalidade. b) Estacionariedade. c) Tendência. d) Gaussiana. e) Autorregressivo. Referências Bibliográficas HOFFMANN, R. Análise de regressão: uma introdução à econometria. Piracicaba: Portal de livros abertos da USP, 2016. Disponível em: < www.producao.usp.br/bitstream /handle/BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y>. Acesso em: 27 de maio de 2018. MORETTIN, P.A. Econometria financeira: um curso em séries temporais financeiras. 3 ed. São Paulo: Blucher, 2016, 403p. MORETTIN, P.A.; TOLOI, C.M. C. Previsão de séries temporais. 2 ed. São Paulo: Atual, 1987. 450p. http://www.producao.usp.br/bitstream/handle/BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y http://www.producao.usp.br/bitstream/handle/BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y 42 Eficiência Energética . Análise de séries temporais. 2 ed. São Paulo: Edgard Blücher, 2006. 538p. RAGSDALE, C.T. Modelagem de planilha e análise de decisão: uma introdução prática a business analytics. São Paulo: Cengage Learning, 2014. 594p. SANTOS, S. A. Aplicações dos modelos ARMA a dados financeiros. 2016. 32 f. Trabalho de conclusão de curso (Bacharelado em estatística) – Departamento de Estatística, Instituto de Ciências Exatas, Universidade de Brasília, Brasília, 2016. Disponível em: <http://bdm.unb.br/bitstream/10483/15683/1/2016_SamilleAmaralSantos.pdf>. Acesso em: 14 junho 2018. STOCK, J. H.; WATSON, M. W. Econometria. São Paulo: Pearson Brasil, 2004. Disponível em: <http://anhanguera.bv3.digitalpages.com.br/users/publications/9788 588639140/pages/-20>. Acesso em: 09 junho 2018. Gabarito – Tema 02 Questão 1 – Resposta: C Por se tratar de um lançamento diário do dado, é possível registrar a informação da face observada após o lançamento e, guardar a infor- mação por um determinado período. Questão 2 – Resposta: A A primeira coisa a se fazer ao dar início numa análise de séries tem- porais é um gráfico, com o intuito de identificar padrões nos dados. Questão 3 – Resposta: B Quando uma série temporal oscila em torno de um nível constante, pode-se afirmar que a série tem a característica de estacionariedade. http://bdm.unb.br/bitstream/10483/15683/1/2016_SamilleAmaralSantos.pdf http://anhanguera.bv3.digitalpages.com.br/users/publications/9788 588639140/pages/-20 http://anhanguera.bv3.digitalpages.com.br/users/publications/9788 588639140/pages/-20 Eficiência Energética 43 TEMA 03 ANÁLISE DE MODELOS E RELAXAMENTO DOS PRESSUPOSTOS CLÁSSICOS Objetivos • Apresentar como ocorre o relaxamento de pressupos- tos clássicos; • Apresentar como ocorre a heterocedasticidade; • Apresentar como se verifica a normalidade dos erros; • Descrever como identificar multicolinearidade; • Descrever mecanismos de correção de erros. 44 Eficiência Energética Introdução O conteúdo a ser apresentado neste texto descreverá sobre os principais problemas que surgem da violação dos pressupostos do método de mí- nimos quadrados, utilizado para ajustar modelos de regressão para con- juntos de dados. Com a garantia da validade dos pressupostos de mínimos quadrados do modelo ajustado é possível dizer que os estimadores são os melhores, são lineares, são não tendenciosos e fornecem as estimativas para a va- riável dependente mais próximas dos valores reais. No caso contrário, nada disso pode ser considerado. Quando a violação de qualquer um dos pressupostos do modelo ajusta- do é identificada, faz-se necessário tomar medidas de correção apropria- das. Tais medidas são desde implementação de estratégias estatísticas até mudanças de modelo, ou até mesmo, uma mudança do método de estimação. Para a verificação da qualidade do modelo ajustado, ou seja, se os pres- supostos são garantidos, são utilizados os resíduos do modelo constru- ído com os dados fornecidos. Muitas dessas verificações são feitas por gráficos, mas também podem ser realizadas com testes estatísticos. Os resíduos são dados pela diferença entre os dados reais e os ajustados pelo modelo construído, ou seja, são dados por ei = Yi – Ŷi. Quando são pe- quenos em valores, tem-se uma indicação de que o modelo ajustado está produzindo bons resultados e que os pressupostos têm grandes chances de estar ocorrendo. Eficiência Energética 45 1. Heteroscedasticidade Um modelo estatístico é considerado com um bom ajuste aos dados quan- do garante todos os pressupostos a ele associados. Com essa garantia, tem-se, como consequência, estatísticas e parâmetros confiáveis. Caso contrário, o modelo não terá boa qualidade e não gerará boas estimativas. Um dos pressupostos de um modelo estatístico é o que se chama de ho- mocedasticidade, ou seja, a variância do erro aleatório do modelo é cons- tante e é a menor dentre as variâncias dos modelos quepodem ser ajus- tados aos dados. Em notação matemática, é possível representar a homocedasticidade como . Tal notação representa a suposição de que os erros têm a mesma variabilidade em torno dos níveis da variável independente X (BUSSAB e MORETTIN, 2017). Quando a homocedasticidade não puder ser garantida pelo modelo ajus- tado, ocorre uma violação de pressuposto, que é conhecido como hete- roscedasticidade. Uma das consequências da heteroscedasticidade é a perda de eficiência nos parâmetros estimados, ou seja, os estimadores obtidos deixam de ser os melhores estimadores lineares não viesados. Sandroni (1989 apud MALASSISE, 2015, p.127) define heteroscedasticida- de como “conceito de estatística que designa uma distribuição de frequ- ência em que todas as distribuições condicionadas têm desvios-padrão (afastamentos) diferentes”. A forma mais simples de se verificar a heteroscedasticidade é através de visualização gráfica entre as estimativas do erro, ou seja, os resíduos con- tra a(s) variável(is) independente(s). Outra forma de detectar heterosce- dasticidade é com a utilização de testes estatísticos. Em econometria, os mais utilizados são os testes propostos por Goldfeld-Quandt, Park, Glejser, Pesaran e Pesaran. Muitos programas computacionais, específicos para construção de modelos econométricos, possuem implementados esses testes para sua aplicação aos dados utilizados. 46 Eficiência Energética A Figura 1 apresenta alguns gráficos de resíduos êi contra uma variável in- dependente X. Vale lembrar que os valores dos resíduos são obtidos após o ajuste do modelo de regressão aos dados. Figura 1 – Gráficos de resíduos . (a) situação ideal; (b), (c) modelo não linear; (d) elemento atípico; (e), (f), (g) heteroscedasticidade; (h) não normalidade. Fonte: Bussab e Morettin (2017, p. 484). Após a construção do gráfico dos resíduos é preciso saber identificar possíveis inadequações do ajuste do modelo. A Figura 1 apresenta al- gumas das mais comuns. É claro que, esse tipo de análise é bastante subjetivo, pois, cada analista pode ter a sua conclusão, a qual pode dife- renciar de outros. A Figura 1 (a) é a situação ideal, ou seja, a situação esperada quando se constrói um modelo de regressão. Quando ela ocorre, é possível constatar que o pressuposto de homocedasticidade está garantido para o modelo ajustado. Visualmente, não é possível identificar padrões ou tendências nos resíduos. Eles aparecem distribuídos aleatoriamente no gráfico. Já nas Figuras 1 (b) e (c) percebe-se que existem padrões na distribui- ção gráfica dos resíduos. Isso indica que o modelo linear ajustado não está apropriado para os dados. Diante de uma situação dessas, faz-se Eficiência Energética 47 necessário aplicar transformações aos dados ou, buscar um modelo não linear apropriado para o conjunto de dados. A situação apresentada na Figura 1 (d) é referente à presença de um dado atípico ou discrepante no conjunto de dados. Quando isso ocorre, faz-se necessário uma investigação da razão de sua ocorrência, que pode ser di- versa, como erro de medida ou a ocorrência de uma situação que gerou o dado discrepante do restante do conjunto. Diante de ocorrência de dados discrepantes, em vez de usar método de mínimos quadrados ordinários (MQO) para estimar os parâmetros do modelo, recomenda-se a utilização de métodos robustos (não serão tratados neste texto). Os casos apresentados nas figuras 1(e), 1(f) e 1(g) indicam de maneira clara que o pressuposto de homocedasticidade não pode ser garantido para o modelo ajustado. É possível perceber que os resíduos não se distribuem de maneira aleatória no gráfico segundo os valores da variável independente X. E, por último, a Figura 1(h), também, apresenta distribuição não aleatória dos resíduos, segundo os valores de X. No entanto, parece apresentar va- lores de resíduos nos extremos superior e inferior do intervalo de valores de sua ocorrência. Os testes estatísticos citados que avaliam a existência de heteroscedas- ticidade não serão apresentados com detalhes neste texto. Apenas no exemplo de aplicação deste texto será apresentado resultado com o teste de Goldfeld-Quandt. Maiores detalhes sobre os testes são possíveis en- contrar em GUJARATI e PORTER (2008). PARA SABER MAIS Teste de Park: é um dos testes estatísticos existentes para avaliar a existência de heteroscedasticidade em dados utili- zados para ajustar modelos. Ele é construído considerando que a variância do erro aleatório do modelo seja uma fun- ção da variável independente Xi. Através dessa função é pos- sível construir um modelo de regressão e, avaliar se existe ou não heteroscedasticidade (MALASSISE, 2015, p. 131). 48 Eficiência Energética 2. Normalidade dos erros A distribuição normal é uma distribuição de probabilidade apropriada para modelar variáveis contínuas, ou seja, variáveis que podem assu- mir qualquer valor real dentre um determinado intervalo de valores. Por exemplo, a altura das pessoas, o volume de água ingerida durante um dia, a variação de um ativo financeiro, etc. A origem da distribuição normal ocorreu através de Gauss, por volta de 1810, em seus trabalhos de pesquisas astronômicas. É daí que tam- bém surge outro nome dado para a distribuição normal, a distribuição gaussiana. Por definição, diz-se que uma variável aleatória X tem distribuição normal com parâmetros µ e σ2, em que , representando a média e a variância da distribuição, respectivamente, se sua função densidade de probabilidade é dada por: O modelo clássico de regressão linear supõe que os erros ei tenham dis- tribuição normal com média 0 e variância σ2. Esse pressuposto pode ser representado como . Há uma série de motivos para que a normalidade dos erros seja um pres- suposto necessário para se construir um modelo de regressão. A seguir, serão apresentados alguns dos principais motivos, segundo Gujarati e Porter (2008, p. 119): 1. O termo erro aleatório ei de um modelo de regressão linear represen- ta a influência combinada de um grande número de variáveis não con- sideradas de forma explícita na modelagem. O que se espera é que a influência delas seja a menor possível e, na melhor das hipóteses, seja aleatória. Se a distribuição do erro for normal, o teorema do limite central pode garantir isso. Eficiência Energética 49 2. Se o termo de erro aleatório for normal é possível obter a distribuição de probabilidade dos estimadores dos coeficientes do modelo de for- ma fácil. 3. A distribuição normal é extremamente conhecida e, portanto, suas propriedades teóricas já foram muito exploradas. Além disso, diver- sos fenômenos seguem uma distribuição normal. 4. É possível utilizar testes estatísticos como os testes t, F e qui-quadrado para realizar testes com os estimadores do modelo. Por esses, dentre outros motivos, é de extrema importância, num proces- so de modelagem de dados por regressão linear, garantir o pressuposto de normalidade para o termo erro. PARA SABER MAIS Teste de Normalidade dos resíduos: O teste de Jarque-Bera (JB) é apropriado para verificar se os resíduos do modelo ajus- tado se aderem a uma distribuição normal. Como limitação, pode-se dizer que se trata de um teste assintótico, ou seja, que funciona bem apenas para grandes amostras. Outra li- mitação, é que ele se baseia nos resíduos de mínimos qua- drados. Maiores detalhes sobre o teste podem ser encontra- dos em Malassise (2015, p. 133). 3. Multicolinearidade O termo multicolinearidade foi apresentado por Ragnar Frisch, pesquisa- dor da área de economia, em 1934, na Noruega, mais especificamente, na cidade de Oslo, em um de seus artigos publicados sobre modelos de 50 Eficiência Energética regressão. A multicolinearidade em um conjunto de dados ocorre nas va- riáveis explicativas ou independentes de um modelo econométrico. Por exemplo, a renda, a renda per capita e o PIB são variáveis que medem informações semelhantes. Portanto, é aconselhável, para que não ocorraproblemas de multicolinearidade, que seja utilizada apenas uma delas em um ajuste de modelo. No entanto, quando não se sabe se as variáveis de um conjunto de dados que será utilizado para a construção de um modelo econométrico são correlacionadas,o elaborador do modelo pode se deparar com um pro- blema de multicolinearidade. Embora, segundo Gujarati e Porter (2008), sempre existe um grau de correlação entre as variáveis independentes. Em geral, problemas de multicolinearidade surgem quando existe forte relação linear entre as variáveis independentes do modelo, ou seja, o que é definido como colinearidade, pois, relação entre elas sempre existirá em algum grau. ASSIMILE COLINEARIDADE: É um termo utilizado para dizer que existe correlação linear entre duas variáveis, de tal forma que, não é possível identificar o efeito de cada uma delas sobre a va- riável dependente do modelo ajustado. O termo multicoline- aridade se estende para o caso de colinearidade, que indica existência de correlação linear entre mais de duas variáveis independentes de um modelo econométrico. Como dito anteriormente neste texto, Gujarati e Porter (2008) indicam que sempre existe algum grau de correlação entre as variáveis indepen- dentes de um modelo. Estes graus de correlação são apresentados na figura 2, chamada diagrama de Ballentine. Eficiência Energética 51 Figura 2 – Visão da multicolinearidade segundo o diagrama de Ballentine (a) Ausência de colinearidade (b) Baixa colinearidade (c) Colinearidade moderada (e) Colinearidade muito alta(d) Alta colinearidade Y X2 X3 Y X2 X3 Y X2 X3 Y X2 X3 Y X2 X3 Fonte: Gujarati e Porter (2008, p. 331) No diagrama de Ballentini, os círculos Y, X2 e X3 representam as variações da variável dependente e das variáveis independentes, respectivamente. O grau de colinearidade é dado pela extensão da área marcada com sombreamen- to, formada com a sobreposição dos círculos. A situação ideal e, que atende ao pressuposto de ausência de multicolinearidade, ocorre na Figura 2(a). Muitas são as fontes de multicolinearidade. Algumas delas são descritas por Gujarati e Porter (2008, p. 332), conforme listadas abaixo: 1. O método de coletado dos dados: realização de um procedimento de amostragem com faixa delimitada de valores; 2. Restrições impostas ao modelo ou à população que será amostrada para a coleta de dados. Uma situação onde isso ocorre, por exemplo, em um modelo de regressão do consumo de energia elétrica (X2) e o tamanho da residência (X3), existe uma restrição física na população, onde as famílias com rendas maiores, em geral, possuem residências maiores que aquelas famílias de rendas mais baixas; 52 Eficiência Energética 3. Especificação do modelo: como exemplo, na inclusão de termos poli- nomiais em um modelo de regressão, principalmente, quando o inter- valo de valores de valores de variável independente é pequeno; 4. Sobredeterminação do modelo: ocorre quando o modelo possui mais variáveis do que número de observações; 5. Tendência comum: ocorre em dados de séries temporais. Uma forma de diagnosticar a existência de multicolinearidade é através de uma medida de qualidade do modelo, chamada coeficiente de deter- minação (R2). Quando esta medida apresentar um valor alto (ela varia en- tre 0 e 1) e, nenhum coeficiente estimado apresentar valor estatistica- mente significativo, há um forte indício de que o modelo construído esteja apresentando multicolinearidade. Outra maneira de identificar a multico- linearidade é pela matriz de correlação, em que, valores superiores a 0,8 em módulo, indicam a existência de forte correlação entre as variáveis. Também, é possível identificar a existência de multicolinearidade através do fator de inflação da variância (FIV). O ideal é que o FIV médio de um conjunto de variáveis não seja maior que 10 ou que o maior FIV de uma variável não seja superior a 10. Malassise (2015, p.17) apresenta alguns procedimentos para reduzir as consequências da multicolinearidade, que são: “(1) aumento do tamanho amostral; (2) uso de informação a priori sobre os valores das estimativas dos parâmetros; (3) transformação da relação funcional entre as variá- veis dependente e independentes; (4) exclusão de variáveis colineares e; (5) uso de razões ou primeiras diferenças, no caso de séries temporais”. Vale ressaltar que a ocorrência de multicolinearidade no modelo ajustado fere o princípio de eficiência do modelo ao não fornecer variância mínima para os termos de erro, no entanto, não fere o princípio da sua consistên- cia, ainda fornecendo estimadores não viesados. Eficiência Energética 53 LINK Recomendamos que verifique o material aqui indicado, para que você perceba, em detalhes, a descrição sobre multicoli- nearidade e apresenta exemplo de aplicação. Disponível em: <https://edisciplinas.usp.br/pluginfile.php/2340848/mod_ resource/content/0/Mayara_Multicolinearidade.pdf>. Acesso em: 22 junho 2018. 4. Mecanismo de correção de erro “A especificação do modelo nada mais é do que expressar a forma econo- métrica de um modelo econômico” (MALASSISE, 2015, p. 37). Para que um modelo seja bem especificado faz-se importante conhecer a fundo todo o contexto que envolve o problema, assim como, os passos téc- nicos para sua construção. Desta forma, erros são evitados e, também, a ne- cessidade de mais esforço para a construção de um modelo econométrico. A correta especificação de um modelo econométrico faz parte do conjunto de pressupostos de um modelo de regressão linear clássico. Caso contrá- rio, ocorrerá o problema de erro de especificação de modelo ou viés de especificação de modelo. São diversos os fatores que causam erro de especificação de um mode- lo. Dentre eles, podem ser citados: a omissão de uma variável relevante, a inclusão de variáveis desnecessárias no modelo, a forma funcional erra- da, erro de medidas nas variáveis, a desconsideração da componente de interação no modelo, a pressuposição de que o termo de erro tem distri- buição normal, etc. Existem alguns testes estatísticos que ajudam a detec- tar erros de especificação para alguns casos específicos, como os citados https://edisciplinas.usp.br/pluginfile.php/2340848/mod_resource/content/0/Mayara_Multicolinearidade.pdf 54 Eficiência Energética anteriormente. Por exemplo, para verificar a existência de variáveis desne- cessárias no modelo, pode-se recorrer à estratégia chamada “abordagem de baixo para cima”, que significa construir vários modelos, a partir de um modelo menor, com menos variáveis, até modelos maiores. Essa estratégia também é conhecida como garimpagem de dados ou data mining. O objetivo da garimpagem de dados é desenvolver o “melhor” modelo após os diversos testes diagnósticos, no intuito de se obter o modelo fi- nal mais apropriado, no sentido de que todos os coeficientes estimados sejam estatisticamente significativos e possuam os seus sinais corretos. Para exemplificar, o teste de Durbin-Watson faz parte dos testes estatísti- cos utilizados neste processo. Muitos outros procedimentos para verificação de erros e aplicação de cor- reção existem na literatura, no entanto, não serão abordados neste texto. Os interessados em aprofundar no assunto podem consultar Gujarati e Porter (2008). EXEMPLIFICANDO Malassise (2015, p. 136) apresenta uma aplicação de verifica- ção de heteroscedasticidade em um conjunto de dados, cor- respondentes a salários (W) e anos de escolaridade (A). Parte dos dados é mostrada na figura abaixo. Figura 3 – Dados de salários e anos de escolaridade (Y) Salários (X) Anos de estudo (Y) Salários (X) Anos de estudo (Y1) Salários (X1) Anos de estudo Y* X* 120 0 120 0 0,099797 0 0,099797 0 507 2 130 0 0,421643 0,299439 0,108114 0 251 1 145 0 0,208742 0,14972 0,120588 0 467 2 220 0 0,388377 0,299439 0,182961 0 637 3 251 1 0,529756 0,449159 0,208742 0,14972 Eficiência Energética 55 (Y) Salários (X) Anos de estudo (Y) Salários (X) Anos deestudo (Y1) Salários (X1) Anos de estudo Y* X* 861 4 467 2 0,716044 0,598878 0,421643 0,222439 130 0 507 2 0,108114 0 0,388377 0,299439 145 0 637 3 0,120588 0 0,529756 0,449159 220 0 861 4 0,182961 0 0,716044 0,598878 1099 5 1099 5 0,913975 0,748598 0,913975 0,748598 1226 6 1160 8 1,019593 0,898317 1,019593 0,898317 1243 7 1226 6 1,033731 1,048037 1,033731 1,048037 1439 8 1243 7 1,196733 1,197756 1,196733 1,197756 [...] 3464 17 3223 16 2,880809 2,545232 2,346063 2,395513 3078 17 3259 15 2,559795 2,545232 2,880809 2,545232 2587 15 3464 17 2,151459 2,245793 2,559795 2,545232 3692 21 3692 21 3,070423 3,14411 3,070423 3,14411 3788 22 3788 22 3,150261 3,29383 3,150261 3,29383 4140 23 4140 23 3,442999 3,443549 3,58022 3,29383 4305 22 4305 22 3,58022 3,29383 3,442999 3,443549 Desvio padrão = 1202,044 (salários) e 6,679155 (anos de estudo). Salários Y1 e Ano X1 = variáveis divididas pelos seus desvios padrões. Y* e X* são a regressão dos valores de salário Y1 e anos de estudo X1. Fonte: Malassise (2015, p.137) Os resultados da regressão, obtidos no Excel, no suplemento ferramen- tas de análise, são apresentados na figura a seguir, para salários (W) como variável dependente e, anos de escolaridade (A) variável independente. Figura 4 – Regressão: salários em função de anos de escolaridade RESUMO DOS RESULTADOS Estatísticas de regressão R múltiplo 0,988576 R-Quadrado 0,977282 R-Quadrado ajustado 0,976633 Erro padrão 183,7493 Observações 37 56 Eficiência Energética RESUMO DOS RESULTADOS ANOVA gl SQ MQ F F designificação Regressão 1 50835032 50835032 1505,607 2,33E-30 Resíduo 35 1181734 33763,82 Total 36 52016766 Coeficiente Erro padrão Stat t Valor-P 95% Inferior 95% Superior Interseção 124,0547 54,90802 2,259318 0,030195 12,58549 235,5239 Variável X 177,9134 4,585144 38,80215 2,33E-30 168,6051 187,2218 Fonte: Malassise (2015, p. 138). Da tabela de regressão podem ser obtidos os valores estimados para os coeficientes, que são: O gráfico dos resíduos contra os valores da variável independente, anos de escolaridade, é mostrado a seguir. Figura 5 – Gráfico dos resíduos contra anos de escolaridade Fonte: Malassise (2015, p. 139). Eficiência Energética 57 Com o gráfico da Figura 5 é possível perceber que, à medida que os anos de escolaridade aumentam (crescente da esquerda para a direita), os resíduos também aumentam de valor. Isto é um indicativo da existên- cia de correlação entre resíduos e a variável independente do modelo ajustado e, consequentemente, um indicativo de existência de heteros- cedasticidade no modelo ajustado. A autora aplicou o teste de Goldfeld- Quandt para confirmar a existência de heteroscedasticidade. Através de um teste F foi possível confirmar que o modelo ajustado viola o pressu- posto de homocedasticidade. Maiores detalhes sobre a implementação do teste podem ser encontrados em Malassise (2015). No processo de criação de um modelo econométrico há uma busca incessante pela correta especificação dele. É como se o analista esti- vesse numa caça ao tesouro perdido. Para isso, muitas questões são levantadas com o propósito de se obter o caminho correto. Uma des- tas perguntas seria “Como se faz para encontrar o modelo correto?”. Pense sobre esta pergunta e descreva sua resposta em forma de itens. QUESTÃO PARA REFLEXÃO 5. Considerações Finais • Abordamos sobre o relaxamento de pressupostos básicos de mode- los de regressão linear clássicos. • Apresentamos a definição de heteroscedasticidade e como ela pode ocorrer em ajustamento de modelos econométricos. • Foi apresentado como se verifica o pressuposto de normalidade dos erros de um modelo e a importância que a distribuição normal tem no contexto de modelagem de dados. • Observamos a importância de se especificar corretamente os mode- los e formas de verificar se estão bem construídos. 58 Eficiência Energética Glossário • Atípico: que se afasta do normal, do característico; anômalo, inco- mum, raro. • Discrepante: que se destaca pela diferença; destoante. • Robusto: resistente; poderoso. VERIFICAÇÃO DE LEITURA TEMA 03 1. É a forma mais simples de identificar a existência de hete- roscedasticidade em um modelo de regressão ajustado. A afirmativa está se referindo a: a) Gráfico. b) Tabela. c) Teste. d) Intuição. e) Dedução. 2. A distribuição normal possui quantos parâmetros? a) Um. b) Dois. c) Três. d) Quatro. e) Nenhum. 3. Se o coeficiente de correlação linear entre duas variáveis independentes de um conjunto de dados que será utiliza- do para ajustar um modelo de regressão apresentar valor de 0,85, o que é possível concluir em relação aos pressu- postos do modelo? Eficiência Energética 59 a) Ausência de heteroscedasticidade. b) Presença de heteroscedasticidade. c) Ausência de colinearidade. d) Presença de colinearidade. e) Erro de especificação. Referências Bibliográficas BUSSAB, W.; MORETTIN, P. Estatística básica. 9. ed. São Paulo: Saraiva, 2017. 554p. GUJARATI, D.N.; PORTER, D.C. Econometria básica. 5. ed. São Paulo: AMGH, 2008. 924p. MALASSISE, R. L. S. Econometria. 1. ed. Londrina: Editora e Distribuidora Educacional S/A, 2015. v. 1. 192p. Disponível em: <http://anhanguera.bv3.digitalpages.com.br/ users/publications/9788584822065/pages/-2>. Acesso em: 26 maio 2018. Gabarito – Tema 03 Questão 1 – Resposta: A A forma mais simples de se verificar existência de heteroscedastici- dade em um modelo de regressão ajustado é através de gráfico dos resíduos contra os valores da(s) variável(is) independente(s). Questão 2 – Resposta: B A distribuição normal possui dois parâmetros que são a média e a variância, representadas pelas letras gregas µ e σ2, respectivamente. Questão 3 – Resposta: D Se o coeficiente de correlação linear entre duas variáveis apresentar valor de 0,85, há indícios de que elas estão fortemente correlaciona- das e, se forem incluídas no mesmo modelo ajustado, possivelmen- te, causarão colinearidade no ajuste. http://anhanguera.bv3.digitalpages.com.br/users/publications/9788584822065/pages/-2 http://anhanguera.bv3.digitalpages.com.br/users/publications/9788584822065/pages/-2 Eficiência Energética 60 TEMA 04 REGRESSÃO COM VARIÁVEIS DUMMY Objetivos • Apresentar variáveis dummy como constantes; • Apresentar variáveis dummy como coeficientes angulares; • Apresentar modelos de diferenças em diferenças. Eficiência Energética 61 Introdução Os modelos de regressão apresentados até aqui foram elaborados com variáveis do tipo razão, também conhecida como proporcional ou cardi- nal, ou seja, variáveis que permitem a utilização de todas as operações matemáticas básicas. Por exemplo, a estatura, valores monetários, idade e peso. No entanto, isso não deveria dar a impressão de que os modelos de regressão só podem lidar com variáveis desse tipo, pois, podem ser construídos com outros tipos de variáveis. Neste texto serão considera- dos modelos de regressão que trabalham com variáveis independentes que são conhecidas como variáveis indicadoras ou binárias. Uma variável binária (também denominada variável dummy) é aquela que só tem dois valores distintos, geralmente zero e um. Em um modelo de regressão, a variável dependente também pode ser influenciada por va- riáveis de natureza qualitativa, onde, em geral, significam a presença ou ausência de uma “qualidade” ou atributo, como ser homem ou mulher, ser católico ou não, etc. A quantificação de atributos qualitativos em modelos de regressão nos valores zero e um, para variáveis independentes, é realizada para cons- truir uma classificação em categorias mutuamente exclusivas, sem possi- bilidade de sobreposição. Em um mesmo modelo podem haver variáveis quantitativas e qualitati- vas, no entanto, neste texto, serão considerados os modelos que pos- suem apenas variáveis independentes qualitativas. 1. Variáveis dummy como constantes Os métodos estatísticos para comparação de médias de vários grupos que relacionam a associação entre uma variável quantitativa e uma
Compartilhar