Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Fábio Heleno Mourão da Costa Anderson Litaiff Feitosa da Costa U n i v e r s i d a d e d o E s t a d o d o A m a z o n a s - U E A M a n a u s - A m a z o n a s 2 0 1 3 Econometria I 2 Universidade do Estado do Amazonas - UEA Econometria I (102) Fábio Heleno Mourão da Costa, M. Sc. Anderson Litaiff Feitosa da Costa, M. Sc. Manaus 2013 Nota dos autores Este material foi desenvolvido a partir da seleção de vários textos, na grande maioria das vezes, utilizando na íntegra o texto original. Com isto, os autores deste material, não possuem nenhuma pretensão de originalidade acerca do conteúdo que expõem nas próximas páginas deste trabalho. O objetivo foi, tão somente, disponibilizar aquilo que há de melhor em termos didáticos sobre o assunto tratado aqui. Esperamos que os alunos possam tirar o máximo proveito deste material e que possam sugerir o aperfeiçoamento do mesmo. As referencias dos textos originais encontram-se na parte final. Abraços, Fábio Heleno Mourão da Costa Anderson Litaiff Feitosa da Costa SUMÁRIO 1 INTRODUÇÃO À ECONOMETRIA 5 2 TEORIA DA CORRELAÇÃO 13 3 REGRESSÃO LINEAR SIMPLES 23 4 REGRESSÃO LINEAR MÚLTIPLA 54 1 INTRODUÇÃO À ECONOMETRIA […] A leading model builder asserted in public that the world is complicated and therefore we need complicated models. Before two hundred or so in the audience, I asked him, ‘How do you know’? He mumbled a few words and went on with his religious tract on the virtues of complexity (ZELLNER, 1996, p. 5). 1.1 O que é econometria? Econometria é a junção de duas palavras gregas, economia e medida, significando “medição econômica” (GUJARATI; PORTER, 2011, p. 25)1. Koutsoyiannis afirma que: Econometria é uma combinação de teoria econômica, economia matemática e estatística, mas é completamente distinta de cada um destes três ramos da ciência [...] É um tipo especial de análise e pesquisa econômica em que a teoria econômica geral, formulada em termos matemáticos, é combinada com a medição empírica dos fenômenos econômicos (KOUTSOYIANNIS, 1977, p. 3, tradução nossa). Enfim, Intriligator (1978, p. 2, tradução nossa) define econometria como “[...] o ramo da economia preocupado com a estimação empírica das relações econômicas”. Entretanto, cabe ressaltar que a econometria não se limita à economia e finanças, sendo “[...] [utilizada também] por cientistas sociais, em particular, pesquisadores de história, ciência política e sociologia” (HILL; GRIFFITHS; JUDGE, 2010, p. 1), de modo que “econometria é uma ciência social. Seu objeto de estudo é a sociedade e o comportamento das instituições e indivíduos da qual se compõe” (HILL; GRIFFITHS; JUDGE, 1993, p. 1, tradução nossa). Reformulando Intriligator, pode-se ter o seguinte conceito: econometria é o ramo da economia preocupado com a estimação empírica de relações sociais, econômicas ou não. O conceito de Goldberger (1964, p. 1, tradução nossa) é o mais completo: “econometria pode ser definida como a ciência social em que ferramentas da teoria econômica, matemática e inferência estatística são aplicadas à análise de fenômenos econômicos [ou sociais]”. Segundo Koutsoyiannis (1977, p. 8) e Intriligator (1978, p. 5), os objetivos da econometria são análise (estrutural) da teoria econômica (por meio de inferência estatística), formulação e avaliação de políticas e previsão. 1 Outras definições de econometria podem ser encontradas em Tintner (1953). 6 Koutsoyiannis (1977, p. 9-10, tradução nossa) divide a econometria em dois ramos: teórica (pura), que estuda e desenvolve métodos de análise mais apropriados; e aplicada, que estuda as aplicações da econometria teórica na ciência econômica, “para análise do fenômeno econômico e previsão do comportamento econômico”. Ainda existem aplicações econométricas que exigem uma econometria teórica (praticamente) própria, como seria o caso da econometria espacial. 1.2 Um pouco mais sobre o método econométrico: sobre dados e modelos 1.2.1 Dados Os dados são o conjunto de fatos quantitativamente expressos utilizados na análise econométrica (INTRLIGATOR, 1978, p. 57), e, portanto, tomam a forma de variáveis. Segundo Wooldridge (2006, p. 5-9), os dados econométricos podem ter as seguintes estruturas: a) Dados de corte transversal ou cross-section: conjunto de observações de vários indivíduos coletadas em um determinado momento; b) Dados de séries temporais: conjunto de observações de um indivíduo em intervalos discretos de tempo; c) Cortes transversais agrupados: é um conjunto de observações de dados de corte transversal em períodos diferentes, agrupados por indivíduo. Neste caso, a observação em períodos diferentes não é capaz a constituir uma série temporal, apenas estendendo a amostra; d) Dados de painel ou longitudinais: é uma combinação de dados de corte transversais e série temporal. Algo como uma série temporal de dados de corte transversal, isto é, um conjunto de indivíduos observados ao longo de intervalos discretos de tempo. Cada estrutura de dados possui métodos de análise próprios, não sendo correto, por exemplo, aplicar métodos de análise de corte transversal a dados em painel. Este curso foca na análise de estruturas de dados em cross-section. Intriligator (1978) classifica os dados quanto à origem da seguinte maneira: a) Dados experimentais: estes dados são obtidos através de experimentos controlados, onde as influências no sistema são controladas pelo experimentador. Embora sua utilização em outros ramos da economia seja difícil em virtude da dificuldade em controlar influências sociais, estes dados são frequentes em pesquisas de economia comportamental e teoria dos jogos PNI Highlight PNI Highlight PNI Highlight 7 experimental2; b) Dados não experimentais: também chamados de dados observacionais ou dados gerados passivamente (passively generated, no original), são aqueles provenientes de observações onde não há controle experimental. Este tipo de dados é mais comum em ciências sociais, embora também seja usado em ciências exatas. De fato, estão relacionados a áreas onde a experimentação é impossível ou praticamente impossível, como seria o caso da economia e da astrofísica. Outras classificações de dados não experimentais são indicadas em Hill, Griffiths e Judge (1993), como: 1. Quanto ao nível de agregação: a. Microdados: dados coletados a partir de unidades econômicas individuais de tomada de decisão. Tendem a tomar a estrutura de dados em painel, já que avaliam o comportamento de famílias ou firmas individualmente ao longo do tempo (INTRILIGATOR, 1978; HILL; GRIFFITHS; JUDGE, 1993); b. Macrodados: dados resultantes da agregação entre indivíduos. 2. Quanto aos aspectos temporais: a. Fluxos: dados sobre medidas coletadas ao longo do tempo; b. Estoque: dados coletados em um determinado momento. 3. Quanto à natureza: a. Quantitativos: dados numéricos e transformações numéricas (dados per capita, preços reais etc.); b. Qualitativos: relacionam-se a características do tipo “sim ou não”, i. e., “possui ou não possui tal característica". Gujarati e Porter (2011, p. 45) classificam os dados quanto a escala de medição dos dados: 1. Escala de razão: neste caso, “dada uma variável X , que assume dois valores, 1X e 2X , a razão 1 2 X X e a distância 1 2X X− são quantidades significativas. Também há um ordenamento natural (ascendente ou descendente) dos valores ao longo da escala” (GUJARATI, PORTER, 2011, p. 45). Chamaremos as três premissas, respectivamente de: significância da razão, significância da distância e ordenamento natural. Exemplos: crescimento econômico (variação e razão do PIB); 2. Escala de intervalo: as variáveis obedecem às propriedades de significância da distância e do ordenamento natural. Exemplos: temperatura, altura, períodos de tempo etc.; 3. Escala ordinal: variáveis que satisfazem apenas à propriedade de ordenamento natural. Exemplos: conceitos, curvas de indiferença etc.; 4. Escala nominal: variáveis que não obedecem nenhuma das três propriedades. Exemplos: estado civil, gênero etc. 2 Vide Kalisch, Milnor, Nash e Nering (1954, apud NASH, 1996). Uma leitura introdutória para economia experimental é encontrada em Roth (1993). PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight 8 1.2.1 Modelos De acordo com Malinvaud Um modelo é a representação formal das noções que temos sobre um fenômeno [...] [de modo que] essas noções, normalmente chamadas ‘teoria do fenômeno’, são expressas por um conjunto de suposições sobre os elementos essenciais do fenômeno e as leis que o regulam (MALINVAUD, 1970, p. 44, tradução nossa). Barbancho (1970, apud MATOS, 2000, p. 21) diferencia modelos teóricos de modelos econométricos, tendo em vista que a variante econométrica possui, necessariamente, “[...] [a especificação da] forma matemática, definição das variáveis e números de equações” (MATOS, 2000, p. 21). Também existe diferença entre modelos determinísticos e estatísticos (probabilísticos ou estocásticos). Modelos determinísticos são exatos, não possuindo erros, ao contrário dos modelos estatísticos. Segundo Hill, Griffiths e Judge (1993, p. 7, itálico no original, tradução nossa), ao interpretar o erro como um componente estocástico, “[...] converte[-se] o modelo econômico em um modelo estatístico-probabilístico e nos dá base para inferência estatística, isto é, uma base para estimar parâmetros desconhecidos e testar hipóteses sobre eles”. Ao comentar sobre a natureza estocástica do modelo econométrico, Intriligator relaciona a desenvolvimentos da física à importância de modelos estocásticos [...] Modelos iniciais, como aqueles da mecânica Newtoniana, são determinísticos, enquanto modelos posteriores, como os da mecânica quântica, são estocásticos. De fato, a revolução quântica [quantum revolution, no original] na física consistiu na observação revolucionária de que não se podia identificar, por exemplo, a exata localização de uma partícula elementar, mas se podia determinar uma distribuição de probabilidade para a sua localização (INTRILIGATOR, 1978, p. 25, tradução nossa). Os modelos são compostos de relações. Estas relações tomam a forma de equações ou funções, podendo, segundo a classificação de Barbancho (1970, apud MATOS, 2000, p. 22), ser classificadas em a. Comportamentais; b. Institucionais ou legais; c. Técnicas; PNI Highlight PNI Highlight PNI Highlight PNI Highlight PNI Highlight 9 d. Contábeis3. Ainda segundo Barbancho (1970, apud MATOS, 2000, p. 22-23), os modelos podem ser classificados nas seguintes categorias: 1. Quanto à forma funcional4: a. Lineares; b. Não lineares; 2. Quanto ao número de equações: a. Uniequacional; b. Multiequacional; 3. Quanto à associação das variáveis em relação ao tempo: a. Estáticos: a relação entre a variável explicativa e a variável explicada ocorre ao mesmo tempo, sem defasagem; b. Dinâmicos: a relação inclui defasagens entre a variável explicada e explicativa; 4. Quanto à finalidade: a. Modelos de decisão: sua finalidade é auxiliar a tomada de decisão; b. Modelos de previsão. 1.3 Uma breve história da econometria O termo econometria foi usado pela primeira vez por Ragnar Frisch em 1926 (KIRSTEN, 1991, p. 44, apud MATOS, 2000, p. 16; BRUE, 2000, p. 344; LANGE, 1963, p. 15), embora sua história remonte à Quesnay e Charles Davenant, que “[...] definiu ‘aritmética política’ como a ‘arte de raciocinar por números com relação a coisas relacionadas [sic] ao governo’”, (BRUE, 2011, p. 344; LANGE, 1963, p.17). Davenant, segundo Stigler (1965, apud MADDALA, 2003, p. 3), foi o primeiro a realizar um estudo empírico de demanda em 1699. O próprio termo econometria possui aspectos históricos na sua adoção. De fato, Brue (2011, p. 344) atribui sua origem ao termo biometria, uma aplicação de matemática e estatística à biologia, relacionada à Francis Galton e Karl Pearson (SALSBURG, 2004), que posteriormente tornou-se um ramo independente da biologia (LANGE, 1963, p. 15). Ainda conforme Lange (1963, p.17), “a Econometria, como método distinto de estudo da vida econômica, surgiu antes da Primeira Guerra Mundial e se desenvolveu com especial velocidade após a guerra”. Segundo Tinbergen (1953, p. 9) e Barbancho (1970, p.10-11, apud 3 Vale ressaltar que identidades contábeis devem ser usadas com atenção em modelos econométricos, evitando realizar relações causais entre identidades. 4 Neste caso, a classificação toma como critério as variáveis. Observe que um modelo linear nas variáveis pode ser não linear nos parâmetros e vice-versa. PNI Highlight 10 MATOS, 2000, p. 16), os trabalhos pioneiro em econometria foram os estudos de 1919 e 1925 de H. L. Moore. Matos (2000, p. 16-17) também cita estudos importantes de Frisch (1927), Working (1927). O autor divide a história da econometria em quatro períodos: antes de 1930, 1930-1954, 1955- 1969 e pós-1969. Os pontos principais destes períodos são: 1. Antes de 1930: busca de meios para testar teoria e realidade; 2. 1930-1954: fundação da Econometric Society; início da Comissão Cowles para Pesquisa Econômica; publicação da revista Econometrica; estudo de Tinbergen sobre modelos macroeconômicos multiequacionais; 3. 1955-1969: introdução de novos métodos de estimação e avaliação de modelos; 4. Pós-1969: contribuições em análise de séries temporais e de dados em painel. A Comissão Cowles tinha como lema “ciência é medida” (ROMBOUTS, 2004, p. 12, tradução nossa)5 e, conforme Christ (1994, p. 30), “[...] criou uma revolução nos métodos e na prática econométrica durante seus anos na Universidade de Chicago de 1939 a 1955”, especialmente em modelos multiequacionais. Outro estudo interessante que aborda a história da econometria é Heckman (1992), onde é feita uma análise das contribuições de Haavelmo. 1.4 Referências CHRIST, Carl F. The Cowles Commission’s Contributions to Econometrics at Chicago, 1939-1955. In: Journal of Economic Literature, v. 32, n. 1, mar. 1994, p. 30-39. Disponível em: <http://www.jstor.org/stable/2728422>. Acesso em: 07 dez. 2012. GOLDBERGER, Arthur. Econometric Theory. New York: John Wiley, 1964. GUJARATI, Damodar N.; PORTER, Dawn C. Econometria Básica. Tradução Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. 5. ed. Porto Alegre: AMGH, 2011. HECKMAN, James J. Haavelmo and the Birth of Modern Econometrics: A Review of the History of Econometric Ideas by Mary Morgan. In: Journal of Economic Literature, v. 30, 5 Rombouts (2004) apresenta a história da econometria pós-1930 a partir de suas principais revistas. Teixeira (1984) faz uma breve análise da histórica da economia quantitativa e da econometria, focando também no Brasil, especialmente na Revista Brasileira de Econometria. 11 n. 2, jun. 1992, p. 876-886. Disponível em: <http://www.jstor.org/stable/2727705>. Acesso em: 07 dez. 2012. HILL, R. Carter; GRIFFITHS, William E.; JUDGE, George G. Econometria. 3. ed. São Paulo: Saraiva, 2010. _____. Learning and Practicing Econometrics. Hoboken: John Wiley, 1993. INTRILIGATOR, Michael D. Econometric models, techniques, and applications. Englewood Cliffs: Prentice-Hall, 1978. KALISCH, Gerhard K.; MILNOR, J. W.; NASH, John Forbes; NERING, E. D. Some experimental n-person games. In: NASH, John Forbes. Essays in game theory. Brookfield, US: Edward Elgar, 1996. KOUTSOYIANNIS, A. [Anna]. Theory of Econometrics. 2. ed. London: Macmillan, 1977. LANGE, Oskar. Introdução à econometria. São Paulo: Fundo de Cultura, 1963. MADDALA, G. S. Introdução à econometria. Tradução de Leonardo Weller; revisão técnica de Paulo Tafner. 3. ed. São Paulo: LTC, 2003. MALINVAUD, E. [Edmund]. Statistical methods of Econometrics. 2. ed. rev. Translated by Mrs. A. Silvey. New York: Elsevier, 1970. MATOS, Orlando Carneiro de. Econometria básica: teoria e aplicações. 3. ed. rev. e ampl. São Paulo: Atlas, 2000. ROMBOUTS, Jeoren V. K. Econometrics, 1930 to the present. 22 nov. 2004. Disponível em: <http://zonecours.hec.ca/documents/197342.seance11notes.pdf>. Acesso em: 07 dez. 2012. ROTH, Alvin E. On the Early History of Experimental Economics. In: Journal of the History of Economic Thought, n. 15, Fall 1993, p. 184-209. SALSBURG, David. Uma senhora toma chá...: como a estatística revolucionou a ciência no século XX. Tradução de José Maurício Gradel; revisão técnica de Suzana Herculano-Houzel. Rio de Janeiro: Zahar, 2009. TEIXEIRA, Joanílio Rodolpho. Uma perspectiva histórica da economia quantitativa e do papel da Sociedade Brasileira de Econometria – uma visão pessoal. In: Revista Brasileira de Econometria, v. 4, n. 2, nov. 1984. Disponível em: 12 <http://bibliotecadigital.fgv.br/ojs/index.php/bre/article/view/3141>. Acesso em: 09 dez. 2012. TINTNER, Gerhard. The Definitions of Econometrics. In: Econometrica, v. 21, n. 1, jan. 1953, p. 31-40. Disponível em: <http://www.jstor.org/stable/1906941>. Acesso em: 07 dez. 2012. WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. Tradução Rogério Cézar de Souza, José Antônio Ferreira; revisão técnica Nelson Carvalheiro. São Paulo: Pioneira Thomson Learning, 2006. ZELLNER, Arnold. Past, present and future of econometrics. In: Journal of Statistical Planning and Inference, n. 49, 1996, p. 3-8. Disponível em: < http://www.sciencedirect.com/science/article/pii/0378375895000275>. Acesso em: 07 dez. 2012. 3 TEORIA DA CORRELAÇÃO O presente capítulo busca apresentar o estudo de correlação, como uma introdução ao estudo da regressão linear simples. Dividiu-se então em três subseções. A primeira subseção apresenta o conceito de correlação e algumas ideias a seu respeito. A segunda demonstra os aspectos algébricos relacionados ao coeficiente de correlação. A terceira é a resolução de um exercício proposto em Koutsoyiannis (1977, p. 46). 2.1 Conceito Segundo Wonnacott e Wonnacott (1978, p. 98), correlação e regressão estão “[...] intimamente ligadas matematicamente, a correlação torna-se muitas vezes um auxílio útil na análise de regressão”. Conceitualmente, correlação é uma medida do grau de associação entre variáveis. Entretanto, cabe fazer algumas ressalvas sobre esta medida. Embora correlação seja comumente associada à causalidade, isso é um erro: causalidade e correlação não é a mesma coisa. Correlação pode sugerir causalidade, ao indicar que as variáveis estão associadas, porém não há identificação de causa e efeito. De fato, até a regressão se baseia em relações de causalidade hipotéticas. Diferente da regressão, não pode se falar em variáveis dependentes ou independentes, apenas em variáveis aleatórias (GUJARATI; PORTER, 2011, p. 43-44). Isto é, a variável X não tem o efeito quantificável em Y , como no caso da regressão, podendo-se apenas afirmar que elas variam simultaneamente com determinado grau de associação. 2.2 O coeficiente de correlação Antes de analisar diretamente o cálculo da correlação linear, é interessante lembrar o cálculo da covariância. Conceitualmente, covariância e correlação são bastante similares, mudando apenas quando ao modo de interpretação das estatísticas, já que a correlação é uma grandeza contida no intervalo [ ]1,1− , como será visto mais adiante. 14 Define-se covariância populacional como ( )( )XY i X i YS E X Yµ µ⎡ ⎤= − −⎣ ⎦ (2.1) ou, ainda, considerando ix e iy os desvios das observações em relação à média, ( ) ( )( ) ( ) ( ) ( ) ( ) 1 1 1 1 1 1 1 1 1 1 1 2 n i i i i i n i i i i i n n n i i i i i i i n n i in i i i i i n n n i i i i i i i X X Y Y E x y n X Y Y X X Y XY n X Y X Y Y X nXY n X Y X Y n n X Y X Y E XY E X E Y n n = = = = = = = = = = = ⎡ ⎤− −⎣ ⎦ = − − + = − − + = − = = − = − ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ (2.2) O estimador da covariância é ligeiramente diferente ( ) 1 1 1 1ˆ 1 1 1 n n n n i i i i i i i i i i XY x y X Y X Y S n n n n = = = == = − − − − ∑ ∑ ∑ ∑ . (2.3) A justificativa1 para esta correção é que “suponha observamos o exatamente o mesmo 1 Pindyck e Rubenfeld (2004, p. 56-57) demonstram matematicamente que 15 tipo de dispersão numa amostra de tamanho dobrado; nosso índice seria também dobrado, embora o retrato de como estas variáveis variam juntas seja o mesmo” (WONNACOTT; WONACOTT, 1978, p. 101), ou seja, o valor absoluto do produto dos desvios tenderia a crescer com a amostra (HOFFMANN, 2006, p. 283-284). Existem poucas diferenças entre os coeficientes de correlação populacional e o amostral. Embora o foco deste curso seja a análise do segundo, o primeiro é calculado a partir da fórmula XY X Y Sρ σ σ = (2.4) Por sua vez, o estimador do coeficiente de correlação é dado pela fórmula 2 21 ( ) 1 n i i X X X E n σ= − = − ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ∑ , pois se exclui a informação utilizada para calcular a média da amostra. 16 ( )( ) ( ) ( ) 1 2 2 1 1 1 2 2 1 1 1 1 1 2 2 2 21 1 1 1 ˆ XYXY X Y n i i i n n i i i i n i i i n n i i i i n n i in i i i i i n n i in n i i i i i i sr s s X X Y Y X X Y Y x y x y X Y X Y n X Y X Y n n = = = = = = = = = = = = = = ⋅ ⎡ ⎤− −⎣ ⎦ = − ⋅ − = ⋅ ⋅ − = ⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞ ⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ (2.5) Observando que 2 2 1 1 1 n n n i i i i i i i x y x y = = = ≤ ⋅∑ ∑ ∑ , deduz-se que [ ]1,1XYr ∈ − . Notando também que o sinal de r depende do valor de 1 n i i i x y = ∑ . A interpretação do coeficiente é 1. Quando 0r > , a correlação linear é positiva, isto é, quando elas aumentam ou diminuem juntas; 2. Quando 0r < , a correlação linear é negativa, significando que as variáveis possuem relação oposta; 3. Quando 0r = , não há correlação linear entre as variáveis. Geometricamente, o coeficiente de correlação é similar à função cosseno, como expõe 17 Hadley (1969, p. 32-33): x , y e θ são, respectivamente, vetores que representam o desvio em relação à média, e o ângulo entre eles; o coeficiente de correlação entre é igual ao cosseno deste ângulo, pois 1 2 2 1 1 cos cos n i i i XYn n i i i i x y r x y θ θ = = = ′ = ′ ∴ = = = ∑ ∑ ∑ x y x y x y x y Esta definição coloca o coeficiente entre no intervalo supracitado em decorrência da desigualdade de Schwarz2. Portanto, dois vetores não-nulos ortogonais implicam que a correlação entre eles é zero. Esta interpretação do coeficiente aponta para um fato interessante: se regressões simples recíprocas entre as variáveis são iguais, a correlação é perfeita; se a correlação é nula, as retas serão paralelas a um eixo cada e, portanto, perpendiculares entre si; em qualquer caso intermediário, quanto menor o ângulo entre as retas de regressão, maior é a correlação (RACTLIFFE, 1967, p. 168). O teste sobre a nulidade de correlação populacional entre duas variáveis é apresentado em Hoffmann (2006, p. 286-287): considerando que a distribuição conjunta das duas variáveis siga a distribuição normal bidimensional, testa-se a hipótese nula de ausência de correlação populacional através da comparação de 2 ˆ 2 ˆ1 r nt r −= − (2.6) com a distribuição t com 2n − graus de liberdade. Entretanto, Kendall (1970, apud RACTLIFFE, 1967, p. 149-150) aponta que o teste para correlação entre ranks é diferente, mas que, neste caso, o teste converge é o mesmo se 10 20n< < e, se 20n ≥ , deve-se utilizar a distribuição normal com média zero e desvio- 2 A desigualdade de Schwarz enuncia que ′ ≤x y x y . 18 padrão 1 1n − . De fato, a diferença ocorre quando 10n ≤ , quando deve ser utilizada uma distribuição específica. 2.3 Exercício resolvido O exemplo a seguir é de Koutsoyiannis (1977, p. 46), onde se pede o cálculo do coeficiente de correlação das séries. Para efeitos didáticos, optou-se por incluir o teste da hipótese de ausência de correlação. Tabela 1: Número de acidentes automobilísticos, consumo de bebidas alcoólicas e salários (1961-1970) Anos Acidentes automobilísticos Consumo de bebidas em toneladas Salários 1961 155 70 15.500 1962 150 63 14.500 1963 180 72 19.300 1964 135 60 15.600 1965 156 66 16.400 1966 168 70 19.300 1967 178 74 25.600 1968 160 65 25.000 1969 132 62 26.900 1970 145 67 27.850 Fonte: Koutsoyiannis (1977, p. 46). 19 2.3.1 O cálculo do coeficiente de correlação Tabela 2: Valores para cálculos dos coeficientes Valores Acidentes automobilísticos Consumo de bebidas em toneladas Salários Soma das Observações 1.559,00 669,00 205.950,00 Observações 10 10 10 Média 155,90 66,90 20.595,00 Soma dos Quadrados das Observações 2,45E+05 4,49E+04 4,49E+09 Soma dos Desvios -5,68E-14 -5,68E-14 0 Soma dos Quadrados dos Desvios 2.394,90 186,90 245.852.250,00 Variância 266,10 20,77 27.316.916,67 Fonte: elaboração própria. 20 Tabela 3: Inter-relações entre variáveis. Acidentes automobilísticos Consumo de bebidas em toneladas Salários Acidentes automobilísticos 245.443,00 104.887,00 32.104.150 Consumo de bebidas em toneladas 104.887,00 44.943,00 13.810.650,00 Salários 32.104.150,00 13.810.650,00 4487392500 Acidentes automobilísticos Consumo de bebidas em toneladas Salários Acidentes automobilísticos 2.394,900 589,900 110.610,500 Consumo de bebidas em toneladas 589,900 186,900 32.595,000 Salários 110.610,500 32.595,000 245.852.250 Acidentes automobilísticos Consumo de bebidas em toneladas Salários Acidentes automobilísticos 266,100 65,544 -383,889 Consumo de bebidas em toneladas 65,544 20,767 3.621,667 Salários -383,889 3.621,667 27.316.916,667 Produto cruzado dos desvios Produto cruzados das observações Variância-Covariância Fonte: elaboração própria. Aplicando a equação (2.5), os coeficientes de correlação obtidos são apresentados na Tabela 4. Tabela 4: Coeficientes de correlação estimados. Acidentes automobilísticos Consumo de bebidas em toneladas Salários Acidentes automobilísticos 1,0000 0,8817 -0,0045 Consumo de bebidas em toneladas 0,8817 1,0000 -0,0045 Salários -0,0045 -0,0045 1,0000 Fonte: elaboração própria. 21 2.3.2 Teste sobre os coeficientes de correlação populacional O teste sobre o coeficiente de regressão populacional baseou-se em (2.6), utilizando 8 graus de liberdade e a distribuição t de Student. O resumo dos testes é mostrado na Tabela 5. Tabela 5: Testes sobre o hipótese nula de ausência de correlação populacional Acidentes automobilísticos Consumo de bebidas em toneladas Salários Acidentes automobilísticos - 7,25 -0,01 Consumo de bebidas em toneladas 7,25 - 0,47 Salários -0,01 0,47 - Acidentes automobilísticos Consumo de bebidas em toneladas Salários Acidentes automobilísticos - 2,306 2,306 Consumo de bebidas em toneladas 2,306 - 2,306 Salários 2,306 2,306 - Acidentes automobilísticos Consumo de bebidas em toneladas Salários Acidentes automobilísticos - Rejeita a hipótese nula Não rejeita a hipótese nula Consumo de bebidas em toneladas Rejeita a hipótese nula - Não rejeita a hipótese nula Salários Não rejeita a hipótese nula Não rejeita a hipótese nula - Estatísticas de teste Estatísticas Críticas (teste bilateral, 5%) Resultado Fonte: elaboração própria. 22 2.4 Referências GUJARATI, Damodar N.; PORTER, Dawn C. Econometria Básica. Tradução Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. 5ª ed. Porto Alegre: AMGH, 2011. HADLEY, G. Linear Algebra. 3. print. Reading: Addison-Wesley, 1969. HOFFMAN, Rodolfo. Estatística para Economistas. 4. ed. rev. e ampl. São Paulo: Pioneira Thomson Learning, 2006. KOUTSOYIANNIS, A. [Anna]. Theory of Econometrics. 2. ed. London: Macmillan, 1977. RACTLIFFE, J. F. Elements of Mathematical Statistics. 2. ed. 2 reprint. London: Oxford University Press, 1967. WONNACOTT, Ronald J; WONNACOTT, Thomas H. Econometria. Tradução de Maria C. Silva. 2. ed. Rio de Janeiro: Livros Técnicos e Científicos, 1978. 3 REGRESSÃO LINEAR SIMPLES O presente capítulo visa introduzir os conceitos de regressão linear simples, seus métodos e suas hipóteses básicas. Sua finalidade é compor uma base para a compreensão da análise de regressão múltipla, abordada em outra seção. 3.1 Conceito De acordo Maddala (2003, p. 32), o termo regressão foi utilizado pela primeira vez por Francis Galton (1822-1911), no sentido de convergência à média da população. O conceito moderno, porém, [...] diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis, as variáveis explanatórias, visando estimar e/ou prever o valor médio (da população) da primeira em termos dos valores conhecidos ou fixados (em amostragens repetidas) das segundas (GUJARATI; PORTER, 2011, p. 39, grifo dos autores). Os modelos de regressão linear simples envolvem a relação entre duas variáveis, a independente e a dependente, embora a nomenclatura dessas variáveis adotem alguns sinônimos, como expõe a Tabela 6. Tabela 6: Classificação das variáveis em análise de regressão Y X Previsto Previsores Regredido Regressores Variável explicada Variáveis explicativas Variável dependente Variáveis independentes Variável de efeito Variáveis causais Variável endógena Variáveis exógenas 24 Variável alvo Variáveis de controle Fonte: Maddala, 2003. Em síntese, a regressão busca estimar os parâmetros de um modelo a partir de uma amostra e fazer testes sobre os parâmetros da função populacional. Sua principal diferença em relação à análise de correlação se dá no aspecto de previsão. O modelo de regressão tem a finalidade mais voltada para a previsão de valores e, neste caso, a variável explanatória é não estocástica. Além disso, na análise de regressão é possível avaliar o efeito de mais de uma variável explicativa. Quando há apenas uma variável explicativa, chama-se regressão simples; quando há mais de uma variável explicativa, chama-se regressão múltipla. Vale ressaltar que o objeto de estudo deste capítulo é a regressão linear simples, i. e., a regressão baseada em funções lineares nos parâmetros. 3.2 Métodos de estimação dos parâmetros Como a relação expressa pelo gráfico abaixo é, aparentemente, uma função afim (“linear”), cada Y pode ser escrito em função de cada X da seguinte forma: Yi = β0 + β1Xi + ε i (3.1) Onde β0 + β1Xi é a equação da reta e ε i é o termo de erro. Este último termo tem que ser incluído porque, como podemos ver, o valor de Y não será dado exatamente pelo ponto a ser encontrada, como pode ser visto no gráfico abaixo: Figura 1: Reta de regressão linear simples 25 Fonte: Wooldridge, 2013. (mantida a notação original do autor) A pergunta que esta subseção analisa possui a seguinte formulação: dado o modelo estocástico acima, qual seria o melhor método para estimar seus parâmetros a partir de uma amostra? Primeiramente, deve-se discutir dois aspectos: o erro aleatório do modelo e algumas propriedades desejáveis dos estimadores. O componente aleatório na equação Error! Reference source not found. se deve a aspectos diversos. É interessante interpretar o erro como uma consequência de dois aspectos: i. Da impossibilidade de incluir todas as variáveis que explicam a variável dependente, em virtude de ausência de dados ou da dificuldade de inseri-las no modelo; ii. Da diferença entre o valor estimado do parâmetro a partir da amostra e o valor do parâmetro populacional. Com base em Gujarati e Porter (2011, p. 822-823), os estimadores de amostra pequenas (ou finitas) devem possuir as seguintes propriedades: i. Ausência de viés: um estimador é não viesado ou não tendencioso quando a esperança matemática do estimador for igual ao verdadeiro valor do parâmetro; ii. Variância mínima: propriedade que estabelece que o estimador deve ser pelo menos tão bom quanto os outros estimadores do valor populacional. Também é chamado de estimador eficiente; Copyright*©*2009*South1Western/Cengage*Learning** 11 26 iii. Linearidade: o estimador deve ser uma função linear das observações das amostras; iv. Consistência: os estimadores devem convergir ao valor real do parâmetro na medida em que a amostra tende ao infinito. A figura 2 auxilia a compreender os dois primeiros conceitos. Supondo que o valor populacional do parâmetro possui média 0 e variância 1, os estimadores representados nas curvas vermelha, verde e lilás são estimadores não viesados, enquanto a curva em azul representa um estimador viesado. A curva em vermelho, por sua vez, representa o estimador com variância mínima, i. e., o estimador mais eficiente. Figura 2: Gráficos de funções de distribuição normal Retornando à indagação sobre os métodos de estimação, a resposta segue o raciocínio de que os estimadores dos parâmetros devem “[...] minimizar o erro total” (WONNACOTT; WONNACOTT, 1978, p. 5). Então, o primeiro método consistiria em minimizar o valor do erro. Utilizando a notação, define-se o erro estimado como a diferença entre o valor observado e o valor estimado da amostra, ou seja ( )0 1ˆ ˆˆiˆ i i i iY Y Y Xε β β= − = − + (3.2) Portanto, o primeiro método buscaria minimizar a soma dos erros das observações, i. e., matematicamente, 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 -10 -5 0 5 10 15 N(0 1) N(2 4) N(0 2.25) N(0 4) 27 ( ) 1 1 ˆˆ n n i i i i i Y Yε = = = −∑ ∑ (3.3) Entretanto, o método baseado em (3.3) possui um defeito: grandes erros de sinal positivo anulariam grandes erros de sinal negativo, o que poderia dar uma soma zero, sem distinguir um ajusto bom de um ruim, conforme ressalta Wonnacott e Wonnacott (1978, p. 6). A próxima solução para contornar o problema dos sinais opostos seria minimizar a soma do valor absoluto dos erros, ou seja, minimizar a expressão 1 1 ˆˆ n n i i i i i Y Yε = = = −∑ ∑ (3.4) Porém, este método também possui defeitos. Como ressaltam Pindyck e Rubenfeld (2004, p. 6) e Wonnacott e Wonnacott (1978, p. 6-7), este método exige matemática mais complexa1 e tende a desconsiderar algumas observações de modo a minimizar a soma do módulo dos erros. A terceira solução seria minimizar o quadrado dos erros, ou seja, ( )22 1 1 ˆˆ n n i i i i i Y Yε = = = −∑ ∑ (3.5) De acordo com Wonnacott e Wonnacott (1978), este método não sofre dos problemas dos dois métodos anteriores e é matematicamente mais simples que o anterior. 3.3 O método dos mínimos quadrados ordinários O método que minimiza a função (3.5) é chamado método dos mínimos quadrados 1 Lins e Calôba (2006, p. 21-23) apresenta um método de regressão linear através da minimização da soma dos módulos dos erros utilizando técnicas de programação linear, ressaltando uma vantagem deste método sobre os mínimos quadrados: este método não superestima a influência de um outliers distante, pois, segundo o método dos mínimos quadrados, quanto maior o valor absoluto do erro estimado, maior o quadrado do erro (GUJARATI; PORTER, 2011, p. 79). 28 ordinários (MQO). Passar-se-á a derivação matemática deste método de duas maneiras: (1) utilizando cálculo diferencial e (2) utilizando álgebra linear e diferenciação matricial. 3.3.1 Obtendo os estimadores dos parâmetros: a abordagem do cálculo Substituindo (3.2) em (3.5), tem-se: ( ) ( ) ( ) ( ) ( ) 22 2 2 1 1 1 2 2 0 1 0 1 1 2 2 2 2 0 1 0 0 1 1 1 2 2 2 2 0 1 0 1 0 1 1 1 1 1 ˆ ˆ ˆˆ 2 ˆ ˆ ˆ ˆ2 ˆ ˆ ˆ ˆ ˆ ˆ2 2 2 ˆ ˆ ˆ ˆ ˆ ˆ2 2 2 n n n i i i i i i i i i i n i i i i i n i i i i i i i n n n n i i i i i i i i i i i Y Y Y YY Y Y Y X X Y Y X Y X X Y Y X Y X n X ε β β β β β β β β β β β β β β β β = = = = = = = = = = = − = − + ⎡ ⎤= − + + +⎢ ⎥⎣ ⎦ ⎡ ⎤= − − + + +⎣ ⎦ = − − + + + ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 1 n ∑ (3.6) Igualando a derivada da função (3.6) em relação aos parâmetros à zero, têm-se as equações normais: ∂ ε i 2 i=1 n ∑ ∂βˆ0 = −2 Yi i=1 n ∑ + 2βˆ1 Xi i=1 n ∑ + 2nβˆ0 = 0 ∴ Yi i=1 n ∑ = nβˆ0 + βˆ1 Xi i=1 n ∑ 29 ∂ ε i 2 i=1 n ∑ ∂βˆ1 = −2 XiYi i=1 n ∑ + 2βˆ0 Xi i=1 n ∑ + 2βˆ1 Xi2 i=1 n ∑ = 0 ∴ XiYi i=1 n ∑ = βˆ0 Xi i=1 n ∑ + βˆ1 Xi2 i=1 n ∑ (3.7) A hessiana da função (3.6) é: H ε i 2 , βˆ0 *,βˆ1 *⎡ ⎣ ⎤ ⎦ i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ = ∂2 ε i 2 i=1 n ∑ ∂βˆ0 *2 ∂2 ε i 2 i=1 n ∑ ∂βˆ0 * ∂βˆ2 * ∂2 ε i 2 i=1 n ∑ ∂βˆ1 * ∂βˆ0 * ∂2 ε i 2 i=1 n ∑ ∂βˆ0 *2 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ H ε i 2 , βˆ0 *, βˆ1 *⎡ ⎣ ⎤ ⎦ i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ = 2n 2 Xi i=1 n ∑ 2 Xi i=1 n ∑ 2 Xi2 i=1 n ∑ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ (3.8) Como σˆX 2 = (Xi − X ) 2 i=1 n ∑ n −1 = n Xi 2 i=1 n ∑ − Xi i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ 2 n n −1( ) ≥ 0 (3.9) é óbvio que a hessiana é positivamente definida e, consequentemente, trata-se de um problema de minimização. Esclarecendo: sabendo-se do sinal da variância, a condição (3.10), 30 decorrente dos autovalores, é satisfeita: 2 2 1 1 0 n n i i i i n X X = = ⎛ ⎞− >⎜ ⎟⎝ ⎠ ∑ ∑ (3.10) Resolvendo o sistema de equações normais em (3.7), temos os estimadores dos parâmetros da função Error! Reference source not found.: βˆ0 * = Yi − βˆ1 * Xi i=1 n ∑ i=1 n ∑ n = Y − βˆ0 * X βˆ1 * = XiYi i=1 n ∑ − Xi i=1 n ∑ ⋅ Yi i=1 n ∑ n Xi 2 − Xi i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ 2 ni=1 n ∑ = xi yi i=1 n ∑ xi 2 i=1 n ∑ = SˆXY σˆ X 2 (3.11) Sugere-se que o leitor faça a demonstração destes resultados para o método dos desvios. 3.3.2 Obtendo os estimadores dos parâmetros: a abordagem matricial2 Apresentar-se-á a abordagem utilizando álgebra matricial, pois esta passará a ser a linguagem principal das demonstrações seguintes, sendo, neste caso, um pré-requisito importante para o caso multivariado. Reescrevendo a equação Error! Reference source not found. em linguagem matricial, tem-se 1 2 2 1 1n n n× × × ×= +Y X β ε (3.12) 2 Esta seção baseou-se em Goldberger (1964). 31 onde: 1 1 1 2 2 2 0 1 3 1 3 2 1 1 3 1 1 1 , 1 , , 1 n n n n n n Y X Y X Y X Y X ε ε β ε β ε × × × × ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ Y X β εM M M M . A função (3.5) é reescrita matricialmente como ε'ε = ε1 εn⎡⎣ ⎤ ⎦ ε1 εn ⎡ ⎣ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ = ε i 2 i=1 n ∑ (3.13) Da equação (3.13), procede-se o raciocínio para chegar à uma versão de (3.6): ( ) ( ) ( )( ) ′′ = − − ′ ′ ′= − − ′ ′ ′ ′ ′ ′= − − + ε ε Y Xβ Y Xβ Y βX Y Xβ YY YXβ βXY βXXβ (3.14) Igualando a derivada em relação ao vetor dos parâmetros da função (3.14) à zero, obtêm-se os pontos críticos ∂ε 'ε ∂β = −2 ′X Y + 2 ′X Xβ = 0 ∴2 ′X Xβ = 2 ′X Y ∴β ^ = ′X X( )−1 ′X Y (3.15) Confirma-se que os pontos críticos acima são mínimos, pois 32 ∂2ε 'ε ∂β 2 = 2 ′X X = 0 ∴2 n Xi i=1 n ∑ Xi i=1 n ∑ Xi2 i=1 n ∑ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ∴ 2n 2 Xi i=1 n ∑ 2 Xi i=1 n ∑ 2 Xi2 i=1 n ∑ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ Esta última matriz é a mesma de (3.8) e é positivamente definida. Então, a última equação de (3.15) pode ser reescrita, obtendo-se os mesmos resultados para os estimadores derivados a partir da abordagem do cálculo3: β ^ = n Xi i=1 n ∑ Xi i=1 n ∑ Xi2 i=1 n ∑ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎛ ⎝ ⎜ ⎜ ⎜ ⎜⎜ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟⎟ −1 ⋅ Yi i=1 n ∑ XiYi i=1 n ∑ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ∴= 1 det ′X X( ) ⋅ Xi 2 i=1 n ∑ − Xi i=1 n ∑ − Xi i=1 n ∑ n ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎛ ⎝ ⎜ ⎜ ⎜ ⎜⎜ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟⎟ ⋅ Yi i=1 n ∑ XiYi i=1 n ∑ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ 3 Observar a similaridade entre Error! Reference source not found. e (3.11). 33 ∴= Xi 2 i=1 n ∑ n Xi 2 i=1 n ∑ − Xi i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ 2 − Xi i=1 n ∑ n Xi 2 i=1 n ∑ − Xi i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ 2 − Xi i=1 n ∑ n Xi 2 i=1 n ∑ − Xi i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ 2 n n Xi 2 i=1 n ∑ − Xi i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ 2 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⋅ Yi i=1 n ∑ XiYi i=1 n ∑ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ∴= Xi 2 i=1 n ∑ ⋅ Yi − Xi i=1 n ∑ ⋅ XiYi i=1 n ∑ i=1 n ∑ n Xi 2 i=1 n ∑ − Xi i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ 2 n XiYi i=1 n ∑ − Xi i=1 n ∑ ⋅ Yi i=1 n ∑ n Xi 2 i=1 n ∑ − Xi i=1 n ∑⎛⎝⎜ ⎞ ⎠⎟ 2 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = Y − βˆ1X xi yi i=1 n ∑ xi 2 i=1 n ∑ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = βˆ0 βˆ1 ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ (3.16) 3.4 Hipóteses básicas do modelo clássico de regressão linear simples e o teorema de Gauss-Markov De acordo com Gujarati e Porter (2012, p. 84-90), existem sete hipóteses subjacentes ao método dos mínimos quadrados: i. Modelo de regressão linear nos parâmetros; ii. Regressor fixo em amostras repetidas ou independente dos termos de erro; iii. Erro médio zero; iv. Homocedasticidade ou variância constante do erro aleatório; v. Ausência de autocorrelação entre os termos de erro; vi. Número de observações maior que o número de parâmetros; vii. Variabilidade do regressor. Ainda segundo Gujarati e Porter (2011, p. 93), o teorema de Gauss-Markov afirma 34 que, satisfeitas as hipóteses do modelo clássico de regressão linear, “[...] os estimadores de mínimos quadrados da classe dos estimadores lineares não viesados tem variância mínima, isto é, são o melhor estimador linear não viesado”, sendo “[...] condição suficiente (mas não necessária) para a eficiência dos MQO”. 3.5 Exemplo Resolvido Dados os valores de Y e X na tabela abaixo, estime a reta que exprime a relação entre Y e X. O primeiro passo é calcular a média de Y e X e encontrar as variáveis centradas: 35 Note que, se a variável é centrada na média, sua soma e, por conseguinte, sua média, será zero. E, agora, encontramos x2 , y2 e xy: Agora, podemos facilmente estimar a reta de regressão: β ^ 1 = xiyi∑ xi2∑ = 1.279, 561.059, 96 ≅1,207 β0 ^ = Y − β1 ^ X = 214,2 − (1,207 ⋅154,2) ≅ 28,05 36 Portanto, a reta estimada será dada por: Y ^ = 28,05 +1,207X Isso quer dizer que, se X for igual a 300, um valor estimado (médio) para Y será dado por: Y ^ = 28,05 + 1,207×300 ≅ 390,2 Mas fica uma questão: esta previsão é confiável? Ou, uma questão ainda anterior: esta regressão é “boa”? Embora não seja muito rigorosa, uma inspeção gráfica, na base do “olhômetro” é sempre útil. Se colocarmos, no mesmo plano cartesiano, os pontos dados na tabela e a reta obtida pela regressão, temos: Figura 3: Estimação da reta de regressão linear simples 3.6 Teste da validade da regressão Visualmente, podemos constatar que, de fato, a relação é uma reta e que a reta de regressão prevê com boa precisão os valores verdadeiros de Y. Como podemos verificar isso de maneira mais rigorosa? A primeira coisa é calcular a diferença entre os Y dados no exemplo e os calculados pela reta de regressão ( Y ^ ), ou seja, como os verificados na próxima tabela: 37 De fato, verificamos que as diferenças são bem pequenas quando comparadas com os valores de Y. Estas diferenças aliás, podem ser precipitadamente confundidas com os erros. É quase isso. Os erros são as diferenças entre os valores de Y e a reta “verdadeira”, isto é, a reta dada pelos valores populacionais de β0 e β1 (que não são conhecidos). As diferenças que encontramos são entre os valores de Y e os dados pela reta com os valores estimados (amostrais) de β0 e β1 . São portanto, não os erros, mas os estimadores dos erros, ou simplesmente os resíduos da regressão. Notemos no gráfico a seguir a diferença com relação ao gráfico da figura 1. Figura 4: Estimação da reta de regressão linear simples Copyright*©*2009*South1Western/Cengage*Learning** 6 38 Façamos agora uma análise com os quadrados dos resíduos e, conseqüentemente, com a variância dos mesmos. Esta análise é conhecida como análise de variância ou pela sua sigla em língua inglesa, ANOVA. A análise de variância envolve dividir a variável Y duas partes: a parte explicada pela regressão e a não explicada (resíduos). Então, o primeiro passo é calcular a soma dos quadrados da variável Y e de suas partes explicada e não explicada. Como se trata de variância, estamos tratando aqui da variável menos a média, isto é das variáveis centradas na média. Calculemos então, a soma dos quadrados dos totais (SQT) de Y (centrado), a soma dos quadrados explicados (SQE), isto é, do Y estimado e a soma dos quadrados dos resíduos (SQR). Na tabela a seguir, podemos verificar o quadrado dos resíduos, a última coluna da tabela. Em seguida procedemos no cálculo do SQT e de suas partes. A soma dos quadrados totais já foi calculada no exemplo, então: SQT = yi2 = 31.513,2∑ Para o cálculo das soma dos quadrados explicados, há duas maneiras: ou calculamos um a um, tiramos a média e elevamos ao quadrado, ou podemos utilizar a equação da reta: y ^ = β ^ 1 xi 39 SQE = y ^ ∑ i 2 = (β1 ^ xi )2 = β ^ ∑ 1 2 x∑ 2 i = β ^ 1 2 x∑ i 2 = 30.893,12 E a soma dos quadrados dos resíduos foi calculada já neste exemplo, na última tabela: SQR = 620,08 Repare que: SQT = SQE + SQR Portanto, não seria necessário calcular as três, bastariam duas e a terceira sairia pela relação acima. Começaremos então, a preencher a tabela abaixo, começando pelas somas de quadrados: Com estas informações já é possível tirar uma conclusão a respeito da regressão, já que a soma dos quadrados dos resíduos é uma parcela bem pequena do total ou, o que é equivalente, a soma dos quadrados explicados é uma parcela importante. Esta proporção é conhecida como poder explicativo, coeficiente de determinação, ou simplesmente R2: R2 = SQESQT = 30.893,12 31513,20 ≅ 0,9803 Repare que é impossível que SQE seja maior do que SQT, e como é uma soma de quadrados, não dá para ser negativo. Então, em qualquer regressão, 0 ≤ R2 ≤ 1, portanto é válido expressá-lo como um percentual. Como o R2 encontrado foi 98,03% dizemos que 98,03% da variância de Y é explicada pela variável X, o que indica que a regressão de Y por X apresentou um resultado (muito!) bom. 198 Para o cálculo das soma dos quadrados explicados, há duas maneiras: ou calculamos um a um, tiramos a média e elevamos ao quadrado, ou podemos utilizar a equação da reta: iyˆ = Eˆ xi SQE = 6 iyˆ 2 = 6( Eˆ xi)2 = 6 Eˆ 2xi2 = Eˆ 26xi2 = 30893,12 E a soma dos quadrados dos resíduos foi calculada já neste exemplo, na última tabela: SQR = 620,08 Repare que: SQT = SQE + SQR Portanto, não seria necessário calcular as três, bastariam duas e a terceira sairia pela relação acima. Começaremos então, a preencher a tabela abaixo, começando pelas somas de quadrados: Soma de quadrados SQE = 30893,12 SQR = 620,08 SQT = 31513,2 Com estas informações já é possível tirar uma conclusão a respeito da regressão, já que a soma dos quadrados dos resíduos é uma parcela bem pequena do total ou, o que é equivalente, a soma dos quadrados explicados é uma parcela importante. Esta proporção é conhecida como poder explicativo, coeficiente de determinação, ou simplesmente R2: R2 = SQT SQE = 2,31513 12,30893 # 0,9803 = 98,03% Repare que é impossível que SQE seja maior do que SQT, e como é uma soma de quadrados, não dá para ser negativo. Então, em qualquer regressão, 0 d R2 d 1, portanto é válido expressá-lo como um percentual. Como o R2 encontrado foi 98,03% dizemos que 98,03% da variância de Y é explicada pela variável X, o que indica que a regressão de Y por X apresentou um resultado (muito!) bom. Mas a análise continua. Na próxima coluna colocaremos os graus de liberdade. Para a SQT, os graus de liberdade são os mesmos de uma variância amostral normal, isto é, n–1 (= 20 –1 = 19). Para a soma de quadrados dos resíduos, temos que lembrar que são resíduos de uma reta. Para uma reta, sabemos, são necessários dois pontos. Mas, com apenas dois pontos, não teríamos variação nenhuma (e portanto nenhum resíduo). Os graus de liberdade em relação aos resíduos são, desta forma, n–2 (= 20 – 2 = 18). E, quanto à SQE, há dois raciocínios: ou a diferença (19 – 18 = 1) ou o fato de que há apenas uma variável explicativa (afinal, é uma regressão simples). Portanto: Soma de quadrados g.l. SQE = 30893,12 1 40 Mas a análise continua. Na próxima coluna colocaremos os graus de liberdade. Para a SQT, os graus de liberdade são os mesmos de uma variância amostral normal, isto é, n–1 (= 20 –1 = 19). Para a soma de quadrados dos resíduos, temos que lembrar que são resíduos de uma reta. Para uma reta, sabemos, são necessários dois pontos. Mas, com apenas dois pontos, não teríamos variação nenhuma (e portanto nenhum resíduo). Os graus de liberdade em relação aos resíduos são, desta forma, n–2 (= 20 – 2 = 18). E, quanto à SQE, há dois raciocínios: ou a diferença (19 – 18 = 1) ou o fato de que há apenas uma variável explicativa (afinal, é uma regressão simples). Portanto: Agora, nos resta calcular as variâncias propriamente ditas ou, como preferem alguns, os quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de liberdade. O que iremos testar, agora, é se estatisticamente falando, a variância explicada é maior do que a variância dos resíduos, isto é, um teste de comparação de variâncias. Se rejeitarmos a hipótese nula de que as variâncias são iguais, a regressão “explica mais do que não explica” e então consideraremos a regressão como válida. O teste F é feito dividindo-se uma variância pela outra. Mas, para realizarmos, é necessário que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, para realizar este teste necessitamos que a variável Y seja normalmente distribuída. Como ela é composta de uma reta (fixa), mais um erro aleatório, a variância de Y será dada pela variância do erro. Portanto, uma hipótese adicional sobre o erro, a de que ele segue uma distribuição normal. Façamos então o teste F: 199 SQR = 620,08 18 SQT = 31513,2 19 Agora, nos resta calcular as variâncias propriamente ditas ou, como preferem alguns, os quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de liberdade. Soma de quadrados g.l. Quadrados médios SQE = 30893,12 1 30893,12 SQR = 620,08 18 2,7678 SQT = 31513,2 19 1658,59 O que iremos testar, agora, é se estatisticamente falando, a variância explicada é maior do que a variância dos resíduos, isto é, um teste de comparação de variâncias. Se rejeitarmos a hipótese nula de que as variâncias são iguais, a regressão “explica mais do que não explica” e então consideraremos a regressão como válida. O teste F é feito dividindo-se uma variância pela outra. Mas, para realizarmos, é necessário que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, para realizar este teste necessitamos que a variável Y seja normalmente distribuída. Como ela é composta de uma reta (fixa), mais um erro aleatório, a variância de Y será dada pela variância do erro. Portanto, uma hipótese adicional sobre o erro, a de que ele segue uma distribuição normal. Façamos então o teste F: Soma de quadrados g.l. Quadrados médios teste F SQE = 30893,12 1 30893,12 896,75 SQR = 620,08 18 34,45 SQT = 31513,2 19 1658,59 Pela tabela, o valor limite da distribuição F com 1 grau de liberdade no numerador e 18 graus de liberdade no denominador , com 5% de significância é: F1,18 = 4,41 Como O F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a hipótese nula, isto é, a regressão é válida a 5% de significância. Exemplo 8.2.3 Teste a significância dos parâmetros da regressão obtida no exemplo 8.2.1 Testar a significância dos parâmetros significa testar a hipótese nula de que D e E são, na verdade, iguais a zero. Isto é, será que D ou E de fato, não existem, e o valor que encontramos é apenas resultado da amostra? Isto equivale a testar as seguintes hipóteses para E (e depois também para D): H0: E = 0 H1: E z 0 Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo anterior) que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de Student. Os valores tabelados com 18 (= n – 2) graus de liberdade com 1%, 5% e 10% (bicaudais) são: 199 SQR = 620,08 18 SQT = 31513,2 19 Agora, nos resta calcular as variâncias propriamente ditas ou, como preferem alguns, os quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de liberdade. Soma de quadrados g.l. Quadrados médios SQE = 30893,12 1 30893,12 SQR = 620,08 18 2,7678 SQT = 31513,2 19 1658,59 O que iremos testar, agora, é se estatisticamente falando, a variância explicada é maior do que a variância dos resíduos, isto é, um teste de comparação de variâncias. Se rejeitarmos a hipótese nula de que as variâncias são iguais, a regressão “explica mais do que não explica” e então consideraremos a regressão como válida. O teste F é feito dividindo-se uma variância pela outra. Mas, para realizarmos, é necessário que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, para realizar este teste necessitamos que a variável Y seja normalmente distribuída. Como ela é composta de uma reta (fixa), mais um erro aleatório, a variância de Y será dada pela variância do erro. Portanto, uma hipótese adicional sobre o erro, a de que ele segue uma distribuição normal. Façamos então o teste F: Soma de quadrados g.l. Quadrados médios teste F SQE = 30893,12 1 30893,12 896,75 SQR = 620,08 18 34,45 SQT = 31513,2 19 1658,59 Pela tabela, o valor limite da distribuição F com 1 grau de liberdade no numerador e 18 graus de liberdade no denominador , com 5% de significância é: F1,18 = 4,41 Como O F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a hipótese nula, isto é, a regressão é válida a 5% de significância. Exemplo 8.2.3 Teste a significância dos parâmetros da regressão obtida no exemplo 8.2.1 Testar a significância dos parâmetros significa testar a hipótese nula de que D e E são, na verdade, iguais a zero. Isto é, será que D ou E de fato, não existem, e o valor que encontramos é apenas resultado da amostra? Isto equivale a testar as seguintes hipóteses para E (e depois também para D): H0: E = 0 H1: E z 0 Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo anterior) que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de Student. Os valores tabelados com 18 (= n – 2) graus de liberdade com 1%, 5% e 10% (bicaudais) são: 41 Pela tabela, o valor limite da distribuição F com 1 grau de liberdade no numerador e 18 graus de liberdade no denominador , com 5% de significância é: F1,18 = 4,41 Como o F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a hipótese nula, isto é, a regressão é válida a 5% de significância. 3.7 Teste da significância dos parâmetros da regressão obtida Testar a significância dos parâmetros significa testar a hipótese nula de que α e β são, na verdade, iguais a zero. Isto é, será que β0 ou β1 de fato, não existem, e o valor que encontramos é apenas resultado da amostra? Isto equivale a testar as seguintes hipóteses para β1 (e depois também para β0 ): H0: β1 = 0 H1: β1 ≠ 0 Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo anterior) que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de Student. Os valores tabelados com 18 (= n – 2) graus de liberdade com 1%, 5% e 10% (bicaudais) são: t(18,10%) = 1,73 t(18,5%) = 2,10 t(18,1%) = 2,88 E o valor calculado da estatística é dado por: 199 SQR = 620,08 18 SQT = 31513,2 19 Agora, nos resta calcular as variâncias propriamente ditas ou, como preferem alguns, os quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de liberdade. Soma de quadrados g.l. Quadrados médios SQE = 30893,12 1 30893,12 SQR = 620,08 18 2,7678 SQT = 31513,2 19 1658,59 O que iremos testar, agora, é se estatisticamente falando, a variância explicada é maior do que a variância dos resíduos, isto é, um teste de comparação de variâncias. Se rejeitarmos a hipótese nula de que as variâncias são iguais, a regressão “explica mais do que não explica” e então consideraremos a regressão como válida. O teste F é feito dividindo-se uma variância pela outra. Mas, para realizarmos, é necessário que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, para realizar este teste necessitamos que a variável Y seja normalmente distribuída. Como ela é composta de uma reta (fixa), mais um erro aleatório, a variância de Y será dada pela variância do erro. Portanto, uma hipótese adicional sobre o erro, a de que ele segue uma distribuição normal. Façamos então o teste F: Soma de quadrados g.l. Quadrados médios teste F SQE = 30893,12 1 30893,12 896,75 SQR = 620,08 18 34,45 SQT = 31513,2 19 1658,59 Pela tabela, o valor limite da distribuição F com 1 grau de liberdade no numerador e 18 graus de liberdade no denominador , com 5% de significância é: F1,18 = 4,41 Como O F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a hipótese nula, isto é, a regressão é válida a 5% de significância. Exemplo 8.2.3 Teste a significância dos parâmetros da regressão obtida no exemplo 8.2.1 Testar a significância dos parâmetros significa testar a hipótese nula de que D e E são, na verdade, iguais a zero. Isto é, será que D ou E de fato, não existem, e o valor que encontramos é apenas resultado da amostra? Isto equivale a testar as seguintes hipóteses para E (e depois também para D): H0: E = 0 H1: E z 0 Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo anterior) que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de Student. Os valores tabelados com 18 (= n – 2) graus de liberdade com 1%, 5% e 10% (bicaudais) são: 42 β ^ 1− 0 S β ^ 1 = β ^ 1 S β ^ 1 Isto é, basta dividir o coeficiente encontrado pelo seu desvio padrão. A questão agora encontrar o desvio padrão de β ^ 1 . Sabemos que: β ^ 1 = xiyi∑ xi2∑ Então: var(β ^ 1) = var( xiyi∑ xi2∑ ) var(β ^ 1) = xi2∑ ( xi2 )2∑ var(yi ) O estimador desta variância (valor amostral) será: S β ^ 1 2 = xi2∑ ( xi2 )2∑ var(resíduos) Já que a variância de Y dado X, isto é, a variância de Y no modelo de regressão é a própria variância dos resíduos, que já calculamos na tabela ANOVA e é igual a 34,45 e foi obtida através da expressão SQR/(n-2). S β ^ 1 2 = SQR (n − 2) xi2∑ 43 S β ^ 1 2 = 34, 4521.199, 2 ≅ 0,0016⇒ Sβ^ 1 ≅ 0,04 O cálculo da estatística é então: β ^ 1 S β ^ 1 = 1,2070,04 ≅ 30,2 Como o valor calculado é superior aos valores tabelados (inclusive para 1%), rejeitamos a hipótese nula de que β1 é igual a zero. Dizemos, então que β1 é estatisticamente diferente de zero a 1% de significância, ou , simplesmente, é significante a 1%. O procedimento para β0 é quase o mesmo. A diferença está no cálculo do seu desvio padrão. Sabemos que: β ^ 0 = Y − β ^ 1 X var(β ^ 0 ) = var(Y − β ^ 1 X) var(β ^ 0 ) = var(Y )+ var(β ^ 1 X) var(β ^ 0 ) = var( yi∑ n )+ X 2 var(β ^ 1) Cujo estimador será dado por: 44 S β ^ 0 2 = nn2 ⋅ SQR n − 2 + X 2 ⋅ SQR (n − 2)xi2∑ S β ^ 0 2 = SQRn − 2 1 n + X 2 xi2∑ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ S β ^ 0 2 = 34,45 ⋅ 120 + 154,22 21.199,2 ⎛ ⎝⎜ ⎞ ⎠⎟ ≅ 40,36⇒ S β ^ 0 ≅ 6,4 O cálculo da estatística será então: β ^ 0 S β ^ 1 = 28,056,4 ≅ 4,4 Que é superior aos valores tabelados, portanto α também é significante a 1%. 3.8 A hipótese de normalidade Até agora, fizemos duas hipóteses sobre o modelo de regressão: a de que os erros tem média zero e de que eles são normalmente distribuídos, hipótese esta que foi utilizada para a realização dos testes de hipótese acerca da regressão e de seus parâmetros. As hipóteses vistas até agora podem ser resumidas assim: i) E(εi) = 0 (erros têm média zero). ii) erros são normalmente distribuídos. É razoável assumir que os erros sejam normalmente distribuídos? Sim, se partirmos do significado do termo de erro, isto é, uma soma de fatores que não foram incluídos no modelo (até porque não é possível). Se imaginarmos que são muitos os fatores, a soma deles seguirá uma distribuição normal, pelo Teorema do Limite Central4. 4 Se a média segue uma distribuição normal, basta multiplicarmos por n e teremos a soma que será, portanto, normalmente distribuída também. 45 Entretanto, se isto não for considerado satisfatório, é sempre possível testar a hipótese de que os resíduos sejam normais e que, portanto, são originados de erros também normais e assim termos maior segurança em relação aos testes de hipóteses5. Um teste muito utilizado para isso é o de Jarque-Bera. O teste de Jarque-Bera utiliza os resultados para os momentos da distribuição normal, em particular os coeficientes de assimetria (que é zero para a distribuição normal) e de curtose (que vale 3). O coeficiente de assimetria para os resíduos é dado por: A = 1n ε ^ i σ ⎛ ⎝ ⎜ ⎜ ⎞ ⎠ ⎟ ⎟i=1 n ∑ 3 E o de curtose: C = 1n ε ^ i σ ⎛ ⎝ ⎜ ⎜ ⎞ ⎠ ⎟ ⎟i=1 n ∑ 4 O teste de Jarque-Bera é feito através da seguinte estatística: JB = n6 A 2 + 14 C − 3( ) 2⎡ ⎣⎢ ⎤ ⎦⎥ Demonstra-se que, sob a hipótese nula de que os resíduos sejam normalmente distribuídos, a estatística JB converge assintoticamente para uma distribuição χ2 com 2 graus de liberdade. Na tabela abaixo são mostrados os resíduos da regressão do exemplo 1. Teste a normalidade dos mesmos. 5 Isto para amostras pequenas, já que é possível mostrar que a razão entre o coeficiente e seu desvio padrão converge para uma distribuição normal padrão sob a hipótese nula de que o coeficiente seja zero. 46 Calculamos a variância deste conjunto de valores (independente de sabermos que se tratam de resíduos de uma regressão6), e depois o desvio padrão: σ 2 = 31⇒σ ≅ 5,56 O coeficiente de assimetria é dado por: A = 1n ε ^ i σ ⎛ ⎝ ⎜ ⎜ ⎞ ⎠ ⎟ ⎟i=1 n ∑ 3 ≅ −0,66 E o de curtose: C = 1n ε ^ i σ ⎛ ⎝ ⎜ ⎜ ⎞ ⎠ ⎟ ⎟i=1 n ∑ 4 ≅ 3,5933 A estatística de Jarque-Bera será dada então, por: JB = n6 A 2 + 14 C − 3( ) 2⎡ ⎣⎢ ⎤ ⎦⎥ ≅ 1,7323 Na tabela χ2 verificamos que, para 2 graus de liberdade o valor crítico (para 10% de significância) é 4,61. Como o valor encontrado para a estatística JB é inferior, aceitamos a hipótese nula de que os resíduos são normais. Ou, em outras palavras, não é possível, estatisticamente falando, rejeitar a hipótese que a distribuição destes resíduos seja normal. 3.9 Propriedades dos estimadores de mínimos quadrados 6 Isto é, dividimos por n e não n-2. 47 3.9.1 O estimador de β1 é não viesado? A resposta a esta pergunta remete a esperança do estimador: E(β ^ 1) = E xiyi∑ xi2∑ ⎛ ⎝⎜ ⎞ ⎠⎟ E(β ^ 1) = E xi (β1xi + ε i )∑ xi2∑ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ E(β ^ 1) = E (β1xi2 + ε i xi )∑ xi2∑ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ Como a esperança da soma é a soma das esperanças: E(β ^ 1) = E β1xi2∑ xi2∑ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ + E ε i xi∑ xi2∑ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ E ainda temos que β1 é uma constante, portanto: E(β ^ 1) = E β1 xi2∑ xi2∑ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ + E ε i xi∑ xi2∑ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ E(β ^ 1) = E β1[ ]+ E ε i xi∑ xi2∑ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ E(β ^ 1) = β1 + E ε i xi∑ xi2∑ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ 48 Voltemos a nossa atenção para o termo dentro da esperança: consideremos que os valores xi são fixos ou, para ser mais preciso, fixos em amostras repetidas. O que significa que, se nossa amostra é de imóveis, um dado imóvel é sorteado na amostra, ele tem uma certa área. Se fizermos uma nova amostragem, e este imóvel for sorteado de novo, irá apresentar exatamente o mesmo valor para área. Este valor é fixo, não depende de probabilidade, portanto a área de um imóvel se enquadra nesta hipótese. Isto não se aplicaria, por exemplo, se a variável fosse a nota de um aluno em um teste. O mesmo aluno, fazendo um mesmo teste (ou tipo de teste) uma segunda vez não necessariamente tiraria a mesma nota. Isto depende de uma distribuição de probabilidade, x é neste caso uma variável estocástica. Se a variável x for fixa em amostras repetidas (como a área de um imóvel), então cada xi pode ser tratado como uma constante: E(β ^ 1) = β1 + E(ε i xi )∑ xi2∑ E(ε i xi ) = xiE(ε i ) = 0 Já que E(εi) = 0. Portanto: E(β ^ 1) = β1 + E(ε i xi )∑ xi2∑ = β1 Desta forma, β ^ 1 é um estimador não viesado do coeficiente β1 . Adicionamos então uma terceira hipótese: i) E(εi) = 0 (erros têm média zero). ii) erros são normalmente distribuídos. iii) xi são fixos (não estocásticos). Isto significa que, se a variável x for estocástica, o coeficiente será necessariamente viesado? Não, mas para isso teríamos que manter a condição de que E(εixi) = 0, o que equivale dizer que a correlação (e a covariância) entre εi e xi é nula. Se não, vejamos: 49 cov(ε i , xi ) = E(ε i xi )− E(ε i )E(xi ) = E(ε i xi ) Já que E(εi) = 0. Assim, podemos garantir que o estimador é não viesado com uma hipótese mais fraca. O conjunto de hipóteses seria, neste caso: i) E(εi) = 0 (erros têm média zero). ii) erros são normalmente distribuídos. iii*) E(εixi) = 0 (xi não são correlacionados com os erros). 3.9.2 Eficiência e MELNV Se, além das hipóteses i e ii, os erros tiverem variância constante e não forem autocorrelacionados (o erro de uma observação não é correlacionado com o de outra, isto é, os erros são independentes), o Teorema de Gauss-Markov mostra que o estimador de mínimos quadrados β ^ 1 apresenta a menor variância entre todos os estimadores de β1 que são lineares e não viesados, sendo portanto um MELNV. Acrescentamos então, mais duas hipóteses: i) E(εi) = 0 (erros têm média zero). ii) erros são normalmente distribuídos. iii) xi são fixos (não estocásticos). iv) var(εi) = σ2 (constante). v) E(εixi) = 0, i ≠ j (erros não são autocorrelacionados). Se ainda levarmos em conta a hipótese de normalidade, é possível demonstrar7 que o estimador β ^ 1 tem a menor variância entre todos os estimadores não viesados de β, ou seja, é um estimador eficiente. 3.10 Modelos lineares Muitos modelos não lineares são facilmente “linearizáveis”. Por exemplo, o modelo abaixo: 7 Através da desigualdade de Cramer-Rao. 50 Y = β0 + β1Xi2 + ε i Pode se tornar um modelo linear através da seguinte transformação: Zi ≡ Xi2 E, desta forma: Y = β0 + β1Zi + ε i É um modelo linear e pode ser estimado da mesma maneira que vínhamos fazendo. Dos muitos modelos que podem ser transformados em lineares, dois se destacam. Um deles é o modelo multiplicativo: Y = β0Xiβ1ε i Aplicando logaritmo dos dois lados da equação: logY = log(β0Xiβ1ε i ) logY = logβ0 + logXiβ1 + logε i logY = logβ0 + β1 logXi + logε i Fazendo: Y’ = log Y β0’ = log β0 X’ = log X µ = log ε Chegamos a um modelo linear: Y’ = β0’ + β1Xi’ + µi . Em que as variáveis estão em logaritmos, por isso mesmo este modelo é também conhecido como log-log. É interessante notar o significado do coeficiente β1 neste tipo de modelo. Isto pode ser 51 feito derivando Y em relação a X: ∂Y ∂X = β0β1X β1−1ε = 1X β0β1X β1ε = 1X β1Y Portanto, β1 será dado por: β1 = ∂Y ∂X ⋅ X Y Aproximando a derivada pelo taxa de variação discreta: β1 ≅ ∂Y ∂X ⋅ X Y = ΔY Y ΔX X = variação percentual de Yvariação percentual de X Ou seja, quando o modelo é estimado com as variáveis em logaritmo, o coeficiente β1 significa a razão entre as variações relativas (percentuais) das variáveis Y e X, ao invés das absolutas, quando a regressão é feita com os valores originais das variáveis. Esta razão também é conhecida como elasticidade de Y em relação a X. Um outro tipo de modelo importante é o exponencial: Y = β0eβ1Xiε i De novo, aplicando logaritmo8 nos dois lados da equação temos: logY = log(β0eβ1Xiε i ) logY = logβ0 + logeβ1Xi + logε i logY = logβ0 + β1Xi + logε i E, novamente, fazendo as transformações: 8 Embora neste caso seja mais prático aplicar o logaritmo natural (base e), é importante ressaltar que tanto faz qual é a base do logaritmo, pois o valor do coeficiente β1 será o mesmo. 52 Y’ = log Y β0’ = log β0 µ = log ε Temos novamente um modelo linear: Y’= β0’+β1Xi +µi Onde uma das variáveis foi transformada no seu logaritmo e por isso mesmo este modelo é conhecido como log-linear. E, da mesma forma, derivamos Y em relação a X para encontrar o significado do coeficiente β1: ∂Y ∂X = β0β1e β1Xε = β1Y Portanto: β1 = 1 Y ⋅ ∂Y ∂X Repetindo a aproximação da derivada pelo taxa de variação discreta: β1 = 1 Y ∂Y ∂X = ΔY Y ΔX = variação percentual de Y variação absoluta de X Se a variável X representar o tempo, o coeficiente β1 representa a taxa de crescimento (médio) da variável Y ao longo do tempo. 3.10.1 Aplicação 53 A tabela abaixo fornece o volume de vendas em uma empresa ao longo do tempo. Determine sua taxa de crescimento anual médio. Para determinar a taxa de crescimento médio, devemos fazer uma regressão do tipo log- linear, em que a variável Y é o logaritmo das vendas e X é variável tempo. Note que a mudança na variável tempo (X), que em vez de começar por 1986, começa por 1, não afeta a taxa de crescimento.(Por que?) O resultado da regressão é: Y = 6,77 + 0,2073X (0,07) (0,008) Onde os números entre parênteses são os desvios padrão dos coeficientes. A taxa média de crescimento anual é, portanto, 0,2073 ou 20,73% ao ano. 210 Portanto: E = Y 1 X Y w w Repetindo a aproximação, temos: E = Y 1 X Y ' ' = X Y Y ' ' = X de absoluta variação Y de percentual variação Se a variável X representar o tempo, o coeficiente E representa a taxa de crescimento (médio) da variável Y ao longo do tempo. Exemplo 8.6.1 A tabela abaixo fornece o volume de vendas em uma empresa ao longo do tempo. Determine sua taxa de crescimento anual médio. ano vendas ano vendas 1986 1020 1993 5300 1987 1200 1994 6640 1988 1450 1995 7910 1989 1800 1996 8405 1990 2550 1997 9870 1991 3320 1998 11530 1992 4250 1999 13320 Para determinar a taxa de crescimento médio, devemos fazer uma regressão do tipo log- linear, em que a variável Y é o logaritmo das vendas e X é variável tempo. X Y X Y 1 6,9276 8 8,5755 2 7,0901 9 8,8009 3 7,2793 10 8,9759 4 7,4955 11 9,0366 5 7,8438 12 9,1973 6 8,1077 13 9,3527 7 8,3547 14 9,4970 Note que a mudança na variável tempo (X), que em vez de começar por 1986, começa por 1, não afeta a taxa de crescimento.(Por que?) O resultado da regressão é: Y = 6,77 + 0,2073X (0,07) (0,008) Onde os números entre parênteses são os desvios padrão dos coeficientes. A taxa média de crescimento anual é, portanto, 0,2073 ou 20,73% ao ano. 8.7 Regressão múltipla 210 Portanto: E = Y 1 X Y w w Repetindo a aproximação, temos: E = Y 1 X Y ' ' = X Y Y ' ' = X de absoluta variação Y de percentual variação Se a variável X representar o tempo, o coeficiente E representa a taxa de crescimento (médio) da variável Y ao longo do tempo. Exemplo 8.6.1 A tabela abaixo fornece o volume de vendas em uma empresa ao longo do tempo. Determine sua taxa de crescimento anual médio. ano vendas ano vendas 1986 1020 1993 5300 1987 1200 1994 6640 1988 1450 1995 7910 1989 1800 1996 8405 1990 2550 1997 9870 1991 3320 1998 11530 1992 4250 1999 13320 Para determinar a taxa de crescimento médio, devemos fazer uma regressão do tipo log- linear, em que a variável
Compartilhar