Baixe o app para aproveitar ainda mais
Prévia do material em texto
ECONOMETRIA Prof. Patricia Maria Bortolon, D. Sc. Cap. 9 – Modelos de Regressão com Variáveis Binárias Fonte: GUJARATI; D. N. Econometria Básica: 4ª Edição. Rio de Janeiro. Elsevier- Campus, 2006 Variáveis Binárias • = variáveis dummy – assumem valores 0 ou 1 • = variáveis indicadoras, de categoria, qualitativas ou binárias • São essencialmente variáveis nominais • Um artifício para classificar dados em categorias mutuamente exclusivas como masculino e feminino • Modelos com regressores de natureza exclusivamente binária são chamados modelos de análise de variância (ANOVA) Ver exemplo 9.1 em dummy1.txt Exemplo 9.1 Cautela no uso de variáveis binárias • Colinearidade perfeita • No exemplo com 3 regiões se criarmos uma terceira dummy D1 teremos ao somar as três dummies uma coluna com 51 uns, igual aos 1’s implícitos em α 𝑌1 = 𝛼. 1 + 𝛽1𝐷11 + 𝛽2𝐷21 + 𝛽3𝐷31 + 𝑢1 𝑌2 = 𝛼. 1 + 𝛽1𝐷12 + 𝛽2𝐷22 + 𝛽3𝐷32 + 𝑢2 𝑌3 = 𝛼. 1 + 𝛽1𝐷13 + 𝛽2𝐷23 + 𝛽3𝐷33 + 𝑢3 ⋮ 𝑌𝑛 = 𝛼. 1 + 𝛽1𝐷1𝑛 + 𝛽2𝐷2𝑛 + 𝛽3𝐷3𝑛 + 𝑢𝑛 Cautela no uso de variáveis binárias • Na forma matricial 𝑌1 𝑌2 ⋮ 𝑌𝑛 = 1 𝐷11 𝐷21 1 𝐷12 𝐷22 ⋮ 1 ⋮ 𝐷1𝑛 ⋮ 𝐷2𝑛 𝐷31 𝐷32 ⋮ 𝐷3𝑛 𝛼 𝛽1 𝛽2 𝛽3 + 𝑢1 𝑢2 ⋮ 𝑢𝑛 1 = 𝟏 Colinearidade perfeita => essa matriz não tem inversa Regra: se a variável qualitativa tem m categorias teremos que usar (m-1) variáveis dummies!! Cautela no uso de variáveis binárias • Categoria de base, de referência, de controle, de comparação ou omitida => não se designa variável binária • 𝛽1 é o valor médio dessa categoria • Outros 𝛽𝑠 são coeficientes diferenciais de intercepto • Se não usarmos a regra das classificações menos 1, então temos que rodar o modelo sem intercepto • Daí os valores médios serão obtidos diretamente Modelos ANOVA com duas variáveis qualitativas • Qual a categoria de referência nesse caso? • Qual o salário médio dos casados? • Qual o salário médio dos que residem no Sul? • Esses salários são estatisticamente diferentes daqueles da categoria referencial? Regressões com variáveis quantitativas e qualitativas: os modelos ANCOVA • Um método de controlar estatisticamente os efeitos de regressores quantitativos, chamados de covariáveis ou variáveis de controle, em um modelo que inclui tanto regressores quantitativos quanto qualitativos ou binários. • Será que o gasto público com educação afeta o salário dos professores? 𝑌𝑖 = 𝛽1 + 𝛽2𝐷2𝑖 + 𝛽3𝐷3𝑖 + 𝛽4𝑋4𝑖 + 𝑢𝑖 Yi = salário médio anual dos professores em US$ D2i = 1 se NE ou CO; 0 c.c. D3i = 1 se Sul e 0 c.c. Xi = gastos com ensino público em US$/aluno Ver exemplo 9.3 em dummy2.txt A variável binária como alternativa ao teste de Chow • No teste de Chow não é possível dizer se a diferença se devia ao intercepto, aos coeficientes angulares ou a ambos. • Há quatro situações possíveis: 1. Regressões coincidentes = interceptos e inclinações são iguais 2. Regressões paralelas = interceptos diferentes e inclinações iguais 3. Regressões concorrentes = interceptos iguais e inclinações diferentes 4. Regressões dessemelhantes = interceptos e inclinações são diferentes A variável binária como alternativa ao teste de Chow • Exemplo poupança e renda americana de 1970 a 1995 𝑌𝑡 = 𝛼1 + 𝛼2𝐷𝑡 + 𝛽1𝑋𝑡 + 𝛽2 𝐷𝑡𝑋𝑡 + 𝑢𝑡 Y = poupança X = renda t = anos D = 1 para o período 1982 a 1995 0, nos demais casos (1970 – 1981) Função de poupança média, 1970 – 1981: 𝐸 𝑌𝑡 𝐷𝑡 = 0, 𝑋𝑡 = 𝛼1 + 𝛽1𝑋𝑡 Função de poupança média, 1982 – 1995: 𝐸 𝑌𝑡 𝐷𝑡 = 1, 𝑋𝑡 = (𝛼1 + 𝛼2) + (𝛽1 + 𝛽2)𝑋𝑡 Se significativo indica que a inclinação é diferente Se significativo indica que o intercepto é diferente A variável binária como alternativa ao teste de Chow • Variável binária ADITIVA => para avaliar interceptos MULTIPLICATIVA => para avaliar inclinações • Para saber se as retas são coincidentes é preciso testar simultaneamente 𝛼2 = 𝛽2 = 0 Ver exemplo 9.4 em pouprenda.txt Efeitos de interação com o uso de variáveis binárias 𝑌𝑖 = 𝛼1 + 𝛼2𝐷2𝑖 + 𝛼3𝐷3𝑖 + 𝛽𝑋𝑖 + 𝑢𝑖 Yi = salários-hora em US$ D2i = 1 se mulheres, 0 se homens D3i = 1 se não brancos e não hispânicos, 0 outros Xi = escolaridade (anos de frequência à escola) • O efeito diferencial da variável gênero é constante nas duas categorias de raça (a diferença de salário por ser mulher não depende de ser branco e hispânico) • O efeito diferencial da variável raça é constante nos dois gêneros. • E se a diferença de salário pelo gênero depender também da raça? Efeitos de interação com o uso de variáveis binárias 𝑌𝑖 = 𝛼1 + 𝛼2𝐷2𝑖 + 𝛼3𝐷3𝑖 + 𝛽𝑋𝑖 + 𝑢𝑖 • Pode haver uma interação entre as variáveis D2 e D3. O efeito sobre Y médio pode não ser aditivo, mas também multiplicativo. 𝑌𝑖 = 𝛼1 + 𝛼2𝐷2𝑖 + 𝛼3𝐷3𝑖 + 𝛼4(𝐷2𝑖𝐷3𝑖) + 𝛽𝑋𝑖 + 𝑢𝑖 Mulher não branca não hispânica: D2=1 D3=1 𝐸 𝑌𝑖 𝐷2𝑖 = 1, 𝐷3𝑖 = 1, 𝑋𝑖 = (𝛼1 + 𝛼2 + 𝛼3 + 𝛼4) + 𝛽𝑋𝑖 Homem não branco não hispânico: D2=0 D3=1 𝐸 𝑌𝑖 𝐷2𝑖 = 0, 𝐷3𝑖 = 1, 𝑋𝑖 = (𝛼1 + 𝛼3) + 𝛽𝑋𝑖 Homem branco e hispânico: D2=0 D3=0 𝐸 𝑌𝑖 𝐷2𝑖 = 0, 𝐷3𝑖 = 0, 𝑋𝑖 = 𝛼1 + 𝛽𝑋𝑖 Mulher branca e hispânica: D2=1 D3=0 𝐸 𝑌𝑖 𝐷2𝑖 = 1, 𝐷3𝑖 = 0, 𝑋𝑖 = (𝛼1 + 𝛼2) + 𝛽𝑋𝑖 Em todos esses caso a inclinação não se altera. Poderíamos criar variáveis de interação para ver se a inclinação se altera. Variáveis binárias em análises sazonais • Uma solução é usar uma dummy para cada período tendo o cuidado de estimar o modelo sem intercepto. • Usar um período como referência tem a vantagem de podermos identificar se o intercepto diferencial em algum período não é estatisticamente significante. • Os resíduos dessa regressão serão a séria dessazonalizada, com os componentes de tendência, cíclico e aleatório. ST = s + c + t + u Ver exemplo 9.6 Regressão linear segmentada • Quando há mudança na inclinação a partir de um determinado valor do regressor. 𝑌𝑖 = 𝛼1 + 𝛽1𝑋𝑖 + 𝛽2 𝑋𝑖 − 𝑋 ∗ 𝐷𝑖 + 𝑢𝑖 Yi = comissão sobre vendas Xi = volume de vendas geradas por um vendedor X* = valor limiar de vendas, nó D = 1 se Xi > X * e 0 se Xi < X * Regressão linear segmentada Para X < X* => D = 0 𝐸(𝑌𝑖|𝐷𝑖 = 0, 𝑋𝑖, 𝑋 ∗) = 𝛼1 + 𝛽1𝑋𝑖 Para X > X* => D = 1 𝐸 𝑌𝑖 𝐷𝑖 = 1, 𝑋𝑖, 𝑋 ∗ = 𝛼1 − 𝛽2𝑋 ∗ + (𝛽1 + 𝛽2)𝑋𝑖 Variáveis binárias em regressões semilogarítmicas • Nessas regressões o coeficiente nos dá a semi-elasticidade (variação percentual da variável dependente para uma variação unitária da variável explicativa). • Só se aplica se o regressor for variável quantitativa. • Para um modelo do tipo 𝑙𝑛𝑌𝑖 = 𝛽1 + 𝛽2𝐷𝑖 + 𝑢𝑖 Onde Y = salário hora em US$ e D = 1 se mulher A função salário para homens será: 𝐸(𝑙𝑛𝑌𝑖|𝐷𝑖 = 0) = 𝛽1 A função salário para mulheres será: 𝐸 𝑙𝑛𝑌𝑖 𝐷𝑖 = 1 = 𝛽1 + 𝛽2 Dá a variação no logaritmo médio dos salários-hora Variáveis binárias em regressões semilogarítmicas • O antilogaritmo dos coeficientes nos dá o salário mediano e não o médio (antilog x = ex) • 𝑙𝑛𝑌𝑖 = 𝛽1 + 𝛽2𝐷𝑖 • 𝑙𝑛𝑌𝑖 = 𝛽1 + ln(𝑒 𝛽2𝐷𝑖) => 𝑠𝑒 𝐷 = 0 𝑒𝛽2𝐷𝑖 = 1 𝑠𝑒 𝐷 = 1 𝑒𝛽2𝐷𝑖 = 𝑒𝛽2 • Logo, quando D varia de 0 para 1 o ln Y varia (𝑒𝛽2 − 1) • A variação no logaritmo é uma variação relativa • Se multiplicarmos por 100 teremos a variação % Variáveis binárias em regressões semilogarítmicas • No modelo do exemplo 9.8 • Para verificar a variação percentual no salário medianode homens e mulheres fazemos: 𝑒−0,2437 − 1 . 100 = −21,63% O salário mediano da trabalhadora (D=1) é inferior ao masculino em cerca de 21,63%. A hipótese da normalidade 𝑡 = 𝛽1 − 𝛽1 𝑒𝑝( 𝛽1) 𝑡 = 𝛽2 − 𝛽2 𝑒𝑝( 𝛽2) 𝑡 = 𝛽3 − 𝛽3 𝑒𝑝( 𝛽3) Segue a distribuição t com n – 3 graus de liberdade. Por que 3 graus de liberdade? t => para testar coeficientes parciais da regressão múltipla χ2=> para testar hipóteses sobre o verdadeiro σ2 da população Testes de hipóteses relativos aos coeficientes de regressão individuais • H0: β2 = 0 • H1: β2 ≠ 0 – Comparar t com tcrítico – Qual seria o tcrítico para o caso da MI? – Na prática olhamos o p-valor – E se eu espero um determinado sinal? • O teste não é mais bilateral... no exemplo da MI poderia supor que o coeficiente de PNBpc seja negativo. Então: H0: β2 ≥ 0 H1: β2 < 0 Teste de significância geral da regressão amostral • Testa se há uma relação linear entre o Y e as variáveis explicativas em conjunto H0: β2 = β3 = 0 • É o mesmo que testar β2 = 0 e β3 = 0? – Não! – Usamos a mesma amostra para testar β2 = 0 e β3 = 0, portanto não são independentes – 𝑃 𝛽2 = 0 𝛽3 = 0 ≠ 𝑃 𝛽2 = 0 . 𝑃(𝛽3 = 0) – 𝑃[ 𝛽2 ± 𝑡 𝛼 2𝑒𝑝 𝛽2 , 𝑃[ 𝛽3 ± 𝑡 𝛼 2𝑒𝑝 𝛽3 ] ≠ (1 − 𝛼)(1 − 𝛼) – Então, como testar β2 = β3 = 0? A abordagem da ANOVA: teste F 𝑦𝑖 2 = 𝛽2 𝑦𝑖𝑥2𝑖 + 𝛽3 𝑦𝑖𝑥3𝑖 + 𝑢𝑖 𝐹 = 𝛽2 𝑦𝑖𝑥2𝑖 + 𝛽3 𝑦𝑖𝑥3𝑖 2 𝑢𝑖 2 𝑛 − 3 = 𝑆𝑄𝐸 𝑔𝑙 𝑆𝑄𝑅 𝑔𝑙 Se distribui como a distribuição F, com 2 e n-3 graus de liberdade. Se β2 = β3 = 0 for verdadeira SQE e SQR serão muito próximos. O modelo não agrega explicação. Não se rejeitará H0. Se SQE for muito maior que SQR rejeita-se H0. STQ SQE SQR Significância geral de uma regressão múltipla Dado o modelo de regressão com k variáveis: 𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 𝛽3𝑋3𝑖 + ⋯ + 𝛽𝑘𝑋𝑘𝑖 + 𝑢𝑖 Para testar a hipótese: H0: β2 = β3 =...= βk = 0 H1: nem todos os coeficientes angulares são simultaneamente iguais a zero 𝐹 = 𝑆𝑄𝐸 𝑔𝑙 𝑆𝑄𝑅 𝑔𝑙 = 𝑆𝑄𝐸 (𝑘 − 1) 𝑆𝑄𝑅 (𝑛 − 𝑘) Se F > Fα(k-1,n-k), rejeite H0. k =3 no caso de 3 variáveis (Y, X2 e X3) Significância geral de uma regressão múltipla • Testes dos coeficientes individuais não substituem o teste geral da regressão linear múltipla. • É possível ter regressão significativa como um todo com poucos ou nenhum coeficiente significativo individualmente. • E também R2 baixos em regressões com coeficientes significativos. Essa é uma situação comum em dados em corte transversal. • O importante é a especificação correta do modelo, sinais corretos e significância estatística. Relação entre R2 e F 𝑅2 = 𝑆𝑄𝐸 𝑆𝑄𝑇 𝐹 = 𝑆𝑄𝐸 (𝑘 − 1) 𝑆𝑄𝑅 (𝑛 − 𝑘) = 𝑛 − 𝑘 𝑘 − 1 . 𝑆𝑄𝐸 𝑆𝑄𝑅 𝐹 = 𝑛 − 𝑘 𝑘 − 1 . 𝑆𝑄𝐸 𝑆𝑇𝑄 − 𝑆𝑄𝐸 ÷ 𝑆𝑄𝑇 ÷ 𝑆𝑄𝑇 𝐹 = 𝑛 − 𝑘 𝑘 − 1 . 𝑅2 1 − 𝑅2 𝐹 = 𝑅 2 (𝑘 − 1) (1 − 𝑅2) (𝑛 − 𝑘) Relação entre R2 e F 𝐹 = 𝑅 2 (𝑘 − 1) (1 − 𝑅2) (𝑛 − 𝑘) R2 = 0 => F = 0 => regressão não é significante R2 = 1 => F => ∞ Quando acrescentar uma nova variável? 𝐹 = (𝑆𝑄𝐸𝑛𝑜𝑣𝑜−𝑆𝑄𝐸𝑣𝑒𝑙ℎ𝑜) 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑜𝑣𝑜𝑠 𝑟𝑒𝑔. 𝑆𝑄𝐸𝑛𝑜𝑣𝑜 (𝑛 − 𝑘) Se as variáveis dependentes dos modelos novo e antigo são as mesmas posso usar: 𝐹 = 𝑅𝑛𝑜𝑣𝑜 2 − 𝑅𝑣𝑒𝑙ℎ𝑜 2 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑜𝑣𝑜𝑠 𝑟𝑒𝑔. 1 − 𝑅𝑛𝑜𝑣𝑜 2 𝑛 − 𝑘 Quando acrescentar uma nova variável? • A prática de escolher modelo com 𝑅𝑎𝑗𝑢𝑠𝑡 2 mais alto não é adequada, pois não há certeza de que o aumento é significativo. • 𝑅𝑎𝑗𝑢𝑠𝑡 2 aumenta se | t | da nova variável é maior que 1, sendo | t | calculado sob a hipótese de que o coeficiente é igual a zero. • 𝑅𝑎𝑗𝑢𝑠𝑡 2 aumentará se t2 = F for maior que 1 Quando acrescentar um grupo de variáveis? Quando F dado por 𝐹 = 𝑅𝑛𝑜𝑣𝑜 2 − 𝑅𝑣𝑒𝑙ℎ𝑜 2 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑜𝑣𝑜𝑠 𝑟𝑒𝑔. 1 − 𝑅𝑛𝑜𝑣𝑜 2 𝑛 − 𝑘 for maior que 1. Teste da igualdade de dois coeficientes da regressão 𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 𝛽3𝑋3𝑖 + 𝛽4𝑋4𝑖 + 𝑢𝑖 • X3 = renda, X4 = riqueza, Y = demanda do bem H0: β3 = β4 => (β3 - β4) = 0 H0: β3 ≠ β4 => (β3 - β4) ≠ 0 𝑡 = 𝛽3 − 𝛽4 − (𝛽3 − 𝛽4) 𝑒𝑝 𝛽3 − 𝛽4 𝑒𝑝 𝛽3 − 𝛽4 = 𝑣𝑎𝑟 𝛽3 + 𝑣𝑎𝑟 𝛽4 − 2𝑐𝑜𝑣( 𝛽3, 𝛽4) Onde obter as var e cov? Ver comandos em funcaocusto.txt Mínimos quadrados restritos: teste das restrições de igualdade linear Função Cobb-Douglas 𝑌𝑖 = 𝛽1𝑋2𝑖 𝛽2𝑋3𝑖 𝛽3𝑒𝑢𝑖 Onde X2 = insumo de mão de obra, X3 = insumo de capital, Y = produção 𝑙𝑛𝑌𝑖 = 𝛽0 + 𝛽2𝑙𝑛𝑋2𝑖 + 𝛽3𝑙𝑛𝑋3𝑖 + 𝑢𝑖 Onde 𝛽0 = 𝑙𝑛𝛽1 Se houver retornos constantes de escala = variação equiproporcional da produção para uma variação equiproporcional nos insumos 𝛽2 + 𝛽3 = 1 Mínimos quadrados restritos: teste das restrições de igualdade linear A abordagem do teste t: 𝑡 = 𝛽2 + 𝛽3 − (𝛽2 + 𝛽3) 𝑒𝑝 𝛽2 + 𝛽3 𝑒𝑝 𝛽2 + 𝛽3 = 𝑣𝑎𝑟 𝛽2 + 𝑣𝑎𝑟 𝛽3 + 2𝑐𝑜𝑣( 𝛽2, 𝛽3) Mínimos quadrados restritos: teste das restrições de igualdade linear A abordagem do teste F: 𝐹 = 𝑆𝑄𝑅𝑅 − 𝑆𝑄𝑅𝑆𝑅 𝑚 𝑆𝑄𝑅𝑆𝑅 𝑛 − 𝑘 𝐹 = 𝑅𝑆𝑅 2 − 𝑅𝑅 2 𝑚 1 − 𝑅𝑆𝑅 2 𝑛 − 𝑘 Mínimos quadrados restritos: teste das restrições de igualdade linear Como obter o modelo restrito? 𝛽2 + 𝛽3 = 1 𝛽2 − 1 = 𝛽3 𝑙𝑛𝑌𝑖 = 𝛽0 + (1 − 𝛽3)𝑙𝑛𝑋2𝑖 + 𝛽3𝑙𝑛𝑋3𝑖 + 𝑢𝑖 𝑙𝑛𝑌𝑖 = 𝛽0 + 𝑙𝑛𝑋2𝑖 − 𝛽3𝑙𝑛𝑋2𝑖 + 𝛽3𝑙𝑛𝑋3𝑖 + 𝑢𝑖 𝑙𝑛𝑌𝑖 − 𝑙𝑛𝑋2𝑖 = 𝛽0 + 𝛽3(𝑙𝑛𝑋3𝑖 − 𝑙𝑛𝑋2𝑖) + 𝑢𝑖 𝑙𝑛 𝑌𝑖 𝑋2𝑖 = 𝛽0 + 𝛽3𝑙𝑛 𝑋3𝑖 𝑋2𝑖 + 𝑢𝑖 Ver comandos em cobbdouglas.txt Teste da estabilidade estrutural ou dos parâmetros nos modelos de regressão: Teste de Chow • Quando empregamos um modelo de regressão que envolve o uso de séries temporais pode haver mudança dos coeficientes ao longo do tempo. • Exemplos: (i) exportações no Brasil antes e depois da liberação do câmbio em 1999; (ii) demonstrações contábeis antes e depois do IFRS • Como saber se há quebra de estrutura? Teste de Chow • Nada mais é que um teste de modelo restrito x modelo sem restrições • Aqui o restrito é o que supõe que os coeficientes são iguais ao longo de todo o tempo • Premissas: – 𝑢1𝑡~𝑁 0 , 𝜎 2 – 𝑢2𝑡~𝑁(0 , 𝜎 2) – 𝑢1𝑡 e 𝑢2𝑡 têm distribuições independentes Distribuição Normal com mesma variância Teste de Chow • Etapas do teste: 1. Estima-se as regressões separadas 2. Estima-se a regressão para o período completo 3. Obtém-se os SQR (soma quad. resíduos) 4. Teste F 𝐹 = 𝑆𝑄𝑅𝑅 − 𝑆𝑄𝑅𝑆𝑅 𝑘 𝑆𝑄𝑅𝑆𝑅 (𝑛1 + 𝑛2 − 2𝑘) ~ 𝐹𝑘 ,𝑛1+𝑛2−2𝑘 Ver comandos em pouprenda.txt Teste de Chow • Advertências: 1. As premissas devem ser respeitadas. É preciso verificar se as variâncias dos erros das regressão são iguais. 2. O teste não diz se a diferença entre as regressões decorre dos interceptos, coeficientes angulares ou de ambos. 3. O teste pressupõe que conhecemos o ponto de quebra estrutural. Ver comandos em pouprenda.txt
Compartilhar