Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Análise de Regressão: Introdução Rodrigo de Sá Fundação de Economia e Estatística, 2011 Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Livro texto Damodar Gujarati Econometria Básica 3ª ed. 2005. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Interpretação da regressão Variável DEPENDENTE: a variável que se quer explicar. Arrecadação. Variáveis EXPLICATIVAS: as variáveis utilizadas para explicar a variável dependente. Renda, consumo, taxa de juros, etc. OBJETIVO: estimar/prever o VALOR MÉDIO da dependente em termos dos valores conhecidos das variáveis explicativas. O resultado é a ESPERANÇA CONDICIONAL da variável DEPENDENTE dada as (realizações) das variáveis EXPLICATIVAS. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 1 - Alturas Para cada país, região, etc., pode-se calcular uma ALTURA MÉDIA. Também pode-se comparar a altura média de dois países (A é maior do que B ou não se pode afirmar que são estatisticamente diferentes?) usando um teste de diferença de médias. Mas pode-se ir além: Pode-se calcular a ALTURA MÉDIA de um determinado grupo da população de um pais, por exemplo, qual é a altura média dos filhos de país que medem 1,83cm? Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 1 - Alturas Para cada país, região, etc., pode-se calcular uma ALTURA MÉDIA. Também pode-se comparar a altura média de dois países (A é maior do que B ou não se pode afirmar que são estatisticamente diferentes?) usando um teste de diferença de médias. Mas pode-se ir além: Pode-se calcular a ALTURA MÉDIA de um determinado grupo da população de um pais, por exemplo, qual é a altura média dos filhos de país que medem 1,83cm? Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 1 - Alturas Figura: Altura dos filhos correspondentes a dadas alturas dos pais Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 2 - Inflação versus desemprego Figura: Curva de Phillips hipotética Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Relações estatísticas versus deterministas Nas RELAÇÕES ESTATÍSTICAS lidamos com variáveis ALEATÓRIAS (ou ESTOCÁSTICAS), ou seja, aquelas que têm distribuição de probabilidade. Mesmo se conhecermos a renda, taxa de impostos, etc. de um consumidor, podemos apenas ESTIMAR qual será o seu gasto, E (C |W , τ) = f (W , τ). Nas RELAÇÕES DETERMINISTAS (ou FUNCIONAIS) podemos calcular exatamente o valor da variável dependente. Conhecendo a massa de dois corpos e a distância entre eles, podemos calcular a força de atração entre elas, F = k m1m2 d 2 . Mas mesmo na Física existem áreas onde as relações não são determinísticas, como a Física Quântica! Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Regressão versus causação Um agrônomo pode estar interessado em estudar a dependência do rendimento da colheita de trigo em relação à temperatura, chuva e quantidade de fertilizantes. Porém, sem uma teoria, a regressão sozinha não dá razão estatística para supor que a precipitação de chuva não dependa do rendimento da colheita. Sabemos, pelo bom senso, que a altura dos filhos depende da altura dos país, e não o contrário! Os filhos nascem depois dos pais. Mas e a inflação e o desemprego? Qual variável determina qual? Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Regressão versus causação Um agrônomo pode estar interessado em estudar a dependência do rendimento da colheita de trigo em relação à temperatura, chuva e quantidade de fertilizantes. Porém, sem uma teoria, a regressão sozinha não dá razão estatística para supor que a precipitação de chuva não dependa do rendimento da colheita. Sabemos, pelo bom senso, que a altura dos filhos depende da altura dos país, e não o contrário! Os filhos nascem depois dos pais. Mas e a inflação e o desemprego? Qual variável determina qual? Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Regressão versus correlação São relacionadas, porém apresentam diferenças. Na análise de CORRELAÇÃO estamos interessados no grau de associação entre duas variáveis. Na análise de REGRESSÃO estamos interessados em prever ou estimar o valor médio de uma variável (em função das outras variáveis do modelo). Na análise de CORRELAÇÃO tratamos as duas variáveis simetricamente Na análise de REGRESSÃO tratamos a variável DEPENDENTE como ESTOCÁSTICA e as variáveis EXPLICATIVAS como DETERMINADAS. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses A natureza dos dados DADOS DE SÉRIE TEMPORAL: um conjunto de observações dos valores que uma variável assume em diferentes momentos do tempo. Exemplo: arrecadação anual do RS nos anos {t = 1980, 1981, ..., 2010}. DADOS DE CORTE (CROSS-SECTION): dados de uma mesma variável coletados para vários indivíduos em um determinado ponto do tempo. Exemplo: arrecadação anual em 2010 dos municípios gaúchos {i = 1, 2, ..., 496}. DADOS COMBINADOS (DADOS DE PAINEL): observações de vários indivíduos em vários instantes do tempo. Exemplo: arrecadação anual de cada um dos municípios gaúchos de 1980 a 2010, {i = 1, ..., 496, t = 1980, ..., 2010}. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 3 - Consumo X Renda Figura: Consumo e renda familiar semanal (18)(37) Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 3 - Consumo X Renda Figura: Dispersão do consumo em função da renda Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 3 - ConsumoX Renda Figura: Probabilidades condicionais do consumo Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 3 - Consumo X Renda Figura: Reta de regressão da população Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Função de regressão populacional (FRP) Pelo exemplo vemos que a média condicional de gastos de cada família E (Y |X i ) é uma função de X i . Assim, E (Y |X i ) = f (X i ) E (Y |X i ) = β 0 + β 1 X i . β 0 e β 1 são coeficientes desconhecidos, porém fixos, chamados de COEFICIENTES DE REGRESSÃO. São eles que queremos estimar. FUNÇÃO DE REGRESSÃO LINEAR DA POPULAÇÃO. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses O significado do termo �linear� LINEAR NAS VARIÁVEIS Exemplo: E (Y |X i ) = β 0 + β 1 X i . LINEAR NOS PARÂMETROS Exemplo:E (Y |X i ) = β 0 + β 1 X 2 i . Exemplo: E (Y |X i ) = β 0 + β 1 logX i . NÃO LINEAR: Exemplo: E (Y |X i ) = β 0 + β2 1 X i . Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses O significado do termo �linear� Figura: Funções lineares nos parâmetros Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Especificação estocástica da FRP Voltemos ao exemplo (11) e vejamos o consumo específico de cada família (e não a sua média) em função da renda. Ele sempre aumenta? Podemos dizer que o consumo de uma família Y i específica situa-se ao redor do consumo médio de todas as famílias com renda X = X i , ou seja, em torno da sua expectativa condicional. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Especificação estocástica da FRP Voltemos ao exemplo (11) e vejamos o consumo específico de cada família (e não a sua média) em função da renda. Ele sempre aumenta? Podemos dizer que o consumo de uma família Y i específica situa-se ao redor do consumo médio de todas as famílias com renda X = X i , ou seja, em torno da sua expectativa condicional. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Especificação estocástica da FRP Assim, podemos expressar o DESVIO de um indivíduo Y i em torno do seu valor esperado: u i = Y i − E (Y |X i ) Y i = E (Y |X i ) + u i Y i = β 0 + β 1 X i + u i . Tomando o valor esperado condicional de ambos os lados: E (Y i |X i ) = E [E (Y |X i ) |X i ] + E (u i |X i ) E (Y i |X i ) = E (Y |X i ) + E (u i |X i ) E (u i |X i ) = 0. A hipótese de que a reta de regressão passa pela média condicional de Y implica que os valores médios condicionais do erro são zero. EM MÉDIA NÃO ERRAMOS! Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses O significado do termo de pertubação estocástico O DESVIO ou TERMO DE PERTURBAÇÃO ESTOCÁSTICO pode ser entendido como o componente assistemático �substitui� todas as variáveis que afetam Y que não estão no modelo. Por que não aumentar o número de variáveis? 1 Imprecisão da teoria. 1 A Teoria Econômica pode não explicitar todas as variáveis que afetam uma outra. 2 É certo que a renda afeta o consumo, mas quais outras variáveis também o fazem? 2 Indisponibilidade de dados. 1 Mesmo que saibamos que variáveis afetam a nossa variável de interesse, pode ser que não tenhamos acesso a várias delas. 3 Variáveis essenciais versus variáveis periféricas. 1 Podemos decidir não usar algumas variáveis por acreditarmos que o seu efeito é pequeno. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses O significado do termo de pertubação estocástico 1 Casualidade intrínseca no comportamento humano. 2 Variáveis proxy fracas. 1 As variáveis utilizadas podem não ser medidas acuradas. 2 Exemplo: renda permanente da função de consumo proposta por Milton Friedman. 3 Princípio da parcimônia. 1 Seguindo a navalha de Ocan, gostaríamos de deixar o nosso modelo de regressão tão simples quanto possível. 4 Forma funcional errada. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Função de regressão amostral Mas nós não conhecemos a população! Por isso precisamos estimar a função de regressão amostral para fazermos inferência sobre a função de regressão populacional. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 4 - Consumo X Renda Figura: Amostras aleatórias Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 4 - Consumo X Renda Figura: Retas de regressão baseadas em duas amostras diferentes Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Função de regressão amostral estimada Yˆ i = βˆ 0 + βˆ 1 X i Yˆ i é o estimador de E (Y |X i ). βˆ i é o estimador de β i . Assim: Y i = βˆ 0 + βˆ 1 X i + uˆ i Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Retas de regressão Figura: Regras de regressão da amostra e da população Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exercício 1 Os modelos a seguir são lineares nos parâmetros, nas variáveis, em ambos ou em nenhum? Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exercício 2 A seguinte reta de regressão é FRP ou FRA? Por que? Como você interpretaria os pontos dispersos em torno da reta de regressão? Além do PIB que outros fatores, ou variáveis, poderiam determinar a despesa de consumo pessoal? Análisede Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses O método dos mínimos quadrados ordinários (MQO) Queremos estimar Y i = β 0 + β 1 X i + u i através de Y i = βˆ 0 + βˆ 1 X i + uˆ i = Yˆ i + uˆ i . Fazemos isso minimizando ∑ uˆ 2 i = ∑( Y i − Yˆ i ) 2 ∑ uˆ 2 i = ∑( Y i − βˆ 0 + βˆ 1 X i ) 2 . Resolvendo... Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Estimador de MQO Estimador da inclinação βˆ 1 = ∑( X i − X¯) (Y i − Y¯ )∑( X i − X¯)2 βˆ 1 = ∑( X i − X¯)Y i∑ X 2 i − nX¯ 2 βˆ 1 = ∑( Y i − Y¯ )X i∑ X 2 i − nX¯ 2 Estimador do intercepto βˆ 0 = Y¯ − βˆ 1 X¯ Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 5 - Consumo X Renda Figura: Consumo e renda familiar Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 5 - Consumo X Renda Figura: Calculando... Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Exemplo 5 - Consumo X Renda Figura: Reta de regressão estimada Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Propriedades numéricas dos estimadores de MQO 1 Os estimadores de MQO são expressos exclusivamente em termo das quantidades observadas pela amostra (Y e X ). 2 Eles são ESTIMADORES DE PONTO, isto é, dada uma amostra, cada estimador fornecerá um único ponto do parâmetro relevante da população. 3 Depois de obter as estimativas de MQO (β 0 e β 1 ), pode-se obter facilmente a reta de regressão da amostra, que apresenta as seguintes propriedades: 1 Ela passa pelas médias de Y e X . 2 O valor médio do Y estimado é igual ao valor médio do Y real (observado na amostra). 3 O valor médio dos resíduos é zero. 4 Os resíduos não tem correlação com o Y previsto, 5 Os resíduos não tem correlação com o X . Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses Hipóteses subjacentes ao MQO O objetivo é utilizar βˆ 0 e βˆ 1 para fazermos inferência sobre β 0 e β 1 e Yˆ i para tentarmos saber algo sobre E (Y |X i ). Para isso precisamos de hipóteses estatísticas sobre como as variáveis são geradas (suas distribuições de probabilidade). O MODELO CLÁSSICO (OU PADRÃO, OU GAUSSIANO) DE REGRESSÃO LINEAR (MCRL) têm 10 hipóteses que vão garantir suas propriedades estatísticas. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 1. Linear nos parâmetros Caso contrário, estaríamos estimando um modelo especificado de forma incorreta! Lembrem-se que o modelo PODE ser não-linear nas variáveis. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 2. X fixados Os valores das variáveis explicativas (X i ) são fixados em amostragem repetida. As variáveis explicativas são não-estocásticas. Isso implica que a análise de regressão é condicional aos dados valores do regressor. Mais uma vez o exemplo do consumo! (11) Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 3. O erro tem média zero Dado o valor de X i , o valor médio do termo de perturbação aleatória u i é zero, E (u i |X i ) = 0. Isto implica que os fatores não incluídos explicitamente no modelo (e, portanto, incluídos em u i ) não afetam sistematicamente o valor médio de Y . Assim, E (Y i |X i ) = β 0 + β 1 X i . Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 3. O erro tem média zero Figura: Distribuição condicional do erro Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 4. Homoscedasticidade Os erros são HOMOCEDÁSTICOS, ou seja, sua VARIÂNCIA É CONSTANTE PARA QUALQUER VALOR DE X i . var (u i |X i ) = E (u i − E (u i ) |X i )2 var (u i |X i ) = E ( u 2 i |X i ) var (u i |X i ) = σ2. Se os erros fossem HETEROCEDÁSTICOS, poderíamos denotar a sua variância como var (u i |X i ) = σ2 i . Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 4. Homoscedasticidade Figura: Erros homocedásticos Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 4. Homoscedasticidade Figura: Erros heterocedásticos Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 4. Homoscedasticidade Exemplos Homocedástica: o consumo aumenta com a renda, mas a variabilidade é igual tanto para pessoas com maior ou menor renda. Heterocedástica: o consumo aumenta com a renda, mas a variabilidade também aumenta com a renda. Indivíduos pobres, em geral, consomem toda a renda (pouca variabilidade). Indivíduos mais ricos podem consumir grande parte da renda como também podem poupá-la. É importante que os erros tenham variância constante pois o modelo clássico considera todos os Y i importantes. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 5. Os erros não são correlacionados entre si Não existe nenhuma autocorrelação entre as perturbações. Dados dois valores X i e X j quaisquer (i 6= j), a correlação entre u i e u j é zero. cov (u i , u j |X i ,X j ) = 0. Caso contrário, Y t dependeria também de u t−1, e não só das variáveis explicativas. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 5. Os erros não são correlacionadosentre si Figura: Padrões de correlação entre os erros. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 6. Os erros não são correlacionados com X A perturbação u e a variável explanatória X não tem correlação. cov (u i ,X i ) = 0. Essa hipótese é necessária porque precisamos separar os efeitos de X e u sobre o Y ; caso contrário, não saberíamos que parte do efeito atribuiríamos às variáveis e aos erros. Essa hipótese abre espaço para que o X também seja estocástico! Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 7. Observações suficientes O número de observações n deve ser maior do que o número de parâmetros a serem estimados (número de variáveis explicativas). Quantos pontos precisamos para traçarmos uma reta? Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 8. Variabilidade de X Os valores X em uma dada amostra não podem ser todos iguais. Isto é, var (X ) > 0. O que aconteceria na fórmula do estimador caso contrário? O que aconteceria se regredirmos a arrecadação dos governos municipais gaúchos contra a unidade da federação a qual pertencem? Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 9. Especificação correta O modelo de regressão está corretamente especificado. Isto é, não há nenhum viés de especificação. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 9. Especificação correta Figura: Curvas de Phillips linear e não-linear. Análise de Regressão: Introdução Rodrigo de Sá Natureza da regressão Conceitos da regressão (população) Conceitos da regressão (amostra) Estimação Hipóteses 10. Ausência de multicolinearidade Não há relação lineares perfeitas entre as variáveis explicativas. Voltaremos a esse ponto quando tratarmos de regressão múltipla. A natureza da análise de regressão Análise de regressão de duas variáveis: conceitos básicos (População) Análise de regressão de duas variáveis: conceitos básicos (Amostra) O modelo de regressão de duas variáveis: o problema da estimativa Hipóteses
Compartilhar