Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Nota_de_aula_3.pdf 1 Notas de aula para o curso de Econometria I Nota 3: Estimação por intervalo e testes de hipóteses Thiago Fonseca Morello fonseca.morello@ufabc.edu.br sala 301, Bloco Delta, SBC 1 Estimação por intervalo Para estimar um parâmetro populacional pode-se tomar por base um único valor, a estimativa pontual. Mas é também possível obter um intervalo de valores que contenha o valor procurado. O termo “intervalo” deve ser, desde início, interpretado corretamente. Trata-se de dois limites que contêm, com probabilidade suficientemente alta, o parâmetro populacional. Por exemplo, pode-se construir um intervalo que contenha com 95% de probabilidade o valor efetivo da média populacional, μ. Ou seja, trata-se de tomar I1 e I2 de modo que P(I1 < μ <I2) = 0,95. Este tipo de intervalo é denominado por “intervalo de confiança” com 95% de probabilidade. Um equívoco comum de interpretação da expressão P(I1 < μ <I2) = 0,95 está em entender que 95% é a probabilidade do valor populacional da média, μ, pertencer ao intervalo I1 e I2. Porém μ não é uma variável aleatória, mas uma constante e, portanto, o conceito de probabilidade não pode ser aplicado a ela. A interpretação correta parte da percepção de que o intervalo {I1, I2} é aleatório, de modo que 95% corresponde à probabilidade deste intervalo conter o valor fixo da média populacional. Seja assumido que a amostra disponível, X1, X2,...,XN é aleatória de modo que todas as observações têm média μ e variância σ2, i.e., E[Xi] = μ e V[Xi]= σ2, i=1,...,N. Além disso, todas as observações se distribuem normalmente, i.e., Xi ~ N(μ, σ2), i=1,...,N. Nesta condições, deseja-se obter o intervalo que contém, com 95% de probabilidade, a média populacional, μ. Como limites do intervalo, i.e., I1 e I2, toma-se geralmente a estimativa pontual descontada ou acrescentada por uma margem de erro fixa, ∈, i.e., I1= θை− ∈ e I2 = θை+ ∈, em que θை é o valor observado do estimador θ ou estimativa pontual. 2 É sabido que θ = Xഥ é um estimador não viesado, consistente e eficiente para μ. Além disso, é possível demonstrar que E[Xഥ] = μ, V[Xഥ] = σ2/N e que Xഥ ~ N(μ, σ2/N). Isso quer dizer que, para estimar a média μ, pode-se tomar o intervalo [Xഥை− ∈; Xഥை+ ∈], em que Xഥை é a estimativa pontual, i.e., a média obtida para a amostra. A questão agora está em saber qual deve ser o valor de ∊. Uma vez que se deseja especificar, a priori, a probabilidade ߙ com que o intervalo contém μ, o valor de ∊ pode ser escolhido de maneira a que P(Xഥ− ∈ < μ < Xഥ+ ∈) = ߙ. Este critério para selecionar ∊ pode ser visualizado a partir do gráfico da FD N(μ, σ2/N), que segue abaixo. Por mero fim de clareza, será assumido que α = 95%. Figura 4 Intervalo de confiança para estimação da média populacional Conforme a figura acima indica, o intervalo que se deseja construir é aquele que corresponde à área hachurada sob a curva normal com massa de probabilidade equivalente a 95%. O valor de ∊, portanto, tem de ser compatível com este objetivo. A dificuldade fundamental está em que, para conhecer o valor de ∊ adequado, é necessário conhecer a FD de Xഥ, pois apenas assim pode-se saber quais valores de Xഥ contêm entre si uma massa de probabilidade de 95%. O que requer o conhecimento de μ. Chega-se, pois, a uma circularidade aparentemente intransponível: para calcular o intervalo que contém μ com 95% de probabilidade é preciso conhecer μ. 3 Há, contudo, uma saída. Existe uma variante da FD normal, denominada FD normal padrão, que se caracteriza por ter média (μ) igual a zero e desvio padrão igual à unidade. Sempre é possível, portanto, determinar o intervalo em torno da média da normal padrão (zero, no caso) que corresponde a uma massa de probabilidade desejada. E isso pois a média desta distribuição é sempre zero. Porém, a FD normal em questão não necessariamente é a normal padrão, representada por N(0,1), mas sim a FD N(μ, σ2/N). Na verdade, não se sabe, a priori, quais são os valores de seus parâmetros. A média, por exemplo, pode ser positiva, i.e., μ > 0. Mesmo assim, sempre há, felizmente, uma conexão fundamental entre uma distribuição normal padrão genérica, N(μ, σ2/N), no caso, e a distribuição normal padrão, N(0,1). Esta conexão consiste no fato de que subtraindo Xഥ o valor de sua média populacional, μ, e dividindo o resultado pelo valor populacional do desvio padrão de Xഥ, ඥσଶ ܰ⁄ , gera-se uma VA transformada que tem FD normal padrão, quaisquer que sejam os valores de μ e de σଶ ܰ⁄ , i.e., ଡ଼ ഥିஜ ඥమ ே⁄ ~ܰ(0,1). Desta maneira, pois: P ቆ Xഥ − μ ඥσଶ ܰ⁄ ≤ γቇ = P(Z ≤ γ) = ߜఊ Em que γ é um valor genérico, Z é uma VA com FD N(0,1) e δγ é a massa de probabilidade acumulada até ele. O que implica em: P ቆ−γ ≤ Xഥ − μ σ/√N ≤ γቇ = P(−γ ≤ Z ≤ γ) = 1 − 2δఊ (݅) É preciso considerar mais um fato para resolver o problema, o qual decorre da manipulação a seguir da expressão P(Xഥ− ∈ < μ < Xഥ+ ∈). (1) Subtraindo Xഥ dos dois lados das duas desigualdades: P(Xഥ− ∈ < μ < Xഥ+ ∈) = P(− ∈ < μ − Xഥ < ∈) = P(− ∈ < Xഥ − μ < ∈) (2) Dividindo os dois lados das duas desigualdades obtidas por σ/√N: P(− ∈ < Xഥ − μ < ∈) = P ቆ− ∈ σ/√N < Xഥ − μ σ/√N < ∈σ/√Nቇ Finalmente, pois, pode-se afirmar que Pቀ− ∈ /√ < ଡ଼ഥିஜ /√ < ∈/√ቁ = ߙ (݅݅). Comparando (i) e (ii), tem-se: Pቆ−γ ≤ Xഥ − μ σ/√N ≤ γቇ = P(−γ ≤ Z ≤ γ) = 1 − 2δఊ(݅) 4 Pቆ− ∈ σ/√N < Xഥ − μ σ/√N < ∈σ/√Nቇ = P(Xഥ− ∈ < μ < Xഥ+ ∈) = ߙ (݅݅) Se ߛ for tomado de maneira a que 1 − 2δఊ = ߙ, o intervalo [-ߛ; ߛ] torna-se equivalente ao intervalo [-∈/(σ/√N); ∈/(σ/√N)]. Sendo ߛα tal que P(−γఈ ≤ Z ≤ γఈ) = ߙ , resulta que ∈/(σ/√N) = ߛߙ, i.e., ∈ = ߛߙ(σ/√N). E aí temos nosso valor para a margem fixa de erro, ∈. Vale a pena assinalar que ߛߙ é o valor de Z que corresponde ao intervalo simétrico em torno da média (zero) cuja probabilidade associada é ߙ, 95%, por exemplo, ou 99%, a depender da escolha do pesquisador. De qualquer maneira, ߙ é denominado nível de confiança e o intervalo [ തܺ − γఈ √ ; തܺ + γఈ √], intervalo de confiança. Outro fato relevante a ser assinalado é o de que o intervalo de confiança tem limites aleatórios, sendo, em si, aleatório. Por isso, ele pode conter ou não o valor populacional da média de X, denotada por μ. O que o nível de confiança garante é que, com 95% de probabilidade, o intervalo aleatório contém a média populacional. Mas não há certeza quanto a isso, trata-se de um fato probabilístico. 2 Testes de hipóteses 2.1 Conceito básico: um teste intuitivo rudimentar O objetivo central de um teste de hipóteses é utilizar a evidência contida na amostra disponível para fazer uma afirmação quanto ao valor populacional de um parâmetro1. Trata-se, pois, de um procedimento de inferência uma vez que, com base no conteúdo informacional da amostra, se retira uma conclusão acerca da população. Um teste de hipóteses é sempre composto por um par de hipóteses, a principal delas é denominada hipótese nula e geralmente especifica um valor pontual para o parâmetro sob investigação. A hipótese alternativa especifica o intervalo de valores (mais provável) ao qual o parâmetro deve pertencer na situação hipotética em que a hipótese nula não é válida. A hipótese nula canônica (mais comum) é a de que o valor populacional de um dado parâmetro, θ, é zero. O que é escrito geralmente como H0: θ = 0. A hipótese alternativa mais geral possível é, claramente, a possibilidade complementar à que define a hipótese nula, i.e., H1: θ ≠ 0. Ou, de maneira equivalente, H1: θ < 0 ou θ > 0. Quando se pode dizer que a amostra contém evidências que permitam tomar uma decisão acerca da plausibilidade da hipótese nula? Uma possível resposta é encontrada em um critério grosseiro, porém esclarecedor. 1 Ver Casella & Berger, “Statistical Inference”, 1990, Duxbury Press, cap.8. 5 Seja assumido que se tem por objetivo gerar uma estimativa pontual para o valor populacional θ. A estimativa obtida dos dados disponíveis é denotada por θை. Um critério suficientemente “grosseiro” é o seguinte: se for observado um valor para a estimativa pontual muito distante de zero, será afirmado que a hipótese nula é falsa. Porque este critério faz sentido? A resposta é intuitiva (ou pelo menos deveria ser). A hipótese nula afirma que o valor populacional do parâmetro é zero, i.e, θ = 0. Para a julgar, temos apenas uma amostra disponível, a qual nos permite obter apenas uma estimativa, θை. Caso este valor seja próximo de zero, a evidência disponível é favorável à hipótese nula. De maneira inversa, pois, quanto mais distante de zero for o valor estimado, menos favorável à hipótese é a evidência. Um exemplo pode tornar mais claro o critério grosseiro. Um dos problemas mais famosos em economia do trabalho é o de mensuração da contribuição da educação para a remuneração obtida no mercado de trabalho. O que pode ser exprimido em duas perguntas. Será que trabalhadores com maior nível educacional são melhor remunerados? Em que medida isso é verdade? Com nos dados da Pesquisa Nacional por Amostra de Domicílios (PNAD) é possível responder as duas perguntas. Uma maneira de fazer isso é empregar o estimador de mínimos quadrados ordinários e obter uma estimativa para o efeito educação- remuneração, ou retorno (econômico) da educação, a qual será denotada por ߚመை. O parâmetro-alvo, portanto, aquilo que os economistas do trabalho desejam conhecer, não é o valor específico do retorno da educação na amostra da PNAD, ߚመை, mas sim o valor populacional deste efeito, β. O teste de hipóteses relevante é composto pela hipótese nula H0: β = 0 e pela alternativa H1: β ≠ 0. Caso seja obtida uma estimativa pontual muito grande, por exemplo, os resultados indiquem que um ano a mais de educação aumenta a remuneração mensal do trabalhador em 100% (duplicação), a hipótese nula deve ser rejeitada. Isso pois 100% é um valor consideravelmente superior a zero - ao menos aparentemente, para fins deste exemplo de aplicação do critério grosseiro. Por outro lado, se os resultados indicarem que um ano a mais de educação aumenta o salário mínimo em 0,1%, seria precária a base em que o pesquisador se apoiaria ao procurar argumentar que a educação tem efeito relevante sobre a remuneração. E isso porque 0,1% – aparentemente, mais uma vez – é um valor próximo de zero. O critério grosseiro é o fundamento do teste de hipóteses: todo e qualquer teste de hipóteses se assenta sobre ele e, “forçando” o argumento (por motivos didáticos), é possível afirmar que os testes de hipóteses diferem sobretudo em função da medida que propõem para a distância entre o valor do parâmetro especificado pela hipótese nula (zero, geralmente) e a estimativa pontual. 6 O salto do critério grosseiro para um critério mais preciso é dado a partir da resposta a seguinte pergunta: como é possível afirmar que um valor, assumido pela estimativa pontual, é grande o bastante para se rejeitar a hipótese nula? Ou que ele é suficientemente próximo de zero para que a decisão correta seja a de não rejeitar a hipótese nula? No exemplo de economia do trabalho, um aumento do rendimento de 100% parece suficientemente grande e um aumento de 0,1% suficientemente pequeno. Mas, porém, estes são valores fictícios, empregados para fins didáticos. Segundo os resultados obtidos por Teixeira e Menezes-Filho2 a partir das PNADs de 1997 a 2007, um ano adicional de educação proporciona, em média, um aumento de 5,5% na remuneração mensal, com desvio padrão de 0,8%. Será que 5,5% é suficientemente grande? A resposta agora não é tão evidente. É preciso apelar para um critério objetivo. A possibilidade mais comum está em olhar para a FD do estimador que prevaleceria caso a hipótese nula para o retorno da educação fosse verdadeira. Assumindo que o desvio padrão da distribuição populacional é equivalente a 0,8%, a FD do retorno estimado da educação é tal como ilustrada na figura a seguir. A mera distância entre a estimativa pontual e zero não é uma medida precisa para o grau em que a evidência é favorável à hipótese nula. Uma melhor medida é a probabilidade de ocorrência da estimativa pontual. 2 Está sendo considerada a estimativa pontual gerada pelo modelo IV, conforme consta na tabela 4 de Teixeira, W. M., Menezes-filho, N.A. "Estimando o retorno à educação do Brasil considerando a legislação educacional brasileira como um instrumento". Revista de Economia Política, vol. 32, nº 3 (128), pp. 479-496, julho-setembro/2012. Disponível em http://www.scielo.br/pdf/rep/v32n3/08.pdf 7 Se for observada uma estimativa pontual cuja probabilidade de ocorrência, calculada sob a validade hipótese nula, é baixíssima, há algo de errado neste resultado. A razão para isso está em que o que ocorre com baixíssima probabilidade não deveria ocorrer. Especialmente quando o número de ocorrências observadas é pequeno; unitário, na realidade, uma vez que há apenas uma amostra e, pois, apenas uma estimativa pontual. Se é baixíssima a probabilidade do retorno de um ano adicional de educação ser de 5,5%, este não deveria ser o valor obtido como resultado. Há apenas duas possibilidades, ou a evidência está errada ou a hipótese nula é equivocada. Em pesquisa científica, não há sentido algum em tentar salvar uma teoria que não corresponde à realidade, afirmando que é a realidade que está errada. Exatamente por isso, a discrepância entre uma hipótese, geralmente proveniente da teoria, e uma evidência, é tomada como indicação de incoerência da hipótese. De fato, a probabilidade de ocorrência de um retorno percentual de 5,5% é muito baixa, de 1 x 10-11, segundo a figura acima. Isso indica que o verdadeiro valor médio populacional do retorno é superior a zero. I.e., que a verdadeira distribuição normal está “deslocada” para a direita, conforme a figura abaixo. E isso pois, quanto menor a distância entre a estimativa pontual e o verdadeiro valor populacional da média, maior é a probabilidade de ocorrência da primeira. 2.2 Duas abordagens para os testes de hipóteses O recurso à probabilidade de ocorrência da estimativa pontual não resolve completamente o problema de obtenção de uma medida objetiva para o grau em que a 8 evidência disponível é desfavorável à hipótese nula. E isso pois como saber se um dado valor para a probabilidade é suficientemente pequeno? É preciso tomar por base uma definição para o termo “suficientemente pequeno” consensualmente aceita pela comunidade científica. Para isso, é necessário que se tenha por claro que há dois erros que podem ser cometidos na tomada de decisão acerca do resultado do teste3. Em primeiro lugar, pode- se decidir por rejeitar uma hipótese que é verdadeira, equívoco este denominado por “erro do tipo I”. Em segundo lugar, é possível não rejeitar uma hipótese falsa, este o “erro do tipo II”. A tabela descreve os dois erros. Tabela X Dois tipos de erros em um teste de hipóteses Hipótese verdadeira / Decisão Rejeitar H0 Não rejeitar H0 H0 Erro tipo 1 Decisão correta H1 Decisão correta Erro tipo 2 Fonte: Casella & Berger, p.359. A probabilidade de ocorrência de cada um dos erros pode ser reduzida a um nível aceitável a partir da maneira como o teste é construído, i.e., de acordo com o critério de tomada de decisão adotado. Uma maneira de fazer isso está em tomar um valor suficientemente baixo para a probabilidade de ocorrência do erro do tipo I. A convenção em voga é a de que 5% é um valor suficientemente baixo. Há uma relação crucial entre a probabilidade de cometer um erro do tipo I e uma medida do grau em que a evidência é favorável à hipótese nula. Retomando a ideia do teste grosseiro, H0 deve ser rejeitada sempre que a estimativa pontual se mostrar consideravelmente distante dela. É o que se tem quando a probabilidade de ocorrência de um valor da estimativa pontual mais extremo do que o observado é não superior a 5%, o que pode ser atestado de duas maneiras alternativas. Antes de passar a elas, cabe expressar as condições de um problema de teste de hipóteses de maneira mais geral. Seja assumido que a amostra disponível, X1, X2,...,XN é aleatória de modo que ela ocorre com probabilidade f(x1,...,xN|θ) = ∏ f(x|θ)ேୀଵ = f(xN|θ)...f(xN|θ), em que f(x|θ) é a FD das observações, a qual se define exclusivamente em função do parâmetro populacional θ. O objetivo da análise consiste em realizar o teste de hipóteses H0: θ = 0 vs. H1: θ ≠ 0. Trata-se de um teste “bicaudal”, pois a hipótese alternativa aponta para dois intervalos, θ < 0 e H1: θ > 0. O teste seria “unicaudal” caso a hipótese apontasse para apenas um intervalo. 3 Cabe assinalar que, por mais que tal decisão esteja fundamentada em um procedimento estatístico em número ela nunca é livre de erros. 9 Seja θ um estimador não-viesado para θ, i.e., E[θ] = θ. Este estimador recebe o nome de estatística do teste para o teste genérico que se acaba de definir. A FDA do estimador será denotada por P(θ ≤ θை |θ) = F൫θை|θ൯. Será assumido que F൫−θை|θ൯ = 1 −F൫θை|θ൯, i.e., que a FDA é simétrica em torno da média populacional θ (como é o caso das FDs Normal e t de Student). Primeira abordagem: valores críticos e região crítica do teste. Assumindo a hipótese nula como válida, i.e., tomando θ = 0, pode-se obter os valores γ1 e γ2 do estimador tais que P(γ1 ≤ θ ≤ γ2|θ=0)4 = 95%. É necessário assinalar que esta probabilidade é obtida a partir da FDA de θ para θ = 0. É desta maneira que se coloca em confronto a hipótese nula, a qual, pois, aparece como uma hipótese acerca da FD da estatística, e a evidência, esta última, no caso, a estimativa pontual. Os valores γ1 e γ2 são denominados por “valores críticos”. Se a estimativa pontual assumir um valor mais extremo do que um dos valores críticos, deve-se rejeitar a hipótese nula. A figura abaixo ilustra esta abordagem, retomando o exemplo de estimação do retorno da educação. Assume-se que a estatística do teste segue um FD normal com média zero, segundo a hipótese nula, e com desvio padrão 0,8%. Os valores críticos, indicados com linhas verticais pontilhadas de cor cinza, correspondem a γ1 = -1.645 e γ2 = 1.645. O valor da estimativa pontual, 5,55%, é mais extremo do que o valor crítico positivo. 4 Para uma distribuição simétrica em torno da média populacional, esta probabilidade é equivalente a 1 − 2F൫θை|θ൯. 10 O invervalo [γ1 ;γ2] é denominado “região de aceitação” ou “região crítica” do teste, enquanto que a união dos dois intervalos complementares, [-∞;γ1], [γ2; ∞] é denominada por “região de rejeição”. A região crítica pode ser, genericamente, indicada por RC(α,θ), em que α é o nível de significância do teste ou a probabilidade de cometer um erro do tipo I, geralmente fixada em 5% (de modo que a probabilidade de uma decisão correta seja de 95%). Segunda abordagem: p-valor do teste de hipóteses. A hipótese nula pode ser rejeitada sempre que a probabilidade de obter um valor mais extremo do que o observado para a estimativa pontual for inferior a 5%, de acordo com a FDA de θ para θ = 0. A “probabilidade de um valor mais extremo” é denominada p- valor, conceito ilustrado na figura abaixo para o exemplo de retorno da educação. O p- valor corresponde à área entre as duas linhas verticais pontilhadas em cinza na figura abaixo. Esta, mais uma vez, considera o exemplo de retorno da educação, assumindo que a estatística do teste segue um FD normal com média zero, segundo a hipótese nula, e com desvio padrão 0,8%. A área correspondente ao p-valor pode ser melhor visualizada no gráfico abaixo, o qual traz um zoom do gráfico anterior no segmento [5,4;6,5] do eixo horizontal. 11 2.3 Testes de hipóteses mais utilizados em econometria 2.3.1 Teste t O teste para a média populacional de uma variável aleatória com distribuição normal padrão foi apresentado no exemplo acima (retorno da educação). Este teste é pouco utilizado em econometria dado que pressupõe o conhecimento da variância populacional, o que não é realista. Nenhum parâmetro das funções de distribuição de probabilidade relevantes para os estudos econométricos é conhecido a priori; todos eles têm de ser estimados. Seja mantida a hipótese simplificadora de que há apenas uma característica de interesse, X. A amostra disponível, aleatória, é dada por {X1,...,XN}. De acordo com a teoria estatística convencional, a probabilidade de ocorrência da amostra é dada por uma função de distribuição de probabilidades conjunta, ܨభ,…,ಿ(ݔଵ, … , ݔே ;ߠ). Será assumida que esta função é uma normal multivariada, o que, em conjunto com a hipótese de distribuição aleatória, garante que a distribuição populacional da média da característica seja normal com média μ e variância σ2/N5. Porém, como a variância não é conhecida, o mais adequado é tomar a estatística abaixo como estatística do teste. E isso pois a FD dela é conhecida. ܶ = Xഥ − ߤ ඥܸ(Xഥ) ~ݐேିଵ 5 Vide Casella & Berger, exemplo 5.2.1, p.209. 12 Esta estatística tem uma distribuição t de Student com N – 1 graus de liberdade, em que N é o tamanho da amostra. A grandeza ߤ é o valor do parâmetro populacional especificado pela hipótese nula e V( തܺ) é a variância da média. Todos os componentes da estatística podem ser calculados a partir da amostra e ߤ é definido pelo próprio pesquisador, sendo geralmente zero. O procedimento do teste para ߤ = 0 consiste nos passos abaixo. 1. Calcular o valor da estatística do teste, ܶ; 2. Abordagem da região crítica: a. Obter os valores críticos, i.e., os valores da distribuição t que ocorrem com 5% de probabilidade, {-tc, tc} b. Se ܶ > 0, rejeitar H0 se ܶ > tc; c. Se ܶ < 0, rejeitar H0 se ܶ < − tc; 3. Abordagem do p-valor: a. Se ܶ > 0, o p-valor é dado por ̂ = P(t > ܶ). Obtê-lo; b. Se ܶ < 0, o p-valor é dado por ̂ = P(t < ܶ). Obtê-lo; c. rejeitar H0 se ̂ ≤ 5%. Retomando o exemplo de estimação do retorno da educação, a estatística do teste é dada por: ܶ = β − ߚ ටܸ(β) ~ݐேି Há uma particularidade nesta estatística, o número de graus de liberdade dela é N-K e não N-1. A razão disso está em que não se trata de um teste para a média, mas sim para um parâmetro que capta a relação entre duas variáveis. Por hora, não é preciso se preocupar em entender este detalhe, ele será esclarecido na parte III do curso. Basta saber que K é o número de variáveis explicativas que compõem o modelo de regressão linear a partir do qual se estima a relação entre nível educacional e remuneração. Segundo os resultados obtidos pelos autores, β = 5,5%, ටܸ(β) = 0,8% e β0 = 0, pois a hipótese em vista é a de que a educação tem contribuição nula para a remuneração. O valor observado da estatística é, pois, de ܶ = 6.875. O número de graus de liberdade é N - K = 1.248.998 – 50 = 1.248.948. Os valores críticos para um nível de significância bicaudal de 5% e para os graus de liberdade são {-1,645; 1,645}. Uma vez que ܶ > 1,96, a hipótese nula é rejeitada. O p-valor é de 2 x 10-11 < 5%, o que também aponta para a rejeição da hipótese nula. 13 2.3.2 Teste qui-quadrado Para testar hipóteses referentes ao valor da variância populacional, a estatística apropriada é a variância amostral, como segue. ߯ = 1ܰ ( ܺ − Xഥ)ଶே ୀଵ ~߯ே A função de distribuição é uma qui-quadrado com N graus de liberdade. A única diferença em relação aos testes já vistos tem origem em que a distribuição qui-quadrado é assimétrica e está definida apenas para valores positivos. Desta maneira, portanto, evidências desfavoráveis à hipótese nula apenas podem ocorrer para valores muito grandes. O teste é sempre uni-lateral e seu procedimento é descrito no que segue. 1. Calcular o valor da estatística do teste, ߯̂; 2. Abordagem da região crítica: a. Obter o valor crítico, i.e., χc tal P(χ > χc) = 0,05; b. Rejeitar H0 se ߯̂ > χc; 3. Abordagem do p-valor: a. Obter o p-valor dado por ̂ = P(χ > χො); b. rejeitar H0 se ̂ ≤ 5%. O gráfico abaixo ilustra o p-valor de uma VA com distribuição qui-quadrado com 10 graus de liberdade. 14 2.3.3 Teste F Seja Y a variável que o modelo de regressão linear procura explicar. A razão entre a porção da variação amostral de Y explicada pela regressão, SQE, e a porção não explicada, SQR, denominada por coeficiente de determinação, é r2 = SQE / SQR. A FD desta estatística é a F de Snedecor com graus de liberdade K-1 e N-K, ou seja: ݎଶ = ܵܳܧ/ܭ − 1 ܴܵܳ/ܰ − ܭ~ܨିଵ,ேି Seja R2 o valor populacional de ݎଶ . O teste de hipóteses H0: R2 = 0 vs. H1: R2 > 0 (ݎଶ é sempre positivo) pode ser realizado como segue. 1. Calcular o valor da estatística do teste, ܨ; 2. Abordagem da região crítica: a. Obter o valor crítico, i.e., Fc tal P(χ > Fc) = 0,05; b. Rejeitar H0 se ܨ > Fc; 3. Abordagem do p-valor: a. Obter o p-valor dado por ̂ = P(F > F); b. rejeitar H0 se ̂ ≤ 5%. O gráfico abaixo indica o valor crítico para o teste com nível de significância de 5% para uma VA com distribuição F com 10 e 10 graus de liberdade. 15 2.4 Poder de um teste A probabilidade de não ocorrência de um erro tipo II é denominada poder de um teste, ou seja, trata-se da probabilidade de rejeitar uma hipótese falsa. Esta probabilidade pode ser representada como: P(T ∈ RC(ߙ; θ)| θ ≠ θ0), i.e., a probabilidade da estimativa pertencer à região crítica quando a hipótese nula é equivocada. Esta probabilidade depende do valor verdadeiro de θ. É intuitivo que, quanto mais distante estiver este valor do especificado pela hipótese nula, maior será a probabilidade de rejeitar a hipótese nula, i.e., maior o poder do teste. Quanto mais próximo estiver θ de θ0, mais próximo estará o poder do teste de ߙ. De fato, para θ = θ0, o poder do teste é equivalente ao nível de significância, i.e., P(T ∈ RC(ߙ; θ)| θ = θ0) = ߙ. O gráfico abaixo descreve como o poder de um teste, representado por π(θ) varia como o valor de θ. Figura X Poder de um teste Nota_de_aula_4_corr_17_10.pdf 1 Notas de aula para o curso de Econometria I Nota 4: Estruturas de dados e regressão simples: motivação, FRP, FRA, estimação e propriedades algébricas Thiago Fonseca Morello fonseca.morello@ufabc.edu.br sala 301, Bloco Delta, SBC 1 A natureza dos dados econômicos1 1.1 Abrangência espacial e temporal A pesquisa empírica em economia emprega um amplo espectro de dados. Em termos gerais, por “dados” se entende um conjunto de valores observados para algumas variáveis, em um determinado horizonte espaço-temporal e em uma determinada escala observacional. A abrangência ou horizonte espaço-temporal diz respeito ao período de tempo em que os dados foram coletados e à região que a informação neles contida representa. Por exemplo, o Censo Demográfico 2010, produzido pelo IBGE, se refere ao ano de 2010 e abrange todo o Brasil. As pesquisas de intenção de voto, das empresas IBOPE e Datafolha captam períodos específicos (de três dias, geralmente) e uma amostra do eleitorado brasileiro, mas, o que talvez não seja tão óbvio, representam todos os eleitores do País, tendo, pois, abrangência nacional. A Pesquisa de Orçamentos Familiares (POF), realizada pela Fundação Instituto de Pesquisa Econômicas, bem como a Pesquisa Origem-Destino (POD) do Metrô de São Paulo, têm como região de cobertura, respectivamente, a cidade de São Paulo e a região metropolitana do Estado de São Paulo. 1.2 Escala A escala ou nível observacional diz respeito à perspectiva captada pelos dados, ou, mais precisamente, à entidade portadora das características medidas pelas variáveis. No Censo de 2010, há pelo menos duas escalas observacionais ou entidades, pessoas e domicílios. Deste modo, pois, foram coletadas informações acerca de características individuais, tais como idade, nível educacional, renda mensal, etc., e também informações que correspondem a características de domicílios, como o número de cômodos, o acesso a saneamento básico, o material empregado na construção da habitação, etc. Estas duas entidades também aparecem na POF do IBGE, além de uma unidade adicional, denominada por “Unidade de Consumo”, a qual consiste em um conjunto de moradores de uma mesma residência que compartilham alimentos. Geralmente, mas nem sempre, trata-se de uma família. 1 É recomendada a leitura do capítulo 1 de Wooldridge. 2 Nas pesquisas de intenção de votos e na POD a escala observacional de coleta de dados é a pessoa, uma vez que intenção de voto e trajetos percorridos diariamente via transporte público são características de pessoas. Porém, os dados não são divulgados neste nível observacional, estando disponíveis para exame apenas indicadores no nível nacional e da região metropolitana, respectivamente. Há conjuntos de dados na escala de setores censitários, municípios, unidades da federação e países. Por exemplo, o Censo Agropecuário, do IBGE2, é oriundo de um levantamento junto a estabelecimentos agropecuários (fazendas), sendo, porém, divulgado no nível municipal. Uma base de dados muito popular entre macroeconomistas é a Penn World Table3, da Universidade da Pensilvânia, com informações referentes a Países, como, por exemplo, PIB, contagem da população, gasto público, formação bruta de capital fixo, taxa de câmbio, etc. Levando em conta os parágrafos anteriores, é possível classificar os dados econômicos em três categorias de acordo com a escala observacional em que estão disponíveis: 1. Microdados se referem à escala em que os dados foram efetivamente coletados, a partir de entrevistas. Geralmente se trata da escala dos tomadores de decisão da teoria microeconômica, por exemplo, pessoas, famílias, domicílios, empresas, etc; 2. Dados regionais compreendem informações na escala de setores censitários, bairros, distritos, municípios, microrregiões, macrorregiões, unidades mínimas comparáveis e unidades da federação; 3. Macrodados correspondem aos agregados macroeconômicos, e, portanto, à escala de Países. 1.3 Estruturas de dados Há três principais estruturas em que os dados econômicos podem estar disponíveis. A estrutura de dados denotada por “dados transversais” ou “cross-section” capta um conjunto amplo de unidades em um único período de tempo, conforme ilustrado nas duas figuras a seguir. 2 http://www.ibge.gov.br/home/estatistica/economia/agropecuaria/censoagro/ 3 https://pwt.sas.upenn.edu/ 3 Figura 1 Macrodados transversais, América Latina, ano de 2010 Figura 2 Microdados transversais, POF IBGE, escala de pessoas, 2009 A estrutura de dados conhecida como séries temporais é descrita por uma tabela tal como a que segue. U ni da de s Variáveis País pib_pc pop câmbio %_cons %_gov %_inv Argentina 14512,1 41343,2 3,8963 0,68056 0,05377 0,23312 Bolivia 4432,78 9947,42 7,02 0,74673 0,07075 0,11734 Brazil 9754,69 201103 1,75923 0,68999 0,10269 0,21732 Chile 15960,8 16746,5 510,249 0,6031 0,03781 0,28748 Colombia 8975,41 44205,3 1898,57 0,71892 0,0658 0,2372 Ecuador 7345,69 14790,6 1 0,74147 0,06011 0,2597 Guyana 5067,81 748,486 200,5 0,82108 0,17259 0,27278 Paraguay 4851,18 6375,83 4743,08 0,84822 0,05515 0,13546 Peru 9009,56 28948 2,82513 0,6343 0,04728 0,28402 Suriname 12044,1 486,618 2,74542 0,18632 0,07322 0,67069 Uruguay 13671,2 3301,08 20,0593 0,71805 0,04517 0,22865 Venezuela 11778 27223,2 2,58563 0,62252 0,04853 0,21344 Código Altura Peso Idade Anos de estudo 2.11.1.9.1.1.1 173 85,7 53 5 2.11.1.9.1.1.2 157 60,7 49 8 2.11.1.9.1.1.3 175,3 75,6 22 11 2.11.1.9.1.1.4 165,7 47,6 19 11 2.11.1.9.1.1.5 127 21,6 6 0 2.11.1.9.10.1.1 167,5 69,4 27 6 2.11.1.9.10.1.2 142 30,7 10 1 2.11.1.9.10.1.3 108 19,1 4 0 2.11.1.9.11.1.1 158 68 33 6 2.11.1.9.11.1.2 155,5 63,3 30 11 2.11.1.9.11.1.3 143 33,7 11 2 2.11.1.9.11.1.4 130,5 30,3 9 2 2.11.1.9.12.1.1 147,2 58,9 66 4 2.11.1.9.12.1.2 161,4 89,8 34 15 2.11.1.9.12.1.3 151,1 56,8 28 15 2.11.1.9.12.1.4 146,2 50,9 62 3 2.11.1.9.3.1.1 171,3 78 55 15 2.11.1.9.3.1.2 155 46,3 56 15 2.11.1.9.3.1.3 165,2 53 30 15 2.11.1.9.4.1.1 164 77,6 52 4 U ni da de s Variáveis 4 Figura 3 Macrodados em séries temporais, Brasil, 1990 a 2010 Têm-se, portanto, a mesma unidade (no caso, um País, o Brasil) observada em diferentes momentos de tempo, de maneira a que as observações coincidam com períodos de tempo e, para cada um deles, estejam registrados os valores assumidos por cada uma das variáveis. É possível expandir um conjunto de dados transversais repetindo a coleta de informação para as mesmas variáveis em períodos subsequentes. Com isso obtém-se uma estrutura de dados híbrida, a qual combina elementos de cross-section e de séries temporais. A estrutura de dados em painel, ou longitudinal, é um exemplo de estrutura híbrida. Ela captura o mesmo conjunto de unidades em mais de um período de tempo, conforme ilustrado na figura abaixo. Instantes de tempo Variáveis Ordem Ano População (em mil pessoas) Taxa de câmbio nominal PIB per capita (PPP) % consumo no PIB % governo no PIB % investimento bruto no PIB 1 1990 151.170,06 0,0000 4.531,3341 0,6720 0,1133 0,1968 2 1991 153.583,96 0,0002 4.664,0342 0,6681 0,1172 0,2064 3 1992 156.032,06 0,0020 4.709,1480 0,6687 0,1170 0,1898 4 1993 158.512,05 0,0383 4.884,5276 0,6704 0,1176 0,1974 5 1994 161.017,06 0,6647 5.196,4431 0,6750 0,1119 0,2085 6 1995 163.544,28 0,9177 5.581,1692 0,6787 0,1046 0,2318 7 1996 166.085,86 1,0051 5.727,6474 0,6787 0,0999 0,2392 8 1997 168.638,74 1,0780 5.929,1672 0,6752 0,1002 0,2464 9 1998 171.201,16 1,1605 5.843,1274 0,6805 0,1033 0,2360 10 1999 173.763,87 1,8139 5.737,1928 0,6949 0,1077 0,2114 11 2000 176.319,62 1,8294 6.025,1128 0,6893 0,1020 0,2263 12 2001 178.869,66 2,3496 6.122,0764 0,6931 0,1037 0,2164 13 2002 181.417,59 2,9204 6.294,4270 0,6894 0,1069 0,1884 14 2003 183.959,92 3,0775 6.408,5833 0,6847 0,1077 0,1783 15 2004 186.488,60 2,9251 6.910,6665 0,6659 0,1049 0,1902 16 2005 188.993,08 2,4344 7.234,0497 0,6766 0,1055 0,1815 17 2006 191.469,01 2,1753 7.736,6177 0,6740 0,1038 0,1930 18 2007 193.918,58 1,9471 8.397,1364 0,6703 0,1041 0,2103 19 2008 196.342,59 1,8338 9.112,7871 0,6680 0,1009 0,2291 20 2009 198.739,27 1,9994 9.028,8484 0,7005 0,1075 0,1926 21 2010 201.103,33 1,7592 9.754,6919 0,6900 0,1027 0,2173 5 Figura 4 Macrodados em painel, América Latina, 2008 e 2010 Este curso de Econometria I focará na estrutura de dados transversais ou cross-section. As séries temporais são objeto do curso de econometria III, enquanto os dados em painel são tratados no curso de econometria II. 2 Regressão simples 2.1 Motivação A busca dos determinantes de uma característica de interesse é um exercício recorrente na prática científica. Particularmente, em economia, parte-se da teoria para identificar as variáveis de fundo, ou seja, aquelas em função das quais é possível explicar o comportamento de uma determinada característica socioeconômica tal como situação do indivíduo perante o mercado de trabalho (estar ou não empregado), investimento de uma empresa em inovação tecnológica e taxa de crescimento do PIB de uma nação, etc. Em outras palavras, seja Y a variável cujo comportamento deseja-se explicar, a teoria postula que existe pelo menos uma variável, X, a qual, a depender do valor por ela assumido, exerce influência sobre o valor assumido por Y. Um exemplo de particular interesse para o Brasil e para os países não desenvolvidos em geral é o a da relação entre desnutrição infantil e renda familiar. Economistas como Ana Lúcia Kassouf, Rodolfo Hoffman e Antônio Carlos Campino, se dedicaram à investigação desta relação tomando por base, para isso, dados coletados a partir de entrevistas a domicílios brasileiros. O pesquisador Mark Agee, dos Estados Unidos, fez o mesmo, mas, porém, para o caso da Nigéria4. 4 Seguem as referências para os estudos originais dos autores mencionados. Kassouf, A. L. A demanda de saúde infantil no Brasil por região e setor. Pesquisa e Planejamento Econômico, v. 24, n. 2, p. 235-260, ago. Disponível em http://www.memoria.nemesis.org.br/index.php/ppe/article/view/806/745. Hoffman, pop câmbio pib_pc %_cons %_gov %_inv pop câmbio pib_pc %_cons %_gov %_inv Argentina 40482 3,14417 13270,1 0,678 0,04924 0,23507 41343,2 3,8963 14512,1 0,68056 0,05377 0,23312 Bolivia 9601,26 7,23832 4160,3 0,75028 0,07021 0,11432 9947,42 7,02 4432,78 0,74673 0,07075 0,11734 Brazil 196343 1,83377 9112,79 0,66804 0,1009 0,22915 201103 1,75923 9754,69 0,68999 0,10269 0,21732 Chile 16454,1 522,461 14082,9 0,61593 0,03736 0,31055 16746,5 510,249 15960,8 0,6031 0,03781 0,28748 Colombia 43141,1 1967,71 8486,3 0,726 0,06212 0,23456 44205,3 1898,57 8975,41 0,71892 0,0658 0,2372 Ecuador 14354,5 1 7063,65 0,67072 0,05349 0,27507 14790,6 1 7345,69 0,74147 0,06011 0,2597 Guyana 758,059 203,633 4556,04 0,88689 0,17143 0,2554 748,486 200,5 5067,81 0,82108 0,17259 0,27278 Paraguay 6203,2 4363,24 4356,41 0,84113 0,04516 0,16524 6375,83 4743,08 4851,18 0,84822 0,05515 0,13546 Peru 28347,9 2,92441 7970,65 0,6571 0,04178 0,29033 28948 2,82513 9009,56 0,6343 0,04728 0,28402 Suriname 475,996 2,745 12119,6 0,19308 0,07438 0,7241 486,618 2,74542 12044,1 0,18632 0,07322 0,67069 Uruguay 3286,37 20,9493 11690,8 0,73046 0,0481 0,26687 3301,08 20,0593 13671,2 0,71805 0,04517 0,22865 Venezuela 26414,8 2,147 12680,5 0,61121 0,04258 0,25048 27223,2 2,58563 11778 0,62252 0,04853 0,21344 País / Ano 2008 2010 Variáveis Períodos U ni da de s 6 A teoria5 postula, considerando uma sociedade cuja produção e distribuição de alimentos são geridas por mercados, uma relação negativa entre grau de desnutrição infantil, esta a variável a ser explicada, Y, e renda familiar, a qual assumirá a posição de X. A intuição está em que famílias com maior poder de compra têm mais acesso a alimentos e, pois, maior capacidade de manter suas crianças adequadamente nutridas. O objetivo da análise econométrica não é verificar a consistência lógica ou teórica da relação entre variável explicada, Y, e variável explicativa, X, mas sim sua consistência empírica, entendida esta como a adequação às evidências reveladas pelos dados disponíveis. Ou seja, a partir do momento em que o pesquisador decide qual é a relação relevante, cabe à análise econométrica procurar indícios de que tal relação se manifesta ou não nos dados. Um primeiro passo neste sentido pode ser dado com a elaboração de um gráfico de dispersão, a partir de um conjunto de dados que contenha informações para X e Y. Para o Brasil, a fonte de dados é a Pesquisa de Orçamentos Familiares de 2008/2009 (POF). O exame destes dados será postergado. Por enquanto é mais esclarecedor ocupar-se de algumas das possibilidades que os dados podem vir a revelar. O painel a seguir indica três possibilidades. Nenhuma delas contém dados verídicos, mas sim valores gerados artificialmente com uma planilha Excel ®. A medida de grau de desnutrição infantil considerada é a de prevalência, ou seja, porcentagem de crianças de zero a cinco anos com altura consideravelmente inferior ao nível saudável para a idade, de acordo com a Organização Mundial de Saúde (OMS)6. A unidade observacional dos gráficos é o setor censitário, uma região geográfica submunicipal definida pelo IBGE por fins estatísticos7. Desta maneira, são observadas, nos gráficos, a renda média dos setores censitários brasileiros e a prevalência de desnutrição em cada um deles. São considerados apenas 100 setores censitários. R. Pobreza, insegurança alimentar e desnutrição no Brasil. Estudos Avançados vol.9 no.24 São Paulo Maio/Agosto 1995. Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103- 40141995000200007.Campino, A. C. C., Aspectos sócio-econômicos da desnutrição no Brasil. Revista de Saúde Pública, São Paulo, 20(1):83-101, 1986. Disponível em http://www.scielo.br/pdf/rsp/v20n1/07.pdf. Agee, M. Reducing child malnutrition in Nigeria: Combined effects of income growth and provision of information about mothers’ access to health care services. Social Science & Medicine 71 (2010) 1973-1980. Disponível em http://www.sciencedirect.com/science/article/pii/S0277953610006696. 5 Esta afirmação encontra fundamentação mais clara na abordagem das dotações (entitlement approach) empregada por Amartya Sen em um dos principais estudos de fenômenos de inanição e fome em massa, a obra “Poverty and Famines: an essay on entitlement and deprivation”, tal como se pode comprovar na seção 10.1 do livro. 6 Esta medida foi detalhada na primeira aula de laboratório, consultar o arquivo “script_lab_1”. 7 A definição de setor censitário, conforme consta na metodologia do censo demográfico de 2000 é “(...) unidade de controle cadastral formada por área contínua, situada em um único quadro urbano ou rural, com dimensão e número de domicílios ou de estabelecimentos que permitam levantamento das informações por um único Agente Credenciado, segundo cronograma estabelecido (vide página 227 de http://www.ibge.gov.br/home/estatistica/populacao/censo2000/metodologia/metodologiacenso2000.pdf).” 7 Painel 1 Três possibilidades para o gráfico de dispersão (A) (B) (C) Caso o gráfico de dispersão gerado a partir dos dados coincida com (A), há razão para desconfiar da relação sugerida pela teoria. E isso pois não é possível reconhecer um padrão ou tendência clara. Na verdade, neste caso, os setores censitários se distribuem de maneira praticamente equitativa entre quatro grupos, quais sejam: 1. Grupo (AA): Níveis relativamente altos de renda familiar e níveis relativamente altos de prevalência de desnutrição infantil; 2. Grupo (AB): Níveis relativamente altos de renda familiar e níveis relativamente baixos de prevalência de desnutrição infantil; 3. Grupo (BA): Níveis relativamente baixos de renda familiar e níveis relativamente altos de prevalência de desnutrição infantil; 4. Grupo (BB): Níveis relativamente baixos de renda familiar e níveis relativamente baixos de prevalência de desnutrição infantil. Estes quatro grupos correspondem aos quatro quadrantes em que o gráfico de dispersão pode ser dividido, tomando-se como referência as médias amostrais das variáveis. A tabela abaixo apresenta a contagem dos setores censitários em cada um dos quatro grupos possíveis definidos acima para cada uma das três possibilidades de gráficos do painel 1. 0 5 10 15 20 25 30 35 40 45 50 0 1000 2000 3000 4000 5000 6000 7000 8000 Pr ev al ên ci a de d es nu tr iç ão Renda mensal per capita 0 5 10 15 20 25 30 35 40 0 1000 2000 3000 4000 5000 6000 7000 8000 Pr ev al ên ci a de d es nu tr iç ão Renda mensal per capita 0 10 20 30 40 50 60 0 1000 2000 3000 4000 5000 6000 7000 8000 Pr ev al ên ci a de d es nu tr iç ão Renda mensal per capita 8 Tabela 1 Número de setores censitários em cada grupo para cada uma das três possibilidade de diagramas de dispersão Grupo/ Gráfico A B C AA 26 9 47 AB 24 41 3 BA 24 44 11 BB 26 6 39 Efetivamente, os quatro grupos têm participação praticamente equivalente para o caso ilustrado pelo gráfico (A), i.e., nenhum grupo predomina. Porém, nos gráficos (B) e (C), tal como a observação deles sugere, há uma tendência à concentração da amostra de setores censitários em grupos específicos. No caso do gráfico (B), setores censitários do grupo AB e do grupo BA predominam (juntos, respondem por 85% da amostra), o que está de acordo com a tendência positiva revelada pelo gráfico (B). Já, no caso (C), são os setores censitários dos grupos AA e BB que se mostram mais recorrentes (88% da amostra): um nível de renda relativamente alto tende a vir acompanhado de uma prevalência relativamente baixa de desnutrição infantil. Tal como a tendência negativa observada no gráfico indica. As duas formas de evidência consideradas, o diagrama de dispersão e a classificação das unidades observacionais, os setores censitários, em grupos de acordo com os valores das duas variáveis, podem bastar para o pesquisador. I.e., ele pode acreditar que os padrões revelados por estas duas ferramentas são claros o bastante para concluir quanto à validade ou invalidade empírica da relação teórica. Há, contudo, pelo menos duas razões pelas quais uma abordagem mais precisa se mostra desejável: 1. Dados reais dificilmente seguem tendências claras, conforme o gráfico abaixo (figura 5) indica. O gráfico de dispersão e a classificação em grupos podem não revelar claramente uma tendência e nem a total falta de tendência. I.e., os dois instrumentos podem levar a evidências insuficientemente claras, inconclusivas; 2. O pesquisador pode estar interessado em medir a relação quantitativa entre as variáveis X e Y, i.e., determinar em qual magnitude o aumento da renda familiar, via, por exemplo, transferências governamentais de renda, se reverte em redução do grau de desnutrição infantil; 9 Figura 5 Gráfico de dispersão para a relação entre renda mensal per capita e prevalência de desnutrição, setores censitários brasileiros* *apenas setores censitários com coeficiente de variação (desvio padrão/média) para a renda mensal per capita inferior à unidade são considerados. A econometria procura assentar a relação empírica entre X e Y em uma base mais precisa. De fato, a disciplina tem por objetivo fundamental mensurar a relação quantitativa entre duas variáveis X e Y. Para que fique mais claro o termo “relação quantitativa”, cabe atentar para os exemplos de perguntas feitas por estudos econométricos recentes listados a seguir. 1. Em quanto o PIB per capita de um País seria aumentado caso fosse possível reduzir consideravelmente o nível de desigualdade de renda (Barro, 2008)8? 2. Qual é o aumento de salário que um trabalhador poderia obter caso seu nível de qualificação fosse ampliado em um ano adicional de estudo (Teixeira e Menezes- Filho, 2012)9? 3. Em quanto aumentaria a renda de uma família caso a oferta de microcrédito fosse ampliada (Banerjee et al, 201410)? 4. A área de floresta Amazônica desmatada por um produtor agropecuário seria consideravelmente maior caso ele tivesse acesso a mais crédito bancário (Assunção, 201311)? 8 Barro, R.J., Inequality and growth revisited. Working paper series on regional economic integration. Asian Development Bank. Disponível em http://aric.adb.org/pdf/workingpaper/WP11_%20Inequality_and_Growth_Revisited.pdf 9 Teixeira, W. M., Menezes-filho, N.A. "Estimando o retorno à educação do Brasil considerando a legislação educacional brasileira como um instrumento". Revista de Economia Política, vol. 32, nº 3 (128), pp. 479-496, julho-setembro/2012. Disponível em http://www.scielo.br/pdf/rep/v32n3/08.pdf 10 Banerjee, A., Duflo, E, Glennester, R., Kinnan, C. “The miracle of microfinance? Evidence from a randomized evaluation.” Working paper, http://economics.mit.edu/files/5993 11 ASSUNÇÃO, J., GANDOUR, C., ROCHA, R., ROCHA, R. 2013. Does credit affect deforestation? Evidence from a rural credit policy in the Brazilian Amazon. Climate Policy Initiative. Disponível em: 10 2.2 Função de expectativa condicional Como apreender a relação quantitativa entre duas variáveis? É possível avançar em tal sentido introduzindo uma pequena sofisticação no gráfico de dispersão. Agora com base nos dados reais da POF 2008/2009, pode-se calcular a média para a prevalência de desnutrição dentro de faixas para a renda familiar, como ilustrado pelos quadrados vermelhos do gráfico abaixo. Os pontos na direção vertical correspondem aos valores que a variável Y assume para as observações cuja renda familiar pertence a uma dada faixa. Figura 6 Média condicional para a prevalência de desnutrição (quadrados vermelhos) e níveis de prevalência observados na amostra (círculos pretos)*, SM = salário mínimo *apenas setores censitários com coeficiente de variação (desvio padrão/média) para a renda mensal per capita inferior à unidade são considerados. O gráfico indica que a média de Y, calculada “dentro” de grupos de observações definidos em função de valores de X, exibe uma tendência aparentemente negativa, ainda que isso não seja muito claro, o que é comum para dados reais. De qualquer maneira, neste estágio do argumento, a atenção deve ser voltada à compreensão do significado das médias representadas pelos quadrados vermelhos. Para isso, é esclarecedor coletar algumas informações do gráfico, tal como segue. 1. Nos setores censitários em que a renda mensal per capita é inferior a ¼ do salário mínimo, a prevalência de desnutrição é superior a 10%; 2. Esta taxa é inferior a 10% nos setores censitários com renda mensal per capita entre dois e cinco salários mínimos. A leitura dos dados sugerida pelos “fatos” acima é um pouco mais clara do que o permitido por gráficos e tabelas. E isso pois, dado um determinado nível da variável X, http://climatepolicyinitiative.org/wp-content/uploads/2012/03/Deforestation-Prices-or-Policies-Working- Paper.pdf 11 renda familiar, pode-se identificar um único valor correspondente à variável Y, sua média, no caso. Clareza está que resulta do emprego da média para resumir a dispersão da variável Y para cada uma das faixas de X. De fato, a média amostral de Y para grupos definidos em função de X é análoga ao conceito populacional de expectativa condicional visto em estatística e representado por E[Y|X]. Este conceito propõe que a informação quanto ao valor de X é relevante para determinar qual valor de Y é mais provável, i.e., têm maior probabilidade de ocorrência. O que é o mesmo que dizer que a distribuição probabilística de Y, i.e., a relação que nos diz quais valores de Y são mais prováveis e quais são menos prováveis, varia em função de X. Desta maneira, ao invés de conceber a distribuição probabilística de Y como dada por uma única função de distribuição de probabilidades (FD), é possível pensar que, para cada valor de X, existe uma distribuição probabilística potencialmente distinta para Y. É isso que o gráfico abaixo sugere, tomando como Y o logaritmo do salário semanal e como X os anos de escolaridade, isso para um conjunto de dados referente a uma amostra de trabalhadores. Gráfico X Distribuição condicional de Y em relação a X (cinza) e Expectativa condicional de Y em relação a X (linha preta) Fonte: gráfico reproduzido de Angrist, J.D., Pischke, J-S., 2009. Mostly harmless econometrics, an empiricist’s companion. Princeton University Press, New Jersey, US. Da mesma maneira que existe, para cada valor de X, uma distribuição probabilística potencialmente distinta, existem parâmetros potencialmente distintos que regem tal distribuição. Por exemplo, as distribuições condicionais referentes a valores diferentes de X, podem diferir em função da média populacional, μ. É exatamente esta possibilidade que a notação E[Y|X] indica, uma vez que ela se refere à média populacional de Y para um dado valor de X. 2.3 Função de regressão populacional Qual é o formato exato de E[Y|X]? Ou seja, como a média populacional de Y varia em função de X? A priori, não é possível saber, uma vez que, como geralmente se parte de 12 dados amostrais, é impossível determinar os valores populacionais dos parâmetros. Porém, é sempre possível afirmar que existe uma relação funcional entre E[Y|X] e X, i.e., E[Y|X] = f(X). Esta relação funcional é denominada por função de expectativa condicional (FEC) ou por função de regressão populacional (FRP). A função f(X) não necessariamente é linear, ela pode ser quadrática ou exibir qualquer outro comportamento não linear. Porém, é sempre possível tomar uma aproximação linear à f(X), o que pode ser visto, seguindo Gujarati, como uma hipótese de partida, uma primeira aproximação do problema. Ou seja, E[Y|X] ≈ β0 + β1X (1). O segundo passo crucial para avançar na representação da relação entre X e Y está no fato, demonstrado pela teoria estatística, de que sempre é possível decompor uma variável aleatória em dois elementos12. O primeiro deles é a porção da informação contida na variável que é “explicada” por outra variável, o que pode ser representado a partir da expectativa condicional. Tomando Y como a variável “explicada” e X como variável “explicativa”, o primeiro elemento em que Y se decompõe é E[Y|X]. O segundo elemento corresponde à porção de Y não “explicada” por X, ou, de maneira mais precisa, não correlacionada com X, porção esta que será denotada por “u”. Desta maneira, pode-se escrever Y = E[Y|X] + u (2). Combinando os resultados (1) e (2) pode-se chegar à função linear abaixo. Y = E[Y|X] + u ≈ β0 + β1X + u Ou, de maneira sintética: Y ≈ β0 + β1X + u O símbolo indicando aproximação linear pode ser substituído, em nome da simplicidade notacional, pelo símbolo de igualdade desde que se tenha em mente que a reta acima é uma aproximação linear para a FRP. Ela também é denominada por reta de regressão linear populacional. É preciso assinalar a natureza populacional do modelo acima: os coeficientes β0 e β1 são parâmetros populacionais, desconhecidos a priori, assim como é o caso da média μ para uma variável aleatória normalmente distribuída. Outro detalhe fundamental diz respeito à natureza do termo “u”. Adotando a nomenclatura de Wooldridge, u será denominado por “termo de perturbação” ou “termo de erro”. Ele é equivalente a Y - β0 - β1X, tratando-se, portanto, da porção da variação de Y, ao longo das observações, que permanece não explicada mesmo após a incorporação da informação quanto ao comportamento de X. Gujarati apresenta algumas interpretações para o termo de perturbação. As mais relevantes são reproduzidas no que segue. 12 Este parágrafo segue a interpretação de Angrist & Pischke (2009, p.25-26) para a propriedade de decomposição da função de expectativa condicional. 13 1. O termo de perturbação capta variáveis que explicam Y, mas são omitidas do modelo pois: a. Não são mencionadas pela teoria; b. São mencionadas pela teoria, mas não há dados disponíveis para elas; 2. O termo de perturbação capta erros de medida decorrentes do emprego de variáveis proxy. É o que se tem quando as variáveis, tais como definidas pela teoria, não estão disponíveis nos dados, mas há outras variáveis disponíveis, correlacionadas com as primeiras, i.e, que se comportam de maneira parecida. Por exemplo, segundo a teoria do q de Tobin, uma das principais variáveis que explicam o investimento em capital fixo por parte de uma empresa é retorno marginal do capital fixo (medida esta que corresponde ao q de Tobin em si), porém, grandezas marginais dificilmente podem ser calculadas a partir de dados concretos. É praxe utilizar o retorno médio do capital fixo, dado pela razão entre o valor de mercado de uma empresa (retorno medido pelo mercado de ações) e o valor de seu estoque de capital. A diferença entre a medida proposta pela teoria e a medida factível é captada pelo termo de perturbação. Outro exemplo: no artigo “Desigualdade de renda nos Estados Unidos, 1913-1998”13, os economistas Thomas Piketty e Emmanuel Saez utilizaram declarações de impostos de renda como proxy para a renda individual. Se esta medida fosse utilizada como variável explicativa em uma FRP para a poupança individual, por exemplo, o termo de perturbação captaria a diferença entre a renda efetiva, esta a medida mencionada pela teoria, e a renda declarada no imposto de renda, esta a medida factível incorporada à FRP; 3. O termo de perturbação capta erros de especificação da relação entre X e Y. Muitas vezes a teoria não é precisa o bastante para estabelecer a forma funcional da relação em questão. A aproximação linear pode falhar em captar não-linearidades em tal relação, erro este o que acaba compondo o termo de perturbação. 2.4 Inferência e função de regressão amostral Os valores populacionais de parâmetros de interesse são geralmente desconhecidos, sendo preciso estimá-los a partir das amostras de dados disponíveis. Não é diferente para o caso da análise de regressão linear, i.e., para os parâmetros β0 e β1. Para atingir o objetivo da análise empírica em economia, o qual é sempre caracterizar a relação entre Y e X, geralmente dispõe-se apenas de uma amostra de valores para as duas variáveis. Por exemplo, para determinar em qual medida a renda familiar explica, no Brasil, o grau de desnutrição infantil, os dados disponíveis mais atualizados correspondem à POF 2008/2009, uma amostra de 55.412 famílias de um total de 57 milhões de famílias brasileiras (apenas 0,1% das famílias foram entrevistadas). O salto de inferência se mostra inevitável e com base nele se acaba por obter não a FRP, a qual nunca é observada, mas um elemento análogo, cujo conteúdo informacional se resume à amostra, a função de regressão amostral, FRA, representada como segue. 13 Disponível em http://piketty.pse.ens.fr/fichiers/public/PikettySaez2003.pdf. 14 Y = β + βଵX Em que β e βଵsão estimadores para β0 e β1. 2.5 Estimação A mera definição da FRA não sugere um caminho para obtê-la. Como é possível chegar a estimativas pontuais para o intercepto e o coeficiente da FRP? Há pelo menos três métodos de estimação que solucionam o problema, por hora basta se ocupar do mais famoso. Um estimador é, antes de tudo, uma estatística. Estatísticas são usadas com o objetivo de resumir os dados. A média e a variância, por exemplo, resumem a distribuição individual de uma variável. Os estimadores para os parâmetros da FPR também têm de resumir informação, mas, porém, não quanto à distribuição individual de X e Y, mas sim quanto à relação quantitativa entre X e Y. O formato da FRP sugere uma saída para resumir a relação entre X e Y: tomar uma aproximação linear do padrão descrito pelo gráfico de dispersão14. Mas, um detalhe crucial, muitas vezes perdido de vista, deve ser assinalado. O gráfico de dispersão em questão não é o construído a partir da amostra, mas sim a partir da população. A razão para isso é de grande importância: o objetivo da análise econométrica não é resumir a relação de X e Y tal como ela se manifesta na amostra, mas sim na população. Por exemplo, a formulação de uma política nacional de combate à desnutrição infantil deve ser alicerçada na relação que esta variável tem com a renda familiar considerando- se todas as famílias brasileiras. Se for tomado por base apenas um subgrupo de famílias, uma medida de política pública, tal como a transferência de renda, poderá não render o resultado esperado para famílias que não pertencem ao subgrupo considerado. Deve-se ressaltar, pois, que a imagem de um gráfico de dispersão para a população é puramente uma abstração, pois geralmente não está disponível toda a informação necessária para construí-lo para toda a população-alvo de um estudo econométrico. Colocada esta ressalva, tomemos, para fins de compreensão, o gráfico abaixo, o qual representa toda a população. 14 Infelizmente, calcular a média para Y dentro de faixas de X não permite obter uma função que descreva completamente o comportamento da relação entre as variáveis dentro da amostra. 15 As duas retas observadas no gráfico se mostram pouco adequadas para descrever a relação entre X e Y, dado que se afastam da tendência dominante. O erro cometido ao tentar-se reproduzir, com base nelas, o padrão descrito pelos pontos amostrais, é muito grande. Isso decorre do fato de que elas estão próximas de parte minoritária dos pontos amostrais. O ideal seria, portanto, que a reta estivesse suficientemente perto de todos os pontos. Com isso, os erros cometidos por toma-la como base seriam desprezíveis. Obviamente, não é possível traçar uma reta que atenda a esta condição. Mas é possível traçar uma reta que esteja próxima do maior número possível de pontos. O que é equivalente a procurar uma reta que cometa menos e menores erros de aproximação entre todas as retas possíveis. Para operacionalizar este desiderato é preciso tomar por base uma medida para o total de erros cometidos. Uma possibilidade é tomar a expectativa do valor absoluto do erro de aproximação linear. A intuição desta medida está em que a expectativa é uma média, e, portanto, contém a soma dos erros. Além disso, como a análise tem por objetivo inferir a distribuição populacional de Y (condicional à X), a atenção, pois, está voltada para a população. Daí porque se toma a expectativa15. A medida para os erros de aproximação, portanto, é: ܧൣหܻ − ෨ܻห൧ (1) Em que ෨ܻ é o valor de Y que a reta associa a i-ésima observação. Uma vez que o operador matemático valor absoluto (“| |”) não é de fácil manipulação algébrica, toma-se o quadrado dos erros de aproximação linear, ou seja: ܧ ቂ൫ ܻ − ෨ܻ൯ ଶ ቃ (1ᇱ) 15 Esta abordagem para obter os estimadores de MQO é uma adaptação da seção 3.1.1 e 3.1.2 de Angrist, J.D., Pischke, J-S., 2009. Mostly harmless econometrics, an empiricist’s companion. Princeton University Press, New Jersey, US. -20 -10 0 10 20 30 40 50 60 70 0 1000 2000 3000 4000 5000 6000 7000 8000 Pr ev al ên ci a de d es nu tr iç ão Renda mensal per capita 16 Ambos operadores, o valor absoluto e o quadrado desempenham a mesma função que é a de eliminar o sinal dos erros. O próximo passo consiste em retomar a definição da aproximação linear à FRP, Y෩ = β + βଵX e a incorporar a (1’). ܧ[( ܻ − β − βଵ ܺ)ଶ] A reta que corresponde à melhor aproximação linear à FRP é obtida escolhendo-se os valores de β0 e β1 que minimizam o quadrado dos erros de aproximação. É o que propõe o método de mínimos quadrados ordinários (MQO). Formalmente, o problema de minimização pode ser escrito como: ݉݅݊{ఉబ,ఉభ}ܧ[( ܻ − β − βଵ ܺ)ଶ] A resolução deste problema requer o emprego de cálculo diferencial. O que se resume a tomar as derivadas parciais da expressão entre colchetes e igualar as expressões resultantes a zero. Assim fazendo, são obtidas as duas condições de primeira ordem, quais sejam: ܧ[( ܻ − β − βଵ ܺ)] = 0 (1) ܧ[ ܺ( ܻ − β − βଵ ܺ)] = 0 (2) Ou, alternativamente ܧ[ ܻ − β − βଵ ܺ] = 0 (1) ܧൣܺ ܻ − ܺβ − βଵܺ ଶ൧ = 0 (2) Os estimadores para os parâmetros não podem ser obtidos diretamente destas equações, uma vez que elas contêm o operador expectativa, o qual apenas pode ser empregado na população. O passo final consiste em aplicar o assim-chamado “princípio da analogia”, que estabelece que os estimadores podem ser obtidos substituindo-se momentos populacionais por momentos amostrais análogos16. O operador análogo à expectativa, da população, é a média, na amostra. Substituindo expectativas por médias nas equações acima, chega-se a: 1ܰ ൫ݕ − ߚመ − ߚመଵݔ൯ = 0ே ୀଵ (1′) 1ܰ ݔ൫ݕ − ߚመ − ߚመଵݔ൯ = 0 (2′)ே ୀଵ 16 A palavra “momento” denota expectativas ou médias de potências de variáveis, o que abrange tanto a média aritmética como a média do quadrado de uma variável. 17 Este sistema de duas equações pode ser manipulado de maneira a obterem-se as soluções: ߚመ = ݕത − ߚመଵ̅ݔ (3) ߚመଵ = ∑ (ݕ − ݕത)(ݔ − ̅ݔ)ேୀଵ∑ (ݔ − ̅ݔ)ଶேୀଵ (4) Eis a fórmula dos estimadores de MQO para os parâmetros da FRP. Deve-se notar que o estimador para o coeficiente angular tem em seu numerador a covariância amostral entre Y e X, e, em seu denominador, a variância amostral de X, i.e.: ߚመଵ = ܥݒ(ݔ, ݕ)ܸ(ݔ) (4′) 2.6 Critério alternativo para obter o estimador de MQO: método dos momentos (Woodridge, seção 2.2) O método de mínimos quadrados ordinários é apenas um dos métodos a partir do qual é possível obter os estimadores para os parâmetros da FRP. Há dois outros métodos que também permitem chegar a eles, o método de máxima verossimilhança e o método dos momentos. Por hora, será focado o último, uma vez que ele é a base da derivação apresentada por Wooldridge na seção 2.2 de seu livro17. O método dos momentos não parte de uma condição de otimização, mas sim de uma hipótese, denominada condição de ortogonalidade. Esta, tal como é o caso do critério de minimização do erro quadrático médio, consiste em uma afirmação que vale para a população. Trata-se de exigir que a covariância entre o termo de perturbação e a variável independente seja nula. Formalmente: cov[xi,ui] = 0 (MM1), i=1,...,N Além disso, assume-se que a expectativa do termo de perturbação é nula. E[ui] = 0 (MM2), i=1,...,N Da definição de covariância, tem-se cov[xi, ui] = E[(xi-E[xi]) (ui-E[ui])] = E[xi ui] + E[xi]E[ui] – E[xi]E[ui] + E[xi]E[ui] = E[xi ui] cov[xi, ui] = E[xi ui] (*); a última passagem decorre diretamente de MM2. Levando o resultado (*) a MM1, tem-se: E[xi ui] = 0 (MM1’), i=1,...,N As condições MM1’ e MM2 são equivalentes às condições de primeira ordem do problema de minimização do erro quadrático médio, este o critério de obtenção de 17 Segunda edição em inglês. 18 estimadores fornecido pelo método de mínimos quadrados. O primeiro passo para perceber isso consiste em reescrever MM1’ e MM2, explorando a definição do termo de perturbação, tal como segue. E[xi (yi - β0 - β1xi)] = 0 (MM1’), i=1,...,N E[yi - β0 - β1xi] = 0 (MM2), i=1,...,N Como segundo passo, recorre-se ao “princípio da analogia”, substituindo os momentos populacionais, E[xi(yi - β0 - β1xi)] e E[ui], por suas contrapartidas amostrais, ∑ ݔ൫ݕ − ߚመଵ − ߚመଵݔ൯ ே ୀଵ e ∑ ൫ݕ − ߚመଵ − ߚመଵݔ൯ேୀଵ , de modo a chegar em: ∑ ݔ൫ݕ − ߚመ − ߚመଵݔ൯ ே ୀଵ = 0 (MM1’’) ∑ ൫ݕ − ߚመ − ߚመଵݔ൯ ே ୀଵ = 0 (MM2’) Tem-se, pois, as equações equivalentes às que o método de MQO conduz. 2.7 Valores previstos e resíduos Uma vez obtidas as estimativas pontuais para os parâmetros, intercepto, ߚመ e coeficiente, ߚመଵ, é possível, com base neles, obter os valores previstos, pela regressão, para a variável dependente. Basta tomar ݕො = ߚመ − ߚመଵݔ, i=1,...,N. A diferença entre os valores previstos e os valores observados é uma medida para os equívocos cometidos pela regressão. Na maioria dos casos, a reta de regressão (FRA) erra para um número não desprezível de observações. Isso ocorre por dois motivos. Em primeiro lugar, há o erro de aproximação linear da FRP, uma vez que se toma uma forma linear para essa, mesmo sendo que isso não necessariamente é verdade. Em segundo lugar, há o erro de inferência, oriundo do emprego da informação disponível na amostra para inferir a FRP. Este segundo erro, portanto, diz respeito à discrepância entre a FRA e a FRP e à “qualidade” do salto de inferência. Uma medida para o tamanho dos erros pode ser calculada como segue: ݑො = ݕ − ݕො = ݕ − ߚመ − ߚመଵݔ (A) Trata-se do geralmente se denomina por resíduos da regressão. Um detalhe crucial está na diferença conceitual entre os termos de perturbação da FPR e os resíduos18. Os primeiros nunca são observados, exatamente porque representam todas 18 Gujarati comete um ato de imprecisão (ou de incorreção) ao afirmar, na p.49, que o termo de perturbação é conceitualmente análogo aos resíduos. Wooldridge, corretamente, assinala que se trata de elementos conceitualmente distintos em pelo menos três momentos do capítulo 2 de seu livro. Na p. 56 há uma explicação suficientemente clara, a qual é reproduzida no texto. 19 as variáveis explicativas que influenciam a variável dependente mas que não são observadas. Já os resíduos são sempre observados e é sempre possível os calcular a partir dos dados disponíveis. A razão apresentada no parágrafo anterior é plenamente suficiente para explicar a diferença conceitual entre erros e resíduos. Mas, para deixar mais claro que se trata de elementos distintos, pode-se recorrer à diferença algébrica, seguindo Wooldridge (p. 56). Aplicando a definição da FRP na equação (A) acima, chega-se a: ݑො = ߚ + ߚଵݔ + ݑ − ߚመ − ߚመଵݔ(ܣ′) Após a fatoração, tem-se: ݑො = ݑ + ൫ߚ − ߚመ൯ + ൫ߚଵ − ߚመଵ൯ݔ(ܣ′′) Ou, de maneira mais clara: ݑො − ݑ = ൫ߚ − ߚመ൯ + ൫ߚଵ − ߚመଵ൯ݔ(ܣ′′′) Como o termo do lado direito não é zero, pois os valores estimados para os parâmetros geralmente não são exatamente equivalentes aos valores populacionais19, fica demonstrando que erros e resíduos são algebricamente distintos. 2.8 Propriedades algébricas Há três propriedades algébricas essenciais do estimador de MQO. Tais propriedades dizem respeito à estrutura matemática do estimador, sendo, portanto, sempre válidas, sem que seja necessário assumir qualquer hipótese que as garanta. (A) A soma dos resíduos da regressão é nula. A primeira condição de primeira ordem a partir da qual se obtém o estimador de MQO é equivalente a ∑ ൫ݕ − ߚመଵ −ேୀଵ ߚመଶݔ൯ = 0, ou, alternativamente, ∑ (ݕ − ݕො)ேୀଵ = ∑ ݑොேୀଵ = 0; Há um corolário fundamental da propriedade (A) que é a de que, na média, o modelo de regressão acerta. Para ver isso, basta tomar a última passagem, em que se afirma que ∑ (ݕ − ݕො)ேୀଵ = 0, e, pois, ∑ ݕேୀଵ = ∑ ݕොேୀଵ . Este corolário é importante, pois ele nos diz que, obrigatoriamente, se a regressão superestima alguns valores, ela obrigatoriamente tem de subestimar os demais, pois apenas assim os erros podem se cancelar quando somados. (B) A covariância amostral entre a variável independente e o resíduo é nula. Esta propriedade também decorre das condições de primeira ordem, mas, neste caso, da segunda delas. Esta é tal que ∑ ݔ൫ݕ − ߚመଵ − ߚመଶݔ൯ ேୀଵ = 0. O que é igual a ∑ ݔݑො = 0 ேୀଵ . 19 Isso é verdade mesmo quando, em média, os valores estimados são equivalentes aos valores populacionais, i.e., quando os estimadores são não-viesados. 20 (C) O ponto do plano cartesiano que corresponde aos valores médios para Y e X, (̅ݔ, ݕത) é parte da reta de regressão. A demonstração é simples, basta notar que (i) ݕത = ܰିଵ ∑ ݕ ே ୀଵ ݁ (݅݅) ∑ ݕேୀଵ = ∑ ݕොேୀଵ . Do que decorre: ܰିଵ ∑ ൫ߚመଵ + ߚመଶݔ + ݑො൯ேୀଵ = ߚመଵ + ܰିଵߚመଶ ∑ ݔேୀଵ + ܰିଵ ∑ ݑොேୀଵ → ݕത = ߚመଵ + ߚመଶ̅ݔ. nota_de_aula_5.pdf 1 Notas de aula para o curso de Econometria I Nota 5: coeficiente de determinação, não-linearidade e propriedades estatísticas Thiago Fonseca Morello fonseca.morello@ufabc.edu.br sala 301, Bloco Delta, SBC 1 Coeficiente de determinação e ANOVA Uma razão pela qual os resíduos podem assumir valores consideráveis repousa no fato de que a variável explicativa X não explica completamente a variação de Y na amostra. Existe, porém, uma diferença entre explicar uma proporção muito baixa da variação de Y, praticamente desprezível, e uma proporção relevante, mesmo que inferior a 100%. Daí porque é relevante saber qual é, exatamente, a proporção de Y explicada pelo modelo estimado. O coeficiente de determinação, ou r2 é uma medida para a qualidade do ajuste aos dados do modelo estimado. Ele equivale à razão entre a variação amostral de Y explicada pelo modelo (numerador) pela variação total de Y na amostra (denominador). Como medida para a variação explicada pelo modelo, é tomada a soma dos quadrados da diferença entre o valor de Y previsto pelo modelo e a média (amostral) de Y. O que é denominado por soma dos quadrados explicada (SQE). E isso pois, sem recorrer à regressão linear, a maneira mais simples de prever o valor de Y para cada observação é tomando a média de Y. Esta previsão “primitiva” é uma base a partir da qual o conteúdo informacional trazido pela regressão linear tem de ser julgado: se tal técnica não explica uma proporção da variação de Y consideravelmente superior à explicada pela média, não vale a pena recorrer a ela. De modo coerente, a variação total a ser explicada é medida pela soma dos desvios de Y em torno de sua média, ou soma dos quadrados total (SQT), uma medida quase equivalente à variância de Y. Formalmente, tem-se: ݎଶ = ܵܳܧ ܵܳܶ = ∑ (ݕො − ݕത)ଶேୀଵ ∑ (ݕ − ݕത)ଶேୀଵ = 1 − ∑ ݑොଶேୀଵ∑ (ݕ − ݕത)ଶேୀଵ Em que ∑ ݑො ଶே ୀଵ é a soma dos quadrados dos resíduos (SQR), medida para a proporção da variação que permanece não explicada. Estimado o modelo a partir dos dados disponíveis, as somas dos quadrados podem ser dispostas em uma tabela de Análise de Variância (ANOVA, na sigla em inglês), cujo formato geral, para a regressão simples, é apresentado na tabela 1 abaixo. 2 Tabela 1 Tabela ANOVA Fonte de variação Soma dos quadrados Graus de liberdade Soma dos quadrados média Devido à regressão SQE 1 SQEM =SQE/1 Devido aos resíduos SQR N – 2 SQRM =SQR/(N-2) Total SQT N – 1 SQTM= SQT/(N-1) A terceira coluna compreende as contagens de graus de liberdade, isto é, de partículas informacionais contidas na amostra cujo valor não é fixado pelas estatísticas. Uma explicação mais detalhada pode ser encontrada na nota de aula suplementar 1. Por hora, basta compreender a contagem para cada uma das linhas da tabela. O cálculo da SQT depende do cálculo prévio da média de Y, o que elimina uma partícula de informação livre. Sobram, portanto, N – 1 partículas livres e este é o conteúdo informacional com base no qual a SQT é calculada. O cálculo da SQR, por sua vez, pressupõe a obtenção de duas estimativas pontuais, para o intercepto e para o coeficiente, duas estatísticas, de modo que restam, N – 2 partículas informacionais livres para, com base nelas, obter a SQR. A contagem para a SQE é feito de maneira diferente. Leva-se em conta o fato de que SQE = SQT – SQR, ou seja, a SQE pode ser calculada diretamente a partir desta diferença. Os graus de liberdade associados correspondem, analogamente, à diferença dos graus de liberdade correspondentes à SQT e à SQR, i.e., N – 1 – (N – 2) = 1. Uma interpretação visual do coeficiente de determinação é provida pela figura abaixo. 3 Figura 1 Visualizando o coeficiente de determinação: reta de regressão amostral para X e Y (linha vermelha), média de Y (linha pontilha horizontal) e duas observações (pontos A e B) A distância vertical entre o ponto A e a linha de regressão, em vermelho, corresponde à o que a SQR capta, i.e., à porção da variação de Y não explicada pelo modelo. Já a distância vertical entre a linha vermelha e a média de Y, indicada pela linha pontilhada, corresponde à porção explicada da variação, medida pela SQE. É nestas duas parcelas que se desdobra o desvio em Y em relação à sua média, incorporada à SQT, equivalente à distância entre a coordenada vertical do ponto A e a média de Y. O gráfico abaixo deixa mais claro esta repartição da variação total. 4 Figura 2 Visualizando a repartição da SQT em SQR e SQE 2 Incorporando não-linearidade na variável independente Não necessariamente a relação entre Y e X é linear. Por exemplo, a teoria microeconômica sugere que a relação entre quantidade e custo total médio é quadrática, de modo
Compartilhar