Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Notas de aula para o curso de Econometria I Nota de aula suplementar 1: uma primeira aproximação à contagem do número de graus de liberdade consumidos por estatísticas comumente utilizadas em econometria Thiago Fonseca Morello fonseca.morello@ufabc.edu.br sala 301, Bloco Delta, SBC 1 Introdução Por graus de liberdade (gl) se entende o número de partículas de informação livres para variar, ou seja, o número de observações para as quais o valor de nenhuma variável é fixado (impedido de variar) por restrições imposta aos dados pelo analista. Seja tomada como exemplo uma estrutura de dados em que há apenas uma variável e cinco observações, i.e., é observada apenas uma característica de cinco indivíduos, sua renda mensal. Os dados se resumem ao conjunto {R$724, R$1.448, R$2.172, R$724, R$500} - há, portanto, dois indivíduos com renda superior ao salário mínimo de Dezembro de 2013, dois indivíduos com renda exatamente igual a este limite e um indivíduo com renda inferior ao salário mínimo. Neste caso, pode-se dizer que há exatamente cinco graus de liberdade, pois os valores da renda (única variável observada) de cada indivíduo podem variar livremente, uma vez que não há uma restrição que os conecte, fixando ao menos alguns deles. A renda média da amostra é de R$1.113,6. Seja assumido, a título de experimento mental, que apenas o valor da média é conhecido. Será possível, com base apenas nesta informação, recuperar os valores das rendas dos cinco indivíduos? A resposta é claramente não, pois é impossível, a partir de uma única medida, extrair cinco partículas informacionais. Trata-se de um problema equivalente ao de resolver um sistema de equações em que há cinco incógnitas e apenas uma equação. A equação, no caso, é dada por: 15ݔହ ୀଵ = 1.113,6 ↔ 15 (ݔଵ + ݔଶ + ݔଷ + ݔସ + ݔହ) = 1.113,6 Porém, se, além da média, fossem conhecidos os valores da renda de quatro das cinco observações, haveria apenas uma incógnita, a renda da quinta observação. O valor desta poderia ser recuperado a partir da equação acima. Esta recuperação é possível pois, estando determinados os valores de quatro das cinco observações e também da média, existiria apenas uma única possibilidade lógica para o valor da quinta observação. Isto pode ser interpretado como se restassem, uma vez calculada a média, apenas quatro das cinco partículas informacionais livres para assumir qualquer valor. 2 De fato, mesmo se quatro dos cinco valores de renda fossem alterados, a média não necessariamente seria alterada, desde que o quinto valor fosse alterado de maneira compensatória. Dada a média, uma das observações é residual, i.e., seu valor é definido em função dos valores das demais. É por isso que se diz que a média consome uma partícula de informação “livre”, restando N – 1 partículas “livres”, irrestritas, sendo N o número de observações; N =5, no presente exemplo. Os graus de liberdade, portanto, correspondem ao número de observações da amostra que não desempenham o papel de “resíduo”, i.e., que não servem para garantir a verificação de uma restrição introduzida por uma estatística. Uma definição esclarecedora de graus de liberdade é a apresentada por Eisenhauer (2008), reproduzida abaixo. “Portanto, no maior nível de generalidade e no nível mais elementar, nós podemos conceber os graus de liberdade como o número de partículas de informação que podem ser livremente variadas sem que para isso seja violada nenhuma restrição em particular”(Eisenhauer: 2008, p.74, ênfase adicionada). Eisenhauer (2008) provê um exemplo de como os graus de liberdade são um conceito recorrente em nossa vida cotidiana. O tempo para realizar atividades diárias é, inexoravelmente, de 24 horas. O que significa que estudar econometria, estudar para outras disciplinas, trabalhar e desenvolver outras atividades são tarefas cuja execução exige o fracionamento das 24 horas. E isso tem de ser feito de maneira que, se há desejo em realizar, em um dado dia, três atividades, por exemplo, apenas é possível escolher a fração do dia a ser dedicada a duas delas. A fração alocada à terceira é residual. Há, pois T-1 graus de liberdade no problema de alocação de tempo entre T atividades. 2 Alguns exemplos de contagem do número de graus de liberdade Com base no discutido se pode compreender porque a variância, calculada a partir de uma amostra de dados, i.e., a variância amostral, tem no denominador de sua fórmula a quantidade N – 1 e não a quantidade N. Seguindo o texto de Eisenhauer (2008), enquanto a mera contagem do número de observações é uma medida “nominal” - ou seja, intuitiva, porém, ilusória, para certos fins - para o conteúdo informacional da amostra, a contagem do número de graus de liberdade é uma medida “efetiva” (Eisenhauer: p.4). O numerador da variância consiste na soma dos quadrados dos desvios da média, e, requer, pois, como primeiro passo, o cálculo da média. Como já discutido, a média é uma restrição imposta aos dados e redunda na eliminação de uma partícula de informação livre para variar. Restam N - 1 graus de liberdade após o cálculo da média. O tamanho do conteúdo informacional empregado para calcular a variância, portanto, medindo este a partir dos graus de liberdade, é equivalente a N – 1. Este deve ser a base em função da qual o grau médio de volatilidade, medido pela variância, é obtido. A estimação de uma regressão múltipla com K variáveis explicativas impõe K + 1 restrições aos dados. Trata-se das equações a partir das quais as estimativas pontuais 3 para cada parâmetro são obtidas. Estas, por sua vez, resultam das condições de primeira ordem do problema de minimização dos quadrados dos erros de aproximação linear, o qual define o estimador de MQO. Cada estimativa pontual é uma estatística (uma função dos dados), assim como a média. Desta maneira, N – (K+1) partículas livres de informação restam após a obtenção das estimativas pontuais. Este é o número de graus de liberdade (gl) de uma amostra utilizada para a estimação de um modelo de regressão linear. Uma regra geral que pode ser empregada para os modelos de regressão linear é o de que o número de graus de liberdade é equivalente ao número total de observações deduzido do número de parâmetros, i.e., geralmente N-(K+1) (Wooldridge: p.99). O vetor de resíduos, obtido a partir de Y - Xߚመ, possui N – (K+1) graus de liberdade. A razão para isso está em que os resíduos devem satisfazer K+1 condições, estas também derivando das condições de primeira ordem do MQO. São elas: ݑො ே ୀଵ = 0,ݔଵݑොே ୀଵ = 0, … ,ݔݑොே ୀଵ = 0 Também se pode entender a diferença entre o coeficiente de determinação ordinário, ܴଶ e o coeficiente de determinação ajustado, ܴଶതതതത. Apenas o segundo leva em conta o tamanho efetivo dos conteúdos informacionais empregados para calcular cada um de seus dois componentes, a soma dos quadrados dos resíduos (SQR) e a soma dos quadrados total (SQT). É preciso ter em vista a fórmula abaixo. ܴଶതതതത = 1 − ܴܵܳ/(ܰ − ܭ − 1) ܵܳܶ/(ܰ − 1) = ∑ ൫ݕത − ߚመ − ߚመଵݔଵ −⋯− ߚመଵݔ൯ଶ/(ܰ −ܭ − 1)ேୀଵ ∑ (ݕ − ݕത)ଶேୀଵ /(ܰ − 1) Para calcular a SQR é, como primeiro passo, necessário calcular as estimativas pontuais para todos os K+1 parâmetros do modelo linear de regressão múltipla. Os graus de liberdade disponíveis para obter a SQE são, pois, equivalentes a N – (K+1). O cálculo da SQT, porém, requer apenas o cálculo da média da variável dependente, ݕത, restando N -1 partículas informacionais livres. Esta intepretação do coeficiente de determinação ajustado implica que tal medida é sempre preferível ao coeficiente de determinação ordinário. A estatística F do teste de significância conjunta de q variáveis explicativas tem K graus de liberdade (gl) no numerador e N-(K+1) gl no denominador. Uma maneira de entenderporque parte da fórmula da estatística. F = ܴܵܳோ − ܴܵܳூோ/(݈݃ோ − ݈݃ூோ) ܴܵܳூோ/݈݃ூோ = ܴூோଶ − ܴோଶ/(݈݃ோ − ݈݃ூோ)ܴூோଶ /݈݃ூோ No numerador tem-se a diferença para a soma dos quadrados (SQR) dos resíduos comparando os modelos “restrito e “irrestrito”. É preciso notar que a palavra restrição 4 assume agora um significado distinto do até então utilizado neste Box, qual seja, o de exclusão de variáveis explicativas. Não se trata, portanto, de impor q condições adicionais aos dados, reduzindo, com isso, os graus de liberdade, mas sim de eliminar variáveis explicativas. Para designar trais restrições será, doravante, empregado o termo “restrições de exclusão”. É também pertinente recordar que SQRூோ = ∑ ݁̂ଶேୀଵ = ∑ (ݕ − ݕො)ଶேୀଵ = ∑ ൫ݕ −ேୀଵ ߚመ − ߚመଵݔଵ −⋯− ߚመଵݔ൯ ଶ . O que torna explícito que é necessário estimar K+1 parâmetros para calcular a SQRூோ . A diferença de SQRs deve ser dividida pela diferença de graus de liberdade remanescentes após o cálculo das estatísticas associadas, glR - glIR. Para calcular a SQR para o modelo restrito, foram impostas K + 1 – q restrições ao modelo, uma vez que este deixa de incorporar, por força das restrições de exclusão, q explicativas e, portanto, requer a estimação de apenas K+1 - q parâmetros. Então, glR = N – (K+1 – q). Para calcular a SQR do modelo irrestrito, foram impostas K+1 restrições ao modelo, pois este é o número de parâmetros que ele contém. Daí, glIR = N – (K+1). Conclusivamente, glR - glIR = N – (K+1 – q) – [N – (K+1)] = q. Chega-se, portanto, a: F = ܴܵܳோ − ܴܵܳூோ/ݍ ܴܵܳூோ/(ܰ − ܭ − 1) Para obterem-se os graus de liberdade da estatística F empregada no teste de significância global da regressão, usa-se um raciocínio análogo. Basta perceber que, neste caso, está-se colocando em questão a significância conjunta de todas as variáveis explicativas e, portanto, consideram-se K restrições de exclusão. Desta forma, glR = N – (K + 1 – K) = N -1 e glIR, valor este que não se altera em função do número de restrições de exclusão, é equivalente a N-(K+1). Portanto, glR - glIR = N -1 – [N-(K+1)] = K. Desta maneira, a estatística do teste de significância global é: F = ܴܵܳோ − ܴܵܳூோ/ܭ ܴܵܳூோ/(ܰ − ܭ − 1) A estatística F para ambos os testes vistos pode ser transformada de maneira a que ela possa ser calculada a partir do R2, bastando levar em conta que R2 = SQE/SQT, em que SQE = ∑ (ݕത − ݕො)ଶேୀଵ e SQT = ∑ (ݕത − ݕ)ଶேୀଵ ; ou, de maneira equivalente, SQR = (1- R2)SQT. Mesmo assim, é preciso assinalar que a compreensão da contagem dos gl do numerador e do denominador é mais clara com base na versão da estatística que incorpora as SQRs. O teste de significância individual para o k-ésimo coeficiente toma por base a estatística t = ఉೖ (ఉೖ) , a qual tem distribuição t com N - (K+1) gl. Porque o número de graus de liberdade associados à estatística - i.e., as partículas informacionais cuja possibilidade de variação não é suprimida pela estatística - é exatamente equivalente ao que se têm após calcular as estimativas pontuais de todos os K+1 parâmetros? Pois não é necessário 5 impor nenhuma restrição adicional aos dados para obter a estatística t, i.e., o valor desta pode ser calculado apenas com base nas estimativas pontuais. Para ver isso é preciso proceder por partes, procurando esclarecer quais são os cálculos necessários para obter o numerador e o denominador da estatística t. Para o numerador, o cálculo é evidente, trata-se da fórmula ߚመ = (X’X)-1(X’Y), esta retornando o valor dos K+1 parâmetros do modelo. Porém, para o denominador, o cálculo envolve dois passos. Basta perceber que a variância dos estimadores pode ser representada como V(ߚመ |X) = E[(ߚመ- ߚ)(ߚመ- ߚ)’|X] = (X’X)-1X’E[uu’]X (X’X)-1. Sob as hipóteses do MCRL de homocedasticidade e de ausência de autocorrelação, V(ߚመ |X) = σ2(X’X)-1. Uma vez que a variância das perturbações, σ2, é desconhecida, é necessário estimá-la, o que é feito a partir do estimador σෝଶ = ∑ ௨ෝమಿసభ ே-(ାଵ). O número de gl remanescentes após o cálculo da estimativa para σ2 é equivalente a N-(K+1) como o próprio denominador do estimador deixa claro. A razão para isso está em que não é preciso impor nenhuma restrição adicional aos dados para obter σෝଶ, já que isso requer apenas o cálculo do quadrado dos resíduos, estes obtidos diretamente a partir das estimativas pontuais. 3 Razões pelas quais mais graus de liberdade são preferíveis a menos Alguns livros texto dão a entender que um número alto de graus de liberdade é desejável, mas raramente são apresentadas razões para isso. No que segue, são descritas duas razões. A primeira é uma razão técnica. Estatísticas cuja obtenção requer a imposição de muitas restrições aos dados podem não ser factíveis em amostras pequenas. Um exemplo é a estatística F para o teste de heterocedasticidade de White (Wooldridge: p.259). Ocorre que o número de graus de liberdade não pode ser negativo, uma vez que ele representa os parâmetros das estatísticas empregadas nos testes de significância individual e conjunta. De fato, esta possibilidade pode ocorrer, quando o número de restrições é superior ao número de observações e, neste caso, se torna impossível realizar os testes de significância individual e conjunta. A segunda razão é metodológica e decorre diretamente da introdução desta nota suplementar. O número de graus de liberdade pode também ser entendido como o tamanho efetivo do conteúdo informacional com base no qual as conclusões da análise são retiradas. Trata-se, segundo alguns autores, da verdadeira medida do conteúdo informacional em que a análise se apoia, ou seja, trata-se da medida mais adequada para o tamanho da amostra (Eisenhauer: p.4). A credibilidade da análise econométrica, neste sentido, é diretamente proporcional ao número de graus de liberdade da amostra, e, portanto, inversamente proporcional ao número de cálculos (estatísticas) em que se apoia. A razão para isso se torna mais clara a partir da classificação da informação a partir da qual as conclusões da análise são 6 estabelecidas. Em primeiro lugar há a informação bruta, a matéria-prima, os dados em si. Em segundo lugar, há a informação líquida, processada, a qual resulta dos cálculos que constituem o processo de análise econométrica. Quanto mais dependente as conclusões forem desta segunda classe de informação, mais elas refletem o instrumento analítico e, pois, as hipóteses que o dão base (as quais não podem ser, todas elas, testadas) e menos a “realidade” tal como captada pelos dados. No limite, a análise empírica corre o risco de se tornar uma análise teórica, quando suas conclusões derivam completamente das hipóteses que dão base ao instrumento analítico.
Compartilhar