Buscar

Nota_de_aula_suplementar_1_corr_16_10

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

1 
 
Notas de aula para o curso de Econometria I 
Nota de aula suplementar 1: uma primeira aproximação à contagem do número de 
graus de liberdade consumidos por estatísticas comumente utilizadas em 
econometria 
Thiago Fonseca Morello 
fonseca.morello@ufabc.edu.br 
sala 301, Bloco Delta, SBC 
1 Introdução 
Por graus de liberdade (gl) se entende o número de partículas de informação livres para 
variar, ou seja, o número de observações para as quais o valor de nenhuma variável é 
fixado (impedido de variar) por restrições imposta aos dados pelo analista. 
Seja tomada como exemplo uma estrutura de dados em que há apenas uma variável e 
cinco observações, i.e., é observada apenas uma característica de cinco indivíduos, sua 
renda mensal. Os dados se resumem ao conjunto {R$724, R$1.448, R$2.172, R$724, 
R$500} - há, portanto, dois indivíduos com renda superior ao salário mínimo de 
Dezembro de 2013, dois indivíduos com renda exatamente igual a este limite e um 
indivíduo com renda inferior ao salário mínimo. Neste caso, pode-se dizer que há 
exatamente cinco graus de liberdade, pois os valores da renda (única variável 
observada) de cada indivíduo podem variar livremente, uma vez que não há uma 
restrição que os conecte, fixando ao menos alguns deles. 
A renda média da amostra é de R$1.113,6. Seja assumido, a título de experimento 
mental, que apenas o valor da média é conhecido. Será possível, com base apenas nesta 
informação, recuperar os valores das rendas dos cinco indivíduos? A resposta é 
claramente não, pois é impossível, a partir de uma única medida, extrair cinco partículas 
informacionais. Trata-se de um problema equivalente ao de resolver um sistema de 
equações em que há cinco incógnitas e apenas uma equação. A equação, no caso, é dada 
por: 15෍ݔ௜ହ
௜ୀଵ
= 1.113,6 ↔ 15 (ݔଵ + ݔଶ + ݔଷ + ݔସ + ݔହ) = 1.113,6 
Porém, se, além da média, fossem conhecidos os valores da renda de quatro das cinco 
observações, haveria apenas uma incógnita, a renda da quinta observação. O valor desta 
poderia ser recuperado a partir da equação acima. Esta recuperação é possível pois, 
estando determinados os valores de quatro das cinco observações e também da média, 
existiria apenas uma única possibilidade lógica para o valor da quinta observação. Isto 
pode ser interpretado como se restassem, uma vez calculada a média, apenas quatro das 
cinco partículas informacionais livres para assumir qualquer valor. 
2 
 
De fato, mesmo se quatro dos cinco valores de renda fossem alterados, a média não 
necessariamente seria alterada, desde que o quinto valor fosse alterado de maneira 
compensatória. Dada a média, uma das observações é residual, i.e., seu valor é definido 
em função dos valores das demais. É por isso que se diz que a média consome uma 
partícula de informação “livre”, restando N – 1 partículas “livres”, irrestritas, sendo N o 
número de observações; N =5, no presente exemplo. 
Os graus de liberdade, portanto, correspondem ao número de observações da amostra 
que não desempenham o papel de “resíduo”, i.e., que não servem para garantir a 
verificação de uma restrição introduzida por uma estatística. Uma definição 
esclarecedora de graus de liberdade é a apresentada por Eisenhauer (2008), reproduzida 
abaixo. 
“Portanto, no maior nível de generalidade e no nível mais elementar, nós podemos 
conceber os graus de liberdade como o número de partículas de informação que podem 
ser livremente variadas sem que para isso seja violada nenhuma restrição em 
particular”(Eisenhauer: 2008, p.74, ênfase adicionada). 
Eisenhauer (2008) provê um exemplo de como os graus de liberdade são um conceito 
recorrente em nossa vida cotidiana. O tempo para realizar atividades diárias é, 
inexoravelmente, de 24 horas. O que significa que estudar econometria, estudar para 
outras disciplinas, trabalhar e desenvolver outras atividades são tarefas cuja execução 
exige o fracionamento das 24 horas. E isso tem de ser feito de maneira que, se há desejo 
em realizar, em um dado dia, três atividades, por exemplo, apenas é possível escolher a 
fração do dia a ser dedicada a duas delas. A fração alocada à terceira é residual. Há, pois 
T-1 graus de liberdade no problema de alocação de tempo entre T atividades. 
2 Alguns exemplos de contagem do número de graus de liberdade 
Com base no discutido se pode compreender porque a variância, calculada a partir de 
uma amostra de dados, i.e., a variância amostral, tem no denominador de sua fórmula a 
quantidade N – 1 e não a quantidade N. Seguindo o texto de Eisenhauer (2008), 
enquanto a mera contagem do número de observações é uma medida “nominal” - ou 
seja, intuitiva, porém, ilusória, para certos fins - para o conteúdo informacional da 
amostra, a contagem do número de graus de liberdade é uma medida “efetiva” 
(Eisenhauer: p.4). O numerador da variância consiste na soma dos quadrados dos 
desvios da média, e, requer, pois, como primeiro passo, o cálculo da média. Como já 
discutido, a média é uma restrição imposta aos dados e redunda na eliminação de uma 
partícula de informação livre para variar. Restam N - 1 graus de liberdade após o 
cálculo da média. O tamanho do conteúdo informacional empregado para calcular a 
variância, portanto, medindo este a partir dos graus de liberdade, é equivalente a N – 1. 
Este deve ser a base em função da qual o grau médio de volatilidade, medido pela 
variância, é obtido. 
A estimação de uma regressão múltipla com K variáveis explicativas impõe K + 1 
restrições aos dados. Trata-se das equações a partir das quais as estimativas pontuais 
3 
 
para cada parâmetro são obtidas. Estas, por sua vez, resultam das condições de primeira 
ordem do problema de minimização dos quadrados dos erros de aproximação linear, o 
qual define o estimador de MQO. Cada estimativa pontual é uma estatística (uma 
função dos dados), assim como a média. Desta maneira, N – (K+1) partículas livres de 
informação restam após a obtenção das estimativas pontuais. Este é o número de graus 
de liberdade (gl) de uma amostra utilizada para a estimação de um modelo de regressão 
linear. 
Uma regra geral que pode ser empregada para os modelos de regressão linear é o de que 
o número de graus de liberdade é equivalente ao número total de observações deduzido 
do número de parâmetros, i.e., geralmente N-(K+1) (Wooldridge: p.99). 
O vetor de resíduos, obtido a partir de Y - Xߚመ, possui N – (K+1) graus de liberdade. A 
razão para isso está em que os resíduos devem satisfazer K+1 condições, estas também 
derivando das condições de primeira ordem do MQO. São elas: 
෍ݑො௜
ே
௜ୀଵ
= 0,෍ݔ௜ଵݑො௜ே
௜ୀଵ
= 0, … ,෍ݔ௜௄ݑො௜ே
௜ୀଵ
= 0	 
Também se pode entender a diferença entre o coeficiente de determinação ordinário, ܴଶ 
e o coeficiente de determinação ajustado, ܴଶതതതത. Apenas o segundo leva em conta o 
tamanho efetivo dos conteúdos informacionais empregados para calcular cada um de 
seus dois componentes, a soma dos quadrados dos resíduos (SQR) e a soma dos 
quadrados total (SQT). É preciso ter em vista a fórmula abaixo. 
ܴଶതതതത = 1 − ܴܵܳ/(ܰ	− ܭ − 1)
ܵܳܶ/(ܰ − 1) = ∑ ൫ݕത − ߚመ଴ − ߚመଵݔ௜ଵ −⋯− ߚመଵݔ௜௄൯ଶ/(ܰ −ܭ − 1)ே௜ୀଵ ∑ (ݕ௜ − ݕത)ଶே௜ୀଵ /(ܰ − 1) 
Para calcular a SQR é, como primeiro passo, necessário calcular as estimativas pontuais 
para todos os K+1 parâmetros do modelo linear de regressão múltipla. Os graus de 
liberdade disponíveis para obter a SQE são, pois, equivalentes a N – (K+1). O cálculo 
da SQT, porém, requer apenas o cálculo da média da variável dependente, ݕത, restando 
N -1 partículas informacionais livres. 
Esta intepretação do coeficiente de determinação ajustado implica que tal medida é 
sempre preferível ao coeficiente de determinação ordinário. 
A estatística F do teste de significância conjunta de q variáveis explicativas tem K graus 
de liberdade (gl) no numerador e N-(K+1) gl no denominador. Uma maneira de 
entenderporque parte da fórmula da estatística. 
F	 = ܴܵܳோ − ܴܵܳூோ/(݈݃ோ − ݈݃ூோ)
ܴܵܳூோ/݈݃ூோ = ܴூோଶ − ܴோଶ/(݈݃ோ − ݈݃ூோ)ܴூோଶ /݈݃ூோ 
No numerador tem-se a diferença para a soma dos quadrados (SQR) dos resíduos 
comparando os modelos “restrito e “irrestrito”. É preciso notar que a palavra restrição 
4 
 
assume agora um significado distinto do até então utilizado neste Box, qual seja, o de 
exclusão de variáveis explicativas. Não se trata, portanto, de impor q condições 
adicionais aos dados, reduzindo, com isso, os graus de liberdade, mas sim de eliminar 
variáveis explicativas. Para designar trais restrições será, doravante, empregado o termo 
“restrições de exclusão”. 
É também pertinente recordar que SQRூோ 	= ∑ ݁̂௜ଶே௜ୀଵ = ∑ (ݕ − ݕො௜)ଶே௜ୀଵ = ∑ ൫ݕ −ே௜ୀଵ
ߚመ଴ − ߚመଵݔ௜ଵ −⋯− ߚመଵݔ௜௄൯
ଶ
. O que torna explícito que é necessário estimar K+1 
parâmetros para calcular a SQRூோ . 
A diferença de SQRs deve ser dividida pela diferença de graus de liberdade 
remanescentes após o cálculo das estatísticas associadas, glR - glIR. Para calcular a SQR 
para o modelo restrito, foram impostas K + 1 – q restrições ao modelo, uma vez que este 
deixa de incorporar, por força das restrições de exclusão, q explicativas e, portanto, 
requer a estimação de apenas K+1 - q parâmetros. Então, glR = N – (K+1 – q). Para 
calcular a SQR do modelo irrestrito, foram impostas K+1 restrições ao modelo, pois 
este é o número de parâmetros que ele contém. Daí, glIR = N – (K+1). Conclusivamente, 
glR - glIR = N – (K+1 – q) – [N – (K+1)] = q. Chega-se, portanto, a: F	 = ܴܵܳோ − ܴܵܳூோ/ݍ
ܴܵܳூோ/(ܰ		− ܭ − 1) 
Para obterem-se os graus de liberdade da estatística F empregada no teste de 
significância global da regressão, usa-se um raciocínio análogo. Basta perceber que, 
neste caso, está-se colocando em questão a significância conjunta de todas as variáveis 
explicativas e, portanto, consideram-se K restrições de exclusão. Desta forma, glR = N – 
(K + 1 – K) = N -1 e glIR, valor este que não se altera em função do número de 
restrições de exclusão, é equivalente a N-(K+1). Portanto, glR - glIR = N -1 – [N-(K+1)] 
= K. Desta maneira, a estatística do teste de significância global é: 
F	 = ܴܵܳோ − ܴܵܳூோ/ܭ
ܴܵܳூோ/(ܰ		− ܭ − 1) 
A estatística F para ambos os testes vistos pode ser transformada de maneira a que ela 
possa ser calculada a partir do R2, bastando levar em conta que R2 = SQE/SQT, em que 
SQE = ∑ (ݕത − ݕො௜)ଶே௜ୀଵ e SQT = ∑ (ݕത − ݕ௜)ଶே௜ୀଵ ; ou, de maneira equivalente, SQR = (1-
R2)SQT. Mesmo assim, é preciso assinalar que a compreensão da contagem dos gl do 
numerador e do denominador é mais clara com base na versão da estatística que 
incorpora as SQRs. 
O teste de significância individual para o k-ésimo coeficiente toma por base a estatística t	 = ఉ෡ೖ
௏(ఉ෡ೖ)෣ , a qual tem distribuição t com N - (K+1) gl. Porque o número de graus de 
liberdade associados à estatística - i.e., as partículas informacionais cuja possibilidade 
de variação não é suprimida pela estatística - é exatamente equivalente ao que se têm 
após calcular as estimativas pontuais de todos os K+1 parâmetros? Pois não é necessário 
5 
 
impor nenhuma restrição adicional aos dados para obter a estatística t, i.e., o valor desta 
pode ser calculado apenas com base nas estimativas pontuais. 
Para ver isso é preciso proceder por partes, procurando esclarecer quais são os cálculos 
necessários para obter o numerador e o denominador da estatística t. 
Para o numerador, o cálculo é evidente, trata-se da fórmula ߚመ = (X’X)-1(X’Y), esta 
retornando o valor dos K+1 parâmetros do modelo. 
Porém, para o denominador, o cálculo envolve dois passos. Basta perceber que a 
variância dos estimadores pode ser representada como V(ߚመ |X) = E[(ߚመ-	ߚ)(ߚመ-	ߚ)’|X] = 
(X’X)-1X’E[uu’]X (X’X)-1. Sob as hipóteses do MCRL de homocedasticidade e de 
ausência de autocorrelação, V(ߚመ |X) = σ2(X’X)-1. Uma vez que a variância das 
perturbações, σ2, é desconhecida, é necessário estimá-la, o que é feito a partir do 
estimador σෝଶ = ∑ ௨ෝ೔మಿ೔సభ
ே-(௄ାଵ). O número de gl remanescentes após o cálculo da estimativa 
para σ2 é equivalente a N-(K+1) como o próprio denominador do estimador deixa claro. 
A razão para isso está em que não é preciso impor nenhuma restrição adicional aos 
dados para obter σෝଶ, já que isso requer apenas o cálculo do quadrado dos resíduos, estes 
obtidos diretamente a partir das estimativas pontuais. 
3 Razões pelas quais mais graus de liberdade são preferíveis a menos 
Alguns livros texto dão a entender que um número alto de graus de liberdade é 
desejável, mas raramente são apresentadas razões para isso. No que segue, são descritas 
duas razões. 
A primeira é uma razão técnica. Estatísticas cuja obtenção requer a imposição de muitas 
restrições aos dados podem não ser factíveis em amostras pequenas. Um exemplo é a 
estatística F para o teste de heterocedasticidade de White (Wooldridge: p.259). Ocorre 
que o número de graus de liberdade não pode ser negativo, uma vez que ele representa 
os parâmetros das estatísticas empregadas nos testes de significância individual e 
conjunta. De fato, esta possibilidade pode ocorrer, quando o número de restrições é 
superior ao número de observações e, neste caso, se torna impossível realizar os testes 
de significância individual e conjunta. 
A segunda razão é metodológica e decorre diretamente da introdução desta nota 
suplementar. O número de graus de liberdade pode também ser entendido como o 
tamanho efetivo do conteúdo informacional com base no qual as conclusões da análise 
são retiradas. Trata-se, segundo alguns autores, da verdadeira medida do conteúdo 
informacional em que a análise se apoia, ou seja, trata-se da medida mais adequada para 
o tamanho da amostra (Eisenhauer: p.4). 
A credibilidade da análise econométrica, neste sentido, é diretamente proporcional ao 
número de graus de liberdade da amostra, e, portanto, inversamente proporcional ao 
número de cálculos (estatísticas) em que se apoia. A razão para isso se torna mais clara 
a partir da classificação da informação a partir da qual as conclusões da análise são 
6 
 
estabelecidas. Em primeiro lugar há a informação bruta, a matéria-prima, os dados em 
si. Em segundo lugar, há a informação líquida, processada, a qual resulta dos cálculos 
que constituem o processo de análise econométrica. Quanto mais dependente as 
conclusões forem desta segunda classe de informação, mais elas refletem o instrumento 
analítico e, pois, as hipóteses que o dão base (as quais não podem ser, todas elas, 
testadas) e menos a “realidade” tal como captada pelos dados. No limite, a análise 
empírica corre o risco de se tornar uma análise teórica, quando suas conclusões derivam 
completamente das hipóteses que dão base ao instrumento analítico.

Outros materiais