Nota_de_aula_suplementar_1_corr_16_10

Econometria

•

UNIFESP

2

0

2

0

Julio Cezar

22/12/2014

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.231 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1

Notas de aula para o curso de Econometria I
Nota de aula suplementar 1: uma primeira aproximação à contagem do número de
graus de liberdade consumidos por estatísticas comumente utilizadas em
econometria
Thiago Fonseca Morello
fonseca.morello@ufabc.edu.br
sala 301, Bloco Delta, SBC
1 Introdução
Por graus de liberdade (gl) se entende o número de partículas de informação livres para
variar, ou seja, o número de observações para as quais o valor de nenhuma variável é
fixado (impedido de variar) por restrições imposta aos dados pelo analista.
Seja tomada como exemplo uma estrutura de dados em que há apenas uma variável e
cinco observações, i.e., é observada apenas uma característica de cinco indivíduos, sua
renda mensal. Os dados se resumem ao conjunto {R$724, R$1.448, R$2.172, R$724,
R$500} - há, portanto, dois indivíduos com renda superior ao salário mínimo de
Dezembro de 2013, dois indivíduos com renda exatamente igual a este limite e um
indivíduo com renda inferior ao salário mínimo. Neste caso, pode-se dizer que há
exatamente cinco graus de liberdade, pois os valores da renda (única variável
observada) de cada indivíduo podem variar livremente, uma vez que não há uma
restrição que os conecte, fixando ao menos alguns deles.
A renda média da amostra é de R$1.113,6. Seja assumido, a título de experimento
mental, que apenas o valor da média é conhecido. Será possível, com base apenas nesta
informação, recuperar os valores das rendas dos cinco indivíduos? A resposta é
claramente não, pois é impossível, a partir de uma única medida, extrair cinco partículas
informacionais. Trata-se de um problema equivalente ao de resolver um sistema de
equações em que há cinco incógnitas e apenas uma equação. A equação, no caso, é dada
por: 15෍ݔ௜ହ
௜ୀଵ
= 1.113,6 ↔ 15 (ݔଵ + ݔଶ + ݔଷ + ݔସ + ݔହ) = 1.113,6
Porém, se, além da média, fossem conhecidos os valores da renda de quatro das cinco
observações, haveria apenas uma incógnita, a renda da quinta observação. O valor desta
poderia ser recuperado a partir da equação acima. Esta recuperação é possível pois,
estando determinados os valores de quatro das cinco observações e também da média,
existiria apenas uma única possibilidade lógica para o valor da quinta observação. Isto
pode ser interpretado como se restassem, uma vez calculada a média, apenas quatro das
cinco partículas informacionais livres para assumir qualquer valor.
2

De fato, mesmo se quatro dos cinco valores de renda fossem alterados, a média não
necessariamente seria alterada, desde que o quinto valor fosse alterado de maneira
compensatória. Dada a média, uma das observações é residual, i.e., seu valor é definido
em função dos valores das demais. É por isso que se diz que a média consome uma
partícula de informação “livre”, restando N – 1 partículas “livres”, irrestritas, sendo N o
número de observações; N =5, no presente exemplo.
Os graus de liberdade, portanto, correspondem ao número de observações da amostra
que não desempenham o papel de “resíduo”, i.e., que não servem para garantir a
verificação de uma restrição introduzida por uma estatística. Uma definição
esclarecedora de graus de liberdade é a apresentada por Eisenhauer (2008), reproduzida
abaixo.
“Portanto, no maior nível de generalidade e no nível mais elementar, nós podemos
conceber os graus de liberdade como o número de partículas de informação que podem
ser livremente variadas sem que para isso seja violada nenhuma restrição em
particular”(Eisenhauer: 2008, p.74, ênfase adicionada).
Eisenhauer (2008) provê um exemplo de como os graus de liberdade são um conceito
recorrente em nossa vida cotidiana. O tempo para realizar atividades diárias é,
inexoravelmente, de 24 horas. O que significa que estudar econometria, estudar para
outras disciplinas, trabalhar e desenvolver outras atividades são tarefas cuja execução
exige o fracionamento das 24 horas. E isso tem de ser feito de maneira que, se há desejo
em realizar, em um dado dia, três atividades, por exemplo, apenas é possível escolher a
fração do dia a ser dedicada a duas delas. A fração alocada à terceira é residual. Há, pois
T-1 graus de liberdade no problema de alocação de tempo entre T atividades.
2 Alguns exemplos de contagem do número de graus de liberdade
Com base no discutido se pode compreender porque a variância, calculada a partir de
uma amostra de dados, i.e., a variância amostral, tem no denominador de sua fórmula a
quantidade N – 1 e não a quantidade N. Seguindo o texto de Eisenhauer (2008),
enquanto a mera contagem do número de observações é uma medida “nominal” - ou
seja, intuitiva, porém, ilusória, para certos fins - para o conteúdo informacional da
amostra, a contagem do número de graus de liberdade é uma medida “efetiva”
(Eisenhauer: p.4). O numerador da variância consiste na soma dos quadrados dos
desvios da média, e, requer, pois, como primeiro passo, o cálculo da média. Como já
discutido, a média é uma restrição imposta aos dados e redunda na eliminação de uma
partícula de informação livre para variar. Restam N - 1 graus de liberdade após o
cálculo da média. O tamanho do conteúdo informacional empregado para calcular a
variância, portanto, medindo este a partir dos graus de liberdade, é equivalente a N – 1.
Este deve ser a base em função da qual o grau médio de volatilidade, medido pela
variância, é obtido.
A estimação de uma regressão múltipla com K variáveis explicativas impõe K + 1
restrições aos dados. Trata-se das equações a partir das quais as estimativas pontuais
3

para cada parâmetro são obtidas. Estas, por sua vez, resultam das condições de primeira
ordem do problema de minimização dos quadrados dos erros de aproximação linear, o
qual define o estimador de MQO. Cada estimativa pontual é uma estatística (uma
função dos dados), assim como a média. Desta maneira, N – (K+1) partículas livres de
informação restam após a obtenção das estimativas pontuais. Este é o número de graus
de liberdade (gl) de uma amostra utilizada para a estimação de um modelo de regressão
linear.
Uma regra geral que pode ser empregada para os modelos de regressão linear é o de que
o número de graus de liberdade é equivalente ao número total de observações deduzido
do número de parâmetros, i.e., geralmente N-(K+1) (Wooldridge: p.99).
O vetor de resíduos, obtido a partir de Y - Xߚመ, possui N – (K+1) graus de liberdade. A
razão para isso está em que os resíduos devem satisfazer K+1 condições, estas também
derivando das condições de primeira ordem do MQO. São elas:
෍ݑො௜
ே
௜ୀଵ
= 0,෍ݔ௜ଵݑො௜ே
௜ୀଵ
= 0, … ,෍ݔ௜௄ݑො௜ே
௜ୀଵ
= 0
Também se pode entender a diferença entre o coeficiente de determinação ordinário, ܴଶ
e o coeficiente de determinação ajustado, ܴଶതതതത. Apenas o segundo leva em conta o
tamanho efetivo dos conteúdos informacionais empregados para calcular cada um de
seus dois componentes, a soma dos quadrados dos resíduos (SQR) e a soma dos
quadrados total (SQT). É preciso ter em vista a fórmula abaixo.
ܴଶതതതത = 1 − ܴܵܳ/(ܰ − ܭ − 1)
ܵܳܶ/(ܰ − 1) = ∑ ൫ݕത − ߚመ଴ − ߚመଵݔ௜ଵ −⋯− ߚመଵݔ௜௄൯ଶ/(ܰ −ܭ − 1)ே௜ୀଵ ∑ (ݕ௜ − ݕത)ଶே௜ୀଵ /(ܰ − 1)
Para calcular a SQR é, como primeiro passo, necessário calcular as estimativas pontuais
para todos os K+1 parâmetros do modelo linear de regressão múltipla. Os graus de
liberdade disponíveis para obter a SQE são, pois, equivalentes a N – (K+1). O cálculo
da SQT, porém, requer apenas o cálculo da média da variável dependente, ݕത, restando
N -1 partículas informacionais livres.
Esta intepretação do coeficiente de determinação ajustado implica que tal medida é
sempre preferível ao coeficiente de determinação ordinário.
A estatística F do teste de significância conjunta de q variáveis explicativas tem K graus
de liberdade (gl) no numerador e N-(K+1) gl no denominador. Uma maneira de
entenderporque parte da fórmula da estatística.
F = ܴܵܳோ − ܴܵܳூோ/(݈݃ோ − ݈݃ூோ)
ܴܵܳூோ/݈݃ூோ = ܴூோଶ − ܴோଶ/(݈݃ோ − ݈݃ூோ)ܴூோଶ /݈݃ூோ
No numerador tem-se a diferença para a soma dos quadrados (SQR) dos resíduos
comparando os modelos “restrito e “irrestrito”. É preciso notar que a palavra restrição
4

assume agora um significado distinto do até então utilizado neste Box, qual seja, o de
exclusão de variáveis explicativas. Não se trata, portanto, de impor q condições
adicionais aos dados, reduzindo, com isso, os graus de liberdade, mas sim de eliminar
variáveis explicativas. Para designar trais restrições será, doravante, empregado o termo
“restrições de exclusão”.
É também pertinente recordar que SQRூோ = ∑ ݁̂௜ଶே௜ୀଵ = ∑ (ݕ − ݕො௜)ଶே௜ୀଵ = ∑ ൫ݕ −ே௜ୀଵ
ߚመ଴ − ߚመଵݔ௜ଵ −⋯− ߚመଵݔ௜௄൯
ଶ
. O que torna explícito que é necessário estimar K+1
parâmetros para calcular a SQRூோ .
A diferença de SQRs deve ser dividida pela diferença de graus de liberdade
remanescentes após o cálculo das estatísticas associadas, glR - glIR. Para calcular a SQR
para o modelo restrito, foram impostas K + 1 – q restrições ao modelo, uma vez que este
deixa de incorporar, por força das restrições de exclusão, q explicativas e, portanto,
requer a estimação de apenas K+1 - q parâmetros. Então, glR = N – (K+1 – q). Para
calcular a SQR do modelo irrestrito, foram impostas K+1 restrições ao modelo, pois
este é o número de parâmetros que ele contém. Daí, glIR = N – (K+1). Conclusivamente,
glR - glIR = N – (K+1 – q) – [N – (K+1)] = q. Chega-se, portanto, a: F = ܴܵܳோ − ܴܵܳூோ/ݍ
ܴܵܳூோ/(ܰ − ܭ − 1)
Para obterem-se os graus de liberdade da estatística F empregada no teste de
significância global da regressão, usa-se um raciocínio análogo. Basta perceber que,
neste caso, está-se colocando em questão a significância conjunta de todas as variáveis
explicativas e, portanto, consideram-se K restrições de exclusão. Desta forma, glR = N –
(K + 1 – K) = N -1 e glIR, valor este que não se altera em função do número de
restrições de exclusão, é equivalente a N-(K+1). Portanto, glR - glIR = N -1 – [N-(K+1)]
= K. Desta maneira, a estatística do teste de significância global é:
F = ܴܵܳோ − ܴܵܳூோ/ܭ
ܴܵܳூோ/(ܰ − ܭ − 1)
A estatística F para ambos os testes vistos pode ser transformada de maneira a que ela
possa ser calculada a partir do R2, bastando levar em conta que R2 = SQE/SQT, em que
SQE = ∑ (ݕത − ݕො௜)ଶே௜ୀଵ e SQT = ∑ (ݕത − ݕ௜)ଶே௜ୀଵ ; ou, de maneira equivalente, SQR = (1-
R2)SQT. Mesmo assim, é preciso assinalar que a compreensão da contagem dos gl do
numerador e do denominador é mais clara com base na versão da estatística que
incorpora as SQRs.
O teste de significância individual para o k-ésimo coeficiente toma por base a estatística t = ఉ෡ೖ
௏(ఉ෡ೖ)෣ , a qual tem distribuição t com N - (K+1) gl. Porque o número de graus de
liberdade associados à estatística - i.e., as partículas informacionais cuja possibilidade
de variação não é suprimida pela estatística - é exatamente equivalente ao que se têm
após calcular as estimativas pontuais de todos os K+1 parâmetros? Pois não é necessário
5

impor nenhuma restrição adicional aos dados para obter a estatística t, i.e., o valor desta
pode ser calculado apenas com base nas estimativas pontuais.
Para ver isso é preciso proceder por partes, procurando esclarecer quais são os cálculos
necessários para obter o numerador e o denominador da estatística t.
Para o numerador, o cálculo é evidente, trata-se da fórmula ߚመ = (X’X)-1(X’Y), esta
retornando o valor dos K+1 parâmetros do modelo.
Porém, para o denominador, o cálculo envolve dois passos. Basta perceber que a
variância dos estimadores pode ser representada como V(ߚመ |X) = E[(ߚመ- ߚ)(ߚመ- ߚ)’|X] =
(X’X)-1X’E[uu’]X (X’X)-1. Sob as hipóteses do MCRL de homocedasticidade e de
ausência de autocorrelação, V(ߚመ |X) = σ2(X’X)-1. Uma vez que a variância das
perturbações, σ2, é desconhecida, é necessário estimá-la, o que é feito a partir do
estimador σෝଶ = ∑ ௨ෝ೔మಿ೔సభ
ே-(௄ାଵ). O número de gl remanescentes após o cálculo da estimativa
para σ2 é equivalente a N-(K+1) como o próprio denominador do estimador deixa claro.
A razão para isso está em que não é preciso impor nenhuma restrição adicional aos
dados para obter σෝଶ, já que isso requer apenas o cálculo do quadrado dos resíduos, estes
obtidos diretamente a partir das estimativas pontuais.
3 Razões pelas quais mais graus de liberdade são preferíveis a menos
Alguns livros texto dão a entender que um número alto de graus de liberdade é
desejável, mas raramente são apresentadas razões para isso. No que segue, são descritas
duas razões.
A primeira é uma razão técnica. Estatísticas cuja obtenção requer a imposição de muitas
restrições aos dados podem não ser factíveis em amostras pequenas. Um exemplo é a
estatística F para o teste de heterocedasticidade de White (Wooldridge: p.259). Ocorre
que o número de graus de liberdade não pode ser negativo, uma vez que ele representa
os parâmetros das estatísticas empregadas nos testes de significância individual e
conjunta. De fato, esta possibilidade pode ocorrer, quando o número de restrições é
superior ao número de observações e, neste caso, se torna impossível realizar os testes
de significância individual e conjunta.
A segunda razão é metodológica e decorre diretamente da introdução desta nota
suplementar. O número de graus de liberdade pode também ser entendido como o
tamanho efetivo do conteúdo informacional com base no qual as conclusões da análise
são retiradas. Trata-se, segundo alguns autores, da verdadeira medida do conteúdo
informacional em que a análise se apoia, ou seja, trata-se da medida mais adequada para
o tamanho da amostra (Eisenhauer: p.4).
A credibilidade da análise econométrica, neste sentido, é diretamente proporcional ao
número de graus de liberdade da amostra, e, portanto, inversamente proporcional ao
número de cálculos (estatísticas) em que se apoia. A razão para isso se torna mais clara
a partir da classificação da informação a partir da qual as conclusões da análise são
6

estabelecidas. Em primeiro lugar há a informação bruta, a matéria-prima, os dados em
si. Em segundo lugar, há a informação líquida, processada, a qual resulta dos cálculos
que constituem o processo de análise econométrica. Quanto mais dependente as
conclusões forem desta segunda classe de informação, mais elas refletem o instrumento
analítico e, pois, as hipóteses que o dão base (as quais não podem ser, todas elas,
testadas) e menos a “realidade” tal como captada pelos dados. No limite, a análise
empírica corre o risco de se tornar uma análise teórica, quando suas conclusões derivam
completamente das hipóteses que dão base ao instrumento analítico.