Resumo de econometria 1 (Ibmec)

Econometria

•

UNIRIO

3

0

3

0

Pedro Paulo

22/12/2016

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

econometria i O modelo de regress�o m�ltipla.doc
O modelo de regressão múltipla
O modelo populacional
Introdução
Relação teórica:
Modelo populacional ou regressão linear múltipla:
u: variáveis não observáveis, variáveis omitidas, forma funcional, erros de medida
Outras representações do modelo populacional ou regressão linear múltipla
,
Notação
: variável dependente.
: regressores ou variáveis de controle.
: erro ou distúrbio aleatório.
: intercepto ou coeficiente linear da regressão.
: coeficientes angulares ou coeficientes de inclinação da regressão linear múltipla.
Interpretação dos coeficientes ou parâmetros
Primeiro fazemos, novamente, duas hipóteses sobre o erro, que serão as mesmas do modelo de regressão linear simples:
(hipótese não restritiva)
(hipótese restritiva)
�
Interpretação de
Interpretação de
O modelo amostral
Representações
,
Notação
: estimador MQO de
.
: estimadores MQO dos coeficientes angulares do modelo populacional.
: resíduo da regressão (estimador MQO do erro populacional).
Como encontrar os estimadores MQO?
Há duas maneiras de encontrar os estimadores MQO de um modelo de regressão linear múltipla. São elas:
Condições de momento amostrais equivalentes às condições de momento populacionais.
�
Método 1
Condições de momento populacionais
Condições de momento amostrais equivalentes
Resolução
Substituir
por
e resolver o sistema.
Método 2
Forma matricial
Devemos primeiro transformar o problema para a forma matricial:
Onde
,
,
,
�
Resolução
Problema
Condições de primeira ordem
Observação – Existência de
Teorema da não tendenciosidade
Teorema
Se são válidas as hipóteses abaixo, então os estimadores MQO de uma regressão linear múltipla são não tendenciosos (ou não viesados). Ou seja,
.
Hipóteses
O modelo é linear nos parâmetros;
Amostras aleatórias (cada observação é estatisticamente independente da outra);
; e
�
Demonstração
Teorema de
Hipótese de homocedasticidade do erro
Para esse teorema, precisaremos de uma hipótese adicional, que será a hipótese de homocedasticidade do erro:
Essa hipótese implica no seguinte:
( Observe que a segunda implicação não ocorre devido à hipótese de homocedasticidade do erro, mas pela hipótese já feita anteriormente de amostras aleatórias.
Teorema
Se são válidas as quatro hipóteses do teorema da não tendenciosidade, assim como a hipótese de homocedasticidade do erro, então
Demonstração
Observação
Estimador para σ2
Novamente, assim como na regressão linear simples, não sabemos
. Portanto, na regressão linear múltipla também precisaremos definir um estimador para a variância do erro:
.
Onde n é o número de observações da amostra e k é o número de regressores.
Se são válidas todas as hipóteses feitas anteriormente, então
é um estimador não tendencioso de
. Ou seja,
.
R² (ou coeficiente de ajuste) de uma regressão linear múltipla
Definindo
(ou
ajustado) na regressão linear múltipla
(
R²
, onde
( Perceba que o R² de uma regressão múltipla é idêntico ao R² da regressão simples; a única diferença passa a ser a definição de
, que passa a ter mais de dois parâmetros.
�
Teorema de
Expressão da variância condicional de um estimador βj qualquer
, onde:

;

; e

é o
da seguinte regressão:

Observação
A regressão a partir da qual obtemos o
é chamada de regressão auxiliar do MQO. Vale ressaltar que não há o termo
na regressão.
Observação
Novamente, nosso problema com a expressão que encontramos é que dificilmente sabemos o valor de
. Nesses casos, utilizaremos seu estimador
.
Interpretação
Por motivos óbvios, o ideal é que a variância de qualquer estimador seja a menor possível. Para isso ocorrer, pela expressão encontrada acima, é necessário que:
( Menos incerteza
( Mais informação sobre a população
( Se
,
será linearmente dependente dos demais regressores e não será possível fazer a regressão; se
temos que
será não-correlacionado com os demais regressores.
Observação
Na Economia, geralmente (e infelizmente) o
das regressões são elevados, uma vez que as diversas variáveis envolvidas quase sempre são correlacionadas.
Quando isso ocorre – ou seja, quando
– dizemos que temos um caso de multicolinearidade.
Teorema de Gauss-Markov
Teorema
Se valem as hipóteses de Gauss-Markov, então os estimadores MQO de uma regressão linear (simples ou múltipla) são do tipo B.L.U.E. (Best Linear Unbiased Estimator).
Esse teorema é relevante porque demonstra a importância do método MQO.
Observação – Definição de estimador
Estimador é uma variável aleatória de pontos amostrais.
Hipóteses
;
Amostra é aleatória;
;
;
Demonstração
Como já demonstramos que os estimadores MQO são não-viesados, devemos apenas demonstrar porque os estimadores MQO são os mais eficientes (Best).
�
Para isso, devemos definir um estimador linear não-viesado qualquer e mostrar que a variância condicional de cada um de seus elementos é maior ou igual à variância condicional dos estimadores MQO correspondentes.
(estimador linear)
(
(
(
é não-viesado)
(
(
Precisamos mostrar que as variâncias condicionais de cada elemento do vetor
são menores ou iguais às variâncias condicionais dos elementos de
. Para isso, basta mostrar que:
é uma matriz positiva semi-definida.
(
(
É possível mostrar que
é simétrica e idempotente. Logo,
é positiva semi-definida, pois
é simétrica e idempotente.
�
Viés de variável omitida
Caso particular
Modelo populacional verdadeiro:
Modelo populacional falso:
é tendencioso
? Depende!
(
Por que depende? Porque
é não tendencioso apenas quando:
( O modelo verdadeiro na verdade é o modelo falso;
não explica
.
(
e
são independentes.
Assim, quando nenhuma das duas condições acima for atendida, o sinal do viés que existirá dependerá do sinal de
e
.
Caso geral
Modelo populacional verdadeiro:
Onde
é a matriz das variáveis que vão ficar na regressão, enquanto
é a matriz das variáveis omitidas.
Modelo populacional falso:
(
é não tendencioso apenas quando:
( O modelo verdadeiro na verdade é o modelo falso;
não explica
.
(
e
são independentes.
_1345742016.unknown
_1346344530.unknown
_1347004697.unknown
_1347005826.unknown
_1347006649.unknown
_1347006759.unknown
_1347006898.unknown
_1347007050.unknown
_1347007485.unknown
_1347007486.unknown
_1347007278.unknown
_1347006925.unknown
_1347006776.unknown
_1347006832.unknown
_1347006673.unknown
_1347006681.unknown
_1347006379.unknown
_1347006567.unknown
_1347006626.unknown
_1347006636.unknown
_1347006592.unknown
_1347006485.unknown
_1347005876.unknown
_1347006367.unknown
_1347005854.unknown
_1347005182.unknown
_1347005617.unknown
_1347005658.unknown
_1347005772.unknown
_1347005635.unknown
_1347005316.unknown
_1347005506.unknown
_1347005240.unknown
_1347004995.unknown
_1347005105.unknown
_1347005160.unknown
_1347005047.unknown
_1347004908.unknown
_1347004945.unknown
_1347004878.unknown
_1346345100.unknown
_1347004338.unknown
_1347004607.unknown
_1347004669.unknown
_1347004355.unknown
_1347004262.unknown
_1347004326.unknown
_1346345101.unknown
_1346344818.unknown
_1346344915.unknown
_1346344931.unknown
_1346344883.unknown
_1346344763.unknown
_1346344785.unknown
_1346344743.unknown
_1346335211.unknown
_1346335928.unknown
_1346344289.unknown
_1346344426.unknown
_1346344497.unknown
_1346344308.unknown
_1346344260.unknown
_1346344277.unknown
_1346344233.unknown
_1346335474.unknown
_1346335820.unknown
_1346335893.unknown
_1346335793.unknown
_1346335316.unknown
_1346335345.unknown
_1346335294.unknown
_1345744335.unknown
_1345791455.unknown
_1346335167.unknown
_1346335180.unknown
_1345791489.unknown
_1345744690.unknown
_1345744764.unknown
_1345744729.unknown
_1345744616.unknown
_1345742572.unknown
_1345744038.unknown
_1345744300.unknown
_1345743993.unknown
_1345742056.unknown
_1345742432.unknown
_1345742024.unknown
_1345114845.unknown
_1345116659.unknown
_1345741698.unknown
_1345741763.unknown
_1345741787.unknown
_1345741903.unknown
_1345741707.unknown
_1345116718.unknown
_1345118124.unknown
_1345118225.unknown
_1345741449.unknown
_1345116944.unknown
_1345116704.unknown
_1345114930.unknown
_1345115058.unknown
_1345116555.unknown
_1345114953.unknown
_1345114882.unknown
_1345114903.unknown
_1345114855.unknown
_1345113811.unknown
_1345113920.unknown
_1345113968.unknown
_1345114786.unknown
_1345113957.unknown
_1345113871.unknown
_1345113880.unknown
_1345113820.unknown
_1345113650.unknown
_1345113691.unknown
_1345113717.unknown
_1345113671.unknown
_1345113618.unknown
_1345113638.unknown
_1345113500.unknown
_1345113588.unknown
_1345113256.unknown
econometria i O modelo de regress�o simples.doc
O modelo de regressão simples
O modelo populacional
, onde:
�
é a variável dependente, variável a ser explicada ou regressando;
é o coeficiente (ou parâmetro) populacional linear ou intercepto da regressão;
é o coeficiente (ou parâmetro) populacional angular ou inclinação da regressão;
é a variável explicativa, variável de controle ou regressor; e
é o erro ou distúrbio aleatório.
�
Esse modelo é populacional. Portanto:
Onde
e representa uma determinada observação em um instante do tempo.
Objetivo
Estimar
e
– a relação populacional entre
e
, utilizando uma base de dados aleatória em corte transversal.
A técnica econométrica utilizada para isso é conhecida como mínimos quadrados ordinários – MQO.
Modelo populacional X modelo amostral
Modelo populacional:
,
Modelo amostral:
,
, onde:

é o estimador MQO do coeficiente linear
;

é o estimador MQO do coeficiente angular
;

é o estimador MQO do erro da regressão (resíduo).
Esquema do MQO
�
Hipóteses do MQO
As seguintes hipóteses são conhecidas na literatura como condições de momento populacionais. Essas hipóteses estão relacionadas ao erro u.
( Implica que é possível errar para mais ou menos, mas a soma dos erros deve ser zero.
( Não é uma hipótese restritiva: sempre podemos reescrever a regressão linear de modo que essa condição seja atendida (manipulando o
).
�
( Implica que o erro é estatisticamente independente em relação a x. Outras maneiras de dizer isso é falar que x é exógeno, estritamente exógeno ou ainda ortogonal ao erro u.
( Essa hipótese é restritiva e a mais importante do MQO: se ela não for atendida, não podemos utilizar o método – precisaremos de outras técnicas econométricas.
( Outras implicações importantes:
�� EMBED Equation.3 �� EMBED Equation.3
Interpretação dos parâmetros
( A média de y quando o regressor x é zero é o
.
(
é o intercepto da linha de regressão populacional – LRP – com o eixo y.
(
mede a variação ou efeito marginal de
dada uma variação marginal de x. Por esse motivo, esse parâmetro também é chamado de efeito marginal de x sobre y.
(
é a tangente do ângulo de inclinação da linha de regressão populacional – LRP.
Exemplo

A média do salário das pessoas com 12 anos de educação ao variar os anos de educação em 1 será aumentado em
.
Encontrando os estimadores
e
Hipóteses do modelo populacional

Hipóteses do modelo amostral (ou condições de momento amostral)

Observação
As condições de momento amostral também são conhecidas como condições de momento amostrais equivalentes às condições de momento populacionais ou simplesmente hipóteses do modelo amostral.
�
Resolução
Precisamos estimar
e
. Para isso, utilizamos as duas condições de momento amostrais:

Temos agora um sistema de duas equações e duas incógnitas
. Trata-se de um sistema linear. Vamos resolvê-lo por substituição:

(

(
Observações
Desenvolvendo o sistema para o
, utilizamos as seguintes relações:
(
(
(
(
�
Observações importantes
Se
existe, então
( x varia na amostra.
O sinal de
depende do sinal de
.
Resolução alternativa
Uma forma equivalente de encontrar os estimadores MQO é encontrar uma linha de regressão amostral (ou LRA –
) que minimize a distância dos pontos amostrais em relação a essa linha.
O conceito de distância que utilizamos em MQO é o
. Portanto, o problema a ser resolvido passa a ser:
.
Maneira alternativa de encontrar as condições de momento amostral
Condição de primeira ordem

(
(
Condição de segunda ordem

(
(
Variáveis aleatórias
;
Podemos afirmar que
e
são variáveis aleatórias. Por quê?
Ambos são funções de y, que é uma variável aleatória (pois há uma incerteza envolvida em seu valor – o erro).
Da mesma forma (e pelo mesmo motivo) podemos afirmar que
e
também são variáveis aleatórias.
Coeficiente de ajuste (ou
) da regressão
Definições
SQT = Somatório dos quadrados totais =
SQE = Somatório dos quadrados explicados =
SQR = Somatório dos quadrados dos resíduos =
Significado
O
é uma estatística que nos dá uma ideia do ajuste da linha de regressão amostral em relação aos pontos amostrais.
É possível mostrar que o
varia entre 0 e 1:
( Dizemos que a regressão estimada se ajusta perfeitamente aos pontos amostrais (
( A regressão estimada não explicada nada da variável dependente (
Portanto, quanto
mais próximo o
estiver de 1, melhor será o ajuste da regressão estimada.
Observação importante
O
é apenas uma estatística auxiliar no MQO.
Podemos ter regressões corretamente estimadas (condições de momento populacionais verdadeiras) com baixos valores de
.
�
Teorema da não tendenciosidade dos estimadores MQO
Teorema
Se as hipóteses abaixo são válidas, então os estimadores MQO da regressão linear simples são não tendenciosos (ou não viesados). Isto é:
Hipóteses
O modelo populacional é linear nos parâmetros;
A amostra é aleatória (elementos da amostra são estatisticamente independentes uns dos outros);
;
x varia na amostra (ou simplesmente não existe perfeita colinearidade).
Demonstração
Encontrando os estimadores

Observações
Verificando o teorema
( Como sabemos o valor de x,
pode ser colocado em evidência, como se fosse uma constante.
( Novamente, como sabemos x,
pode ser colocado em evidência, como se fosse uma constante.
Observação – Viés
Hipótese da homocedasticidade do erro
Hipótese
constante
Observações
Quando
,
;
Quando
, dizemos que u é heterocedástico (ou existe heterocedasticidade).
Teorema de
Teorema
Se são válidas as quatro hipóteses do teorema da não tendenciosidade, assim como a hipótese da homocedasticidade do erro, então
.
Demonstração
(teorema da não tendenciosidade de
)
Observação – Outros conhecimentos necessários para a demonstração
(
(
Como a variância pode diminuir?
Há duas maneiras como a variância pode diminuir. São elas:
(
( Menos incerteza
( Mais informação sobre os dados
�
Estimador para σ2
Como não conhecemos
, precisamos substituí-lo por seu estimador
.
Se são válidas as quatro hipóteses do teorema da não tendenciosidade, assim como a hipótese da homocedasticidade do erro, então um estimador não-tendencioso de
é:
Da equação para o estimador de
acima, podemos tirar outras estatísticas:
Base de dados
(corte transversal)
MQO
Modelo amostral
� EMBED Equation.3 ���
Modelo teórico
� EMBED Equation.3 ��� (linear ou não)
u
Variáveis não observáveis
Variáveis omitidas
Erros de medida
Função linear
Modelo populacional
� EMBED Equation.3 ���
_1343327175.unknown
_1343885832.unknown
_1343907455.unknown
_1343909461.unknown
_1345229671.unknown
_1345230148.unknown
_1345230336.unknown
_1345713041.unknown
_1345715377.unknown
_1347121698.unknown
_1345230451.unknown
_1345230476.unknown
_1345230358.unknown
_1345230235.unknown
_1345230278.unknown
_1345230159.unknown
_1345229785.unknown
_1345230104.unknown
_1345229701.unknown
_1343910399.unknown
_1345228888.unknown
_1345228919.unknown
_1345228225.unknown
_1343909505.unknown
_1343910243.unknown
_1343909487.unknown
_1343908645.unknown
_1343909090.unknown
_1343909233.unknown
_1343909386.unknown
_1343909180.unknown
_1343908836.unknown
_1343908902.unknown
_1343908705.unknown
_1343907752.unknown
_1343908371.unknown
_1343908432.unknown
_1343908004.unknown
_1343907567.unknown
_1343907589.unknown
_1343907469.unknown
_1343905193.unknown
_1343905953.unknown
_1343907332.unknown
_1343907407.unknown
_1343906108.unknown
_1343906132.unknown
_1343905993.unknown
_1343906052.unknown
_1343905815.unknown
_1343905256.unknown
_1343905295.unknown
_1343885982.unknown
_1343886083.unknown
_1343905156.unknown
_1343886082.unknown
_1343885922.unknown
_1343885951.unknown
_1343885854.unknown
_1343370740.unknown
_1343372594.unknown
_1343883822.unknown
_1343884023.unknown
_1343885738.unknown
_1343883906.unknown
_1343883318.unknown
_1343883667.unknown
_1343883307.unknown
_1343371212.unknown
_1343372077.unknown
_1343372264.unknown
_1343372323.unknown
_1343372179.unknown
_1343371912.unknown
_1343370886.unknown
_1343371053.unknown
_1343370826.unknown
_1343370256.unknown
_1343370263.unknown
_1343370688.unknown
_1343370700.unknown
_1343370316.unknown
_1343370211.unknown
_1343370176.unknown
_1343370199.unknown
_1343327188.unknown
_1343370150.unknown
_1343319985.unknown
_1343320654.unknown
_1343321479.unknown
_1343321604.unknown
_1343326992.unknown
_1343321519.unknown
_1343320753.unknown
_1343321335.unknown
_1343320739.unknown
_1343320303.unknown
_1343320481.unknown
_1343320443.unknown
_1343320459.unknown
_1343320282.unknown
_1343320294.unknown
_1343320269.unknown
_1343318007.unknown
_1343318115.unknown
_1343319887.unknown
_1343319964.unknown
_1343318371.unknown
_1343318540.unknown
_1343318142.unknown
_1343318086.unknown
_1343318109.unknown
_1343318055.unknown
_1342694780.unknown
_1343317939.unknown
_1343317974.unknown
_1343317893.unknown
_1342694676.unknown
_1342694746.unknown
_1342694578.unknown
_1342694614.unknown
_1342694542.unknown
_1342694468.unknown
_1342694513.unknown
econometria i P1.doc
Regressão linear simples
Objetivo do método MQO
Estimar
e
– a relação populacional entre
e
, utilizando uma base de dados aleatória em corte transversal.
�
Condições de momento populacionais | Condições de momento amostrais
|
(hipóteses não-restritivas)
|
(hipóteses restritivas)
( É possível encontrar os estimadores
e
resolvendo o sistema formado por essas duas condições de momento.
( Em geral,
.
( Outra maneira alternativa de encontrar os estimadores MQO é por meio da resolução do problema de minimização do quadrado dos erros:
.
�
Interpretação dos parâmetros
Na média, quando o regressor x é zero, y é igual a
.
Na média, quando o regressor x varia em uma unidade, y varia em
unidades.
R² (ou coeficiente de ajuste) de uma regressão simples
( O
é apenas uma estatística auxiliar no MQO. Podemos ter regressões corretamente estimadas (condições de momento populacionais verdadeiras) com baixos valores de
.
Teorema da não tendenciosidade:
( Hipóteses:
O modelo é linear nos parâmetros;
A amostra é aleatória;
;
x varia na amostra (ou simplesmente não existe perfeita colinearidade).
( Demonstração:
Teorema da variância condicional de β1:
( Hipóteses:
As quatro hipóteses do teorema da não tendenciosidade;
Homocedasticidade do erro:
( Demonstração:
(teorema da não tendenciosidade)
Estimador para a variância populacional
(
Regressão linear múltipla
Encontrando os estimadores MQO – Forma matricial
Onde
,
,
,
(
Teorema da não tendenciosidade:
( Hipóteses:
O modelo é linear nos parâmetros;
Amostras
aleatórias (cada observação é estatisticamente independente da outra);
; e
( Demonstração:
Teorema da variância condicional dos estimadores β:
( Hipóteses:
As quatro hipóteses do teorema da não tendenciosidade;
Homocedasticidade do erro:
( Demonstração:
Observação
Estimador para a variância populacional
Onde n é o número de observações da amostra e k é o número de regressores.
Teorema da variância de um estimador β qualquer
Onde:

;

; e

é o
da seguinte regressão:

Observação
A regressão a partir da qual obtemos o
é chamada de regressão auxiliar do MQO. Vale ressaltar que não há o termo
na regressão.
Teorema de Gauss-Markov
( Teorema:
“Se valem as hipóteses de Gauss-Markov, então os estimadores MQO de uma regressão linear (simples ou múltipla) são do tipo B.L.U.E. (Best Linear Unbiased Estimator)”.
Esse teorema é relevante porque demonstra a importância do método MQO.
Observação – Definição de estimador
Estimador é uma variável aleatória de pontos amostrais.
( Hipóteses:
;
Amostra é aleatória;
;
;
( Demonstração:
Como já demonstramos que os estimadores MQO são não-viesados, devemos apenas demonstrar porque os estimadores MQO são os mais eficientes (Best).
Para isso, devemos definir um estimador linear não-viesado qualquer e mostrar que a variância condicional de cada um de seus elementos é maior ou igual à variância condicional dos estimadores MQO correspondentes.
(estimador linear)
(
(
(
é não-viesado)
(
(
Precisamos mostrar que as variâncias condicionais de cada elemento do vetor
são menores ou iguais às variâncias condicionais dos elementos de
. Para isso, basta mostrar que:
é uma matriz positiva semi-definida.
(
(
É possível mostrar que
é simétrica e idempotente. Logo,
é positiva semi-definida, pois
é simétrica e idempotente.
�
Viés de variável omitida
Modelo populacional verdadeiro:
Modelo populacional falso:
( Demonstração – Caso particular
(
( Demonstração – Caso geral
Modelo populacional verdadeiro:
Onde
é a matriz das variáveis que vão ficar na regressão, enquanto
é a matriz das variáveis omitidas.
Modelo populacional falso:
(
Modelo populacional
� EMBED Equation.3 ���
u
Variáveis não observáveis
Variáveis omitidas
Erros de medida
Função linear
Modelo teórico
� EMBED Equation.3 ��� (linear ou não)
Modelo amostral
� EMBED Equation.3 ���
MQO
Base de dados
(corte transversal)
_1346344260.unknown
_1347005047.unknown
_1347121955.unknown
_1347122528.unknown
_1347123633.unknown
_1347123782.unknown
_1347123910.unknown
_1347124676.unknown
_1347123892.unknown
_1347123671.unknown
_1347123334.unknown
_1347123339.unknown
_1347123127.unknown
_1347122180.unknown
_1347122196.unknown
_1347122173.unknown
_1347005635.unknown
_1347006367.unknown
_1347006925.unknown
_1347121871.unknown
_1347121912.unknown
_1347007278.unknown
_1347007485.unknown
_1347121687.unknown
_1347007050.unknown
_1347006485.unknown
_1347006898.unknown
_1347006379.unknown
_1347005772.unknown
_1347005826.unknown
_1347005658.unknown
_1347005240.unknown
_1347005506.unknown
_1347005617.unknown
_1347005316.unknown
_1347005160.unknown
_1347005182.unknown
_1347005105.unknown
_1347004355.unknown
_1347004878.unknown
_1347004945.unknown
_1347004995.unknown
_1347004908.unknown
_1347004669.unknown
_1347004697.unknown
_1347004607.unknown
_1346344426.unknown
_1347004326.unknown
_1347004338.unknown
_1347004262.unknown
_1346344289.unknown
_1346344308.unknown
_1346344277.unknown
_1345228225.unknown
_1345741903.unknown
_1345791455.unknown
_1346335893.unknown
_1346344233.unknown
_1345791489.unknown
_1345742056.unknown
_1345744300.unknown
_1345744335.unknown
_1345744764.unknown
_1345744038.unknown
_1345742016.unknown
_1345741698.unknown
_1345741763.unknown
_1345741787.unknown
_1345741707.unknown
_1345230476.unknown
_1345715377.unknown
_1345230358.unknown
_1343885738.unknown
_1343908705.unknown
_1343909180.unknown
_1343909386.unknown
_1345116944.unknown
_1343908902.unknown
_1343907752.unknown
_1343908004.unknown
_1343905295.unknown
_1342694614.unknown
_1343370263.unknown
_1343370316.unknown
_1343318540.unknown
_1343319887.unknown
_1343318371.unknown
_1342694542.unknown
_1342694578.unknown
_1342694513.unknown
econometria i Revis�o de �lgebra linear.doc
Revisão de álgebra linear
Multiplicação de matrizes
Propriedades
Transposta de uma matriz
Propriedades
Traço de uma matriz
Propriedades
Matriz inversa de
Classificação
Se existe a matriz inversa de A, então A é uma matriz não singular ou inversível;
Se não existe a matriz inversa de A, então A é uma matriz singular.
Propriedades
Independência linear
Seja o vetor
,
são linearmente independentes se e somente se
para todo
.
Em outras palavras, se existir outra combinação de
em que a igualdade seja satisfeita,
são linearmente dependentes.
Posto de uma matriz
É o número de colunas linearmente independentes de uma matriz.
Se o posto for completo, então
.
Propriedades
Se
, então
Se
e
, então existe
(A é não singular)
Formas quadráticas
, onde
e
.
Classificação
Matriz positiva definida ( uma matriz simétrica tal que
para todo
.
Matriz positiva semidefinida ( uma matriz simétrica tal que
para todo
.
Propriedades
Se A é positiva definida, então todos os elementos de sua diagonal principal são estritamente positivos;
Se A é positiva semidefinida, então todos os elementos de sua diagonal principal são positivos ou não-negativos;
Se A é positiva definida, então existe a matriz inversa de A, que também será positiva definida;
Seja a matriz
, então
e
são matrizes do tipo positiva semidefinida;
Seja a matriz
e
,
é uma matriz positiva definida.
Diferenciação de formas lineares e quadráticas
Seja
,
e
(
Seja
,
(
Matriz idempotente
Uma matriz A é idempotente se
.
Produto de Kronecker (AxB)
Definição
Consiste em realizar o produto de cada elemento da matriz A por toda a matriz B.
O número de linhas/colunas da matriz resultante será o produto do número de linhas/colunas das duas matrizes utilizadas no produto.
Exemplo
Vetores e matrizes aleatórios e seus momentos
Vetor aleatório
é um vetor aleatório
se e somente se
, com i variando de 1 a N, é uma variável aleatória.
Valor esperado de um vetor aleatório
O valor esperado de um vetor aleatório é obtido substituindo-se as variáveis aleatórias que compõem o vetor por seus valores esperados.
Matriz aleatória
é uma matriz aleatória se e somente se
é uma variável aleatória para todo i e j variando de 1 a N ou M.
Valor esperado de uma matriz aleatória
Obtido da mesma forma que o valor esperado de um vetor aleatório.
Propriedades de valor esperado
Sejam duas matrizes determinísticas (elementos diferentes de variáveis aleatórias)
e
, então
;
Se
também for determinística, então
.
Matriz variância e covariância
Onde:
é simétrica;
Propriedades
;
é uma matriz positiva definida;
, onde
;
Se
, para todo i e j diferentes, variando entre 1 e N, e
então:
;
Distribuição normal multivariada
Seja
um vetor aleatório,
e
para todo i e j variando de 1 a N:
,
(
Propriedades
Se
, então
;
Se
, então
é independente de
se e somente se
.
Distribuição qui-quadrada
Seja
, então
, onde N são os graus de liberdade.
Propriedade
Se
e
é simétrica, idempotente e tem posto q, então
Distribuição t de Student
Sejam
,
é simétrica, idempotente, tem posto q,
e
um vetor coluna qualquer, então
.
Distribuição F
Sejam
,
e
simétricas, idempotentes, com
,
e
, então
_1343321151.unknown
_1343373450.unknown
_1343884504.unknown
_1343910666.unknown
_1343911599.unknown
_1343911916.unknown
_1343912222.unknown
_1343912346.unknown
_1343912404.unknown
_1343912419.unknown
_1343912489.unknown
_1343912381.unknown
_1343912335.unknown
_1343912187.unknown
_1343912201.unknown
_1343912080.unknown
_1343912136.unknown
_1343912021.unknown
_1343912041.unknown
_1343911793.unknown
_1343911825.unknown
_1343911893.unknown
_1343911807.unknown
_1343911772.unknown
_1343911786.unknown
_1343911618.unknown
_1343911738.unknown
_1343911079.unknown
_1343911323.unknown
_1343911384.unknown
_1343911438.unknown
_1343911340.unknown
_1343911147.unknown
_1343911198.unknown
_1343911109.unknown
_1343910843.unknown
_1343910905.unknown
_1343910949.unknown
_1343910876.unknown
_1343910727.unknown
_1343910765.unknown
_1343910706.unknown
_1343906875.unknown
_1343907137.unknown
_1343907201.unknown
_1343910441.unknown
_1343907171.unknown
_1343907031.unknown
_1343907043.unknown
_1343906893.unknown
_1343884691.unknown
_1343906672.unknown
_1343906698.unknown
_1343906519.unknown
_1343884584.unknown
_1343884617.unknown
_1343884557.unknown
_1343884281.unknown
_1343884330.unknown
_1343884475.unknown
_1343884492.unknown
_1343884442.unknown
_1343884287.unknown
_1343884321.unknown
_1343373632.unknown
_1343884263.unknown
_1343373643.unknown
_1343373481.unknown
_1343373600.unknown
_1343373626.unknown
_1343373470.unknown
_1343372770.unknown
_1343373136.unknown
_1343373313.unknown
_1343373368.unknown
_1343373395.unknown
_1343373355.unknown
_1343373270.unknown
_1343373300.unknown
_1343373234.unknown
_1343372846.unknown
_1343373047.unknown
_1343373087.unknown
_1343372998.unknown
_1343373028.unknown
_1343372818.unknown
_1343321243.unknown
_1343370389.unknown
_1343370418.unknown
_1343321266.unknown
_1343321210.unknown
_1343321223.unknown
_1343321194.unknown
_1342695596.unknown
_1343320919.unknown
_1343320961.unknown
_1343320977.unknown
_1343320944.unknown
_1343320823.unknown
_1343320900.unknown
_1342695597.unknown
_1342695407.unknown
_1342695452.unknown
_1342695595.unknown
_1342695433.unknown
_1342695360.unknown
_1342695383.unknown
_1342695260.unknown
econometria i Teste 4.doc
Capítulo 3 – Teorema de Gauss-Markov (demonstração)
Hipóteses
;
Amostra é aleatória;
;
;
Demonstração
Como já demonstramos que os estimadores MQO são não-viesados, devemos apenas demonstrar porque os estimadores MQO são os mais eficientes (Best).
(estimador linear)
(
(

(
(
(
(
É possível mostrar que
é simétrica e idempotente. Logo,
é positiva semi-definida, pois
é simétrica e idempotente.
Capítulo 4
Estimadores e estatísticas

Testes de Wald na forma matricial

Teste t de student
,
e
Teste F
,
e
�
Capítulo 8
Correção de White
MQP
MQGF
_1347005635.unknown
_1350138251.unknown
_1350138893.unknown
_1352547391.unknown
_1352548134.unknown
_1352549920.unknown
_1352550215.unknown
_1352548779.unknown
_1352547946.unknown
_1350145662.unknown
_1350138290.unknown
_1350138603.unknown
_1350138307.unknown
_1350138258.unknown
_1350137723.unknown
_1350137914.unknown
_1350137920.unknown
_1350138175.unknown
_1350137849.unknown
_1350122159.unknown
_1350137705.unknown
_1347005658.unknown
_1347004878.unknown
_1347005240.unknown
_1347005506.unknown
_1347005617.unknown
_1347005316.unknown
_1347004995.unknown
_1347005047.unknown
_1347004945.unknown
_1347004355.unknown
_1347004669.unknown
_1347004697.unknown
_1347004607.unknown
_1347004326.unknown
_1347004338.unknown
_1347004262.unknown
econometria P1.doc
Regressão linear simples
Objetivo do método MQO
Estimar
e
– a relação populacional entre
e
, utilizando uma base de dados aleatória em corte transversal.
�
Condições de momento populacionais | Condições de momento amostrais
|
(hipóteses não-restritivas)
|
(hipóteses restritivas)
( É possível encontrar os estimadores
e
resolvendo o sistema formado por essas duas condições de momento.
( Em geral,
.
( Outra maneira alternativa de encontrar os estimadores MQO é por meio da resolução do problema de minimização do quadrado dos erros:
.
�
Interpretação dos parâmetros
Na média, quando o regressor x é zero, y é igual a
.
Na média, quando o regressor x varia em uma unidade, y varia em
unidades.
R² (ou coeficiente de ajuste) de uma regressão simples
( O
é apenas uma estatística auxiliar no MQO. Podemos ter regressões corretamente estimadas (condições de momento populacionais verdadeiras) com baixos valores de
.
Teorema da não tendenciosidade:
( Hipóteses:
O modelo é linear nos parâmetros;
A amostra é aleatória;
;
x varia na amostra (ou simplesmente não existe perfeita colinearidade).
( Demonstração:
Teorema da variância condicional de β1:
( Hipóteses:
As quatro hipóteses do teorema da não tendenciosidade;
Homocedasticidade do erro:
( Demonstração:
(teorema da não tendenciosidade)
Estimador para a variância populacional
(
Regressão linear múltipla
Encontrando os estimadores MQO – Forma matricial
Onde
,
,
,
(
Teorema da não tendenciosidade:
( Hipóteses:
O modelo é linear nos parâmetros;
Amostras aleatórias (cada observação é estatisticamente independente da outra);
; e
( Demonstração:
Teorema da variância condicional dos estimadores β:
( Hipóteses:
As quatro hipóteses do teorema da não tendenciosidade;
Homocedasticidade do erro:
( Demonstração:
Observação
Estimador para a variância populacional
Onde n é o número de observações da amostra e k é o número de regressores.
Teorema da variância de um estimador β qualquer
Onde:

;

; e

é o
da seguinte regressão:

Observação
A regressão a partir da qual obtemos o
é chamada de regressão auxiliar do MQO. Vale ressaltar que não há o termo
na regressão.
Teorema de Gauss-Markov
( Teorema:
“Se valem as hipóteses de Gauss-Markov, então os estimadores MQO de uma regressão linear (simples ou múltipla) são do tipo B.L.U.E. (Best Linear Unbiased Estimator)”.
Esse teorema é relevante porque demonstra a importância do método MQO.
Observação – Definição de estimador
Estimador é uma variável aleatória de pontos amostrais.
( Hipóteses:
;
Amostra é aleatória;
;
;
( Demonstração:
Como já demonstramos que os estimadores MQO são não-viesados, devemos apenas demonstrar porque os estimadores MQO são os mais eficientes (Best).
Para isso, devemos definir um estimador linear não-viesado qualquer e mostrar que a variância condicional de cada um de seus elementos é maior ou igual à variância condicional dos estimadores MQO correspondentes.
(estimador linear)
(
(
(
é não-viesado)
(
(
Precisamos mostrar que as variâncias condicionais de cada elemento do vetor
são menores ou iguais às variâncias condicionais dos elementos de
. Para isso, basta mostrar que:
é uma matriz positiva semi-definida.
(
(
É possível mostrar que
é simétrica e idempotente. Logo,
é positiva semi-definida, pois
é simétrica e idempotente.
�
Viés de variável omitida
Modelo populacional verdadeiro:
Modelo populacional falso:
( Demonstração – Caso particular
(
( Demonstração – Caso geral
Modelo populacional verdadeiro:
Onde
é a matriz das variáveis que vão ficar na regressão, enquanto
é a matriz das variáveis omitidas.
Modelo populacional falso:
(
Modelo populacional
� EMBED Equation.3 ���
u
Variáveis não observáveis
Variáveis omitidas
Erros de medida
Função linear
Modelo teórico
� EMBED Equation.3 ��� (linear ou não)
Modelo amostral
� EMBED Equation.3 ���
MQO
Base de dados
(corte transversal)
_1346344260.unknown
_1347005047.unknown
_1347121955.unknown
_1347122528.unknown
_1347123633.unknown
_1347123782.unknown
_1347123910.unknown
_1347124676.unknown
_1347123892.unknown
_1347123671.unknown
_1347123334.unknown
_1347123339.unknown
_1347123127.unknown
_1347122180.unknown
_1347122196.unknown
_1347122173.unknown
_1347005635.unknown
_1347006367.unknown
_1347006925.unknown
_1347121871.unknown
_1347121912.unknown
_1347007278.unknown
_1347007485.unknown
_1347121687.unknown
_1347007050.unknown
_1347006485.unknown
_1347006898.unknown
_1347006379.unknown
_1347005772.unknown
_1347005826.unknown
_1347005658.unknown
_1347005240.unknown
_1347005506.unknown
_1347005617.unknown
_1347005316.unknown
_1347005160.unknown
_1347005182.unknown
_1347005105.unknown
_1347004355.unknown
_1347004878.unknown
_1347004945.unknown
_1347004995.unknown
_1347004908.unknown
_1347004669.unknown
_1347004697.unknown
_1347004607.unknown
_1346344426.unknown
_1347004326.unknown
_1347004338.unknown
_1347004262.unknown
_1346344289.unknown
_1346344308.unknown
_1346344277.unknown
_1345228225.unknown
_1345741903.unknown
_1345791455.unknown
_1346335893.unknown
_1346344233.unknown
_1345791489.unknown
_1345742056.unknown
_1345744300.unknown
_1345744335.unknown
_1345744764.unknown
_1345744038.unknown
_1345742016.unknown
_1345741698.unknown
_1345741763.unknown
_1345741787.unknown
_1345741707.unknown
_1345230476.unknown
_1345715377.unknown
_1345230358.unknown
_1343885738.unknown
_1343908705.unknown
_1343909180.unknown
_1343909386.unknown
_1345116944.unknown
_1343908902.unknown
_1343907752.unknown
_1343908004.unknown
_1343905295.unknown
_1342694614.unknown
_1343370263.unknown
_1343370316.unknown
_1343318540.unknown
_1343319887.unknown
_1343318371.unknown
_1342694542.unknown
_1342694578.unknown
_1342694513.unknown
econometria i Cap�tulo 2.doc
Capítulo 2 – O modelo de regressão simples [Livro]
2.1 – Definição do modelo de regressão simples
O modelo
u
A variável u, chamada de erro ou distúrbio na relação, representa outros fatores que não x que afetam y. Uma análise de regressão simples trata todos esses fatores que afetam y que não sejam x como sendo não-observáveis. Você pode apropriadamente pensar a variável u como sendo u de “unobserved”.
Problema para a interpretação do modelo
, se
( A parte mais difícil é saber se o modelo realmente nos permite tirar conclusões ceteris paribus sobre como x afeta y. Podemos ver na equação acima que
mede de fato o efeito de x sobre y, mantendo-se todos os outros fatores (em u) fixos.
( Esse é o fim da questão da causalidade? Infelizmente não. Como podemos esperar entender em geral sobre o efeito ceteris paribus de x sobre y, mantendo-se todos os demais fatores fixos, quando estamos ignorando todos esses outros fatores?
( A seção 2.5 mostrará que nós somente conseguiremos estimadores confiáveis de
e
de uma amostra aleatória de dados quando fazemos uma suposição restringindo como a variável u está relacionada à variável explicativa x. Sem tal restrição, não seremos capazes de estimar o efeito ceteris paribus,
.
�
Hipóteses para a interpretação do modelo
Uma vez que u e x são variáveis aleatórias, precisaremos de um conceito centrado em probabilidade. A hipótese inicial que faremos será a seguinte:
.
( Essa hipótese é não restritiva, uma vez que pode ser demonstrado que sempre podemos alterar o intercepto da regressão de forma a que essa condição seja atendida.
Agora precisamos voltar à questão de como u e x estão relacionados.
Uma medida natural de associação entre duas variáveis aleatórias é o coeficiente de correlação. No entanto, esse conceito apenas mede a dependência
linear entre u e x. A correlação tem uma característica um tanto quanto contra-intuitiva: é possível que u seja não-correlacionado com x, mas seja correlacionado com funções de x. Essa possibilidade não é aceitável para a maioria dos objetivos da regressão, pois causa problemas para a interpretação do modelo e para derivar propriedades estatísticas.
Uma hipótese melhor envolve o valor esperado de u dado x. Uma vez que u e x são variáveis aleatórias, podemos definir a distribuição condicional de u dado qualquer valor de x. Em particular, para qualquer x, podemos obter o valor esperado (ou média) de u para aquela parcela da população descrita pelo valor de x.
( A hipótese crucial é a de que o valor médio de u não depende do valor de x. Podemos escrever isso da seguinte forma:
.
Exemplo de interpretação do modelo
Suponha que queremos explicar o salário recebido em função dos anos de estudo.
Para simplificar a discussão, assuma que u signifique a habilidade inata da pessoa.
( Então, a hipótese que fizemos acima requer que o nível médio de habilidade seja o mesmo independentemente dos anos de educação. Se
denota a habilidade média para o grupo de todas as pessoas com oito anos de educação e
denota a habilidade média entre pessoas na população com 16 anos de estudo, então a nossa hipótese implica que essas médias devem ser as mesmas.
( Na realidade, o nível de habilidade média precisa ser o mesmo para todos os níveis de educação. Se, por exemplo, pensarmos que a habilidade média aumenta com os anos de educação, então a nossa hipótese será falsa.
Outra interpretação para β1
A hipótese que fizemos acima nos dá ainda outra interpretação para
que é frequentemente útil.
Tomando o valor esperado de y dado x e utilizando
, temos que
, expressão também chamada de função de regressão populacional (FRP), onde
é uma função linear de x.
A linearidade significa que um aumento em uma unidade de x altera a o valor esperado de y na quantidade
.
2.2 – Derivando os estimadores MQO
Para poder estimar os parâmetros
e
do modelo de regressão simples, precisaremos de uma amostra da população:
. Há várias maneiras de fazer a estimação.
Método 1 – Condições de momento amostrais
Utilizaremos duas importantes implicações da hipótese
: na população, u tem média zero e é não-correlacionado com x. Portanto:
e
.
Em termos das variáveis observáveis x e y e dos parâmetros desconhecidos
e
, as duas equações acima podem ser escritas da seguinte maneira:
e
.
( As duas expressões acima implicam duas restrições na distribuição de probabilidade conjunta de x e y na distribuição. Uma vez que há dois parâmetros desconhecidos para estimar, essas duas equações podem ser utilizadas para obter bons estimadores de
e
, eliminando o valor esperado delas:
e
Portanto, sabendo-se que
, temos que os estimadores
e
serão:
e
( O estimador
acima é simplesmente a covariância amostral entre x e y dividida pela variância amostral de x (dividir o numerador e o denominador por
não faz diferença). Isso faz sentido porque
iguala a covariância da população dividida pela variância de x quando
e
.
( Uma implicação imediata disso é que, se x e y são positivamente correlacionados na amostra, então
; se eles são negativamente correlacionados,
.
Embora esse método para obter as expressões para
e
seja consequência da hipótese
, única hipótese necessária para obter os estimadores para uma amostra é a condição
, o que dificilmente é uma hipótese, a menos que todos os valores de x sejam iguais na amostra.
( Continuando com o exemplo da outra seção entre salário e anos de estudo, essa hipótese falha somente se todos na amostra têm a mesma quantidade de anos de educação. Se apenas uma pessoa tiver um nível de educação diferente, a hipótese estará automaticamente atendida e os estimadores MQO podem ser obtidos.
�
Método 2 – Minimização do soma dos quadrados dos resíduos
Os estimadores obtidos nessa seção são chamados de estimadores de mínimos quadrados ordinários – MQO – de
e
. Para justificar esse nome, defina um valor estimado para y quando
:
.
O resíduo da regressão para cada observação i será a diferença entre o y real e o y estimado:
.
Agora suponha que escolhemos
e
de forma a minimizar a soma dos quadrados dos resíduos:
. É possível mostrar que as condições de primeira ordem para esse problema são exatamente as mesmas que as que utilizamor anteriormente para encontrar os estimadores
e
, só que sem dividir por n.
Ou seja, os estimadores que obteremos por esse método serão idênticos aos que já calculamos e por isso eles são comumente chamados de estimadores MQO, uma vez que eles minimizam a soma dos quadrados dos resíduos.
Por que não minimizar outra função dos resíduos, como o valor absoluto deles?
( Por dois motivos, basicamente: o primeiro é que, utilizando-se outra função, o cálculo se torna muito complicado e o outro é que, com o MQO, somos capazes de derivar estimadores não-viesados, consistentes e com outras propriedades estatísticas importantes de maneira relativamente fácil.
( Além disso, como algumas das várias equações que vimos até agora sugerem, e como veremos na seção 2.5, o MQO é apropriado para estimar parâmetros aparecendo na função de média condicional
.
Linha de regressão MQO ou função de regressão simples
Obtidos os estimadores MQO de
e
, formamos a linha de regressão MQO:
. Essa equação também é chamada de função de regressão simples porque é a versão estimada da função de regressão populacional
.
( É importante lembrar que a função de regressão populacional é algo fixo, mas desconhecido, na população. Uma vez que a função de regressão simples é obtida a partir de uma dada amostra, uma nova amostra irá gerar novos estimadores na equação
.
2.3.2 – Propriedades algébricas do MQO
Propriedade úteis
Há várias propriedades algébricas úteis dos estimadores MQO e de suas estatísticas associadas. Nós cobriremos as três mais importantes dessas propriedades.
A soma e, portanto, a média amostral dos resíduos MQO é zero:
.
Essa propriedade não precisa ser provada. Ela é derivada imediatamente das condições primeira ordem do MQO quando lembramos que os resíduos são definidos por
.
A covariância amostral entre os regressores e os resíduos MQO é zero.
Essa propriedade vem da segunda condição de primeira ordem
, que pode ser escrita em termos do resíduo como:
.
O ponto
sempre está contido na linha de regressão MQO.
Implicações
( Da propriedade 1, temos que a média dos resíduos é zero; de forma equivalente, a média amostral dos valores estimados,
, é a mesma média amostral de
.
( Além disso, propriedades 1 e 2 podem ser utilizadas para mostrar que a covariância amostral entre
e
é zero.
�
SQT, SQE e SQR
Podemos ver o resultado do MQO decompondo
em duas partes, um valor estimado e um resíduo. Os dois são não-correlacionados na amostra.
Definindo-se a soma dos quadrados total (SQT ou SST), a soma dos quadrados explicada (SQE ou SSE) e a soma dos quadrados dos resíduos (SQR ou SSR), temos:
( A SQT é uma medida da variação total de
na amostra; isto é, ela mede o quão dispersos estão os
na amostra.
Se dividirmos a SQT por
, obtemos a variância amostral de y.
( Similarmente, a SQE mede a variação de
na amostra e a SQR mede a variação de
na amostra.
A variação total de y pode ser sempre expressa como a soma da variação explicada e da variação não-explicada:
.
Essa expressão é válida apenas se conseguirmos mostrar que
. Mas nós já falamos que a covariância amostral entre os resíduos e os valores estimados é zero, que, multiplicada por
dá nessa expressão. Portanto, ela está provada.
2.3.3 – Qualidade do ajuste
Até agora, não temos nenhuma maneira de medir o quão bem a variável explicativa ou independente x explica a variável dependente y, mas frequentemente é útil calcular um número que resume o quanto a regressão MQO se ajusta aos dados.
Supondo que a SQT é diferente de zero – o que é verdade, exceto no caso improvável em que todos os
têm o mesmo valor –, podemos dividir toda a expressão que representa a SQT pela própria SQT, obtendo
.
R²
O R² da regressão, também chamado de coeficiente de determinação, é definido da seguinte maneira:
.
( O R² é a taxa da variação explicada comparada à variação total. Portanto, ele é interpretando como sendo a fração da variação de y na amostra que é explicada por x.
( Pode-se mostrar que, na realidade, o R² é igual ao quadrado do coeficiente de correlação amostral entre
e
.
R² e a qualidade dos estimadores
Em ciências sociais, R² baixos em equações de regressão não são raros, especialmente em análise de cortes transversais.
Discutiremos esse assunto mais detalhadamente na análise da regressão múltipla, mas vale a pena enfatizar agora que um R² aparentemente baixo não necessariamente significa que uma equação MQO é inútil – ainda é possível que ela seja uma boa estimativa da relação ceteris paribus entre as variáveis; e se isso é verdade ou não independe do tamanho de R².
�
2.4.2 – Incorporando não-linearidades na regressão simples
Na tabela abaixo, estão resumidas as formas funcionais envolvendo logaritmos, que podem fazer com que eventualmente a equação de regressão simples MQO não tenha uma forma linear:
Modelo
Variável dependente
Variável independente
Interpretação de
Nível-nível
y
x

Nível-log
y

Log-nível

x

Log-log

2.4.3 – O significado da regressão “linear”
O modelo de regressão simples que estudamos nesse capítulo também é chamado de modelo de regressão linear. Ainda assim, podemos ver na seção anterior que o modelo geral também permite certas relações não-lineares.
Então o que exatamente significa linear aqui?
A chave para entender isso é analisar a equação
e perceber que ela é linear nos parâmetros. Não há restrições sobre como y e x se relacionam.
Há ainda assim vários modelos que não podem ser considerados de regressão linear porque eles não são lineares nos parâmetros, como
.
Interpretação dos parâmetros
No entanto, embora a mecânica da regressão simples não dependa de como y e x são definidos, a interpretação dos coeficientes depende dessas definições. Para obter sucesso em um trabalho empírico, é muito mais importante se acostumar a interpretar os coeficientes do que ser eficiente em calculá-los.
2.5 – Valor esperado e variância dos estimadores MQO
Na seção 2.1 definimos o modelo de regressão populacional
e fizemos a suposição chave para a análise de regressão simples ser útil que é o valor esperado de u dado x ser igual a zero.
Já nas seções 2.2, 2.3 e 2.4, discutimos a propriedades algébricas da estimação MQO.
Agora nós retornamos para o modelo populacional e estudamos as propriedades estatísticas do MQO. Isso significa que nós estudaremos as propriedades das distribuições de
e
nas diferentes amostras aleatórias da população.
2.5.1 – Não-viesamento do MQO
Hipóteses
Começaremos estabelecendo o não-viesamento do MQO sob uma série de hipóteses. São elas:
Linearidade nos parâmetros:
( Para ser realista, y, x e u serão todos vistos como sendo variáveis aleatórias no modelo populacional acima.
Amostras aleatórias
( Nem todas as amostras de cortes transversais podem ser vistas como sendo amostras aleatórias, mas muitas podem.
Média condicional zero:
( Além de restringir a relação entre u e x na população, essa hipótese – mais a hipótese de amostras aleatórias – permite uma conveniente simplificação técnica. Mais especificamente, podemos derivar as propriedades estatísticas dos estimadores MQO de forma condicional aos valores de x em nossa amostra.
( Exemplo: primeiro escolhemos n valores amostrais para
; dados esses valores, obtemos uma amostra de y; depois, outra amostra de y é obtida, utilizando-se os mesmos valores para
; após isso, outra amostra de y é obtida, novamente utilizando-se os mesmos valores para
, e assim em diante.
( Uma vez que assumimos que
e que temos amostras aleatórias, nada é perdido nas derivações ao tratar x como sendo não-aleatório. O perigo é que tornar x fixo nessa hipótese sempre implica que x e u são independentes. Ao decidir quando uma análise de regressão simples produzirá estimadores não-viesados, é fundamental pensar nessa hipótese.
Variação da variável independente dentro amostra
( Equivale à hipótese
feita anteriormente.
( Das quatro hipóteses feitas até agora, essa é a menos importante, pois nunca falha em aplicações interessantes; se essa hipótese falhar, não podemos calcular os estimadores MQO, o que torna a análise estatística irrelevante.
Implicação das hipóteses
Sob as hipóteses feitas acima, podemos chegar à seguinte expressão para o
:
é igual ao coeficiente angular
do modelo populacional mais um termo que é uma combinação linear dos erros
. Condicionado a x, a aleatoriedade de
deve-se inteiramente aos erros na amostra.
Portanto, o fato de esses erros serem geralmente diferentes de zero é o que provoca a diferença entre
e
.
Provando o não-viesamento dos estimadores MQO
Finalmente, com a expressão obtida acima, podemos provar o não-viesamento dos estimadores MQO:
Para
:
Para
:
Conclusões
O não-viesamento do MQO falha se qualquer uma das quatro hipóteses que adotamos falha. Isso significa que é importante pensar sobre a veracidade de cada uma delas para uma aplicação em particular.
No entanto, a hipótese em que devemos nos concentrar mais por enquanto é a terceira. Podemos afirmar que, se ela for verdadeira, os estimadores MQO serão não-viesados. Analogamente, se essa hipótese falhar, os estimadores MQO geralmente serão viesados.
�
2.5.2 – Variância dos estimadores MQO
Importância de conhecer a variância dos estimadores
Além de saber que a distribuição amostral de
é centrada em
(por ser não-viesado), é importante saber o quanto esperamos que
esteja distante de
na média. Entre outras coisas, isso nos permite escolher o melhor estimador entre todos, ou ao menos entre aqueles que sejam não-viesados.
A medida de dispersão mais fácil de se trabalhar na distribuição de
(e
) é a variância, ou o desvio-padrão.
Hipótese adicional - Homocedasticidade
A variância dos estimadores MQO pode ser calculada sob as hipóteses feitas na seção anterior para provar que os estimadores MQO eram não-viesados. No entanto, essas expressões seriam um tanto complicadas.
Ao invés disso, adicionamos outra hipótese tradicional para análise de cortes transversais. Essa hipótese afirma que a variância condicional de u é constante. Ela é conhecida como hipótese de homocedasticidade ou da variância constante:
.
Por que adotar a hipótese de homocedasticidade?
Lembre-se de que estabelecemos o não-viesamento do MQO sem essa hipótese: ela não tem papel nenhum em mostrar que
e
são não-viesados.
Simplesmente a adicionamos porque ela simplifica os cálculos para a variância de
e
e também porque ela implica que o MQO tenha certas propriedades
que veremos no capítulo 3.
Além disso, se apenas assumirmos que u e x são independentes, então a distribuição de u dado x não depende de x e, portanto,
e
. No entanto, independência é às vezes uma hipótese muito forte.
Variância amostral dos estimadores MQO (dado x)
Com a hipótese de homocedasticidade (além das quatro outras hipóteses utilizadas para provar a não-tendenciosidade dos estimadores MQO) estamos prontos para mostrar a variância amostral dos estimadores MQO:
Demonstração
(
* Podemos tratar
e
como constantes porque dependem de x e a variância que estamos calculando é condicional a x.
As equações para a variância de
e
que mostramos acima são as fórmulas “padrão” para a análise de regressão simples, as quais são inválidas na presença de heterocedasticidade. Isso será importante quando nos voltarmos para intervalos de confinaça e testes de hipóteses em análise de regressão múltipla.
Interpretações
Quanto maior a variância do erro, maior será
. Isso faz sentido uma vez que mais variação nas variáveis não-observáveis afetando y torna mais difícil estimar precisamente
.
Por outro lado, mais variabilidade na variável independente é desejável: quando a variabilidade em x aumenta,
diminui. Isso também é intuitivo, pois quanto mais dispersa for a amostra de variáveis independentes, mais fácil será traçar a relação entre
e x. Ou seja, mais fácil será estimar
.
Conforme o tamanho da amostra aumenta, também aumenta a variação total em
. Portanto, uma amostra maior resulta em uma menor variância para
. Essa análise mostra que, se estamos interessados em
e temos uma escolha, então devemos escolher de forma a que
seja o mais disperso possível.
2.5.3 – Estimando a variância do erro
Por que estimar a variância do erro?
As fórmulas mostradas na seção anterior para
e
nos permitem isolar os fatores que as influenciam. No entanto, essas fórmulas são desconhecidas, exceto no caso extremamente raro em que
é conhecido, mas podemos utilizar os dados para estimar
, o que por sua vez nos permitirá estimar
e
.
Diferença entre erro e resíduo
Essa também é uma boa hora para enfatizar a diferença entre os erros (ou distúrbios) e os resíduos, uma vez que essa distinção é essencial para construir um estimador de
.
Sabemos como escrever o modelo populacional em termos de uma amostra aleatória como
, onde
é o erro para a observação i. Também podemos expressar
em termos de seu valor estimado e resíduo como
. Comparando essas duas equações, vemos que o erro aparece na equação contendo os parâmetros populacionais,
e
. Por outro lado, os resíduos aparecem na equação estimada com
e
.
Portanto, os erros nunca são observados, enquanto os resíduos são calculados a partir dos dados. Podemos escrever os resíduos como uma função dos erros:
(
Apesar de o valor esperado de
ser igual ao de
, e o mesmo valer para
,
não é o mesmo que
. a diferença entre eles é que tem um valor esperado zero.
Encontrando um estimador para a variância do erro
Agora que entendemos a diferença entre erros e resíduos, podemos retornar ao problema de estimar
.
Primeiro,
, então um estimador não-viesado de
é
. Infelizmente, esse não é um estimador de verdade, pois não observamos os erros
.
No entanto, nós temos os estimadores de
, chamados de resíduos
. Se substituirmos os erros pelos resíduos, teremos
. Esse é um estimador de verdade, pois ele fornece uma regra de cálculo para qualquer amostra de dados com x e y.
Um contra desse estimador é que ele é viesado (apesar de para n muito grandes esse viés ser pequeno). Uma vez que é fácil calcular um estimador não-viesado, usaremos um viesado em vez desse:
( O estimador
é viesado essencialmente porque ele não conta com duas restrições que precisam ser satisfeitas pelos resíduos MQO, que são dadas pelas duas condições de primeira ordem do MQO:
.
( O estimador não-viesado de
que utilizaremos faz um ajuste de graus de liberdade:
. Esse estimador é às vezes chamado de
, mas continuaremos usando a convenção de colocar ‘^’ nos estimadores.
Encontrando um estimador para o desvio-padrão do erro
Se
é inserido nas fórmulas para
e
, então teremos estimadores não-vi
e
. Mais tarde, precisaremos de estimadores do desvio-padrão de
e
, e isso requer estimar
. O estimador natural para
é:
.
Apesar de
ser um estimador viesado de
, podemos mostrar que ele é um estimador consistente de
e isso servirá para os nossos propósitos.
O estimador
é interessante porque é um estimador do desvio-padrão das variáveis não-observáveis afetando y; de forma equivalente, ele estima o desvio-padrão em y após retirar-se o efeito de x.
_1345193195.unknown
_1345305459.unknown
_1345386620.unknown
_1345387371.unknown
_1345387944.unknown
_1345388281.unknown
_1345388318.unknown
_1345388339.unknown
_1345388389.unknown
_1345388469.unknown
_1345388385.unknown
_1345388332.unknown
_1345388291.unknown
_1345388163.unknown
_1345388204.unknown
_1345388082.unknown
_1345387645.unknown
_1345387711.unknown
_1345387870.unknown
_1345387669.unknown
_1345387561.unknown
_1345387617.unknown
_1345387519.unknown
_1345386982.unknown
_1345387240.unknown
_1345387335.unknown
_1345387346.unknown
_1345387323.unknown
_1345387054.unknown
_1345387151.unknown
_1345386996.unknown
_1345387046.unknown
_1345386817.unknown
_1345386885.unknown
_1345386918.unknown
_1345386850.unknown
_1345386648.unknown
_1345386649.unknown
_1345386635.unknown
_1345309914.unknown
_1345311689.unknown
_1345312394.unknown
_1345312526.unknown
_1345386551.unknown
_1345386592.unknown
_1345312550.unknown
_1345312454.unknown
_1345312104.unknown
_1345312253.unknown
_1345311708.unknown
_1345310519.unknown
_1345310964.unknown
_1345310973.unknown
_1345310906.unknown
_1345310024.unknown
_1345310328.unknown
_1345310484.unknown
_1345309999.unknown
_1345307851.unknown
_1345309456.unknown
_1345309765.unknown
_1345309861.unknown
_1345309530.unknown
_1345308233.unknown
_1345309403.unknown
_1345309052.unknown
_1345309306.unknown
_1345308196.unknown
_1345307672.unknown
_1345307715.unknown
_1345307753.unknown
_1345307564.unknown
_1345305735.unknown
_1345197910.unknown
_1345199670.unknown
_1345200438.unknown
_1345201046.unknown
_1345304999.unknown
_1345305406.unknown
_1345305015.unknown
_1345305247.unknown
_1345304797.unknown
_1345200489.unknown
_1345200770.unknown
_1345200473.unknown
_1345200311.unknown
_1345200319.unknown
_1345200428.unknown
_1345200282.unknown
_1345200262.unknown
_1345198498.unknown
_1345199369.unknown
_1345199499.unknown
_1345199661.unknown
_1345199432.unknown
_1345198618.unknown
_1345198852.unknown
_1345198561.unknown
_1345198376.unknown
_1345198464.unknown
_1345198392.unknown
_1345198418.unknown
_1345197987.unknown
_1345197997.unknown
_1345197941.unknown
_1345193754.unknown
_1345195929.unknown
_1345197542.unknown
_1345197763.unknown
_1345197787.unknown
_1345197617.unknown
_1345196767.unknown
_1345196811.unknown
_1345196287.unknown
_1345196389.unknown
_1345196216.unknown
_1345195411.unknown
_1345195551.unknown
_1345193882.unknown
_1345193394.unknown
_1345193671.unknown
_1345193679.unknown
_1345193256.unknown
_1345193346.unknown
_1345193358.unknown
_1345193285.unknown
_1345193206.unknown
_1345191659.unknown
_1345192436.unknown
_1345192900.unknown
_1345193013.unknown
_1345193136.unknown
_1345193001.unknown
_1345192966.unknown
_1345192628.unknown
_1345192859.unknown
_1345192606.unknown
_1345192145.unknown
_1345192285.unknown
_1345192421.unknown
_1345192097.unknown
_1345192110.unknown
_1345190521.unknown
_1345191466.unknown
_1345191549.unknown
_1345191610.unknown
_1345191531.unknown
_1345191233.unknown
_1345191297.unknown
_1345191063.unknown
_1345190066.unknown
_1345190351.unknown
_1345190460.unknown
_1345190343.unknown
_1345189969.unknown
_1345189990.unknown
_1345189936.unknown
econometria i Cap�tulo 3.doc
Capítulo 3 – O modelo de regressão múltipla: estimação [Livro]
Desvantagens da regressão linear simples
No capítulo 2, aprendemos como utilizar a análise de regressão simples para explicar a variável dependente y em função de uma única variável independente x.
O principal ponto negativo em usar análise de regressão simples para trabalhos empíricos é que é muito difícil chegar a conclusões ceteris paribus sobre como x afeta y: a suposição chave (média condicional zero) – a de que todos os outros fatores afetando y são não-correlacionados com x – é frequentemente irrealista.
Vantagens da regressão linear múltipla
Naturalmente, se adicionarmos mais fatores ao nosso modelo que sejam úteis para explicar y, uma maior parte da variação de y poderá ser explicada. Assim, a análise de regressão múltipla pode ser utilizada para construir melhores modelos para fazer previsões sobre a variável dependente.
Uma vantagem adicional da análise de regressão múltipla é que ela pode incorporar relações de formas funcionais bem gerais. No modelo de regressão simples, somente uma função de uma única variável explicativa podia aparecer na equação.
3.1.1 – O modelo com duas variáveis independentes
Interpretando o modelo com um exemplo
Suponha a seguinte regressão múltipla:
.
Comparado a uma análise de regressão simples envolvendo apenas wage e educ, a equação acima efetivamente tira exp do termo de erro u e a coloca explicitamente na equação. Uma vez que ela aparece na equação, seu coeficiente,
, mede o efeito ceteris paribus de exp sobre wage, o que também é de nosso interesse.
Assim como na regressão simples, o que não é surpreendente, teremos que fazer hipóteses sobre como u na equação acima está relacionado com as variáveis independentes, educ e exp.
No entanto, como veremos na seção 3.2, há uma coisa da qual podemos ter certeza: uma vez que a equação contém exp explicitamente, seremos capazes de medir o efeito de educ sobre wage, mantendo exp fixo. Em uma análise de regressão simples – a qual coloca exp no termo de erro – teríamos que assumir que exp é não-correlacionada com educ, uma hipótese mais ‘tênue’.
Outro exemplo
Suponha a seguinte regressão múltipla:
O coeficiente de interesse para propósitos de política econômica é
, o efeito ceteris paribus dos gastos (expend) no avgscore. Incluindo avginc explicitamente no modelo, somos capazes de controlar seu efeito em avgscore. Isso é provavelmente importante porque avginc tende a ser correlacionado com expend: níveis de gastos é frequentemente determinado pela renda familiar.
Na análise de regressão simples, avginc seria incluída no termo de erro, o qual provavelmente seria correlacionado com expend, fazendo com que o estimador MQO de
no modelo de duas variáveis fosse viesado.
Hipótese fundamental
No modelo com duas variáveis independentes, a hipótese chave sobre como u está relacionado com
e
é a seguinte:
.
A interpretação dessa condição é similar à interpretação da hipótese similar a essa que fizemos para a análise de regressão simples. Ela significa que, para quaisquer valores de
e
na população, a média das variáveis não-observáveis é igual a zero.
Assim como na regressão simples, a parte importante dessa hipótese é a de que o valor esperado de u é o mesmo para todas as combinações de
e
; afirmar que esse valor em comum é zero está longe de ser apenas uma hipótese enquanto o intercepto
estiver incluído no modelo.
_1345396054.unknown
_1345396414.unknown
_1345396501.unknown
_1345396585.unknown
_1345396638.unknown
_1345396426.unknown
_1345396403.unknown
_1345396410.unknown
_1345395396.unknown
_1345395983.unknown
_1345395283.unknown
econometria i Cap�tulo 4 - Infer�ncia estat�stica utilizando estimadores MQO.doc
Capítulo 4 – Inferência estatística utilizando MQO
Introdução
Nosso objetivo em Econometria é entender as relações populacionais entre uma variável dependente e um conjunto de regressores. Uma das maneiras de fazer isso é por meio da inferência estatística ou testes de hipóteses relacionadas aos parâmetros populacionais.
Para construir testes de hipóteses, utilizamos os estimadores MQO dos regressores e, com esses estimadores, também podemos construir intervalos de confiança para os parâmetros populacionais.
Hipótese da normalidade condicional do erro
Para fazer inferência em pequenas amostras
, precisaremos acrescentar às hipóteses de Gauss-Markov uma sexta hipótese, que é a hipótese da normalidade condicional do erro, que consiste no seguinte:
Em notação escalar:

Em notação matricial:
O modelo clássico linear e sua aplicabilidade
As cinco hipóteses de Gauss-Markov mais a hipótese da normalidade condicional do erro constituem o chamado modelo clássico linear.
A distribuição condicional da variável dependente no modelo clássico linear é a seguinte:
Observe que o fato de a variável dependente também apresentar uma distribuição normal limita significativamente a aplicabilidade do modelo clássico linear, afinal raros são os casos em que temos uma distribuição normal exata.
No entanto, veremos mais adiante que esse problema pode ser resolvido, pois vamoas mostrar que não precisamos da hipótese da normalidade condicional do erro para utilizar o modelo clássico linear.
Teorema da normalidade de
Finalmente, para começar a fazer inferência precisaremos apenas do teorema da normalidade de
e do teorema da distribuição t de
, que veremos logo a seguir.
Supondo que as hipóteses do modelo clássico linear sejam válidas, o teorema da normalidade de
consiste no seguinte:

Esse teorema é facilmente demonstrado utilizando apenas três conhecimentos, sendo que já demonstramos os dois primeiros em capítulos anteriores:

segue uma distribuição normal, já que depende de
, que também apresenta distribuição normal.
De novo, como fizemos anteriormente, se desejarmos fazer inferência estatística com amostras, precisaremos utilizar o estimador da variância populacional
, que é dado por:
.
Teorema da distribuição t de
Supondo que as hipóteses do modelo clássico linear sejam válidas, e utilizamos
em vez de
, o teorema da distribuição t de
consiste no seguinte:
, onde
representa o desvio-padrão amostral, que é dado por
, onde:

�
; e

é o
da regressão auxiliar:
Observação – Principal