Econometria Aula - 2

•

PUC-RIO

2

1

2

1

0

Estudante PD

03/06/2012

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.233 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Econometria
Aula 2
Marta AreosaMarta Areosa
marta@econ.puc-rio.br
Aula passada
• Idealmente, gostaríamos de ter um experimento. Noção de 
ceterisparibus. 
 
• Mas quase sempre temos acesso somente a dados 
observacionais (não experimentais). Gera alguns problemas: 
2
• Variáveis omitidas 
• Causalidade simultânea 
 
• Revisão probabilidade estatística 
• Estatísticas sumárias 
• Metodologias para analisar relação entre médias 
(estimação, teste de hipótese, intervalos de confiança) 
• Momentos (covariância, correlação, etc.) 
 
(c) Distribuições condicionais e médias
condicionais
Distribuições Condicionais 
 
• Muitas vezes estaremos interessados somente em uma porção 
da distribuição de uma variável aleatória 
 
3
 
• A distribuição de Y, dado valor(es) de uma outra variável 
aleatória, X 
 
• Ex: a distribuição de notas de alunos dado que turmas são 
menores de 20 alunos 
(c) Distribuições condicionais e médias
condicionais
Expectativas e momentos condicionais 
 
Media condicional = media da distribuição condicional 
= E(Y|X = x) (importante!!) 
 
4
 
• Variância condicional = variância da distribuição condicional 
 
• Exemplo: E(Nota|Turma < 20) = media de nota em escolas 
com menos de 20 alunos 
 
Diferença de medias é a diferença de médias entre duas 
distribuições condicionais 
Média condicional, cont.
∆ = E(Nota|turma < 20) – E(Nota|turma ≥ 20) 
 
Outros exemplos de medias condicionais: 
• Salários de mulheres (Y = salário, X = mulher) 
5
Salários de mulheres ( = salário, = mulher) 
• Taxa de mortalidade para pessoas com um tratamento 
experimental (Y = vive/morre; X = tratamento/não trat.) 
• Se E(X|Z) = constante, então corr(X,Z) = 0 (vice-versa não é 
verdadeiro) 
Média condicional é uma outra maneira de chamar a media de 
grupos 
 
(d) Distribuição de uma amostra aleatória da
população: Y1,…, Yn
Amostra aleatória simples 
• Escolher unidades (indivíduos, escolas, municípios) de forma 
aleatória da população 
Aleatoriedade e dados 
6
• Antes da seleção, o valor de Y é aleatório porque indivíduo 
selecionado é aleatório 
• Após a seleção, o valor de Y é observado. Assim Y passa a ser 
um número e não mais uma variável aleatória 
• Base de dados (Y1, Y2,…, Yn), onde Yi = valor de Y para o 
i-ésimo indivíduo (unidade) amostral 
 
Distribuição de Y1,…, Yn em amostras
aleatórias simples
• Como indivíduos 1 e 2 foram selecionados aleatoriamente, o 
valor de Y1 não possui nenhum conteúdo informacional sobre 
Y2. Assim: 
• Y1 e Y2 são distribuídos de forma independente 
• Y1 e Y2 vêm da mesma distribuição, assim, Y1, Y2 são 
7
• Y1 e Y2 vêm da mesma distribuição, assim, Y1, Y2 são 
identicamente distribuídos 
• Em geral, com amostragem aleatória simples, {Yi}, 
i = 1,…, n, é i.i.d. 
 
Assim podemos fazer inferência estatística rigorosa sobre 
momentos da população usando dados amostrais … 
 
1. O arcabouço de teoria da probabilidade para inferência 
estatística 
2. Estimação 
3. Testes 
4. Intervalos de Confiança 
 
Estimação 
Y é um estimador natural para a média. Mas: 
8
Y é um estimador natural para a média. Mas: 
(a) Quais são as propriedades de Y ? 
(b) Por que devemos usar Y e não outro estimador? 
• Y1 (a primeira observação) 
• Talvez pesos diferentes – não a média simples 
• mediana(Y1,…, Yn) 
O ponto inicial e a distribuição de Y… 
(a) A distribuição amostral da média
 
Y
 é uma variável aleatória e suas propriedades estão 
determinadas pela distribuição amostral de Y 
• Os indivíduos da amostra são escolhidos aleatoriamente. 
 
9
 
• Os valores (Y1,…, Yn) são aleatórios 
 
• Funções de (Y1,…, Yn), como Y , são aleatórias: se amostra 
fosse repetida, valores diferentes seriam selecionados 
 
(a) A distribuição amostral da média
• A distribuição de Y sobre diferentes tamanhos de amostra n 
se chama distribuição amostral de Y . 
 
• A media e variância de Y são a media e variância de suas 
distribuições amostrais, E(Y ) e var(Y ). 
 
10
 
• O conceito de distribuição amostral serve de base para grande 
parte da econometria. 
 
A distribuição amostral da média
Exemplo: Suponha que Y toma dois valores 0 e 1 (variável 
aleatória Bernoulli) com a distribuição de probabilidades dada 
por, 
Pr[Y = 0] = .22, Pr(Y =1) = .78 
 
Então 
11
Então 
E(Y) = p×1 + (1 – p)×0 = p = .78 
 
2
Yσ = E[Y – E(Y)]2 = p(1 – p) 
= .78×(1–.78) = 0.1716 
A distribuição amostral da média
A distribuição amostral de Y depende de n. 
 
Considere n = 2: 
 
Pr(Y = 0) = .222 = .0484 
Pr(Y = ½) = 2×.22×.78 = .3432 
12
Pr(Y = ½) = 2×.22×.78 = .3432 
Pr(Y = 1) = .782 = .6084 
 
Informações que nos interessam sobre
distribuições amostrais:
• Qual é a media de Y ? 
 
• Se E(Y ) = verdadeira µ = .78, então Y é um estimador 
não viesado de µ 
 
13
 
• Qual é a variância de Y ? 
 
• Como é que a var(Y ) depende de n (fórmula de 1/n) 
 
Informações que nos interessam sobre
distribuições amostrais:
• Se Y se aproxima de µ conforme n aumenta? 
 
• Lei dos grandes números: Y é um estimador consistente 
para µ 
 
14
 
• Y – µ parece com formato de sino (normal) quando n se 
torna grande 
 
• Y – µ é aproximadamente normal para n grande 
(Teorema do limite central) 
 
Média e variância da distribuição amostral
Caso geral – para Yi i.i.d. de qualquer distribuição (não só a 
Bernoulli): 
Média: E(Y ) = E(
1
1 n
i
i
Y
n
=
∑ ) = 
1
1 ( )
n
i
i
E Y
n
=
∑ = 
1
1 n
Y
in
µ
=
∑ = µY 
15
Média e variância da distribuição amsotral
Caso geral – para Yi i.i.d. de qualquer distribuição (não só a 
Bernoulli): 
Média: E(Y ) = E(
1
1 n
i
i
Y
n
=
∑ ) = 
1
1 ( )
n
i
i
E Y
n
=
∑ = 
1
1 n
Y
in
µ
=
∑ = µY 
 
Variância: var(Y ) = E[Y – E(Y )]2 
16
Variância: var(Y ) = E[Y – E(Y )]2 
= E[Y – µY]2 
 = E
2
1
1 n
i Y
i
Y
n
µ
=
  
−  
  
∑ 
 
Média e variância da distribuição amsotral
Caso geral – para Yi i.i.d. de qualquer distribuição (não só a 
Bernoulli): 
Média: E(Y ) = E(
1
1 n
i
i
Y
n
=
∑ ) = 
1
1 ( )
n
i
i
E Y
n
=
∑ = 
1
1 n
Y
in
µ
=
∑ = µY 
 
17
 
Variância: var(Y ) = E[Y – E(Y )]2 
= E[Y – µY]2 
 = E
2
1
1 n
i Y
i
Y
n
µ
=
  
−  
  
∑ 
= E
2
1
1 ( )
n
i Y
i
Y
n
µ
=
 
− 
 
∑ 
 
Então: var(Y ) = E
2
1
1 ( )
n
i Y
i
Y
n
µ
=
 
− 
 
∑ 
= 
1 1
1 1( ) ( )
n n
i Y j Y
i j
E Y Y
n n
µ µ
= =
    
− × −   
    
∑ ∑ 
 
18
Então: var(Y ) = E
2
1
1 ( )
n
i Y
i
Y
n
µ
=
 
− 
 
∑ 
= 
1 1
1 1( ) ( )
n n
i Y j Y
i j
E Y Y
n n
µ µ
= =
    
− × −   
    
∑ ∑ 
= 2
1 1
1 ( )( )
n n
i Y j Y
i j
E Y Y
n
µ µ
= =
 − − ∑∑ 
19
1 1i jn = =
 
Então: var(Y ) = E
2
1
1 ( )
n
i Y
i
Y
n
µ
=
 
− 
 
∑ 
= 
1 1
1 1( ) ( )
n n
i Y j Y
i j
E Y Y
n n
µ µ
= =
    
− × −   
    
∑ ∑ 
= 2
1 1
1 ( )( )
n n
i Y j Y
i j
E Y Y
n
µ µ
= =
 − − ∑∑ 
20
1 1i jn = =
 ∑∑
= 2
1 1
1
cov( , )
n n
i j
i j
Y Y
n
= =
∑∑ 
 
 
so var(Y ) = E
2
1
1 ( )
n
i Y
i
Y
n
µ
=
 
− 
 
∑ 
= 
1 1
1 1( ) ( )
n n
i Y j Y
i j
E Y Y
n n
µ µ
= =
    
− × −   
    
∑ ∑ 
= 2
1 1
1 ( )( )
n n
i Y j Y
i j
E Y Y
n
µ µ
= =
 − − ∑∑ 
21
1 1i jn = =
 ∑∑
= 2
1 1
1
cov( , )
n n
i j
i j
Y Y
n
= =
∑∑ 
= 
2
2
1
1 n
Y
in
σ
=
∑ 
= 
2
Y
n
σ
 
 
Média e variância da distribuição amostral
 
 E(Y ) = µY 
 var(Y ) = 
2
Y
n
σ
 
 
Implicações: 
22
Implicações: 
 
1. Y é um estimador não viesado de µY (ou seja, E(Y ) = µY) 
 
2. var(Y ) é inversamente proporcional a n 
 
• a variação da distribuição amostral ( e a incerteza 
amostral associada a média Y ) é proporcional a 1/ n 
A distribuição amostral quando n é grande
Para amostras pequenas, a distribuição de Y é complicada, mas 
conforme n aumenta, estimara distribuição amostral Y se torna 
fácil! 
1. Conforme n aumenta, a distribuição de Y se concentra ao 
23
1. Conforme n aumenta, a distribuição de se concentra ao 
redor de µY (Lei dos Grandes Números) 
2. A distribuição de Y – µY se torna Normal (Teorema do Limite 
Central) 
 
Lei dos Grandes Números
 
Um estimador é consistente se a probabilidade que ele esteja 
em um intervalo do valor verdadeiro populacional tende a um 
conforme o tamanho da amostra aumenta. 
 
Se (Y ,…,Y ) são i.i.d. e 2σ < ∞, então Y é um estimador 
24
Se (Y1,…,Yn) são i.i.d. e 2Yσ < ∞, então Y é um estimador 
 
consistente de µY, ou seja, 
Pr[|Y – µY| < ε] → 1 as n → ∞ 
 
Lei dos Grandes Números
 
Que pode ser escrito como, Y 
p
→ µY 
(“Y 
p
→ µY” significa “Y converge em probabilidade para 
µY”). 
 
25
 
(também: quando n → ∞, var(Y ) = 
2
Y
n
σ
 → 0, o que implica que 
Pr[|Y – µY| < ε] → 1.) 
 
Teorema do Limite Central (TLC): 
Se (Y1,…,Yn) são i.i.d. e 0 < 2Yσ < ∞, então quando n é grande 
a distribuição de Y é bem aproximada pela distribuição 
normal. 
 
• Y e aproximadamente distribuída N(µY, 
2
Yσ ) (“média µY e 
26
• Y e aproximadamente distribuída N(µY, Y
n
) (“média µY e 
variância 2Yσ /n”) 
 
 
Teorema do Limite Central (TLC): 
Se (Y1,…,Yn) são i.i.d. e 0 < 2Yσ < ∞, então quando n é grande 
a distribuição de Y é bem aproximada pela distribuição 
normal. 
 
• Y e aproximadamente distribuída N(µY, 
2
Yσ ) (“média µY e 
27
• Y e aproximadamente distribuída N(µY, Y
n
) (“média µY e 
variância 2Yσ /n”) 
 
• n (Y – µY)/σY é approximadamente distribuida N(0,1) 
(normal padrão) 
Teorema do Limite Central (TLC): 
Se (Y1,…,Yn) são i.i.d. e 0 < 2Yσ < ∞, então quando n é grande 
a distribuição de Y é bem aproximada pela distribuição 
normal. 
 
• Y “padronizado” = ( )Y E Y− = YY µ− é aproximadamente 
28
• Y “padronizado” = 
var( )Y
 = 
/
Y
Y nσ
 é aproximadamente 
distribuida como N(0,1) 
 
• Quanto maior n, melhor a aproximação. 
 
Distribuição amostral de quando Y é 
Bernoull i, p = 0.78: 
Y
29
Exemplo: distribuição amostral de: 
( )
var( )
Y E Y
Y
−
30
Resumo: distribuição amostral de Y
Para Y1,…,Yn i.i.d. com 0 < 2Yσ < ∞, 
 
• A distribuição exata (amostra finita) de Y tem média µY (“Y 
é um estimador não-viesado de µY”) e variância 2Yσ /n 
 
• Quando n é grande, a distribuição amostral se simplifica: 
31
• Quando n é grande, a distribuição amostral se simplifica: 
 
Resumo: distribuição amostral de Y
Para Y1,…,Yn i.i.d. com 0 < 2Yσ < ∞, 
 
• A distribuição exata (amostra finita) de Y tem média µY (“Y 
é um estimador não-viesado de µY”) e variância 2Yσ /n 
 
• 
32
• Quando n é grande, a distribuição amostral se simplifica: 
 
 
• 
 
Y 
p
→ µY (Lei dos grandes números) 
• 
( )
var( )
Y E Y
Y
−
 é aproximadamente N(0,1) (TCL) 
 
(b) Por que usar para estimar µY? Y
• Y
 é não-viesado: E(Y ) = µY 
 
• Y
 é consistente: Y 
p
→ µY 
 
• Y é o estimador de “mínimos quadrados” de µY; Y resolve, 
n
∑
33
2
1
min ( )
n
m i
i
Y m
=
−∑ 
então, Y minimiza a suma dos “resíduos” quadrados 
 
(b) Por que usar para estimar µY? Y
Para ver que Y minimiza a suma dos “resíduos” quadrados: 
 
2
1
( )
n
i
i
d Y m
dm
=
−∑ = 2
1
( )
n
i
i
d Y m
dm
=
−∑ = 
1
2 ( )
n
i
i
Y m
=
−∑ 
 
Se igualamos a derivada a zero e denotamos o valor ótimo de 
34
Se igualamos a derivada a zero e denotamos o valor ótimo de 
m por mˆ: 
 
1
n
i
Y
=
∑ = 
1
ˆ
n
i
m
=
∑ = ˆnm ou mˆ = 
1
1 n
i
i
Y
n
=
∑ = Y 
 
(b) Por que usar para estimar µY? Y
• Y possui a menor variância comparado com todos os outros 
estimadores lineares não-viesados: considere o estimador, 
1
1
ˆ
n
Y i i
i
aY
n
µ
=
= ∑ , onde {ai} é tal que ˆYµ é não-viesado; então 
35
1i=
var(Y ) ≤ var( ˆYµ ) (prova: vocês irão fazer na lista...) 
 
 
1. O arcabouço de teoria da probabilidade para inferência 
estatística 
2. Estimação 
3. Testes de hipóteses 
4. Intervalos de Confiança 
 
36
Testes de hipóteses
 
O problema de testar hipóteses (para a média): tomar uma 
decisão, com base na evidência que se tem em mãos, se uma 
hipótese nula é verdadeira ou se, alternativamente, uma hipótese 
alternativa é verdadeira. Ou seja, testamos 
37
alternativa é verdadeira. Ou seja, testamos 
 
H0: E(Y) = µY,0 vs. H1: E(Y) > µY,0 (1 lado, >) 
H0: E(Y) = µY,0 vs. H1: E(Y) < µY,0 (1 lado, <) 
H0: E(Y) = µY,0 vs. H1: E(Y) ≠µY,0 (2 lados) 
 
 
Terminologia para testar hipóteses estatísticas: 
p-valor = probabilidade de obter de uma distribuição um valor 
(uma estatística, ex. Y ) pelo menos tão extrema quanto um valor 
efetivamente observado com nossos dados, assumindo que a 
hipótese nula é verdadeira. 
 
O nível de significância de um teste é a probabilidade de 
38
O nível de significância de um teste é a probabilidade de 
incorretamente rejeitar uma hipótese nula, quando esta é 
verdadeira. 
Calculando o p-valor com base em Y : 
 p-valor = 
0 ,0 ,0
Pr [| | | |]actH Y YY Yµ µ− > − 
onde actY é o valor de Y atualmente observado (não-aleatório) 
Calculando o p-valor
• Para calcular o p-valor, precisamos saber a distribuição 
amostral de Y , o que é complicado se n é pequeno. 
• Se n é grande, podemos usar uma aproximação Normal 
(TLC): 
 
p-value = 
,0 ,0Pr [| | | |]actH Y YY Yµ µ− > − , 
39
p-value = 
0 ,0 ,0
Pr [| | | |]H Y YY Yµ µ− > − , 
 = 
0
,0 ,0Pr [| | | |]
/ /
act
Y Y
H
Y Y
Y Y
n n
µ µ
σ σ
− −
> 
 = 
0
,0 ,0Pr [| | | |]
act
Y Y
H
Y Y
Y Yµ µ
σ σ
− −
> 
onde Yσ = desvio padrão da distribuição de Y = σY/ n . 
Calculando o p-valor com σY conhecido:
40
• Para n grande, p-valor = probabilidade que uma variável 
aleatória da N(0,1) caia fora do intervalo |( actY – µY,0)/ Yσ | 
• Na prática, Yσ é desconhecido – precisa ser estimado 
 
Estimando a variância de Y: 
2
Ys = 
2
1
1 ( )
1
n
i
i
Y Y
n
=
−
−
∑ = “variância amostral de Y” 
Fato: 
Se (Y1,…,Yn) são i.i.d. e E(Y4) < ∞, então 2Ys 
p
→ 2Yσ 
41
 
Por que podemos usar a Lei dos Grandes Números? 
• Por que 2Ys é uma media amostral 
• Tecnicamente, assumimos que E(Y4) < ∞ por que estamos 
usando o quadrado de Yi 
Calculando o p-valor com estimado:2Yσ
p-valor = 
0 ,0 ,0
Pr [| | | |]actH Y YY Yµ µ− > − , 
 = 
0
,0 ,0Pr [| | | |]
/ /
act
Y Y
H
Y Y
Y Y
n n
µ µ
σ σ
− −
> 
 ≅ 
0
,0 ,0Pr [| | | |]
/ /
act
Y Y
H
Y Y
s n s n
µ µ− −
> (para n grande) 
42
0 / /Y Ys n s n
então 
 p-valor = 
0
Pr [| | | |]actH t t> ( 2Yσ estimado) 
 ≅ probabilidade abaixo das caldas de uma normal 
fora de |tact| 
onde t = ,0
/
Y
Y
Y
s n
µ−
 (estatística t) 
 
Qual é a relação entre o p-valor e o nível
de significância?
O nível de significância é pré-especificado. Por exemplo, se o 
nível é de 5%, 
• Rejeitamos a hipótese nula se |t| ≥ 1.96 
• Equivalentemente, rejeitamos se p ≤ 0.05. 
43
• Equivalentemente, rejeitamos se p ≤ 0.05. 
• O p-valor é as vezes chamado de nível de significância 
marginal. 
• É sempre uma boa prática comunicar o p-valor, e não dizer 
somente se a hipótese foi rejeitada ou não.