Baixe o app para aproveitar ainda mais
Prévia do material em texto
Econometria Aula 2 Marta AreosaMarta Areosa marta@econ.puc-rio.br Aula passada • Idealmente, gostaríamos de ter um experimento. Noção de ceterisparibus. • Mas quase sempre temos acesso somente a dados observacionais (não experimentais). Gera alguns problemas: 2 • Variáveis omitidas • Causalidade simultânea • Revisão probabilidade estatística • Estatísticas sumárias • Metodologias para analisar relação entre médias (estimação, teste de hipótese, intervalos de confiança) • Momentos (covariância, correlação, etc.) (c) Distribuições condicionais e médias condicionais Distribuições Condicionais • Muitas vezes estaremos interessados somente em uma porção da distribuição de uma variável aleatória 3 • A distribuição de Y, dado valor(es) de uma outra variável aleatória, X • Ex: a distribuição de notas de alunos dado que turmas são menores de 20 alunos (c) Distribuições condicionais e médias condicionais Expectativas e momentos condicionais Media condicional = media da distribuição condicional = E(Y|X = x) (importante!!) 4 • Variância condicional = variância da distribuição condicional • Exemplo: E(Nota|Turma < 20) = media de nota em escolas com menos de 20 alunos Diferença de medias é a diferença de médias entre duas distribuições condicionais Média condicional, cont. ∆ = E(Nota|turma < 20) – E(Nota|turma ≥ 20) Outros exemplos de medias condicionais: • Salários de mulheres (Y = salário, X = mulher) 5 Salários de mulheres ( = salário, = mulher) • Taxa de mortalidade para pessoas com um tratamento experimental (Y = vive/morre; X = tratamento/não trat.) • Se E(X|Z) = constante, então corr(X,Z) = 0 (vice-versa não é verdadeiro) Média condicional é uma outra maneira de chamar a media de grupos (d) Distribuição de uma amostra aleatória da população: Y1,…, Yn Amostra aleatória simples • Escolher unidades (indivíduos, escolas, municípios) de forma aleatória da população Aleatoriedade e dados 6 • Antes da seleção, o valor de Y é aleatório porque indivíduo selecionado é aleatório • Após a seleção, o valor de Y é observado. Assim Y passa a ser um número e não mais uma variável aleatória • Base de dados (Y1, Y2,…, Yn), onde Yi = valor de Y para o i-ésimo indivíduo (unidade) amostral Distribuição de Y1,…, Yn em amostras aleatórias simples • Como indivíduos 1 e 2 foram selecionados aleatoriamente, o valor de Y1 não possui nenhum conteúdo informacional sobre Y2. Assim: • Y1 e Y2 são distribuídos de forma independente • Y1 e Y2 vêm da mesma distribuição, assim, Y1, Y2 são 7 • Y1 e Y2 vêm da mesma distribuição, assim, Y1, Y2 são identicamente distribuídos • Em geral, com amostragem aleatória simples, {Yi}, i = 1,…, n, é i.i.d. Assim podemos fazer inferência estatística rigorosa sobre momentos da população usando dados amostrais … 1. O arcabouço de teoria da probabilidade para inferência estatística 2. Estimação 3. Testes 4. Intervalos de Confiança Estimação Y é um estimador natural para a média. Mas: 8 Y é um estimador natural para a média. Mas: (a) Quais são as propriedades de Y ? (b) Por que devemos usar Y e não outro estimador? • Y1 (a primeira observação) • Talvez pesos diferentes – não a média simples • mediana(Y1,…, Yn) O ponto inicial e a distribuição de Y… (a) A distribuição amostral da média Y é uma variável aleatória e suas propriedades estão determinadas pela distribuição amostral de Y • Os indivíduos da amostra são escolhidos aleatoriamente. 9 • Os valores (Y1,…, Yn) são aleatórios • Funções de (Y1,…, Yn), como Y , são aleatórias: se amostra fosse repetida, valores diferentes seriam selecionados (a) A distribuição amostral da média • A distribuição de Y sobre diferentes tamanhos de amostra n se chama distribuição amostral de Y . • A media e variância de Y são a media e variância de suas distribuições amostrais, E(Y ) e var(Y ). 10 • O conceito de distribuição amostral serve de base para grande parte da econometria. A distribuição amostral da média Exemplo: Suponha que Y toma dois valores 0 e 1 (variável aleatória Bernoulli) com a distribuição de probabilidades dada por, Pr[Y = 0] = .22, Pr(Y =1) = .78 Então 11 Então E(Y) = p×1 + (1 – p)×0 = p = .78 2 Yσ = E[Y – E(Y)]2 = p(1 – p) = .78×(1–.78) = 0.1716 A distribuição amostral da média A distribuição amostral de Y depende de n. Considere n = 2: Pr(Y = 0) = .222 = .0484 Pr(Y = ½) = 2×.22×.78 = .3432 12 Pr(Y = ½) = 2×.22×.78 = .3432 Pr(Y = 1) = .782 = .6084 Informações que nos interessam sobre distribuições amostrais: • Qual é a media de Y ? • Se E(Y ) = verdadeira µ = .78, então Y é um estimador não viesado de µ 13 • Qual é a variância de Y ? • Como é que a var(Y ) depende de n (fórmula de 1/n) Informações que nos interessam sobre distribuições amostrais: • Se Y se aproxima de µ conforme n aumenta? • Lei dos grandes números: Y é um estimador consistente para µ 14 • Y – µ parece com formato de sino (normal) quando n se torna grande • Y – µ é aproximadamente normal para n grande (Teorema do limite central) Média e variância da distribuição amostral Caso geral – para Yi i.i.d. de qualquer distribuição (não só a Bernoulli): Média: E(Y ) = E( 1 1 n i i Y n = ∑ ) = 1 1 ( ) n i i E Y n = ∑ = 1 1 n Y in µ = ∑ = µY 15 Média e variância da distribuição amsotral Caso geral – para Yi i.i.d. de qualquer distribuição (não só a Bernoulli): Média: E(Y ) = E( 1 1 n i i Y n = ∑ ) = 1 1 ( ) n i i E Y n = ∑ = 1 1 n Y in µ = ∑ = µY Variância: var(Y ) = E[Y – E(Y )]2 16 Variância: var(Y ) = E[Y – E(Y )]2 = E[Y – µY]2 = E 2 1 1 n i Y i Y n µ = − ∑ Média e variância da distribuição amsotral Caso geral – para Yi i.i.d. de qualquer distribuição (não só a Bernoulli): Média: E(Y ) = E( 1 1 n i i Y n = ∑ ) = 1 1 ( ) n i i E Y n = ∑ = 1 1 n Y in µ = ∑ = µY 17 Variância: var(Y ) = E[Y – E(Y )]2 = E[Y – µY]2 = E 2 1 1 n i Y i Y n µ = − ∑ = E 2 1 1 ( ) n i Y i Y n µ = − ∑ Então: var(Y ) = E 2 1 1 ( ) n i Y i Y n µ = − ∑ = 1 1 1 1( ) ( ) n n i Y j Y i j E Y Y n n µ µ = = − × − ∑ ∑ 18 Então: var(Y ) = E 2 1 1 ( ) n i Y i Y n µ = − ∑ = 1 1 1 1( ) ( ) n n i Y j Y i j E Y Y n n µ µ = = − × − ∑ ∑ = 2 1 1 1 ( )( ) n n i Y j Y i j E Y Y n µ µ = = − − ∑∑ 19 1 1i jn = = Então: var(Y ) = E 2 1 1 ( ) n i Y i Y n µ = − ∑ = 1 1 1 1( ) ( ) n n i Y j Y i j E Y Y n n µ µ = = − × − ∑ ∑ = 2 1 1 1 ( )( ) n n i Y j Y i j E Y Y n µ µ = = − − ∑∑ 20 1 1i jn = = ∑∑ = 2 1 1 1 cov( , ) n n i j i j Y Y n = = ∑∑ so var(Y ) = E 2 1 1 ( ) n i Y i Y n µ = − ∑ = 1 1 1 1( ) ( ) n n i Y j Y i j E Y Y n n µ µ = = − × − ∑ ∑ = 2 1 1 1 ( )( ) n n i Y j Y i j E Y Y n µ µ = = − − ∑∑ 21 1 1i jn = = ∑∑ = 2 1 1 1 cov( , ) n n i j i j Y Y n = = ∑∑ = 2 2 1 1 n Y in σ = ∑ = 2 Y n σ Média e variância da distribuição amostral E(Y ) = µY var(Y ) = 2 Y n σ Implicações: 22 Implicações: 1. Y é um estimador não viesado de µY (ou seja, E(Y ) = µY) 2. var(Y ) é inversamente proporcional a n • a variação da distribuição amostral ( e a incerteza amostral associada a média Y ) é proporcional a 1/ n A distribuição amostral quando n é grande Para amostras pequenas, a distribuição de Y é complicada, mas conforme n aumenta, estimara distribuição amostral Y se torna fácil! 1. Conforme n aumenta, a distribuição de Y se concentra ao 23 1. Conforme n aumenta, a distribuição de se concentra ao redor de µY (Lei dos Grandes Números) 2. A distribuição de Y – µY se torna Normal (Teorema do Limite Central) Lei dos Grandes Números Um estimador é consistente se a probabilidade que ele esteja em um intervalo do valor verdadeiro populacional tende a um conforme o tamanho da amostra aumenta. Se (Y ,…,Y ) são i.i.d. e 2σ < ∞, então Y é um estimador 24 Se (Y1,…,Yn) são i.i.d. e 2Yσ < ∞, então Y é um estimador consistente de µY, ou seja, Pr[|Y – µY| < ε] → 1 as n → ∞ Lei dos Grandes Números Que pode ser escrito como, Y p → µY (“Y p → µY” significa “Y converge em probabilidade para µY”). 25 (também: quando n → ∞, var(Y ) = 2 Y n σ → 0, o que implica que Pr[|Y – µY| < ε] → 1.) Teorema do Limite Central (TLC): Se (Y1,…,Yn) são i.i.d. e 0 < 2Yσ < ∞, então quando n é grande a distribuição de Y é bem aproximada pela distribuição normal. • Y e aproximadamente distribuída N(µY, 2 Yσ ) (“média µY e 26 • Y e aproximadamente distribuída N(µY, Y n ) (“média µY e variância 2Yσ /n”) Teorema do Limite Central (TLC): Se (Y1,…,Yn) são i.i.d. e 0 < 2Yσ < ∞, então quando n é grande a distribuição de Y é bem aproximada pela distribuição normal. • Y e aproximadamente distribuída N(µY, 2 Yσ ) (“média µY e 27 • Y e aproximadamente distribuída N(µY, Y n ) (“média µY e variância 2Yσ /n”) • n (Y – µY)/σY é approximadamente distribuida N(0,1) (normal padrão) Teorema do Limite Central (TLC): Se (Y1,…,Yn) são i.i.d. e 0 < 2Yσ < ∞, então quando n é grande a distribuição de Y é bem aproximada pela distribuição normal. • Y “padronizado” = ( )Y E Y− = YY µ− é aproximadamente 28 • Y “padronizado” = var( )Y = / Y Y nσ é aproximadamente distribuida como N(0,1) • Quanto maior n, melhor a aproximação. Distribuição amostral de quando Y é Bernoull i, p = 0.78: Y 29 Exemplo: distribuição amostral de: ( ) var( ) Y E Y Y − 30 Resumo: distribuição amostral de Y Para Y1,…,Yn i.i.d. com 0 < 2Yσ < ∞, • A distribuição exata (amostra finita) de Y tem média µY (“Y é um estimador não-viesado de µY”) e variância 2Yσ /n • Quando n é grande, a distribuição amostral se simplifica: 31 • Quando n é grande, a distribuição amostral se simplifica: Resumo: distribuição amostral de Y Para Y1,…,Yn i.i.d. com 0 < 2Yσ < ∞, • A distribuição exata (amostra finita) de Y tem média µY (“Y é um estimador não-viesado de µY”) e variância 2Yσ /n • 32 • Quando n é grande, a distribuição amostral se simplifica: • Y p → µY (Lei dos grandes números) • ( ) var( ) Y E Y Y − é aproximadamente N(0,1) (TCL) (b) Por que usar para estimar µY? Y • Y é não-viesado: E(Y ) = µY • Y é consistente: Y p → µY • Y é o estimador de “mínimos quadrados” de µY; Y resolve, n ∑ 33 2 1 min ( ) n m i i Y m = −∑ então, Y minimiza a suma dos “resíduos” quadrados (b) Por que usar para estimar µY? Y Para ver que Y minimiza a suma dos “resíduos” quadrados: 2 1 ( ) n i i d Y m dm = −∑ = 2 1 ( ) n i i d Y m dm = −∑ = 1 2 ( ) n i i Y m = −∑ Se igualamos a derivada a zero e denotamos o valor ótimo de 34 Se igualamos a derivada a zero e denotamos o valor ótimo de m por mˆ: 1 n i Y = ∑ = 1 ˆ n i m = ∑ = ˆnm ou mˆ = 1 1 n i i Y n = ∑ = Y (b) Por que usar para estimar µY? Y • Y possui a menor variância comparado com todos os outros estimadores lineares não-viesados: considere o estimador, 1 1 ˆ n Y i i i aY n µ = = ∑ , onde {ai} é tal que ˆYµ é não-viesado; então 35 1i= var(Y ) ≤ var( ˆYµ ) (prova: vocês irão fazer na lista...) 1. O arcabouço de teoria da probabilidade para inferência estatística 2. Estimação 3. Testes de hipóteses 4. Intervalos de Confiança 36 Testes de hipóteses O problema de testar hipóteses (para a média): tomar uma decisão, com base na evidência que se tem em mãos, se uma hipótese nula é verdadeira ou se, alternativamente, uma hipótese alternativa é verdadeira. Ou seja, testamos 37 alternativa é verdadeira. Ou seja, testamos H0: E(Y) = µY,0 vs. H1: E(Y) > µY,0 (1 lado, >) H0: E(Y) = µY,0 vs. H1: E(Y) < µY,0 (1 lado, <) H0: E(Y) = µY,0 vs. H1: E(Y) ≠µY,0 (2 lados) Terminologia para testar hipóteses estatísticas: p-valor = probabilidade de obter de uma distribuição um valor (uma estatística, ex. Y ) pelo menos tão extrema quanto um valor efetivamente observado com nossos dados, assumindo que a hipótese nula é verdadeira. O nível de significância de um teste é a probabilidade de 38 O nível de significância de um teste é a probabilidade de incorretamente rejeitar uma hipótese nula, quando esta é verdadeira. Calculando o p-valor com base em Y : p-valor = 0 ,0 ,0 Pr [| | | |]actH Y YY Yµ µ− > − onde actY é o valor de Y atualmente observado (não-aleatório) Calculando o p-valor • Para calcular o p-valor, precisamos saber a distribuição amostral de Y , o que é complicado se n é pequeno. • Se n é grande, podemos usar uma aproximação Normal (TLC): p-value = ,0 ,0Pr [| | | |]actH Y YY Yµ µ− > − , 39 p-value = 0 ,0 ,0 Pr [| | | |]H Y YY Yµ µ− > − , = 0 ,0 ,0Pr [| | | |] / / act Y Y H Y Y Y Y n n µ µ σ σ − − > = 0 ,0 ,0Pr [| | | |] act Y Y H Y Y Y Yµ µ σ σ − − > onde Yσ = desvio padrão da distribuição de Y = σY/ n . Calculando o p-valor com σY conhecido: 40 • Para n grande, p-valor = probabilidade que uma variável aleatória da N(0,1) caia fora do intervalo |( actY – µY,0)/ Yσ | • Na prática, Yσ é desconhecido – precisa ser estimado Estimando a variância de Y: 2 Ys = 2 1 1 ( ) 1 n i i Y Y n = − − ∑ = “variância amostral de Y” Fato: Se (Y1,…,Yn) são i.i.d. e E(Y4) < ∞, então 2Ys p → 2Yσ 41 Por que podemos usar a Lei dos Grandes Números? • Por que 2Ys é uma media amostral • Tecnicamente, assumimos que E(Y4) < ∞ por que estamos usando o quadrado de Yi Calculando o p-valor com estimado:2Yσ p-valor = 0 ,0 ,0 Pr [| | | |]actH Y YY Yµ µ− > − , = 0 ,0 ,0Pr [| | | |] / / act Y Y H Y Y Y Y n n µ µ σ σ − − > ≅ 0 ,0 ,0Pr [| | | |] / / act Y Y H Y Y s n s n µ µ− − > (para n grande) 42 0 / /Y Ys n s n então p-valor = 0 Pr [| | | |]actH t t> ( 2Yσ estimado) ≅ probabilidade abaixo das caldas de uma normal fora de |tact| onde t = ,0 / Y Y Y s n µ− (estatística t) Qual é a relação entre o p-valor e o nível de significância? O nível de significância é pré-especificado. Por exemplo, se o nível é de 5%, • Rejeitamos a hipótese nula se |t| ≥ 1.96 • Equivalentemente, rejeitamos se p ≤ 0.05. 43 • Equivalentemente, rejeitamos se p ≤ 0.05. • O p-valor é as vezes chamado de nível de significância marginal. • É sempre uma boa prática comunicar o p-valor, e não dizer somente se a hipótese foi rejeitada ou não.
Compartilhar