Buscar

Nota_de_aula_1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
 
Notas de aula para o curso de Econometria I 
Nota 1: Introdução e estatística matemática 
Thiago Fonseca Morello 
fonseca.morello@ufabc.edu.br 
sala 301, Bloco Delta, SBC 
1 Econometria: o que é e para que serve 
A econometria é uma área da ciência econômica voltada à análise de dados. Subdivide-
se em duas subáreas, (i) econometria teórica, cujo objetivo é o desenvolvimento de 
métodos de análise de dados e (ii) econometria aplicada, cujo objetivo é a utilização de 
métodos de análise de dados para responder a perguntas práticas, concretas. Os métodos 
que constituem a econometria se fundamentam na teoria estatística e na teoria 
econômica. 
A análise econométrica toma por base a metodologia científica proposta por Karl 
Popper1. Este autor procurou estabelecer um critério para imprimir credibilidade às 
explicações elaboradas pelos cientistas para os fenômenos por eles estudados. Um 
exemplo é a lei da gravidade de Isaac Newton. O fenômeno que ela procura explicar é a 
atração de corpos, do qual é um caso particular a queda de objetos tal como a 
observamos no dia-a-dia. A explicação elaborada por Newton, grosseiramente, consiste 
na afirmação de que os corpos se atraem na proporção direta de suas massas e na 
proporção inversa do quadrado de suas distâncias. De acordo com Popper, uma 
explicação como essa deve ser compreendida como uma hipótese e não como uma 
verdade absoluta, i.e., um princípio sempre válido, em todas as situações possíveis. Este 
é o critério de credibilidade sugerido pelo autor: uma explicação é tomada como válida 
até que seja descoberta uma evidência (dados) que a refute. Por isso, para a ciência, 
formular explicações, ou melhor, hipóteses, é tão importante quanto procurar evidências 
que possam vir a refutá-las. Nenhuma das leis científicas deve, pois, ser vista como uma 
verdade absoluta, mas sim como uma hipótese ainda não refutada pelos dados. 
Enquanto a teoria econômica, em todas as suas vertentes, ortodoxa e heterodoxa, 
procura formular hipóteses, a análise econométrica visa submetê-las à refutação. 
Alguns exemplos célebres de hipóteses testadas pela análise econométrica são (i) a 
hipótese de Keynes de que o nível macroeconômico de consumo é função da renda 
(PIB) corrente2, (ii) a hipótese de que a qualidade das instituições de uma nação 
 
1 Popper,K. A lógica da pesquisa científica. São Paulo, SP: Cultrix, especialmente o cap.6. 
2 Uma discussão da análise empírica desta hipótese pode ser encontrada em Romer, D., Advanced 
Macroeconomics, quarta edição, 2012, seção 8.1. 
2 
 
influencia o nível de desenvolvimento medido pelo PIB per capita3 e (iii) a hipótese de 
que a remuneração de um trabalhador é proporcional a seu nível educacional4. 
O teste de hipóteses teóricas é, contudo, apenas uma das finalidades da análise 
econométrica. Há pelo menos outras duas finalidades. Uma delas é a previsão de 
variáveis econômicas, como, por exemplo, a taxa de crescimento do PIB, a taxa de 
inflação, a demanda por bens duráveis, etc. A outra finalidade é a estimação de relações 
entre variáveis econômicas para subsidiar modelos computacionais. Esta última 
aplicação compreende a estimação de curvas de oferta e demanda e elasticidades-preço 
e renda, medidas relevantes, por exemplo, para Modelos de Equilíbrio Geral 
Computável, os quais simulam economias nacionais ou regionais. 
 
2 Fundamentos de teoria das probabilidades 
2.1 Variável aleatória e função de distribuição de probabilidades 
Uma variável aleatória (VA) X é qualquer variável cujo valor é determinado por um 
processo aleatório representado por uma função de distribuição de probabilidades. 
A função de distribuição de probabilidades (FD) é uma correspondência entre (i) um 
conjunto de valores e (ii) probabilidades. Para um dado valor ela retorna a probabilidade 
com que tal valor ocorre, i.e., a probabilidade de que a variável assuma o valor. 
Por exemplo, a variável X pode indicar a detenção de um atributo específico, como a 
detenção de um emprego (um posto de trabalho). Neste caso, X é uma variável 
qualitativa discreta. Para facilitar o tratamento, será assumido que o valor unitário, i.e., 
X = 1, corresponde à situação em que o indivíduo está empregado e o valor nulo, X = 0, 
corresponde à situação de desemprego. Caso X assuma valor 1 com probabilidade p e 
valor 0 com probabilidade 1 – p, ela é regida por uma função de distribuição de 
probabilidades de Bernoulli. Esta pode ser formalmente representada por fX(x) = P(X = 
x) = px(1-p)1-x, em que “X”, maiúsculo, denota a variável aleatória e “x”, minúsculo, um 
valor particular. 
Um exemplo alternativo é o em que X representa o número de pessoas de uma região 
que estão empregadas, neste caso, a variável aleatória é quantitativa e ainda discreta. A 
distribuição de probabilidade não é Bernoulli, uma vez que esta se aplica apenas a 
experimentos dicotômicos, em que há apenas dois resultados possíveis. A distribuição é 
Binomial, pois X é uma contagem, equivalente, pois, à soma dos valores assumidos 
pelas variáveis binárias que indicam a situação de emprego de cada uma das pessoas. A 
 
3 Um artigo em que esta hipótese é testada é o de Acemoglu, Johson e Robinson, “The Colonial Origins 
of Comparative Development: an Empirical Investigation. American Economic Review, v.91, n.5. 
Disponível em: http://economics.mit.edu/files/4123 
4 Ver Mincer, J. (1958). Investment in human capital and personal income distribution. Journal 
of Political Economy, 66:281. Disponível em http://ideas.repec.org/a/ucp/jpolec/ 
v66y1958p281.html. 
3 
 
função de distribuição de probabilidades neste caso é P(X = x) = ൫௡௫൯ p
x(1-p)n-x, em que 
൫௡௫൯ é o binômio de Newton que determina o número total de grupos de tamanho x que 
podem ser retirados do conjunto de n indivíduos. 
As variáveis aleatórias cuja distribuição é descrita pelas FDs Bernoulli e binomial são 
discretas e não contínuas. Uma variável é dita contínua quando assume valores 
pertencentes ao conjunto dos números Reais. Isso quer dizer que a variável pode 
assumir valores que diferem entre si por magnitudes muito pequenas, infinitesimais. 
Este não é o caso de uma variável binária, a qual assume apenas dois valores, 0 e 1, pois 
a diferença entre eles não é infinitesimal. O mesmo valendo também para os valores de 
uma contagem, os quais correspondem ao conjunto dos números naturais. 
A FD mais comum em econometria é a FD normal ou Gaussiana - em homenagem a 
Karl F. Gauss, quem propôs a função pela primeira vez. Esta FD descreve a distribuição 
de variáveis contínuas, tal como o PIB, a altura e massa de pessoas, o salário pago pelo 
mercado de trabalho, etc. A FD normal parte do princípio de que valores mais próximos 
da média têm maior probabilidade de ocorrência. O que é equivalente a afirmar que a 
probabilidade de ocorrência de um determinado valor é tão menor quanto mais distante 
da média ele estiver. No gráfico a seguir há a FD normal para uma VA com média nula. 
 
Outro conceito importante é o de função de distribuição acumulada (FDA). Esta, ao 
invés de reportar a probabilidade de ocorrência de um valor, denotado por “c”, reporta a 
probabilidade de ocorrência de valores menores ou equivalentes a c, i.e., P(X≤ c). Na 
distribuição normal, trata-se da área à esquerda de c, conforme denota o gráfico abaixo 
para c = -1. 
4 
 
 
Se forem considerados todos os valores possíveis de c, de maneira que a probabilidade 
acumulada até c varie ao longo de todo o domínio da variável x, tem-se o traçado da 
FDA, tal como o gráfico abaixo ilustra para a normal padrão. 
 
 
2.2 Distribuições conjuntas, condicionais e independência 
Na seção anterior tratamos da FD de apenas uma variável aleatória. Porém, para a 
maioriadas aplicações econométricas, é útil considerar a distribuição conjunta de 
algumas VAs. Trata-se de nada mais do que uma função que atribui probabilidade à 
ocorrência simultânea de valores específicos para cada uma das variáveis, i.e., fX,Y(x,y) 
= P(X = x, Y = y), em que a vírgula deve ser lida como “e”, ou seja, representando, 
portanto, ocorrência simultânea ou intersecção. Trata-se, pois, da probabilidade de que 
X assuma valor x e de que, simultaneamente, Y assuma valor y. 
5 
 
É sempre possível decompor uma probabilidade conjunta da seguinte maneira P(A ∩ B) 
= P(A|B)P(B), em que P(A|B) é a probabilidade de que o evento A ocorra dado que o 
evento B ocorreu, geralmente denominada por probabilidade condicional de A. Sendo A 
o evento em que Y assume valor y e B, por sua vez, o evento em que X assume valor x, 
então a decomposição é equivalente a: 
P(Y = y ∩ X = x) ≡ P(Y = y, X = x) = P(Y = y | X = x) P(X = x). 
Em que o símbolo “≡” indica equivalência por definição, i.e, P(Y = y ∩ X = x) é, por 
definição, equivalente a P(Y = y, X = x), uma vez que se está utilizando a vírgula para 
representar a intersecção de dois eventos. 
Duas variáveis aleatórias X e Y são ditas independentes quanto o fato de uma delas 
assumir um determinado valor não afeta a probabilidade com que a outra assume 
valores. No caso das variáveis X e Y isso quer dizer que, qualquer seja o valor assumido 
por X, i.e., qualquer que seja x, a probabilidade com que Y assume um dado valor, y, 
por exemplo, será sempre a mesma e dada por P(Y=y). Formalmente, a independência 
pode ser representada a partir da equação a seguir. 
P(Y = y | X = x) = P(Y = y) 
Ou seja, a probabilidade condicional, P(Y = y | X = x), é equivalente à probabilidade 
marginal, P(Y = y). Emprega-se o termo “probabilidade marginal” para se referir à FD 
de uma variável quando tomada isoladamente, sem considerar as demais variáveis com 
as quais ela possa, eventualmente, estar relacionada. 
Um corolário (i.e., uma consequência lógica) da definição apresentada é o de que P(Y = 
y, X = x) = P(Y = y) P(X = x). Esta maneira de expressar a independência é mais 
recorrente nos livros-texto. Ela nos diz que a probabilidade de que Y assuma valor y e 
de que X assuma valor x é equivalente ao produto das probabilidades marginais. 
O discutido nesta subseção pode ser estendido para mais de duas variáveis. Com N 
variáveis, N > 2, a independência poderia ser representada como P(X1 = x1, X2 = x2, X3 
= x3,...,XN = xN) = P(X1 = x1) P(X2 = x2) P(X3 = x3)...P(XN = xN). 
2.3 Expectativa e variância 
2.3.1 Expectativa e suas propriedades 
A expectativa de uma variável aleatória corresponde à média ponderada dos valores 
possíveis, em que cada valor possível é ponderado por sua probabilidade de ocorrência. 
O número de valores que uma variável discreta pode assumir é finito. Sejam estes 
valores representados por x1,x2,...,XN. Desta maneira, pode-se ter que, por exemplo, x1 é 
o menor valor que a variável pode assumir e XN o maior, enquanto x2,...,XN-1 são 
valores intermediários entre estes dois extremos. A expectativa de X, denotada por E[x], 
é tal que: 
6 
 
ܧ[ܺ] = ݔଵܲ(ݔ = ݔଵ) + ݔଶܲ(ݔ = ݔଶ) + ⋯+ ݔேܲ(ݔ = ݔே) = ෍ܲ(ܺ = ݔ௜)ݔ௜ே
௜ୀଵ
 
Caso X seja contínua, como é o caso, por exemplo, de variáveis econômicas como renda 
anual, despesa anual em consumo, valor investido em novas tecnologias, etc, há um 
número infinito de valores possíveis. Denotando o domínio de variação (intervalo de 
valores possíveis) de X por DX, a expectativa da VA é dada por: 
ܧ[ܺ] = න ݔ
஽೉
௑݂(ݔ)݀ݔ 
Em que fx(x) é a FD de X. 
Duas propriedades úteis do operador expectativa, sejam X e Y discretas ou contínuas, 
são: 
(Prop.Exp.1, linearidade) Sejam “a” e “b” duas constantes, não se tratando, portanto, de 
variáveis aleatórias, então tem-se que E[a+bX] = a+bE[X], o que decorre diretamente 
do princípio de que a expectativa de uma constante é a própria constante. 
(Prop.Exp.2, soma de VAs) Sejam X e Y duas VAs, então se aplica a propriedade de 
que a expectativa da soma de duas VAs é equivalente à soma das expectativas das VAs. 
E[X + Y] = E[X] + E[Y]. Esta propriedade também se aplica à expectativa da soma de 
mais de duas VAs. 
Outra propriedade diz respeito à expectativa de uma função da VA X. 
(Prop.Exp.3, expectativa de uma função de uma VA) Seja g(X) uma função genérica de 
X. Então o valor esperado (da imagem) desta função E[g(X)] é dado por: 
ܧ[݃(ܺ)] = න ݃(ݔ)
஽೉
௑݂(ݔ)݀ݔ, ݏ݁	ݔ	݂݋ݎ	ܿ݋݊ݐí݊ݑܽ 
ܧ[݃(ܺ)] = ෍݃(ݔ௜)ܲ(ܺ = ݔ௜)ே
௜ୀଵ
, ݏ݁	ݔ	݂݋ݎ	݀݅ݏܿݎ݁ݐܽ 
 
2.3.2 Expectativa condicional 
Retomando o tratamento das distribuições conjuntas, sejam tomadas duas variáveis X e 
Y. A expectativa condicional de Y em relação a X corresponde à média dos valores que 
X pode assumir ponderada por probabilidades de ocorrência condicionais ao fato de que 
X assume valor x. Ou seja: 
7 
 
ܧ[ݕ|ݔ] = ݕଵܲ(ݕ = ݕଵ|ܺ = ݔ) + ݕଶܲ(ݕ = ݕଶ|ܺ = ݔ) + ⋯+ ݕேܲ(ݕ = ݕே|ܺ = ݔ)= ෍ݕ௜ܲ(ܻ = ݕ௜ |ܺ = ݔ)ே
௜ୀଵ
, ܿ݋݉	ܺ	݁	ܻ	݀݅ݏܿݎ݁ݐܽݏ 
ܧ[ܻ|ܺ] = න ݕ ௒݂|௑(ݕ)݀ݕ
஽ೊ
, ܿ݋݉	ܺ	݁	ܻ	ܿ݋݊ݐí݊ݑܽݏ 
A função fY|X(y) é a FD condicional de Y. 
A expectativa condicional de Y em relação a X é uma função de X, exclusivamente, ou 
seja, E[Y|X] = h(x), uma vez que se trata do valor médio de Y correspondente a um 
dado valor de X. O conceito de expectativa condicional é um dos principais em 
econometria. Ele será retomado com ênfase na parte II do curso. 
Uma propriedade fundamental da expectativa condicional, muito útil em econometria é 
a lei das expectativas iteradas, a qual pode ser expressa como segue. 
(Lei das expectativas iteradas) E[Y] = E[E[Y|X]] 
2.3.3 Variância 
A variância é uma medida de dispersão, ou seja, ela mede o grau em que os valores 
possíveis para uma variável aleatória discrepam de um valor de referência, este último 
dado pelo valor esperado. Trata-se, pois, de uma medida de dispersão em torno da 
média, quanto maior for a magnitude desta medida, maior é o número de valores 
consideravelmente distantes do valor médio e/ou mais distantes do valor médio estão 
alguns dos valores – o que nos diz que o valor médio não é uma boa descrição sucinta 
dos valores possíveis. 
Para compreender porque é desejável tomar em conta uma medida da fidedignidade 
com que a média resume os dados cabe considerar um exemplo. Seja assumido que, em 
um dado bairro do ABC, em um período em foi registrada alta taxa de ocorrência de 
febre em toda a região, a temperatura corporal de metade dos habitantes esteve em torno 
de 36,5 °C, enquanto que os demais registram temperatura corporal em torno de 38 °C5. 
Neste caso, a temperatura corporal média dos habitantes, no período, foi de (1/2N36,5 + 
1/2N38)/(1/2N+1/2N) = 37,25 °C. Caso a prefeitura se apoie nas temperaturas médias 
dos bairros para decidir quanto à alocação de seu estoque de medicamentos para 
tratamento de febre, obviamente será cometido um erro, pois deixarão de ser 
encaminhados medicamentos para o bairro em questão, mesmo sendo que metade de 
seus habitantes foi acometida por febre. 
Há diversas maneiras de medir a distância em relação ao valor médio, mas a variância 
se define por tomar por base a média do quadrado da distância, ponderada pela 
probabilidade de ocorrência do valor associado. Trata-se da seguinte medida: 
 
5 A temperatura corporal oscila normalmente entre 36,5°C e 37,5 °C. A febre é identificada com uma 
temperatura superior a 37,5 °C. 
8 
 
ܸ[ܺ] = (ݔଵ − ܧ[ܺ])ଶܲ(ݔ = ݔଵ) + (ݔଶ − ܧ[ܺ])ଶܲ(ݔ = ݔଶ) + ⋯+ (ݔே − ܧ[ܺ])ଶܲ(ݔ = ݔே) = ෍(ݔ௜ − ܧ[ܺ])ଶܲ(ܺ = ݔ௜)ே
௜ୀଵ
 
Em termos genéricos, i.e., seja X discreta ou contínua, sua variância é dada por 
E[(X-E[X])2]. 
Caso X seja contínua, o correto é escrever: 
ܸ[ܺ] = න (ݔ − ܧ[ܺ])ଶ ௑݂(ݔ)݀ݔ
஽೉
 
E também se aplica o conceito de variância condicional. 
ܸ[ܻ|ܺ] = ෍(ݔ௜ − ܧ[ܺ])ଶܲ(ܺ= ݔ௜|ܻ = ݕ)ே
௜ୀଵ
 
Uma propriedade útil da variância é a obtida da manipulação algébrica a seguir. 
V[X] = E[(X-E[X])2] = E[X2+ E[X]2 - 2XE[X]] = E[X2] + E[X]2 - 2E[X]2 = 
E[X2] - E[X]2 ↔ V[X] = E[X2] - E[X]2. 
Outra propriedade útil é enunciada a seguir. 
(Prop.Exp.1, linearidade) Sejam “a” e “b” duas constantes, não se tratando, portanto, de 
variáveis aleatórias, então tem-se que V[a+bX] = b2E[X], o que decorre do fato de que a 
variância de uma constante é zero. 
A raiz da variância, ඥܸ(ܺ) = ඥܧ(ܺ − ܧ[ܺ])ଶ, é denominada por “desvio padrão” e 
será denotada por DP[X]. 
 
2.4 Estatísticas para a relação entre variáveis 
2.4.1 Introdução 
Como a existência de relação entre duas variáveis pode ser verificada a partir de um 
conjunto de dados? Há diversas técnicas para gerar evidências em tal sentido. Os 
gráficos e tabelas, por exemplo, permitem um exame visual, exploratório. Abaixo há 
uma tabela que capta a relação entre renda familiar mensal per capita e a proporção de 
crianças de zero a cinco anos de idade com altura inferior ao nível “saudável”. 
 
9 
 
Classes de 
rendimento total e 
variação patrimonial 
mensal familiar per 
capita (salários 
mínimos*) 
Prevalência de 
déficit de altura 
nas crianças 
menores de 5 anos 
de idade (%) 
Até ¼ 8,2 
Mais de 1/4 a 1/2 6,8 
Mais de 1/2 a 1 6,2 
Mais de 1 a 2 5,2 
Mais de 2 a 5 3,8 
Mais de 5 3,1 
*O salário mínimo vigente em 15 de Janeiro de 2009, data de referência da pesquisa, era de R$415,00. 
Fonte: IBGE, Pesquisa de Orçamentos Familiares (POF). Antropometria, estado nutricional de crianças, 
adolescentes e adultos no Brasil. IBGE. Disponível em 
http://www.ibge.gov.br/home/estatistica/populacao/condicaodevida/pof/2008_2009_encaa/pof_20082009
_encaa.pdf 
Já o gráfico a seguir relaciona PIB per capita de 113 países do mundo e o coeficiente de 
Gini, uma medida de desigualdade de renda pessoal. Esta relação foi estudada 
pioneiramente por Simon Kuznets. 
 
Fonte: Desbordes & Verardi, 2012, Refitting the Kuznets Curve, Economic Letters, 116. Disponível em 
http://www.sciencedirect.com/science/article/pii/S0165176512000973 
2.4.2 Covariância 
Uma evidência visual é pouco informativa, ou seja, ela representa a extração de baixa 
proporção do conteúdo informacional dos dados. É possível retirar mais informação dos 
dados, gerando evidências mais precisas. Uma maneira de fazer isso é obtendo uma 
medida para o grau em que as duas variáveis estudadas se relacionam. A covariância é 
um operador matemático que proporciona uma tal medida. Como o próprio nome 
10 
 
sugere, trata-se de uma medida para como duas variáveis co-variam, se movimentam em 
uma mesma direção ou em direções opostas. Mais precisamente, a covariância mede o 
grau de dependência linear existente entre duas variáveis. 
A covariância entre duas variáveis X e Y é dada por cov(X,Y) = E([X-E(X)][Y-E(Y)]). 
Esta fórmula é uma maneira interessante de quantificar a relação entre duas variáveis 
por dois motivos: 
1. Se X e Y variam na mesma direção, i.e., valores relativamente altos (relativamente 
baixos) de X correspondem a valores relativamente altos (relativamente baixos) de 
Y, então a covariância é positiva; caso contrário, i.e., se valores relativamente altos 
(relativamente baixos) de X correspondem a valores relativamente baixos 
(relativamente altos) de Y, então a covariância é negativa; 
2. Quanto mais relacionados forem X e Y, seja positiva ou negativamente, maior o 
valor absoluto da covariância. 
Cabe retomar algumas propriedades da covariância. 
(Independência implica covariância nula) Se X e Y são independentes  cov(X,Y) = 0. 
A primeira parte da demonstração corresponde a uma manipulação algébrica similar 
àquela desenvolvida na decomposição da variância. 
Cov(X,Y) = E[X - E[X]][Y – E[Y]] = E[XY – XE[Y] – YE[X] + E[X]E[Y]] = E[XY] – 
2E[X]E[Y] + E[X]E[Y] = E[XY] –E[X]E[Y] (a). 
Como segundo passo é preciso demonstrar que, se X e Y são independentes, E[XY] = 
E[X]E[Y]. Para isso, basta considerar as passagens a seguir (Casella e Berger6, p.144, 
teorema 4.2.1): 
ܧ[ܻܺ] = න න ܻܺ ௑݂,௒(ݔ,ݕ)݀ݔ݀ݕ
஽೉஽ೊ
	(ܾ) 
Esta primeira passagem decorre da definição de expectativa condicional para a função 
de variáveis aleatórias g(X,Y) = XY (Casella e Berger: p.171). 
න න ܻܺ ௑݂,௒(ݔ,ݕ)݀ݔ݀ݕ
஽೉஽ೊ
= න න ܻܺ ௑݂(ݔ) ௒݂(ݕ)݀ݔ݀ݕ
஽೉஽ೊ
(ܿ) 
A parte (c) decorre da definição de independência, segunda a qual, se X e Y são 
independentes, então P(X= x, Y= y) = P(X= x)P(Y=y), o que é equivalente a fX,Y(x,y) = 
fX(x)fY(y). As demais passagens se resumem à percepção de que fX(x) e X são funções 
apenas de X, não variando com Y e um argumento análogo se aplica a fY(y) e Y. 
 
6 Casella, G., Berger, R.L., Statistical inference. Pacific Grove, USA: Duxbury: Thomson Learning, 2002. 
11 
 
න න ݔݕ ௑݂(ݔ) ௒݂(ݕ)݀ݔ݀ݕ
஽೉஽ೊ
= න ݕ ௒݂(ݕ)ቆන ݔ ௑݂(ݔ)݀ݔ
஽೉
ቇ݀ݕ
஽ೊ= 	 ቆන ݔ ௑݂(ݔ)݀ݔ
஽೉
ቇቆන ݕ ௒݂(ݕ)݀ݕ
஽ೊ
ቇ = ܧ[ܺ]ܧ[ܻ](݀) 
Conectando (a) e (c), chega-se a cov(X,Y) = E[XY] – E[X]E[Y] = E[X]E[Y] – 
E[X]E[Y] = 0, sendo X e Y independentes. A demonstração para variáveis discretas 
segue o mesmo raciocínio (Casella e Berger, p.144, teorema 4.2.1). 
(Expectativa condicional e independência) Sejam X e Y duas VAs independentes, neste 
caso, E[Y|X] = E[Y] e E[X|Y] = E[X]. A demonstração é fornecida abaixo. 
ܧ[ܻ|ܺ] = න ݕ ௒݂|௑(ݕ)݀ݕ
஽ೊ = න ݕ ௒݂,௑(ݔ, ݕ)
௑݂(ݔ) ݀ݕ஽ೊ=	(ܽݏݏݑ݉݅݊݀݋	݅݊݀݁݌݁݊݀ê݊ܿ݅ܽ)න ݕ ௒݂(ݕ) ௑݂(ݔ)
௑݂(ݔ) ݀ݕ஽ೊ= න ݕ ௒݂(ݕ)݀ݕ = ܧ[ܻ]
஽ೊ
 
O passo crucial da demonstração está no fato de que ௒݂|௑(ݕ) = ௙ೊ,೉(௫,௬)௙೉(௫) , o qual, por sua 
vez, decorre de ௒݂|௑(ݕ) ௑݂(ݔ) = ௒݂,௑(ݔ,ݕ), ou seja, P(A ∩ B)= P(A|B)P(B), conforme 
visto acima. 
A demonstração para X e Y discretas segue o mesmo raciocínio. 
Há uma propriedade importante da variância que decorre da covariância. Ela é discutida 
a seguir. 
(Variância da soma) A variância da soma de duas variáveis, X e Y, não é equivalente à 
soma das variâncias, a menos que a covariância entre ambas seja nula. O que pode ser 
visto com base no raciocínio a seguir. V[X+Y] = E[(X+Y – E[X+Y])2] = E[(X– E[X] 
+Y –E[Y])2] = E[({X– E[X]} +{Y –E[Y]})2]. Os termos dentro das chaves podem ser 
tratados como um único termo, basta definir A ≡ X – E[X], B ≡ Y- E[Y]. De modo que 
V[X+Y] = E[(A+B)2] = E[A2+B2+2AB] = E[A2]+[B2]+ 2E[AB]. Agora, reincorporando 
a definição dos termos A e B à manipulação, tem-se: 
V[X+Y] = E[(X– E[X])2]+[(Y– E[Y])2]+ 2E[(X– E[X])(Y– E[Y])] = V[X] + V[Y] + 
2cov(X,Y). Conclusivamente, pois: 
V[X+Y] = V[X] + V[Y] + 2cov(X,Y) 
Se a covariância entre X e Y for nula, portanto, a variância da soma de X e Y é 
equivalente à soma das variâncias de X e Y. 
12 
 
2.4.3 Coeficiente de correlação 
Há um inconveniente na fórmula da covariância que é o fato de que ela assume valores 
dentro de um intervalo da reta real (ou domínio) determinado pelos intervalos da reta 
real dentro dos quais X e Y variam. Desta maneira, acaba-se com uma medida para o 
grau de relação entre X e Y que depende dos valores observados para X e Y. Para 
entender porque se trata de algo inconveniente, considere o seguinte exemplo. Deseja-se 
determinar o grau em que o balanço comercial do Brasil está correlacionado com o 
balanço comercial da China. Caso o valor nominal dos dois balanços for expresso em 
Reais, a magnitude da covariância será diferente da obtida quando os dois balanços são 
expressos em Yuans. Isto é inconveniente pois a moeda em que os balanços são 
expressos é uma mera convenção dimensional, a qual não tem qualquer implicação 
sobre o padrão descrito pelos dois balanços comerciais. 
Para eliminar este inconveniente, emprega-se a correlação, esta dada pela razão entre a 
covariância de X e Y e o produto dos desvios-padrão de cada variável, ou seja, trata-se 
de: 
ܿ݋ݎݎ(ܺ,ܻ) =ܧ[ܺ − ܧ(ܺ)][ܻ − ܧ(ܻ)]
ඥܧ([ܺ − ܧ(ܺ)]ଶ)ඥܧ([ܻ − ܧ(ܻ)]ଶ) 
Esta medida tem seu domínio de variação restrito ao intervalo [-1;1] da reta real. A 
existência de correlação linear perfeita e positiva corresponde a corr(X,Y) = 1 e de 
correlação linear perfeita e negativa, corr(X,Y) = - 1. 
 
2.5 Distribuição normal e distribuições associadas 
Esta seção apresenta as quatro funções de distribuição de probabilidades (FDs) mais 
recorrentes em econometria. 
A FD normal com média μ e variância σ2 tem forma funcional dada por: 
f(x	 = 	X) = 1
ߪ√2ߨ exp	൤− ቀݔ − ߤߪ ቁଶ൨ 
O fato de que X tem distribuição normal com média μ e variância σ2 é denotado por X ~ 
N(μ,σ2). 
É possível transformar X de maneira a que sua FD seja a normal padrão, i.e., a normal 
com média 0 e variância 1. Basta subtrair dos valores de X a média μ e dividir o 
resultado pelo desvio padrão σ. Com isso obtém-se Z = (X – μ)/ σ , Z~ N(0,1). 
A distribuição normal é simétrica em torno de sua média, o que significa que P(z > c) = 
P(z < - c), como ilustrado no gráfico abaixo com c = 1. As áreas marcadas em cinza 
representam probabilidades de mesmo valor. 
 
13 
 
FD da normal padrão 
 
Sejam Z1, Z2, ..., ZK VAs independentes com FD normal padrão. Então Z12+ Z22 + ...+ 
ZK2 =∑ ܼ௜ଶ௄௜ୀଵ , a soma dos quadrados das VAs, tem FD conhecida, denominada por 
“qui-quadrado”. Esta FD, diferentemente da normal, não tem como parâmetros a média 
e a variância, mas sim uma quantidade denominada por “de graus de liberdade”. No 
caso, como a estatística ∑ ܼ௜ଶ௄௜ୀଵ representa a soma de K variáveis, há K graus de 
liberdade. 
A nota suplementar 1 apresenta uma explicação detalhada do que se entende, em 
estatística, por graus de liberdade. Recomenda-se também o artigo de Enseihauer 
(2008)7. Em termos gerais, pode-se entender o número de graus de liberdade como o 
tamanho efetivo do conteúdo informacional empregado para calcular uma estatística – 
“estatística”, por sua vez, é qualquer função dos dados. Tamanho este que é 
incorretamente medido pelo número de observações (N). O número de graus de 
liberdade varia em função de dois fatores, (i) o tamanho da amostra de dados disponível 
(N) e (ii) características da VA aleatória com distribuição qui-quadrado, VA esta que 
geralmente corresponde a uma estatística (i.e., uma função de VAs). 
A variância amostral é uma estatística com FD qui-quadrado caso as observações a 
partir da qual ela é construída sejam independentes e normalmente distribuídas. 
Uma variável com distribuição qui-quadrado assume apenas valores positivos, dado que 
corresponde à soma de quadrados, o que está claro no gráfico da FD qui-quadrado 
abaixo. 
 
 
 
7 Eisenhauer, Joseph H., 2008, “Degrees of Freedom”, Teaching Statistics, disponível em 
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9639.2008.00324.x/pdf 
 
14 
 
FD da qui-quadrado; linha contínua: 2 graus de liberdade; linha pontilhada: 4 
graus de liberdade. 
 
Talvez a FD mais utilizada em econometria seja a t de Student. Trata-se da FD da razão 
de uma VA com FD normal padrão, Z, pela raiz de uma VA com FD qui-quadrado, X. 
Ou, formalmente: 
ܶ = ܼ
ඥܺ/ܭ 
A FD t de Student também tem como parâmetro o número de graus de liberdade, o qual, 
assim como é o caso para a distribuição qui-quadrado, varia em função do tamanho da 
amostra e de características da VA com FD t de Student. A priori, em um nível abstrato, 
pode-se assumir que o número de graus de liberdade da FD t de Student é igual a K, este 
o número de VAs normais padrão que compõem a VA com distribuição qui-quadrado 
no denominador, X. 
 
 
 
 
 
 
 
 
 
 
 
15 
 
FD da t de Student; linha contínua: 2 graus de liberdade; linha pontilhada: 4 graus 
de liberdade. 
 
A razão de duas VAs com FD qui-quadrado, X1 e X2, gera uma VA, F, cuja FD recebe o 
nome de distribuição F de Snedecor. Formalmente: 
ܨ = ଵܺ/ܭଵ
ܺଶ/ܭଶ 
Cada VA qui-quadrado deve ser dividida pelo número de graus de liberdade a ela 
associados, K1 e K2 na fórmula acima. Estes são os dois parâmetros da distribuição F, a 
qual é denotada como FK1,K2, sempre com o primeiro parâmetro, K1, correspondendo 
aos graus de liberdade da VA qui-quadrado no numerador e com o segundo parâmetro, 
K2, correspondendo aos graus de liberdade da VA qui-quadrado no denominador. 
 
FD da F de Snedecor; linha contínua: 2 e 8 graus de liberdade; linha pontilhada: 6 
e 8 graus de liberdade.

Continue navegando