Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Notas de aula para o curso de Econometria I Nota 1: Introdução e estatística matemática Thiago Fonseca Morello fonseca.morello@ufabc.edu.br sala 301, Bloco Delta, SBC 1 Econometria: o que é e para que serve A econometria é uma área da ciência econômica voltada à análise de dados. Subdivide- se em duas subáreas, (i) econometria teórica, cujo objetivo é o desenvolvimento de métodos de análise de dados e (ii) econometria aplicada, cujo objetivo é a utilização de métodos de análise de dados para responder a perguntas práticas, concretas. Os métodos que constituem a econometria se fundamentam na teoria estatística e na teoria econômica. A análise econométrica toma por base a metodologia científica proposta por Karl Popper1. Este autor procurou estabelecer um critério para imprimir credibilidade às explicações elaboradas pelos cientistas para os fenômenos por eles estudados. Um exemplo é a lei da gravidade de Isaac Newton. O fenômeno que ela procura explicar é a atração de corpos, do qual é um caso particular a queda de objetos tal como a observamos no dia-a-dia. A explicação elaborada por Newton, grosseiramente, consiste na afirmação de que os corpos se atraem na proporção direta de suas massas e na proporção inversa do quadrado de suas distâncias. De acordo com Popper, uma explicação como essa deve ser compreendida como uma hipótese e não como uma verdade absoluta, i.e., um princípio sempre válido, em todas as situações possíveis. Este é o critério de credibilidade sugerido pelo autor: uma explicação é tomada como válida até que seja descoberta uma evidência (dados) que a refute. Por isso, para a ciência, formular explicações, ou melhor, hipóteses, é tão importante quanto procurar evidências que possam vir a refutá-las. Nenhuma das leis científicas deve, pois, ser vista como uma verdade absoluta, mas sim como uma hipótese ainda não refutada pelos dados. Enquanto a teoria econômica, em todas as suas vertentes, ortodoxa e heterodoxa, procura formular hipóteses, a análise econométrica visa submetê-las à refutação. Alguns exemplos célebres de hipóteses testadas pela análise econométrica são (i) a hipótese de Keynes de que o nível macroeconômico de consumo é função da renda (PIB) corrente2, (ii) a hipótese de que a qualidade das instituições de uma nação 1 Popper,K. A lógica da pesquisa científica. São Paulo, SP: Cultrix, especialmente o cap.6. 2 Uma discussão da análise empírica desta hipótese pode ser encontrada em Romer, D., Advanced Macroeconomics, quarta edição, 2012, seção 8.1. 2 influencia o nível de desenvolvimento medido pelo PIB per capita3 e (iii) a hipótese de que a remuneração de um trabalhador é proporcional a seu nível educacional4. O teste de hipóteses teóricas é, contudo, apenas uma das finalidades da análise econométrica. Há pelo menos outras duas finalidades. Uma delas é a previsão de variáveis econômicas, como, por exemplo, a taxa de crescimento do PIB, a taxa de inflação, a demanda por bens duráveis, etc. A outra finalidade é a estimação de relações entre variáveis econômicas para subsidiar modelos computacionais. Esta última aplicação compreende a estimação de curvas de oferta e demanda e elasticidades-preço e renda, medidas relevantes, por exemplo, para Modelos de Equilíbrio Geral Computável, os quais simulam economias nacionais ou regionais. 2 Fundamentos de teoria das probabilidades 2.1 Variável aleatória e função de distribuição de probabilidades Uma variável aleatória (VA) X é qualquer variável cujo valor é determinado por um processo aleatório representado por uma função de distribuição de probabilidades. A função de distribuição de probabilidades (FD) é uma correspondência entre (i) um conjunto de valores e (ii) probabilidades. Para um dado valor ela retorna a probabilidade com que tal valor ocorre, i.e., a probabilidade de que a variável assuma o valor. Por exemplo, a variável X pode indicar a detenção de um atributo específico, como a detenção de um emprego (um posto de trabalho). Neste caso, X é uma variável qualitativa discreta. Para facilitar o tratamento, será assumido que o valor unitário, i.e., X = 1, corresponde à situação em que o indivíduo está empregado e o valor nulo, X = 0, corresponde à situação de desemprego. Caso X assuma valor 1 com probabilidade p e valor 0 com probabilidade 1 – p, ela é regida por uma função de distribuição de probabilidades de Bernoulli. Esta pode ser formalmente representada por fX(x) = P(X = x) = px(1-p)1-x, em que “X”, maiúsculo, denota a variável aleatória e “x”, minúsculo, um valor particular. Um exemplo alternativo é o em que X representa o número de pessoas de uma região que estão empregadas, neste caso, a variável aleatória é quantitativa e ainda discreta. A distribuição de probabilidade não é Bernoulli, uma vez que esta se aplica apenas a experimentos dicotômicos, em que há apenas dois resultados possíveis. A distribuição é Binomial, pois X é uma contagem, equivalente, pois, à soma dos valores assumidos pelas variáveis binárias que indicam a situação de emprego de cada uma das pessoas. A 3 Um artigo em que esta hipótese é testada é o de Acemoglu, Johson e Robinson, “The Colonial Origins of Comparative Development: an Empirical Investigation. American Economic Review, v.91, n.5. Disponível em: http://economics.mit.edu/files/4123 4 Ver Mincer, J. (1958). Investment in human capital and personal income distribution. Journal of Political Economy, 66:281. Disponível em http://ideas.repec.org/a/ucp/jpolec/ v66y1958p281.html. 3 função de distribuição de probabilidades neste caso é P(X = x) = ൫௫൯ p x(1-p)n-x, em que ൫௫൯ é o binômio de Newton que determina o número total de grupos de tamanho x que podem ser retirados do conjunto de n indivíduos. As variáveis aleatórias cuja distribuição é descrita pelas FDs Bernoulli e binomial são discretas e não contínuas. Uma variável é dita contínua quando assume valores pertencentes ao conjunto dos números Reais. Isso quer dizer que a variável pode assumir valores que diferem entre si por magnitudes muito pequenas, infinitesimais. Este não é o caso de uma variável binária, a qual assume apenas dois valores, 0 e 1, pois a diferença entre eles não é infinitesimal. O mesmo valendo também para os valores de uma contagem, os quais correspondem ao conjunto dos números naturais. A FD mais comum em econometria é a FD normal ou Gaussiana - em homenagem a Karl F. Gauss, quem propôs a função pela primeira vez. Esta FD descreve a distribuição de variáveis contínuas, tal como o PIB, a altura e massa de pessoas, o salário pago pelo mercado de trabalho, etc. A FD normal parte do princípio de que valores mais próximos da média têm maior probabilidade de ocorrência. O que é equivalente a afirmar que a probabilidade de ocorrência de um determinado valor é tão menor quanto mais distante da média ele estiver. No gráfico a seguir há a FD normal para uma VA com média nula. Outro conceito importante é o de função de distribuição acumulada (FDA). Esta, ao invés de reportar a probabilidade de ocorrência de um valor, denotado por “c”, reporta a probabilidade de ocorrência de valores menores ou equivalentes a c, i.e., P(X≤ c). Na distribuição normal, trata-se da área à esquerda de c, conforme denota o gráfico abaixo para c = -1. 4 Se forem considerados todos os valores possíveis de c, de maneira que a probabilidade acumulada até c varie ao longo de todo o domínio da variável x, tem-se o traçado da FDA, tal como o gráfico abaixo ilustra para a normal padrão. 2.2 Distribuições conjuntas, condicionais e independência Na seção anterior tratamos da FD de apenas uma variável aleatória. Porém, para a maioriadas aplicações econométricas, é útil considerar a distribuição conjunta de algumas VAs. Trata-se de nada mais do que uma função que atribui probabilidade à ocorrência simultânea de valores específicos para cada uma das variáveis, i.e., fX,Y(x,y) = P(X = x, Y = y), em que a vírgula deve ser lida como “e”, ou seja, representando, portanto, ocorrência simultânea ou intersecção. Trata-se, pois, da probabilidade de que X assuma valor x e de que, simultaneamente, Y assuma valor y. 5 É sempre possível decompor uma probabilidade conjunta da seguinte maneira P(A ∩ B) = P(A|B)P(B), em que P(A|B) é a probabilidade de que o evento A ocorra dado que o evento B ocorreu, geralmente denominada por probabilidade condicional de A. Sendo A o evento em que Y assume valor y e B, por sua vez, o evento em que X assume valor x, então a decomposição é equivalente a: P(Y = y ∩ X = x) ≡ P(Y = y, X = x) = P(Y = y | X = x) P(X = x). Em que o símbolo “≡” indica equivalência por definição, i.e, P(Y = y ∩ X = x) é, por definição, equivalente a P(Y = y, X = x), uma vez que se está utilizando a vírgula para representar a intersecção de dois eventos. Duas variáveis aleatórias X e Y são ditas independentes quanto o fato de uma delas assumir um determinado valor não afeta a probabilidade com que a outra assume valores. No caso das variáveis X e Y isso quer dizer que, qualquer seja o valor assumido por X, i.e., qualquer que seja x, a probabilidade com que Y assume um dado valor, y, por exemplo, será sempre a mesma e dada por P(Y=y). Formalmente, a independência pode ser representada a partir da equação a seguir. P(Y = y | X = x) = P(Y = y) Ou seja, a probabilidade condicional, P(Y = y | X = x), é equivalente à probabilidade marginal, P(Y = y). Emprega-se o termo “probabilidade marginal” para se referir à FD de uma variável quando tomada isoladamente, sem considerar as demais variáveis com as quais ela possa, eventualmente, estar relacionada. Um corolário (i.e., uma consequência lógica) da definição apresentada é o de que P(Y = y, X = x) = P(Y = y) P(X = x). Esta maneira de expressar a independência é mais recorrente nos livros-texto. Ela nos diz que a probabilidade de que Y assuma valor y e de que X assuma valor x é equivalente ao produto das probabilidades marginais. O discutido nesta subseção pode ser estendido para mais de duas variáveis. Com N variáveis, N > 2, a independência poderia ser representada como P(X1 = x1, X2 = x2, X3 = x3,...,XN = xN) = P(X1 = x1) P(X2 = x2) P(X3 = x3)...P(XN = xN). 2.3 Expectativa e variância 2.3.1 Expectativa e suas propriedades A expectativa de uma variável aleatória corresponde à média ponderada dos valores possíveis, em que cada valor possível é ponderado por sua probabilidade de ocorrência. O número de valores que uma variável discreta pode assumir é finito. Sejam estes valores representados por x1,x2,...,XN. Desta maneira, pode-se ter que, por exemplo, x1 é o menor valor que a variável pode assumir e XN o maior, enquanto x2,...,XN-1 são valores intermediários entre estes dois extremos. A expectativa de X, denotada por E[x], é tal que: 6 ܧ[ܺ] = ݔଵܲ(ݔ = ݔଵ) + ݔଶܲ(ݔ = ݔଶ) + ⋯+ ݔேܲ(ݔ = ݔே) = ܲ(ܺ = ݔ)ݔே ୀଵ Caso X seja contínua, como é o caso, por exemplo, de variáveis econômicas como renda anual, despesa anual em consumo, valor investido em novas tecnologias, etc, há um número infinito de valores possíveis. Denotando o domínio de variação (intervalo de valores possíveis) de X por DX, a expectativa da VA é dada por: ܧ[ܺ] = න ݔ ݂(ݔ)݀ݔ Em que fx(x) é a FD de X. Duas propriedades úteis do operador expectativa, sejam X e Y discretas ou contínuas, são: (Prop.Exp.1, linearidade) Sejam “a” e “b” duas constantes, não se tratando, portanto, de variáveis aleatórias, então tem-se que E[a+bX] = a+bE[X], o que decorre diretamente do princípio de que a expectativa de uma constante é a própria constante. (Prop.Exp.2, soma de VAs) Sejam X e Y duas VAs, então se aplica a propriedade de que a expectativa da soma de duas VAs é equivalente à soma das expectativas das VAs. E[X + Y] = E[X] + E[Y]. Esta propriedade também se aplica à expectativa da soma de mais de duas VAs. Outra propriedade diz respeito à expectativa de uma função da VA X. (Prop.Exp.3, expectativa de uma função de uma VA) Seja g(X) uma função genérica de X. Então o valor esperado (da imagem) desta função E[g(X)] é dado por: ܧ[݃(ܺ)] = න ݃(ݔ) ݂(ݔ)݀ݔ, ݏ݁ ݔ ݂ݎ ܿ݊ݐí݊ݑܽ ܧ[݃(ܺ)] = ݃(ݔ)ܲ(ܺ = ݔ)ே ୀଵ , ݏ݁ ݔ ݂ݎ ݀݅ݏܿݎ݁ݐܽ 2.3.2 Expectativa condicional Retomando o tratamento das distribuições conjuntas, sejam tomadas duas variáveis X e Y. A expectativa condicional de Y em relação a X corresponde à média dos valores que X pode assumir ponderada por probabilidades de ocorrência condicionais ao fato de que X assume valor x. Ou seja: 7 ܧ[ݕ|ݔ] = ݕଵܲ(ݕ = ݕଵ|ܺ = ݔ) + ݕଶܲ(ݕ = ݕଶ|ܺ = ݔ) + ⋯+ ݕேܲ(ݕ = ݕே|ܺ = ݔ)= ݕܲ(ܻ = ݕ |ܺ = ݔ)ே ୀଵ , ܿ݉ ܺ ݁ ܻ ݀݅ݏܿݎ݁ݐܽݏ ܧ[ܻ|ܺ] = න ݕ ݂|(ݕ)݀ݕ ೊ , ܿ݉ ܺ ݁ ܻ ܿ݊ݐí݊ݑܽݏ A função fY|X(y) é a FD condicional de Y. A expectativa condicional de Y em relação a X é uma função de X, exclusivamente, ou seja, E[Y|X] = h(x), uma vez que se trata do valor médio de Y correspondente a um dado valor de X. O conceito de expectativa condicional é um dos principais em econometria. Ele será retomado com ênfase na parte II do curso. Uma propriedade fundamental da expectativa condicional, muito útil em econometria é a lei das expectativas iteradas, a qual pode ser expressa como segue. (Lei das expectativas iteradas) E[Y] = E[E[Y|X]] 2.3.3 Variância A variância é uma medida de dispersão, ou seja, ela mede o grau em que os valores possíveis para uma variável aleatória discrepam de um valor de referência, este último dado pelo valor esperado. Trata-se, pois, de uma medida de dispersão em torno da média, quanto maior for a magnitude desta medida, maior é o número de valores consideravelmente distantes do valor médio e/ou mais distantes do valor médio estão alguns dos valores – o que nos diz que o valor médio não é uma boa descrição sucinta dos valores possíveis. Para compreender porque é desejável tomar em conta uma medida da fidedignidade com que a média resume os dados cabe considerar um exemplo. Seja assumido que, em um dado bairro do ABC, em um período em foi registrada alta taxa de ocorrência de febre em toda a região, a temperatura corporal de metade dos habitantes esteve em torno de 36,5 °C, enquanto que os demais registram temperatura corporal em torno de 38 °C5. Neste caso, a temperatura corporal média dos habitantes, no período, foi de (1/2N36,5 + 1/2N38)/(1/2N+1/2N) = 37,25 °C. Caso a prefeitura se apoie nas temperaturas médias dos bairros para decidir quanto à alocação de seu estoque de medicamentos para tratamento de febre, obviamente será cometido um erro, pois deixarão de ser encaminhados medicamentos para o bairro em questão, mesmo sendo que metade de seus habitantes foi acometida por febre. Há diversas maneiras de medir a distância em relação ao valor médio, mas a variância se define por tomar por base a média do quadrado da distância, ponderada pela probabilidade de ocorrência do valor associado. Trata-se da seguinte medida: 5 A temperatura corporal oscila normalmente entre 36,5°C e 37,5 °C. A febre é identificada com uma temperatura superior a 37,5 °C. 8 ܸ[ܺ] = (ݔଵ − ܧ[ܺ])ଶܲ(ݔ = ݔଵ) + (ݔଶ − ܧ[ܺ])ଶܲ(ݔ = ݔଶ) + ⋯+ (ݔே − ܧ[ܺ])ଶܲ(ݔ = ݔே) = (ݔ − ܧ[ܺ])ଶܲ(ܺ = ݔ)ே ୀଵ Em termos genéricos, i.e., seja X discreta ou contínua, sua variância é dada por E[(X-E[X])2]. Caso X seja contínua, o correto é escrever: ܸ[ܺ] = න (ݔ − ܧ[ܺ])ଶ ݂(ݔ)݀ݔ E também se aplica o conceito de variância condicional. ܸ[ܻ|ܺ] = (ݔ − ܧ[ܺ])ଶܲ(ܺ= ݔ|ܻ = ݕ)ே ୀଵ Uma propriedade útil da variância é a obtida da manipulação algébrica a seguir. V[X] = E[(X-E[X])2] = E[X2+ E[X]2 - 2XE[X]] = E[X2] + E[X]2 - 2E[X]2 = E[X2] - E[X]2 ↔ V[X] = E[X2] - E[X]2. Outra propriedade útil é enunciada a seguir. (Prop.Exp.1, linearidade) Sejam “a” e “b” duas constantes, não se tratando, portanto, de variáveis aleatórias, então tem-se que V[a+bX] = b2E[X], o que decorre do fato de que a variância de uma constante é zero. A raiz da variância, ඥܸ(ܺ) = ඥܧ(ܺ − ܧ[ܺ])ଶ, é denominada por “desvio padrão” e será denotada por DP[X]. 2.4 Estatísticas para a relação entre variáveis 2.4.1 Introdução Como a existência de relação entre duas variáveis pode ser verificada a partir de um conjunto de dados? Há diversas técnicas para gerar evidências em tal sentido. Os gráficos e tabelas, por exemplo, permitem um exame visual, exploratório. Abaixo há uma tabela que capta a relação entre renda familiar mensal per capita e a proporção de crianças de zero a cinco anos de idade com altura inferior ao nível “saudável”. 9 Classes de rendimento total e variação patrimonial mensal familiar per capita (salários mínimos*) Prevalência de déficit de altura nas crianças menores de 5 anos de idade (%) Até ¼ 8,2 Mais de 1/4 a 1/2 6,8 Mais de 1/2 a 1 6,2 Mais de 1 a 2 5,2 Mais de 2 a 5 3,8 Mais de 5 3,1 *O salário mínimo vigente em 15 de Janeiro de 2009, data de referência da pesquisa, era de R$415,00. Fonte: IBGE, Pesquisa de Orçamentos Familiares (POF). Antropometria, estado nutricional de crianças, adolescentes e adultos no Brasil. IBGE. Disponível em http://www.ibge.gov.br/home/estatistica/populacao/condicaodevida/pof/2008_2009_encaa/pof_20082009 _encaa.pdf Já o gráfico a seguir relaciona PIB per capita de 113 países do mundo e o coeficiente de Gini, uma medida de desigualdade de renda pessoal. Esta relação foi estudada pioneiramente por Simon Kuznets. Fonte: Desbordes & Verardi, 2012, Refitting the Kuznets Curve, Economic Letters, 116. Disponível em http://www.sciencedirect.com/science/article/pii/S0165176512000973 2.4.2 Covariância Uma evidência visual é pouco informativa, ou seja, ela representa a extração de baixa proporção do conteúdo informacional dos dados. É possível retirar mais informação dos dados, gerando evidências mais precisas. Uma maneira de fazer isso é obtendo uma medida para o grau em que as duas variáveis estudadas se relacionam. A covariância é um operador matemático que proporciona uma tal medida. Como o próprio nome 10 sugere, trata-se de uma medida para como duas variáveis co-variam, se movimentam em uma mesma direção ou em direções opostas. Mais precisamente, a covariância mede o grau de dependência linear existente entre duas variáveis. A covariância entre duas variáveis X e Y é dada por cov(X,Y) = E([X-E(X)][Y-E(Y)]). Esta fórmula é uma maneira interessante de quantificar a relação entre duas variáveis por dois motivos: 1. Se X e Y variam na mesma direção, i.e., valores relativamente altos (relativamente baixos) de X correspondem a valores relativamente altos (relativamente baixos) de Y, então a covariância é positiva; caso contrário, i.e., se valores relativamente altos (relativamente baixos) de X correspondem a valores relativamente baixos (relativamente altos) de Y, então a covariância é negativa; 2. Quanto mais relacionados forem X e Y, seja positiva ou negativamente, maior o valor absoluto da covariância. Cabe retomar algumas propriedades da covariância. (Independência implica covariância nula) Se X e Y são independentes cov(X,Y) = 0. A primeira parte da demonstração corresponde a uma manipulação algébrica similar àquela desenvolvida na decomposição da variância. Cov(X,Y) = E[X - E[X]][Y – E[Y]] = E[XY – XE[Y] – YE[X] + E[X]E[Y]] = E[XY] – 2E[X]E[Y] + E[X]E[Y] = E[XY] –E[X]E[Y] (a). Como segundo passo é preciso demonstrar que, se X e Y são independentes, E[XY] = E[X]E[Y]. Para isso, basta considerar as passagens a seguir (Casella e Berger6, p.144, teorema 4.2.1): ܧ[ܻܺ] = න න ܻܺ ݂,(ݔ,ݕ)݀ݔ݀ݕ ೊ (ܾ) Esta primeira passagem decorre da definição de expectativa condicional para a função de variáveis aleatórias g(X,Y) = XY (Casella e Berger: p.171). න න ܻܺ ݂,(ݔ,ݕ)݀ݔ݀ݕ ೊ = න න ܻܺ ݂(ݔ) ݂(ݕ)݀ݔ݀ݕ ೊ (ܿ) A parte (c) decorre da definição de independência, segunda a qual, se X e Y são independentes, então P(X= x, Y= y) = P(X= x)P(Y=y), o que é equivalente a fX,Y(x,y) = fX(x)fY(y). As demais passagens se resumem à percepção de que fX(x) e X são funções apenas de X, não variando com Y e um argumento análogo se aplica a fY(y) e Y. 6 Casella, G., Berger, R.L., Statistical inference. Pacific Grove, USA: Duxbury: Thomson Learning, 2002. 11 න න ݔݕ ݂(ݔ) ݂(ݕ)݀ݔ݀ݕ ೊ = න ݕ ݂(ݕ)ቆන ݔ ݂(ݔ)݀ݔ ቇ݀ݕ ೊ= ቆන ݔ ݂(ݔ)݀ݔ ቇቆන ݕ ݂(ݕ)݀ݕ ೊ ቇ = ܧ[ܺ]ܧ[ܻ](݀) Conectando (a) e (c), chega-se a cov(X,Y) = E[XY] – E[X]E[Y] = E[X]E[Y] – E[X]E[Y] = 0, sendo X e Y independentes. A demonstração para variáveis discretas segue o mesmo raciocínio (Casella e Berger, p.144, teorema 4.2.1). (Expectativa condicional e independência) Sejam X e Y duas VAs independentes, neste caso, E[Y|X] = E[Y] e E[X|Y] = E[X]. A demonstração é fornecida abaixo. ܧ[ܻ|ܺ] = න ݕ ݂|(ݕ)݀ݕ ೊ = න ݕ ݂,(ݔ, ݕ) ݂(ݔ) ݀ݕೊ= (ܽݏݏݑ݉݅݊݀ ݅݊݀݁݁݊݀ê݊ܿ݅ܽ)න ݕ ݂(ݕ) ݂(ݔ) ݂(ݔ) ݀ݕೊ= න ݕ ݂(ݕ)݀ݕ = ܧ[ܻ] ೊ O passo crucial da demonstração está no fato de que ݂|(ݕ) = ೊ,(௫,௬)(௫) , o qual, por sua vez, decorre de ݂|(ݕ) ݂(ݔ) = ݂,(ݔ,ݕ), ou seja, P(A ∩ B)= P(A|B)P(B), conforme visto acima. A demonstração para X e Y discretas segue o mesmo raciocínio. Há uma propriedade importante da variância que decorre da covariância. Ela é discutida a seguir. (Variância da soma) A variância da soma de duas variáveis, X e Y, não é equivalente à soma das variâncias, a menos que a covariância entre ambas seja nula. O que pode ser visto com base no raciocínio a seguir. V[X+Y] = E[(X+Y – E[X+Y])2] = E[(X– E[X] +Y –E[Y])2] = E[({X– E[X]} +{Y –E[Y]})2]. Os termos dentro das chaves podem ser tratados como um único termo, basta definir A ≡ X – E[X], B ≡ Y- E[Y]. De modo que V[X+Y] = E[(A+B)2] = E[A2+B2+2AB] = E[A2]+[B2]+ 2E[AB]. Agora, reincorporando a definição dos termos A e B à manipulação, tem-se: V[X+Y] = E[(X– E[X])2]+[(Y– E[Y])2]+ 2E[(X– E[X])(Y– E[Y])] = V[X] + V[Y] + 2cov(X,Y). Conclusivamente, pois: V[X+Y] = V[X] + V[Y] + 2cov(X,Y) Se a covariância entre X e Y for nula, portanto, a variância da soma de X e Y é equivalente à soma das variâncias de X e Y. 12 2.4.3 Coeficiente de correlação Há um inconveniente na fórmula da covariância que é o fato de que ela assume valores dentro de um intervalo da reta real (ou domínio) determinado pelos intervalos da reta real dentro dos quais X e Y variam. Desta maneira, acaba-se com uma medida para o grau de relação entre X e Y que depende dos valores observados para X e Y. Para entender porque se trata de algo inconveniente, considere o seguinte exemplo. Deseja-se determinar o grau em que o balanço comercial do Brasil está correlacionado com o balanço comercial da China. Caso o valor nominal dos dois balanços for expresso em Reais, a magnitude da covariância será diferente da obtida quando os dois balanços são expressos em Yuans. Isto é inconveniente pois a moeda em que os balanços são expressos é uma mera convenção dimensional, a qual não tem qualquer implicação sobre o padrão descrito pelos dois balanços comerciais. Para eliminar este inconveniente, emprega-se a correlação, esta dada pela razão entre a covariância de X e Y e o produto dos desvios-padrão de cada variável, ou seja, trata-se de: ܿݎݎ(ܺ,ܻ) =ܧ[ܺ − ܧ(ܺ)][ܻ − ܧ(ܻ)] ඥܧ([ܺ − ܧ(ܺ)]ଶ)ඥܧ([ܻ − ܧ(ܻ)]ଶ) Esta medida tem seu domínio de variação restrito ao intervalo [-1;1] da reta real. A existência de correlação linear perfeita e positiva corresponde a corr(X,Y) = 1 e de correlação linear perfeita e negativa, corr(X,Y) = - 1. 2.5 Distribuição normal e distribuições associadas Esta seção apresenta as quatro funções de distribuição de probabilidades (FDs) mais recorrentes em econometria. A FD normal com média μ e variância σ2 tem forma funcional dada por: f(x = X) = 1 ߪ√2ߨ exp − ቀݔ − ߤߪ ቁଶ൨ O fato de que X tem distribuição normal com média μ e variância σ2 é denotado por X ~ N(μ,σ2). É possível transformar X de maneira a que sua FD seja a normal padrão, i.e., a normal com média 0 e variância 1. Basta subtrair dos valores de X a média μ e dividir o resultado pelo desvio padrão σ. Com isso obtém-se Z = (X – μ)/ σ , Z~ N(0,1). A distribuição normal é simétrica em torno de sua média, o que significa que P(z > c) = P(z < - c), como ilustrado no gráfico abaixo com c = 1. As áreas marcadas em cinza representam probabilidades de mesmo valor. 13 FD da normal padrão Sejam Z1, Z2, ..., ZK VAs independentes com FD normal padrão. Então Z12+ Z22 + ...+ ZK2 =∑ ܼଶୀଵ , a soma dos quadrados das VAs, tem FD conhecida, denominada por “qui-quadrado”. Esta FD, diferentemente da normal, não tem como parâmetros a média e a variância, mas sim uma quantidade denominada por “de graus de liberdade”. No caso, como a estatística ∑ ܼଶୀଵ representa a soma de K variáveis, há K graus de liberdade. A nota suplementar 1 apresenta uma explicação detalhada do que se entende, em estatística, por graus de liberdade. Recomenda-se também o artigo de Enseihauer (2008)7. Em termos gerais, pode-se entender o número de graus de liberdade como o tamanho efetivo do conteúdo informacional empregado para calcular uma estatística – “estatística”, por sua vez, é qualquer função dos dados. Tamanho este que é incorretamente medido pelo número de observações (N). O número de graus de liberdade varia em função de dois fatores, (i) o tamanho da amostra de dados disponível (N) e (ii) características da VA aleatória com distribuição qui-quadrado, VA esta que geralmente corresponde a uma estatística (i.e., uma função de VAs). A variância amostral é uma estatística com FD qui-quadrado caso as observações a partir da qual ela é construída sejam independentes e normalmente distribuídas. Uma variável com distribuição qui-quadrado assume apenas valores positivos, dado que corresponde à soma de quadrados, o que está claro no gráfico da FD qui-quadrado abaixo. 7 Eisenhauer, Joseph H., 2008, “Degrees of Freedom”, Teaching Statistics, disponível em http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9639.2008.00324.x/pdf 14 FD da qui-quadrado; linha contínua: 2 graus de liberdade; linha pontilhada: 4 graus de liberdade. Talvez a FD mais utilizada em econometria seja a t de Student. Trata-se da FD da razão de uma VA com FD normal padrão, Z, pela raiz de uma VA com FD qui-quadrado, X. Ou, formalmente: ܶ = ܼ ඥܺ/ܭ A FD t de Student também tem como parâmetro o número de graus de liberdade, o qual, assim como é o caso para a distribuição qui-quadrado, varia em função do tamanho da amostra e de características da VA com FD t de Student. A priori, em um nível abstrato, pode-se assumir que o número de graus de liberdade da FD t de Student é igual a K, este o número de VAs normais padrão que compõem a VA com distribuição qui-quadrado no denominador, X. 15 FD da t de Student; linha contínua: 2 graus de liberdade; linha pontilhada: 4 graus de liberdade. A razão de duas VAs com FD qui-quadrado, X1 e X2, gera uma VA, F, cuja FD recebe o nome de distribuição F de Snedecor. Formalmente: ܨ = ଵܺ/ܭଵ ܺଶ/ܭଶ Cada VA qui-quadrado deve ser dividida pelo número de graus de liberdade a ela associados, K1 e K2 na fórmula acima. Estes são os dois parâmetros da distribuição F, a qual é denotada como FK1,K2, sempre com o primeiro parâmetro, K1, correspondendo aos graus de liberdade da VA qui-quadrado no numerador e com o segundo parâmetro, K2, correspondendo aos graus de liberdade da VA qui-quadrado no denominador. FD da F de Snedecor; linha contínua: 2 e 8 graus de liberdade; linha pontilhada: 6 e 8 graus de liberdade.
Compartilhar