Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Notas de aula para o curso de Econometria I Nota 2: Fundamentos de inferência estatística Thiago Fonseca Morello fonseca.morello@ufabc.edu.br sala 301, Bloco Delta, SBC 1 Conceitos fundamentais: população e amostra É raro que um cientista social disponha de dados que captem todas as unidades às quais a pergunta que ele procura responder diz respeito. Sejam tais unidades indivíduos, empresas ou regiões, na maioria dos casos há um custo proibitivo de coletar as informações requeridas junto a todas aquelas que são abrangidas pela análise. Alguns exemplos são esclarecedores. Um exemplo é de um estudo em que se procura avaliar em função de quais fatores a demanda por certa classe de bens de consumo, alimentos, por exemplo, varia. A Pesquisa de Orçamentos Familiares (POF) do IBGE, realizada a partir de 1974 sem periodicidade definida, contém variáveis como despesas em bens e serviços, quantidades adquiridas de um amplo espectro de alimentos, renda mensal familiar, características do domicílio, entre outras. Estas características são coletadas com base na aplicação de questionários detalhados às famílias. Um pesquisador interessado em construir uma curva de demanda por alimentos básicos para as famílias brasileiras, um exercício recorrente na literatura empírica1, tem na POF o conjunto de dados mais amplo e completo disponível para tanto no País. Ao realizar a POF, porém, os enumeradores do IBGE não entrevistam todas as famílias brasileiras, apenas um subconjunto delas. Na POF de 2008-2009 foram entrevistados membros de 55.412 famílias brasileiras, de um total estimado de 57 milhões de famílias. Uma particularidade da POF, a qual contribui para elevar seu custo, está em que os enumeradores retornam diversas vezes, dentro do intervalo de um ano, aos domicílios com o intuito de acompanhar especialmente as despesas, mas também a renda, das famílias – eles procuram não deixar de lado nenhum item com papel relevante nas despesas das famílias, o que não é fácil, uma vez que, em nossas vidas, realizamos diversos gastos que se diferenciam não apenas por seu valor, mas também por sua frequência. Duas pesquisas do IBGE muito úteis para estudos microeconômicos do comportamento de empresas, tais como os desenvolvidos na literatura de Organização Industrial (OI), 1 Um resumo dessa literatura pode ser encontrado no capítulo 2 da dissertação de mestrado da pfa. da USP Paula Pereda. Link: http://www.teses.usp.br/teses/disponiveis/12/12138/tde-04092008- 105503/publico/Dissert_Paula_Carvalho_Pereda.pdf 2 são a Pesquisa Industrial Anual – Empresa (PIA-Empresa) e a Pesquisa da Inovação Tecnológica (PINTEC). Em ambas são aplicados questionários a representantes a subconjuntos de empresas que compõem cada um dos setores econômicos definidos de acordo com a Classificação Nacional de Atividades Econômicas (CNAE2). Não são, portanto, entrevistadas todas as empresas que compõem os setores, apenas algumas delas3. Outro exemplo bem conhecido é o de pesquisas de intenção de voto em candidatos de um pleito referente a algum nível governamental. A pesquisa da Datafolha, realizada de 1 a 3 de Setembro de 20144, apontou que, para o pleito da presidência da república, 35% dos eleitores votariam em Dilma Roussef, 34% em Marina Silva, 14% em Aécio Neves, e 6% votariam branco ou nulo. Trata-se de uma pesquisa de opinião, em que pessoas são contatadas, por via telefônica ou abordadas no tête-a-tête. Será que todos os brasileiros foram entrevistados? A resposta é não. Foram entrevistadas apenas 10.054 pessoas. Este número corresponde a 0,007% da população de eleitores brasileiros (sete em cada cem mil), 142.822.046 eleitores, segundo o TSE5 e a 0,005% da população brasileira, de 202.768.662 brasileiros, segundo a última estimação do IBGE6. A Datafolha realizou, em conjunto com outras duas empresas (F/NAZCA e Saatchi & Saatchi), uma pesquisa denominada “Panorama do Brasil na Internet” ou F/Radar. Entre os indicadores calculados pela pesquisa há o número de brasileiros com acesso à internet (84 milhões), número de brasileiros com acesso à internet móvel, fração de brasileiros por categorias socioeconômicas (nível de escolaridade, nível salarial, etc.) com acesso à internet, número de brasileiros que participam de redes sociais, etc. A divulgação dos resultados no sítio da Datafolha7 traz uma frase no mínimo curiosa, reproduzida a seguir. “Atualmente, aproximadamente 43 milhões de brasileiros com 12 anos ou mais navegam pela internet utilizando dispositivos móveis, revela o estudo, que ouviu 2.236 pessoas em todas as regiões do Brasil.” Uma pergunta que pode surgir é de como se pode fazer uma afirmação que se estende para 43 milhões de brasileiros tendo-se entrevistado apenas 2.236 brasileiros, uma extrapolação de em torno de 20.000 brasileiros por brasileiro entrevistado? A resposta é a de que há um procedimento de inferência estatística e não apenas os dados coletados, dando fundamentação aos resultados. 2 A estrutura setorial da última versão da CNAE pode ser consultada em http://www.cnae.ibge.gov.br/. 3 Para mais informações consultar os links abaixo com as notas técnicas das últimas versões de cada uma das pesquisas, PIA-Empresa e PINTEC. ftp://ftp.ibge.gov.br/Industrias_Extrativas_e_de_Transformacao/Pesquisa_Industrial_Anual/Empresa2010 /notatecnica2010.pdf, http://www.pintec.ibge.gov.br/downloads/pintec2011%20publicacao%20completa.pdf. 4 Disponível em http://media.folha.uol.com.br/datafolha/2014/09/04/intencao-de-voto-para-presidente.pdf 5 http://www.tse.jus.br/noticias-tse/2014/Julho/presidente-do-tse-anuncia-aumento-de-5-17-do-eleitorado- brasileiro 6 ftp://ftp.ibge.gov.br/Estimativas_de_Populacao/Estimativas_2014/estimativa_dou_2014.pdf 7 http://datafolha.folha.uol.com.br/mercado/2014/01/1400618-43-milhoes-de-brasileiros-acessam- internet-por-dispositivos-moveis.shtml. 3 Outra pesquisa do Datafolha de particular interesse para economistas é a chamada “Expectativas Econômicas”8. Uma das perguntas em que ela se apoia é a seguinte: “Na sua opinião, daqui para frente a inflação vai aumentar, vai diminuir ou vai ficar como está?” As demais perguntas têm a mesma estrutura, se referindo à taxa de desemprego, poder de compra dos salários, situação econômica do entrevistado, etc. Na edição de Maio de 2014, 2.844 entrevistas foram conduzidas em 174 municípios do País. Nos exemplos, as famílias, empresas, eleitores e indivíduos em geral constituem uma amostra selecionada aleatoriamente a partir da população-alvo da pesquisa. As pesquisas do IBGE e da Datafolha têm uma população-alvo, assim como um estudo econométrico, e o motivo é o mesmo, trata-se de responder perguntas que dizem respeito a um conjunto específico de tomadores de decisão ou agentes. A pergunta científica que motiva o estudo econométrico, portanto, é o que define a população-alvo. No caso do estudo de demanda por alimentos básicos, a população-alvo pode ou não ser composta por todas as famílias brasileiras, isso depende do objetivo da análise, definido pelo analista. Por exemplo, se o governo federal procura verificar se o programa Bolsa Família tem surtido efeito no sentido de aumento da ingestão de calorias pelos contemplados, com base apenas na POF 2008-2009, a população-alvo não pode se restringir apenas aos contemplados, tendo de se estender por todos os brasileiros com características socioeconômicas semelhantes aos contemplados. A razão para isso está em que o efeito de uma política é sempre avaliado comparando-se a situação em que ela não ocorre com a situação em que ela ocorre. Porém, como nunca se observa o cenário potencial que corresponde a não implementação de uma política que foi efetivamenteimplementada9, não há saída a não ser tomar como base de comparação os indivíduos que não foram contemplados pela política - o que apenas é factível para políticas focalizadas, não sendo, por exemplo, para políticas macroeconômicas. Excluir, pois, da amostra os não-contemplados pelo Bolsa Família, é eliminar, automaticamente, a base de comparação. De maneira complementar, é equivocado incluir famílias que não podem se candidatar ao Bolsa Família – i.e., famílias com renda familiar per capita consideravelmente superior a R$77 - para avaliar os efeitos do mesmo. Essas famílias não são uma base de comparação válida, por dois motivos que se combinam para criar resultados distorcidos. O primeiro é o de que elas nunca receberão o auxílio; o segundo se refere ao fato de que elas possuem características socioeconômicas muito distintas daqueles que têm direito ao auxílio. Caso, porém, a análise tenha por meta testar a hipótese de que a estabilização monetária em 1994 resultou no aumento do consumo de determinados alimentos, a população-alvo 8 http://media.folha.uol.com.br/datafolha/2014/05/12/expectativas-economicas-site.pdf. 9 Este cenário é chamado de “contrafactual”. Para uma introdução à mensuração de resultados de políticas públicas ou intervenções em geral, consultar o primeiro capítulo de Morgan, S.L. & Winship, C., “Counterfactuals and causal inference”, Cambridge University Press. http://www.amazon.com/Counterfactuals-Causal-Inference-Principles-Analytical/dp/0521671930 4 corresponde à todas as famílias brasileiras, uma vez que todas elas foram atingidas pela contenção da hiperinflação. Quando a meta é entender a adoção de tecnologias com determinadas propriedades (alta produtividade, baixo impacto ambiental, baixo custo, etc) por empresas de um determinado setor, a população é composta por todas as empresas do setor. Talvez o interesse se restrinja a testar a hipótese de que, entre as empresas do setor de bens de capital que possuem plantas no Brasil, aquelas com maior fração de seu controle acionário nas mãos de estrangeiros têm maior propensão a investir em novas tecnologias. Neste caso, a população não corresponde a todas as empresas de bens de capital do mundo e nem mesmo a todas as empresas do setor industrial brasileiro, mas sim às empresas do subsetor de bens de capital e que têm plantas no Brasil. Em todos esses casos, por mais que a definição da população caiba ao analista, há uma regra de ferro da qual ele não se pode escapar quando o orçamento disponível não permite estender a sondagem a todos os membros da população: é preciso recorrer à inferência estatística. Esta, em poucas palavras, se resume à, com base em uma amostra, elaborar uma afirmação que se aplique a toda a população. Trata-se, pois, de um salto informacional relevante, uma vez que se parte de um conteúdo informacional consideravelmente inferior à população para elaborar afirmações que se apliquem a ela. Uma ilustração para a diferença dos conteúdos informacionais da amostra (A.1, A.2 e A.3) e da população 2 Afirmações sobre a população É possível precisar melhor qual tipo de afirmação sobre a população se procura fazer em um estudo empírico. A pesquisa de intenção de voto, por exemplo, foi desenhada para Ω (População) A.1 A.2 A.3 5 gerar um número correspondente à proporção de eleitores brasileiros que optam por cada um dos candidatos. Contudo, uma vez que a pesquisa não entrevistou todos os eleitores, mas apenas uma amostra deles, as proporções que ela informa não necessariamente são equivalentes às que seriam observadas caso fossem entrevistados todos os eleitores10. O fundamental está em que o objetivo da pesquisa é chegar a afirmações sobre proporções de votantes, e, mais do que isso, sobre os valores que tais proporções assumem considerando-se toda a população de eleitores. Ou seja, tem-se por meta fazer afirmações quanto aos valores de proporções calculadas da seguinte maneira: Proporção de eleitores do candidato j = Eleitores do candidato j no BrasilTodos eleitores do Brasil Comumente emprega-se o termo “parâmetro” para designar uma variável não-aleatória, constante, cujo valor é desconhecido. A porcentagem dos eleitores brasileiros que têm intenção de votar na candidata Marina Silva, por exemplo, é desconhecida, pois não há informação disponível acerca da intenção de voto de todos os eleitores brasileiros. A proporção em questão é, portanto, um parâmetro. Um termo análogo a parâmetro é o de “valor populacional”. Pode-se, portanto, dizer que o valor populacional da proporção de eleitores da candidata Marina Silva é desconhecido. A expressão “valor populacional do parâmetro” também é empregada. Em geral, o objetivo da inferência é fazer afirmações sobre o valor de parâmetros. Há três técnicas para isso, quais sejam, estimação pontual, estimação por intervalo e teste de hipóteses. Elas são apresentadas nas próximas seções. Por hora, cabe atentar para o emprego do verbo “estimar”. A Datafolha, por exemplo, estima o valor populacional das proporções de votantes com base em uma amostra. No caso do estudo de demanda por alimentos básicos o parâmetro de interesse é a elasticidade-preço da demanda, ou seja, a proporção em que a quantidade demandada de um determinado alimento aumentaria caso o preço do alimento sofresse um aumento de 1%. O analista deseja ter um número para elasticidade-preço que descreva a maneira como os brasileiros, em média, reagem a aumentos de preço. Porém, a informação disponível se restringe à amostra da POF. Ele precisa, portanto, estimar o valor populacional da elasticidade-preço com base na amostra. Um exemplo mais simples de um parâmetro é o da renda média per capita da população brasileira. Com base nas pesquisas do IBGE, POF e PNAD, é possível calcular a renda média da amostra e a utilizar como estimativa para a renda média da população. 3 Amostra como uma sequência de variáveis aleatórias Uma amostra é concebida como a realização de uma série de valores para um conjunto de variáveis de interesse. Há, portanto, um processo aleatório, representado, como é a 10 Há, de fato, uma margem de erro, de dois pontos percentuais para a proporção de votantes em cada candidato. 6 convenção em estatística, por uma função de distribuição de probabilidades (FD), o qual atua “por trás” dos dados para definir os valores observados das variáveis. Para simplificar, seja assumido que apenas há apenas uma característica de interesse, denotada por X. Por exemplo, a renda mensal. Uma amostra de N observações pode ser denotada por uma sequência de N VAs dada por X1,...,XN, em que Xi representa ao valor que a característica assume para a i-ésima observação. A probabilidade de ocorrência de uma amostra em que N VAs assumem valores particulares, denotados por x1,..., xN, é dada por P(X1 = x1,...,XN = xN). Trata-se, portanto, da probabilidade conjunta de ocorrência simultânea de N eventos, cada um deles consistindo na atribuição de um valor específico para cada uma das observações. Esta probabilidade pode ser representada por uma FD conjunta, ܨభ,…,ಿ(ݔଵ, … , ݔே;ߠ), em que θ representa o vetor de parâmetros em função do qual a FD conjunta é definida. É preciso assinalar que P(X1 = x1,...,XN = xN) representa a probabilidade de ocorrência da amostra observada. Focando em apenas uma característica, a renda, uma amostra consistiria em uma coluna de uma planilha preenchida por valores para a renda das famílias para as quais se pôde coletar a informação. Desta maneira, pois, P(X1 = x1,...,XN = xN) é a probabilidade de que os valores observados ocorram, dentre todas as combinações possíveis de valores. Retomando o exemploda renda familiar, a distribuição conjunta corresponde à probabilidade de que domicílios da amostra da PNAD 2013, por exemplo, possuam renda familiar equivalente a valores específicos. Assumindo que a renda familiar tem distribuição normal, o vetor paramétrico contém as médias e variâncias populacionais que resumem a distribuição da renda de cada domicílio, como é intuitivo, mas, além disso, o vetor também contém os coeficientes de correlação captando as relações entre as rendas dos domicílios11. Geralmente, as distribuições multivariadas contêm, em seus vetores paramétricos, medidas que descrevem não apenas as distribuições individuais, mas também, relações entre as observações12. Por conta disso, os vetores paramétricos das distribuições conjuntas tendem a ser complicados. 4 Amostra aleatória Há mais de uma maneira de selecionar um subconjunto de unidades (ou observações13) da população. A maneira mais adequada, tanto do ponto de vista da teoria estatística quanto para aplicações econométricas é o sorteio aleatório. Ou seja, trata-se de escolher observações de maneira a que todas tenham a mesma probabilidade de serem escolhidas. Seja si a VA binária que indica com valor unitário se uma observação é selecionada e com valor nulo se a observação não é selecionada. Uma amostra aleatória 11 Para mais detalhes, ver Greene, W., 2003. Econometric Analysis, apêndice B, seção B.11. 12 Um exemplo nada didático, mas talvez útil, é dado pela distribuição Bernoulli bivariada na página 3 do artigo no link a seguir http://arxiv.org/pdf/1206.1874.pdf. 13 Neste texto os termos “unidades” e “observações” são tratados como sinônimos. Ambos se referem aos entes portadores das características focadas pela análise. 7 de uma população de tamanho #Ω é tal que P(si = 1) = P(sj = 1), i≠j, i=1,..., #Ω, j=1,..., #Ω. Seja mantida a hipótese simplificadora de que há apenas uma característica de interesse, denotada por X. Há duas propriedades fundamentais de uma amostra aleatória. A primeira é a independência das observações. Ou seja, o fato de Xk assumir um determinado valor não altera a probabilidade com a qual as demais N-1 observações assumem um dado valor. Formalmente, P(X1 = x1,...,XN = xN) = P(X1 = x1)...P(XN = xN), o que é equivalente a ܨభ,…,ಿ (ݔଵ, … , ݔே;ߠ) = ∏ ܨ(ݔ;ߠ).ேୀଵ A segunda propriedade é a de que todas as observações possuem a mesma FD, i.e., P(X1 = x1) = P(XN = x1) = P (X = x1). O que também pode ser escrito como ܨ(ݔ;ߠ) = ܨೕ(ݔ;ߠ), ݅ ≠ ݆ ou, de maneira equivalente, ܨ(ݔ;ߠ) = ܨ(ݔ;ߠ), i=1,...,N. É por conta dessas duas características que as variáveis que compõem uma amostra aleatória são ditas independentes e identicamente distribuídas, ou, de maneira abreviada, i.i.d. 5 Estimação pontual 5.1 Conceitos básicos: estatística, estimador, estimativa14 Alguns conceitos básicos permitem uma compreensão mais precisa do que seguirá. Por “estatística” se entende qualquer função dos dados disponíveis que não seja função de parâmetros desconhecidos, especialmente daqueles que definem a FD conjunta (vetor θ). Uma estatística é, pois, geralmente uma operação matemática que resume os dados. Os exemplos mais comuns são a média, a variância, o valor mínimo, o valor máximo e os quartis. O termo “estimador” designa uma estatística (função dos dados, portanto) que assume valores dentro do domínio de variação de um parâmetro que define a FD conjunta. Os estimadores são utilizados para fazer afirmações acerca dos valores populacionais de medidas relevantes para a análise empírica. Por exemplo, as proporções de eleitores com intenção de voto nos candidatos presidenciais, a elasticidade-preço da demanda por alimentos e a renda média dos brasileiros. A média amostral, por exemplo, é um estimador para a média populacional. Em primeiro lugar, trata-se de uma estatística, pois sua fórmula contém apenas valores das variáveis observadas. Em segundo lugar, a média amostral tende a assumir valores dentro do domínio de variação da média populacional, dado que é calculada em função de valores observados que pertencem, obrigatoriamente, a este domínio. 14 As definições aqui apresentadas foram retiradas de Bolfarine, Heleno e Sandoval, Monica C., 2001,“Introdução à inferência estatística”. Coleção Matemática Aplicada, Sociedade Brasileira de Matemática. 8 “Estimativa” se refere ao valor assumido pelo estimador para um conjunto de dados em específico, em uma amostra. O valor da média amostral, por exemplo, varia de acordo com a amostra disponível. Calculando-se o valor médio da renda das famílias brasileiras, este assumirá um valor, com base na amostra da PNAD 2009, possivelmente distinto do valor a que se pode chegar a partir da amostra da PNAD 2010. Os exemplos anteriores permitem entender o uso prático dos conceitos apresentados. O número fornecido pelo Datafolha para a proporção de eleitores da candidata Dilma Roussef, 35% em 4 de Setembro de 2014, é uma estimativa para o valor populacional da proporção de eleitores da candidata. Há, pois, um “salto” de inferência claro aí, pois é completamente desconhecido o número total de eleitores da candidata na população brasileira como um todo. O estimador empregado pelo Datafolha é simplesmente a proporção de entrevistados que declararam intenção de voto em Dilma Roussef, i.e., ̂ = ܰܰ O índice j indicando um candidato específico a presidente, Nj ≡ número de entrevistados que manifestaram opção pelo j-ésimo candidato e N ≡ número total de entrevistado (10.057). O símbolo “^” é utilizado para indicar uma medida calculada a partir de uma amostra, um estimador ou uma estimativa. Isso se faz necessário uma vez que, se houvesse recurso financeiro suficiente para entrevistar todos os brasileiros votantes, a mesma fórmula acima seria empregada para obter o valor populacional da proporção de eleitores do j-ésimo candidato. É importante notar que a expressão ̂ é uma estatística, pois ela é função dos dados, ou melhor, dos valores assumidos por uma variável aleatória na amostra, o número de eleitores do j-ésimo candidato, além de ser função do número total de entrevistados, que não é uma variável aleatória, mas sim uma grandeza pré-definida, uma constante. Além disso, não há nenhum parâmetro populacional na expressão matemática que a define. No caso, como se trata de uma proporção, a distribuição populacional relevante é binomial15. O parâmetro populacional que não deve constar na fórmula, pois, é a probabilidade de que um eleitor opte pelo j-ésimo candidato (exatamente o que se deseja estimar). Critério este que é claramente atendido. 15 Basta perceber que uma proporção é a razão de uma contagem de sucessos (no caso, número de eleitores do candidato) pelo tamanho da amostra. Para a estimação de intervalos e para testes de hipóteses, utiliza-se uma aproximação normal à binomial, como será esclarecido à frente. Neste caso, os parâmetros relevantes são a probabilidade de opção por um candidato e a variância da opção dos candidatos (mais precisamente a variância da variável binária que indica se o entrevistado opta ou não pelo j-ésimo candidato). 9 5.2 Métodos de estimação: como encontrar estimadores? 5.2.1 Método de Mínimos Quadrados Se os valores assumidos por duas características contínuas de interesse, observados em uma amostra, forem plotados em um gráfico de dispersão, tem-se o padrão revelado pela figura abaixo. Há uma relação positiva entre as duas características, a qual pode ser aproximada por uma reta. Mas qual é esta reta? O matemático Karl F. Gauss propôs uma solução para este problema, que consiste em escolher a reta cujadiscrepância em relação aos valores observados é a menor possível. Uma medida para a discrepância é dada pelo quadrado absoluto de uma diferença entre o valor da variável Y, indicado ou “previsto” pela reta, y(x), e o valor observado, para cada valor de x, yo. Esta medida é indicada pela fórmula a seguir e a diferença em que consiste pode ser visualizada na próxima figura. erro quadrático = ൫ݕ(ݔ)− ݕை൯ଶே ୀଵ Um critério possível para escolher a reta é tomar aquela que minimiza o erro quadrático. Para isso, é preciso notar que uma reta pode sempre ser escrita como y(xi) = ߙ + βxi. Basta, portanto, escolher o intercepto, ߙ, e a inclinação, β, da reta de maneira a minimizar o erro quadrático. Isto é o mesmo que resolver o problema de minimização abaixo: ݉݅݊{ఈ,ఉ} ൫ߙ + ߚݔ − ݕை൯ଶே ୀଵ ൩ 0 2 4 6 8 10 12 14 16 18 0 5 10 15 20 25 30 35 Y X 10 Diferença entre valor previsto e valor observado 5.2.2 Método de Máxima Verossimilhança: motivação Seja a característica de interesse X discreta e binária, p.ex., status em relação ao mercado de trabalho, X = 1 se empregado, X=0 se desempregado16. Seja assumido que ela segue uma distribuição Bernoulli com parâmetro p, i.e., X ~ b(p). A seguinte amostra de tamanho quatro foi retirada da população: {X1, X2, X3, X4} = {1, 0, 0, 1}. A probabilidade de ocorrência desta amostra é dada por P(X1 = x1,..., X4 = x4 |p) = P(X1 = 1, X2 = 0, X3 =0, X4 = 1 |p). Tratando-se de uma amostra aleatória, ela é composta por variáveis aleatórias independentes e identicamente distribuídas (i.i.d), de maneira que a probabilidade conjunta seja equivalente ao produto das probabilidades individuais, i.e.: P(X1 = 1, X2 = 0, X3 =0, X4 = 1 |p) = P(X1 = 1|p). P(X2 = 0|p). P(X3 =0|p). P(X4 = 1|p). E, além disso, de acordo com a segunda propriedade de uma amostra aleatória, todas as VAs que a compõem têm função de distribuição de probabilidades equivalente, i.e., P(X1=1)= P(X2=1) = P(X3=1)= P(X4=1) = p. Sendo a distribuição Bernoulli, tem-se que P(Xi = 1|p) = p e P(Xi = 0|p) = 1 – p, de modo que o produto se reduz a: P(X1 = 1|p). P(X2 = 0|p). P(X3 =0|p). P(X4 = 1|p) = p2(1-p)2 O valor exato de p é desconhecido, trata-se de um parâmetro populacional. É preciso, pois, estimá-lo. Um critério possível para obter uma estimativa é o de selecionar o valor de p que faz com que a probabilidade de ocorrência da amostra efetivamente observada seja o maior possível. O que é, de certa maneira, intuitivo: se uma determinada sequência de valores foi extraída da população é porque esta sequência deve ser mais provável do que outras que não foram observadas. O que quer dizer que a probabilidade de ocorrência da sequência observada é maior do que a probabilidade de ocorrência de uma sequência alternativa. Isso pode ser interpretado, no exemplo visto, da seguinte maneira: o valor do parâmetro populacional de interesse, p, é tal que, para ele, a probabilidade de ocorrência da 16 O status em relação ao mercado de trabalho, na realidade, incorpora uma terceira possibilidade que é o desalento, ou seja, a possibilidade de que o indivíduo desistiu de procurar emprego. Visando simplificar o problema, esta terceira possibilidade é desconsiderada. 11 amostra observada é superior à probabilidade de ocorrência de uma amostra alternativa. Ou seja, o valor do parâmetro populacional maximiza a probabilidade de ocorrência da amostra observada. O estimador pode se guiar exatamente por este princípio: apontar para um valor que maximiza a probabilidade de ocorrência da amostra observada. 5.2.3 Método de Máxima Verossimilhança: formalização A probabilidade de uma amostra ser composta pelos valores x1,..,xN é dada por P(X1 = x1,..., XN = xN |θ), em que θ representa o parâmetro populacional que se deseja estimar. Uma amostra i.i.d é composta de variáveis aleatórias independentes, o que significa que P(X1 = x1,..., XN = xN |θ) = ∏ f(X୧ = x୧|θ)୧ୀଵ . O estimador de máxima verossimilhança escolhe o valor de θ que maximiza a probabilidade de saída da amostra observada, i.e., θெ é obtido a partir da solução do problema abaixo: ݉áݔ{ఏ} ෑ f(X୧ = x୧|θ) ୧ୀଵ ൩ A função L(θ; x1,...,xN) = ∏ f(X୧ = x୧|θ)୧ୀଵ é denominada por função de verossimilhança. Retomando o exemplo anterior17, θ = p ≡ probabilidade do indivíduo estar empregado, tem-se que L(p; x1,...,xN) = p2(1-p)2, para o caso discutido acima. O problema de otimização é: ݉áݔ{}[pଶ(1 − p)ଶ] Ou, de maneira equivalente: ݉áݔ{}[pଶ(1 + pଶ − 2p)] Ou, ainda: ݉áݔ{}[pଶ + pସ − 2pଷ] A solução para o problema acima pode ser obtida a partir da condição de primeira ordem, esta correspondendo ao critério de derivar em p e igualar a zero, ou seja: ݀ ݀ (pଶ + pସ − 2pଷ) = 0 Aplicando a regra de derivação de potências, a equação passa a: 2p + 4pଷ − 6pଶ = 0 17 Diversos outros exemplos interessantes, apresentados de maneira didática, podem ser encontrados na seção 3.1 do livro de Bolfarine, H. e Sandoval, M.C., “Introdução à Inferência Estatística”, Editora da Sociedade Brasileira de Matemática. 12 Manipulando chega-se a 1+ 2p2 – 3p = 0. Aplicando a fórmula de Bhaskara, são obtidas duas soluções (raízes do polinômio), ̂ = 1 e ̂ = 1/2. A primeira pode ser eliminada pois gera um valor para a função ݂() = pଶ + pସ − 2pଷ inferior ao gerado pela segunda, e, portanto, não pode ser um ponto de máximo. Basta observar que f(1) = 0 e f(1/2) =1/16. O resultado obtido é intuitivo: o valor de p que maximiza a probabilidade de uma amostra de quatro indivíduos em que apenas dois estão empregados é 50%, valor exatamente equivalente à proporção de indivíduos empregados na amostra. Será que esta intuição tem validade geral, i.e., se aplica a todas as amostras possíveis de tamanho N e a todas as combinações possíveis em que os indivíduos amostrados são divididos em dois grupos, X= 1 e X=0? A resposta é afirmativa, conforme a demonstração abaixo. A probabilidade de ocorrência de uma amostra de tamanho N em que s indivíduos possuem valor unitário para X (s = número de indivíduos empregados) é L(θ; x1,...,xN) = ps(1-p)N-s. O problema de máxima verossimilhança é: ݉áݔ{}[p௦(1 − p)ேି௦] A condição de primeira ordem é ݀ ݀ (p௦(1− p)ேି௦) = 0 Aplicando a regra do produto de derivação: ݔp௦ିଵ(1 − p)ேି௦ − p௦(ܰ − ݏ)(1− p)ேି௦ିଵ = 0 Fatorando chega-se a: p௦ିଵ(1 − p)ேି௦ିଵ(ݏ(1 − ) − (ܰ − ݏ)) = 0 ↔ ݏ − ݏ − ܰ + ݏ = 0 → ̂ெ = ݏ/ܰ Fica, pois, demonstrado que o estimador de máxima verossimilhança para o parâmetro populacional correspondente à probabilidade de uma variável binária assumir valor unitário, p, é a proporção de valores binários observados na amostra. Tal como a intuição nos dizia desde o início. 5.3 Propriedades de estimadores Uma vez que há múltiplas maneiras de obter estimadores, e, consequentemente, para estimar um parâmetro populacional, mais de um estimador pode estar disponível, é preciso ter critérios para estabelecer qual é a melhor opção. Ou seja, é preciso ter indicadores da qualidade, ou melhor, de confiabilidade, dos estimadores, no que tange à geração de estimativas para o parâmetro-alvo. Há três propriedades cuja verificação é um indicativo de que o estimador é confiável: ausência de viés, eficiência e consistência. Antes de passar às definições é preciso 13 esclarecer que tais propriedades não dizem respeito ao valor assumido pelo estimador na amostra disponível. Mas sim a tendências ou padrões que seriam - atenção para o uso do subjuntivo – observados caso o estimador fosse calculado repetidas vezes em todas as amostras que é possível retirar da população dentro do mesmo período de tempo18. Por esta razão,as definições das propriedades fazem referência a experimentos mentais. Além disso, por simplicidade, será assumido que, com base em uma amostra para apenas uma característica, {X1,...,XN}, se deseja estimar um parâmetro populacional genérico, θ, recorrendo-se a um estimador igualmente genérico, θ = ݂(ܺ), em que f(.) é uma função qualquer dos dados disponíveis. A primeira propriedade toma por base a realização de um experimento mental que consiste em obter o valor do estimador, ou estimativa, para cada uma de todas as amostras aleatórias possíveis da população (todas as combinações possíveis de observações) de tamanho N finito (qualquer que seja 1 ≤ N < ∞). Acaba-se, portanto, com a distribuição completa do estimador, ou seja, sua distribuição populacional. Neste caso, pois, o conceito de expectativa se aplica e pode-se tomar E[θே]. O subscrito “N” vai passar a ser utilizado a partir de agora para indicar o tamanho da amostra em que o estimador é calculado. Esta expectativa tem de ser entendida como a média populacional do estimador. O viés do estimador, B(θே), é dado pela diferença entre o valor populacional que se deseja estimar e a expectativa do estimador, i.e., B(θே) = θ - E[θே]. O que ocorre se o estimador não atender à propriedade de ausência de viés, i.e., se B(θே) = θ - E[θே] ≠ 0? Basta perceber que, no limite, tomando-se todas as amostras possíveis da população, o conteúdo informacional com base no qual se calcula a média das estimativas geradas para cada amostra, é a população em si, completa. Se, com base nesta, o estimador gera uma estimativa que difere do valor populacional, há algum problema em sua fórmula, i.e., ele é intrinsicamente mal especificado, uma vez que o motivo do erro em que incide não é a falta de informação. O que dá origem a uma interpretação pertinente do conceito de ausência de viés: um estimador não apresenta viés se ele erra ao estimar o parâmetro populacional única e exclusivamente por tomar por base, para isso, um conteúdo informacional insuficiente. A propriedade de eficiência requer que a variância das estimativas calculadas a partir de todas as amostras disponíveis – segundo o experimento mental descrito no parágrafo anterior - seja a menor possível entre todos os estimadores alternativos. O estimador que atender a este critério é dito eficiente, ou, de maneira mais precisa, mais eficiente (do que os demais). A última propriedade, de consistência, é estabelecida com base em um experimento mental em que também são retiradas amostras de um número suficientemente grande da população, mas, porém, o tamanho das amostras varia, tornando-se arbitrariamente 18 Não se trata, portanto, de calcular a renda média das famílias com a PNAD 2008, depois com a PNAD 2009, 2010, e assim por diante, mas sim calcular a renda para todas as combinações de brasileiros que compuseram a população em 2008. 14 grande. Mais precisamente, retiram-se todas as amostras possíveis da população para um determinado tamanho amostra N = 1, por exemplo, então, em um segundo passo, retira-se todas as amostras de tamanho N = 2, e assim sucessivamente com N tendendo ao infinito. As propriedades de estimadores estabelecidas com base neste experimento são denominadas assintóticas e também são referidas como “propriedades em amostras grandes” (intuição retirada de Wooldrigde19). A propriedade de consistência estabelece que o valor esperado do estimador se torna progressivamente mais próximo do valor efetivo do parâmetro com o aumento da amostra. De fato, para uma amostra arbitrariamente grande, o quadrado da diferença torna-se nulo. Formalmente, a propriedade de consistência pode ser exprimida de três maneiras. lim ே→ஶ P(|θே – θ| > ε) = 0, para ε muito pequeno (݅) lim ே→ஶ E ቂ൫θே − θ൯ଶቃ = 0 (݅݅) lim ே→ஶ Eൣθே൧ = θ e lim ே→ஶ Vൣθே൧ = 0 (݅݅݅) A primeira notação faz referência ao conceito de convergência em probabilidade. Ela afirma que a probabilidade da diferença entre a estimativa pontual e o valor populacional do parâmetro ser não desprezível tende a zero com o aumento ilimitado da amostra. As duas últimas notações são equivalentes. Elas estabelecem a convergência em média quadrática, a qual pode ser exprimida da seguinte maneira: com o aumento da amostra, o valor esperado do estimador se torna progressivamente mais próximo do valor populacional do parâmetro e a variância do estimador se torna nula. Para entender porque esta última condição é necessária basta ter em conta que o valor populacional do parâmetro é fixo, não varia jamais, de modo que afirmar que as estimativas pontuais se tornam cada vez mais próximas de tal valor é afirmar que elas se tornam progressivamente fixas, ou seja, variam cada vez menos. Colocando de outra maneira, produzir valores cada vez mais próximos de um valor-alvo fixo é produzir valores que discrepam cada vez menos deste valor-alvo e, portanto, discrepam cada vez menos entre si. As duas últimas propriedades garantem que os valores gerados pelo estimador para diferentes amostras da mesma população tenham uma volatilidade, medida pela variância, não muito grande, aceitável. Um estimador que gera valores muito discrepantes comparando amostras diferentes não é confiável, porque leva a conclusões acerca do valor populacional que mudam em magnitude considerável com a amostra. Neste caso, as conclusões da análise econométrica, portanto, dependem demais da amostra disponível, valendo apenas para “dentro” dela, o que é equivalente a dizer que não se poder retirar nenhuma conclusão em relação à população. Além disso, uma vez que o valor populacional do parâmetro-alvo é fixo, uma alta volatilidade das estimativas significa que a probabilidade destas distanciarem-se do valor populacional que se procura inferir é relevante. 19 3°edição em inglês do livro, p.178, cap.5. 15 Os gráficos abaixo mostram como os efeitos do viés e da alta volatilidade sobre a qualidade das estimativas se diferenciam. Estimação viesada com baixa volatilidade Estimação não viesada com alta volatilidade Estimação viesada com alta volatilidade . . . . . . . . A.1 A.2 A.3 A.3 A.4 A.5 A.6 A.6 Amostras Estimativas θ . . . . . . . . Estimativas θ A.1 A.2 A.3 A.3 A.4 A.5 A.6 A.6 Amostras . . . . . . . . Estimativas θ A.1 A.2 A.3 A.3 A.4 A.5 A.6 A.6 Amostras
Compartilhar