Buscar

Nota_de_aula_2_corr_05_10

Prévia do material em texto

1 
 
Notas de aula para o curso de Econometria I 
Nota 2: Fundamentos de inferência estatística 
Thiago Fonseca Morello 
fonseca.morello@ufabc.edu.br 
sala 301, Bloco Delta, SBC 
 
1 Conceitos fundamentais: população e amostra 
É raro que um cientista social disponha de dados que captem todas as unidades às quais 
a pergunta que ele procura responder diz respeito. Sejam tais unidades indivíduos, 
empresas ou regiões, na maioria dos casos há um custo proibitivo de coletar as 
informações requeridas junto a todas aquelas que são abrangidas pela análise. Alguns 
exemplos são esclarecedores. 
Um exemplo é de um estudo em que se procura avaliar em função de quais fatores a 
demanda por certa classe de bens de consumo, alimentos, por exemplo, varia. A 
Pesquisa de Orçamentos Familiares (POF) do IBGE, realizada a partir de 1974 sem 
periodicidade definida, contém variáveis como despesas em bens e serviços, 
quantidades adquiridas de um amplo espectro de alimentos, renda mensal familiar, 
características do domicílio, entre outras. Estas características são coletadas com base 
na aplicação de questionários detalhados às famílias. 
Um pesquisador interessado em construir uma curva de demanda por alimentos básicos 
para as famílias brasileiras, um exercício recorrente na literatura empírica1, tem na POF 
o conjunto de dados mais amplo e completo disponível para tanto no País. Ao realizar a 
POF, porém, os enumeradores do IBGE não entrevistam todas as famílias brasileiras, 
apenas um subconjunto delas. Na POF de 2008-2009 foram entrevistados membros de 
55.412 famílias brasileiras, de um total estimado de 57 milhões de famílias. 
Uma particularidade da POF, a qual contribui para elevar seu custo, está em que os 
enumeradores retornam diversas vezes, dentro do intervalo de um ano, aos domicílios 
com o intuito de acompanhar especialmente as despesas, mas também a renda, das 
famílias – eles procuram não deixar de lado nenhum item com papel relevante nas 
despesas das famílias, o que não é fácil, uma vez que, em nossas vidas, realizamos 
diversos gastos que se diferenciam não apenas por seu valor, mas também por sua 
frequência. 
Duas pesquisas do IBGE muito úteis para estudos microeconômicos do comportamento 
de empresas, tais como os desenvolvidos na literatura de Organização Industrial (OI), 
 
1 Um resumo dessa literatura pode ser encontrado no capítulo 2 da dissertação de mestrado da pfa. da 
USP Paula Pereda. Link: http://www.teses.usp.br/teses/disponiveis/12/12138/tde-04092008-
105503/publico/Dissert_Paula_Carvalho_Pereda.pdf 
2 
 
são a Pesquisa Industrial Anual – Empresa (PIA-Empresa) e a Pesquisa da Inovação 
Tecnológica (PINTEC). Em ambas são aplicados questionários a representantes a 
subconjuntos de empresas que compõem cada um dos setores econômicos definidos de 
acordo com a Classificação Nacional de Atividades Econômicas (CNAE2). Não são, 
portanto, entrevistadas todas as empresas que compõem os setores, apenas algumas 
delas3. 
Outro exemplo bem conhecido é o de pesquisas de intenção de voto em candidatos de 
um pleito referente a algum nível governamental. A pesquisa da Datafolha, realizada de 
1 a 3 de Setembro de 20144, apontou que, para o pleito da presidência da república, 35% 
dos eleitores votariam em Dilma Roussef, 34% em Marina Silva, 14% em Aécio Neves, 
e 6% votariam branco ou nulo. Trata-se de uma pesquisa de opinião, em que pessoas 
são contatadas, por via telefônica ou abordadas no tête-a-tête. Será que todos os 
brasileiros foram entrevistados? A resposta é não. Foram entrevistadas apenas 10.054 
pessoas. Este número corresponde a 0,007% da população de eleitores brasileiros (sete 
em cada cem mil), 142.822.046 eleitores, segundo o TSE5 e a 0,005% da população 
brasileira, de 202.768.662 brasileiros, segundo a última estimação do IBGE6. 
A Datafolha realizou, em conjunto com outras duas empresas (F/NAZCA e Saatchi & 
Saatchi), uma pesquisa denominada “Panorama do Brasil na Internet” ou F/Radar. Entre 
os indicadores calculados pela pesquisa há o número de brasileiros com acesso à 
internet (84 milhões), número de brasileiros com acesso à internet móvel, fração de 
brasileiros por categorias socioeconômicas (nível de escolaridade, nível salarial, etc.) 
com acesso à internet, número de brasileiros que participam de redes sociais, etc. A 
divulgação dos resultados no sítio da Datafolha7 traz uma frase no mínimo curiosa, 
reproduzida a seguir. 
“Atualmente, aproximadamente 43 milhões de brasileiros com 12 anos ou mais 
navegam pela internet utilizando dispositivos móveis, revela o estudo, que ouviu 2.236 
pessoas em todas as regiões do Brasil.” 
Uma pergunta que pode surgir é de como se pode fazer uma afirmação que se estende 
para 43 milhões de brasileiros tendo-se entrevistado apenas 2.236 brasileiros, uma 
extrapolação de em torno de 20.000 brasileiros por brasileiro entrevistado? A resposta é 
a de que há um procedimento de inferência estatística e não apenas os dados coletados, 
dando fundamentação aos resultados. 
 
2 A estrutura setorial da última versão da CNAE pode ser consultada em http://www.cnae.ibge.gov.br/. 
3 Para mais informações consultar os links abaixo com as notas técnicas das últimas versões de cada uma 
das pesquisas, PIA-Empresa e PINTEC. 
ftp://ftp.ibge.gov.br/Industrias_Extrativas_e_de_Transformacao/Pesquisa_Industrial_Anual/Empresa2010
/notatecnica2010.pdf, 
http://www.pintec.ibge.gov.br/downloads/pintec2011%20publicacao%20completa.pdf. 
4 Disponível em http://media.folha.uol.com.br/datafolha/2014/09/04/intencao-de-voto-para-presidente.pdf 
5 http://www.tse.jus.br/noticias-tse/2014/Julho/presidente-do-tse-anuncia-aumento-de-5-17-do-eleitorado-
brasileiro 
6 ftp://ftp.ibge.gov.br/Estimativas_de_Populacao/Estimativas_2014/estimativa_dou_2014.pdf 
7 http://datafolha.folha.uol.com.br/mercado/2014/01/1400618-43-milhoes-de-brasileiros-acessam-
internet-por-dispositivos-moveis.shtml. 
3 
 
Outra pesquisa do Datafolha de particular interesse para economistas é a chamada 
“Expectativas Econômicas”8. Uma das perguntas em que ela se apoia é a seguinte: “Na 
sua opinião, daqui para frente a inflação vai aumentar, vai diminuir ou vai ficar como 
está?” As demais perguntas têm a mesma estrutura, se referindo à taxa de desemprego, 
poder de compra dos salários, situação econômica do entrevistado, etc. Na edição de 
Maio de 2014, 2.844 entrevistas foram conduzidas em 174 municípios do País. 
Nos exemplos, as famílias, empresas, eleitores e indivíduos em geral constituem uma 
amostra selecionada aleatoriamente a partir da população-alvo da pesquisa. As 
pesquisas do IBGE e da Datafolha têm uma população-alvo, assim como um estudo 
econométrico, e o motivo é o mesmo, trata-se de responder perguntas que dizem 
respeito a um conjunto específico de tomadores de decisão ou agentes. A pergunta 
científica que motiva o estudo econométrico, portanto, é o que define a população-alvo. 
No caso do estudo de demanda por alimentos básicos, a população-alvo pode ou não ser 
composta por todas as famílias brasileiras, isso depende do objetivo da análise, definido 
pelo analista. Por exemplo, se o governo federal procura verificar se o programa Bolsa 
Família tem surtido efeito no sentido de aumento da ingestão de calorias pelos 
contemplados, com base apenas na POF 2008-2009, a população-alvo não pode se 
restringir apenas aos contemplados, tendo de se estender por todos os brasileiros com 
características socioeconômicas semelhantes aos contemplados. A razão para isso está 
em que o efeito de uma política é sempre avaliado comparando-se a situação em que ela 
não ocorre com a situação em que ela ocorre. Porém, como nunca se observa o cenário 
potencial que corresponde a não implementação de uma política que foi efetivamenteimplementada9, não há saída a não ser tomar como base de comparação os indivíduos 
que não foram contemplados pela política - o que apenas é factível para políticas 
focalizadas, não sendo, por exemplo, para políticas macroeconômicas. Excluir, pois, da 
amostra os não-contemplados pelo Bolsa Família, é eliminar, automaticamente, a base 
de comparação. 
De maneira complementar, é equivocado incluir famílias que não podem se candidatar 
ao Bolsa Família – i.e., famílias com renda familiar per capita consideravelmente 
superior a R$77 - para avaliar os efeitos do mesmo. Essas famílias não são uma base de 
comparação válida, por dois motivos que se combinam para criar resultados distorcidos. 
O primeiro é o de que elas nunca receberão o auxílio; o segundo se refere ao fato de que 
elas possuem características socioeconômicas muito distintas daqueles que têm direito 
ao auxílio. 
Caso, porém, a análise tenha por meta testar a hipótese de que a estabilização monetária 
em 1994 resultou no aumento do consumo de determinados alimentos, a população-alvo 
 
8 http://media.folha.uol.com.br/datafolha/2014/05/12/expectativas-economicas-site.pdf. 
9 Este cenário é chamado de “contrafactual”. Para uma introdução à mensuração de resultados de políticas 
públicas ou intervenções em geral, consultar o primeiro capítulo de Morgan, S.L. & Winship, C., 
“Counterfactuals and causal inference”, Cambridge University Press. 
http://www.amazon.com/Counterfactuals-Causal-Inference-Principles-Analytical/dp/0521671930 
4 
 
corresponde à todas as famílias brasileiras, uma vez que todas elas foram atingidas pela 
contenção da hiperinflação. 
Quando a meta é entender a adoção de tecnologias com determinadas propriedades (alta 
produtividade, baixo impacto ambiental, baixo custo, etc) por empresas de um 
determinado setor, a população é composta por todas as empresas do setor. 
Talvez o interesse se restrinja a testar a hipótese de que, entre as empresas do setor de 
bens de capital que possuem plantas no Brasil, aquelas com maior fração de seu 
controle acionário nas mãos de estrangeiros têm maior propensão a investir em novas 
tecnologias. Neste caso, a população não corresponde a todas as empresas de bens de 
capital do mundo e nem mesmo a todas as empresas do setor industrial brasileiro, mas 
sim às empresas do subsetor de bens de capital e que têm plantas no Brasil. 
Em todos esses casos, por mais que a definição da população caiba ao analista, há uma 
regra de ferro da qual ele não se pode escapar quando o orçamento disponível não 
permite estender a sondagem a todos os membros da população: é preciso recorrer à 
inferência estatística. Esta, em poucas palavras, se resume à, com base em uma amostra, 
elaborar uma afirmação que se aplique a toda a população. Trata-se, pois, de um salto 
informacional relevante, uma vez que se parte de um conteúdo informacional 
consideravelmente inferior à população para elaborar afirmações que se apliquem a ela. 
 
Uma ilustração para a diferença dos conteúdos informacionais da amostra (A.1, 
A.2 e A.3) e da população 
 
 
2 Afirmações sobre a população 
É possível precisar melhor qual tipo de afirmação sobre a população se procura fazer em 
um estudo empírico. A pesquisa de intenção de voto, por exemplo, foi desenhada para 
Ω (População)
A.1 A.2 A.3
5 
 
gerar um número correspondente à proporção de eleitores brasileiros que optam por 
cada um dos candidatos. Contudo, uma vez que a pesquisa não entrevistou todos os 
eleitores, mas apenas uma amostra deles, as proporções que ela informa não 
necessariamente são equivalentes às que seriam observadas caso fossem entrevistados 
todos os eleitores10. O fundamental está em que o objetivo da pesquisa é chegar a 
afirmações sobre proporções de votantes, e, mais do que isso, sobre os valores que tais 
proporções assumem considerando-se toda a população de eleitores. Ou seja, tem-se por 
meta fazer afirmações quanto aos valores de proporções calculadas da seguinte maneira: 
Proporção	de	eleitores	do	candidato	j	 = 	Eleitores	do	candidato	j	no	BrasilTodos	eleitores	do	Brasil 
Comumente emprega-se o termo “parâmetro” para designar uma variável não-aleatória, 
constante, cujo valor é desconhecido. A porcentagem dos eleitores brasileiros que têm 
intenção de votar na candidata Marina Silva, por exemplo, é desconhecida, pois não há 
informação disponível acerca da intenção de voto de todos os eleitores brasileiros. A 
proporção em questão é, portanto, um parâmetro. Um termo análogo a parâmetro é o de 
“valor populacional”. Pode-se, portanto, dizer que o valor populacional da proporção de 
eleitores da candidata Marina Silva é desconhecido. A expressão “valor populacional do 
parâmetro” também é empregada. 
Em geral, o objetivo da inferência é fazer afirmações sobre o valor de parâmetros. Há 
três técnicas para isso, quais sejam, estimação pontual, estimação por intervalo e teste 
de hipóteses. Elas são apresentadas nas próximas seções. Por hora, cabe atentar para o 
emprego do verbo “estimar”. A Datafolha, por exemplo, estima o valor populacional 
das proporções de votantes com base em uma amostra. 
No caso do estudo de demanda por alimentos básicos o parâmetro de interesse é a 
elasticidade-preço da demanda, ou seja, a proporção em que a quantidade demandada de 
um determinado alimento aumentaria caso o preço do alimento sofresse um aumento de 
1%. O analista deseja ter um número para elasticidade-preço que descreva a maneira 
como os brasileiros, em média, reagem a aumentos de preço. Porém, a informação 
disponível se restringe à amostra da POF. Ele precisa, portanto, estimar o valor 
populacional da elasticidade-preço com base na amostra. 
Um exemplo mais simples de um parâmetro é o da renda média per capita da população 
brasileira. Com base nas pesquisas do IBGE, POF e PNAD, é possível calcular a renda 
média da amostra e a utilizar como estimativa para a renda média da população. 
 
3 Amostra como uma sequência de variáveis aleatórias 
Uma amostra é concebida como a realização de uma série de valores para um conjunto 
de variáveis de interesse. Há, portanto, um processo aleatório, representado, como é a 
 
10 Há, de fato, uma margem de erro, de dois pontos percentuais para a proporção de votantes em cada 
candidato. 
6 
 
convenção em estatística, por uma função de distribuição de probabilidades (FD), o qual 
atua “por trás” dos dados para definir os valores observados das variáveis. 
Para simplificar, seja assumido que apenas há apenas uma característica de interesse, 
denotada por X. Por exemplo, a renda mensal. Uma amostra de N observações pode ser 
denotada por uma sequência de N VAs dada por X1,...,XN, em que Xi representa ao 
valor que a característica assume para a i-ésima observação. A probabilidade de 
ocorrência de uma amostra em que N VAs assumem valores particulares, denotados por 
x1,..., xN, é dada por P(X1 = x1,...,XN = xN). Trata-se, portanto, da probabilidade conjunta 
de ocorrência simultânea de N eventos, cada um deles consistindo na atribuição de um 
valor específico para cada uma das observações. Esta probabilidade pode ser 
representada por uma FD conjunta, ܨ௑భ,…,௑ಿ(ݔଵ, … , ݔே;ߠ), em que θ representa o vetor 
de parâmetros em função do qual a FD conjunta é definida. 
É preciso assinalar que P(X1 = x1,...,XN = xN) representa a probabilidade de ocorrência 
da amostra observada. Focando em apenas uma característica, a renda, uma amostra 
consistiria em uma coluna de uma planilha preenchida por valores para a renda das 
famílias para as quais se pôde coletar a informação. Desta maneira, pois, P(X1 = 
x1,...,XN = xN) é a probabilidade de que os valores observados ocorram, dentre todas as 
combinações possíveis de valores. 
Retomando o exemploda renda familiar, a distribuição conjunta corresponde à 
probabilidade de que domicílios da amostra da PNAD 2013, por exemplo, possuam 
renda familiar equivalente a valores específicos. Assumindo que a renda familiar tem 
distribuição normal, o vetor paramétrico contém as médias e variâncias populacionais 
que resumem a distribuição da renda de cada domicílio, como é intuitivo, mas, além 
disso, o vetor também contém os coeficientes de correlação captando as relações entre 
as rendas dos domicílios11. 
Geralmente, as distribuições multivariadas contêm, em seus vetores paramétricos, 
medidas que descrevem não apenas as distribuições individuais, mas também, relações 
entre as observações12. Por conta disso, os vetores paramétricos das distribuições 
conjuntas tendem a ser complicados. 
4 Amostra aleatória 
Há mais de uma maneira de selecionar um subconjunto de unidades (ou observações13) 
da população. A maneira mais adequada, tanto do ponto de vista da teoria estatística 
quanto para aplicações econométricas é o sorteio aleatório. Ou seja, trata-se de escolher 
observações de maneira a que todas tenham a mesma probabilidade de serem 
escolhidas. Seja si a VA binária que indica com valor unitário se uma observação é 
selecionada e com valor nulo se a observação não é selecionada. Uma amostra aleatória 
 
11 Para mais detalhes, ver Greene, W., 2003. Econometric Analysis, apêndice B, seção B.11. 
12 Um exemplo nada didático, mas talvez útil, é dado pela distribuição Bernoulli bivariada na página 3 do 
artigo no link a seguir http://arxiv.org/pdf/1206.1874.pdf. 
13 Neste texto os termos “unidades” e “observações” são tratados como sinônimos. Ambos se referem aos 
entes portadores das características focadas pela análise. 
7 
 
de uma população de tamanho #Ω é tal que P(si = 1) = P(sj = 1), i≠j, i=1,..., #Ω, j=1,..., 
#Ω. 
Seja mantida a hipótese simplificadora de que há apenas uma característica de interesse, 
denotada por X. 
Há duas propriedades fundamentais de uma amostra aleatória. A primeira é a 
independência das observações. Ou seja, o fato de Xk assumir um determinado valor 
não altera a probabilidade com a qual as demais N-1 observações assumem um dado 
valor. Formalmente, P(X1 = x1,...,XN = xN) = P(X1 = x1)...P(XN = xN), o que é 
equivalente a ܨ௑భ,…,௑ಿ (ݔଵ, … , ݔே;ߠ) = ∏ ܨ௑೔(ݔ௜;ߠ).ே௜ୀଵ 
A segunda propriedade é a de que todas as observações possuem a mesma FD, i.e., P(X1 
= x1) = P(XN = x1) = P (X = x1). O que também pode ser escrito como ܨ௑೔(ݔ௜;ߠ) =
ܨ௑ೕ(ݔ௜;ߠ), ݅ ≠ ݆ ou, de maneira equivalente, ܨ௑೔(ݔ௜;ߠ) = ܨ(ݔ;ߠ), i=1,...,N. 
É por conta dessas duas características que as variáveis que compõem uma amostra 
aleatória são ditas independentes e identicamente distribuídas, ou, de maneira abreviada, 
i.i.d. 
5 Estimação pontual 
5.1 Conceitos básicos: estatística, estimador, estimativa14 
Alguns conceitos básicos permitem uma compreensão mais precisa do que seguirá. Por 
“estatística” se entende qualquer função dos dados disponíveis que não seja função de 
parâmetros desconhecidos, especialmente daqueles que definem a FD conjunta (vetor 
θ). Uma estatística é, pois, geralmente uma operação matemática que resume os dados. 
Os exemplos mais comuns são a média, a variância, o valor mínimo, o valor máximo e 
os quartis. 
O termo “estimador” designa uma estatística (função dos dados, portanto) que assume 
valores dentro do domínio de variação de um parâmetro que define a FD conjunta. Os 
estimadores são utilizados para fazer afirmações acerca dos valores populacionais de 
medidas relevantes para a análise empírica. Por exemplo, as proporções de eleitores 
com intenção de voto nos candidatos presidenciais, a elasticidade-preço da demanda por 
alimentos e a renda média dos brasileiros. 
A média amostral, por exemplo, é um estimador para a média populacional. Em 
primeiro lugar, trata-se de uma estatística, pois sua fórmula contém apenas valores das 
variáveis observadas. Em segundo lugar, a média amostral tende a assumir valores 
dentro do domínio de variação da média populacional, dado que é calculada em função 
de valores observados que pertencem, obrigatoriamente, a este domínio. 
 
14 As definições aqui apresentadas foram retiradas de Bolfarine, Heleno e Sandoval, Monica C., 
2001,“Introdução à inferência estatística”. Coleção Matemática Aplicada, Sociedade Brasileira de 
Matemática. 
8 
 
“Estimativa” se refere ao valor assumido pelo estimador para um conjunto de dados em 
específico, em uma amostra. O valor da média amostral, por exemplo, varia de acordo 
com a amostra disponível. Calculando-se o valor médio da renda das famílias 
brasileiras, este assumirá um valor, com base na amostra da PNAD 2009, possivelmente 
distinto do valor a que se pode chegar a partir da amostra da PNAD 2010. 
Os exemplos anteriores permitem entender o uso prático dos conceitos apresentados. O 
número fornecido pelo Datafolha para a proporção de eleitores da candidata Dilma 
Roussef, 35% em 4 de Setembro de 2014, é uma estimativa para o valor populacional da 
proporção de eleitores da candidata. Há, pois, um “salto” de inferência claro aí, pois é 
completamente desconhecido o número total de eleitores da candidata na população 
brasileira como um todo. 
O estimador empregado pelo Datafolha é simplesmente a proporção de entrevistados 
que declararam intenção de voto em Dilma Roussef, i.e., 
݌̂௝ = ௝ܰܰ 
O índice j indicando um candidato específico a presidente, Nj ≡ número de 
entrevistados que manifestaram opção pelo j-ésimo candidato e N ≡ número total de 
entrevistado (10.057). 
O símbolo “^” é utilizado para indicar uma medida calculada a partir de uma amostra, 
um estimador ou uma estimativa. Isso se faz necessário uma vez que, se houvesse 
recurso financeiro suficiente para entrevistar todos os brasileiros votantes, a mesma 
fórmula acima seria empregada para obter o valor populacional da proporção de 
eleitores do j-ésimo candidato. 
É importante notar que a expressão ݌̂௜ é uma estatística, pois ela é função dos dados, ou 
melhor, dos valores assumidos por uma variável aleatória na amostra, o número de 
eleitores do j-ésimo candidato, além de ser função do número total de entrevistados, que 
não é uma variável aleatória, mas sim uma grandeza pré-definida, uma constante. Além 
disso, não há nenhum parâmetro populacional na expressão matemática que a define. 
No caso, como se trata de uma proporção, a distribuição populacional relevante é 
binomial15. O parâmetro populacional que não deve constar na fórmula, pois, é a 
probabilidade de que um eleitor opte pelo j-ésimo candidato (exatamente o que se 
deseja estimar). Critério este que é claramente atendido. 
 
15 Basta perceber que uma proporção é a razão de uma contagem de sucessos (no caso, número de 
eleitores do candidato) pelo tamanho da amostra. Para a estimação de intervalos e para testes de 
hipóteses, utiliza-se uma aproximação normal à binomial, como será esclarecido à frente. Neste caso, os 
parâmetros relevantes são a probabilidade de opção por um candidato e a variância da opção dos 
candidatos (mais precisamente a variância da variável binária que indica se o entrevistado opta ou não 
pelo j-ésimo candidato). 
9 
 
5.2 Métodos de estimação: como encontrar estimadores? 
5.2.1 Método de Mínimos Quadrados 
Se os valores assumidos por duas características contínuas de interesse, observados em 
uma amostra, forem plotados em um gráfico de dispersão, tem-se o padrão revelado 
pela figura abaixo. 
 
 
Há uma relação positiva entre as duas características, a qual pode ser aproximada por 
uma reta. Mas qual é esta reta? O matemático Karl F. Gauss propôs uma solução para 
este problema, que consiste em escolher a reta cujadiscrepância em relação aos valores 
observados é a menor possível. Uma medida para a discrepância é dada pelo quadrado 
absoluto de uma diferença entre o valor da variável Y, indicado ou “previsto” pela reta, 
y(x), e o valor observado, para cada valor de x, yo. Esta medida é indicada pela fórmula 
a seguir e a diferença em que consiste pode ser visualizada na próxima figura. 
erro	quadrático	 = ෍൫ݕ(ݔ௜)− ݕை௜൯ଶே
௜ୀଵ
 
Um critério possível para escolher a reta é tomar aquela que minimiza o erro quadrático. 
Para isso, é preciso notar que uma reta pode sempre ser escrita como y(xi) = ߙ + βxi. 
Basta, portanto, escolher o intercepto, ߙ, e a inclinação, β, da reta de maneira a 
minimizar o erro quadrático. Isto é o mesmo que resolver o problema de minimização 
abaixo: 
݉݅݊{ఈ,ఉ} ൥෍൫ߙ + 	ߚݔ௜ − ݕை௜൯ଶே
௜ୀଵ
൩ 
 
 
 
0
2
4
6
8
10
12
14
16
18
0 5 10 15 20 25 30 35
Y
X
10 
 
Diferença entre valor previsto e valor observado 
 
5.2.2 Método de Máxima Verossimilhança: motivação 
Seja a característica de interesse X discreta e binária, p.ex., status em relação ao 
mercado de trabalho, X = 1 se empregado, X=0 se desempregado16. Seja assumido que 
ela segue uma distribuição Bernoulli com parâmetro p, i.e., X ~ b(p). A seguinte 
amostra de tamanho quatro foi retirada da população: {X1, X2, X3, X4} = {1, 0, 0, 1}. A 
probabilidade de ocorrência desta amostra é dada por P(X1 = x1,..., X4 = x4 |p) = P(X1 = 
1, X2 = 0, X3 =0, X4 = 1 |p). Tratando-se de uma amostra aleatória, ela é composta por 
variáveis aleatórias independentes e identicamente distribuídas (i.i.d), de maneira que a 
probabilidade conjunta seja equivalente ao produto das probabilidades individuais, i.e.: 
P(X1 = 1, X2 = 0, X3 =0, X4 = 1 |p) = P(X1 = 1|p). P(X2 = 0|p). P(X3 =0|p). P(X4 = 1|p). 
E, além disso, de acordo com a segunda propriedade de uma amostra aleatória, todas as 
VAs que a compõem têm função de distribuição de probabilidades equivalente, i.e., 
P(X1=1)= P(X2=1) = P(X3=1)= P(X4=1) = p. Sendo a distribuição Bernoulli, tem-se que 
P(Xi = 1|p) = p e P(Xi = 0|p) = 1 – p, de modo que o produto se reduz a: 
P(X1 = 1|p). P(X2 = 0|p). P(X3 =0|p). P(X4 = 1|p) = p2(1-p)2 
O valor exato de p é desconhecido, trata-se de um parâmetro populacional. É preciso, 
pois, estimá-lo. Um critério possível para obter uma estimativa é o de selecionar o valor 
de p que faz com que a probabilidade de ocorrência da amostra efetivamente observada 
seja o maior possível. 
O que é, de certa maneira, intuitivo: se uma determinada sequência de valores foi 
extraída da população é porque esta sequência deve ser mais provável do que outras que 
não foram observadas. O que quer dizer que a probabilidade de ocorrência da sequência 
observada é maior do que a probabilidade de ocorrência de uma sequência alternativa. 
Isso pode ser interpretado, no exemplo visto, da seguinte maneira: o valor do parâmetro 
populacional de interesse, p, é tal que, para ele, a probabilidade de ocorrência da 
 
16 O status em relação ao mercado de trabalho, na realidade, incorpora uma terceira possibilidade que é o 
desalento, ou seja, a possibilidade de que o indivíduo desistiu de procurar emprego. Visando simplificar o 
problema, esta terceira possibilidade é desconsiderada. 
11 
 
amostra observada é superior à probabilidade de ocorrência de uma amostra alternativa. 
Ou seja, o valor do parâmetro populacional maximiza a probabilidade de ocorrência da 
amostra observada. O estimador pode se guiar exatamente por este princípio: apontar 
para um valor que maximiza a probabilidade de ocorrência da amostra observada. 
5.2.3 Método de Máxima Verossimilhança: formalização 
A probabilidade de uma amostra ser composta pelos valores x1,..,xN é dada por P(X1 = 
x1,..., XN = xN |θ), em que θ representa o parâmetro populacional que se deseja estimar. 
Uma amostra i.i.d é composta de variáveis aleatórias independentes, o que significa que 
P(X1 = x1,..., XN = xN |θ) = ∏ f(X୧ = x୧|θ)୒୧ୀଵ . 
O estimador de máxima verossimilhança escolhe o valor de θ que maximiza a 
probabilidade de saída da amostra observada, i.e., θ෠ெ௏ é obtido a partir da solução do 
problema abaixo: 
݉áݔ{ఏ} ൥ෑ f(X୧ = x୧|θ)୒
୧ୀଵ
൩ 
A função L(θ; x1,...,xN) = ∏ f(X୧ = x୧|θ)୒୧ୀଵ é denominada por função de 
verossimilhança. 
Retomando o exemplo anterior17, θ = p ≡ probabilidade do indivíduo estar empregado, 
tem-se que L(p; x1,...,xN) = p2(1-p)2, para o caso discutido acima. O problema de 
otimização é: 
݉áݔ{௣}[pଶ(1 − p)ଶ] 
Ou, de maneira equivalente: 
݉áݔ{௣}[pଶ(1 + pଶ − 2p)] 
Ou, ainda: 
݉áݔ{௣}[pଶ + pସ − 2pଷ] 
A solução para o problema acima pode ser obtida a partir da condição de primeira 
ordem, esta correspondendo ao critério de derivar em p e igualar a zero, ou seja: 
݀
݀݌
(pଶ + pସ − 2pଷ) = 0 
Aplicando a regra de derivação de potências, a equação passa a: 2p + 4pଷ − 6pଶ = 0 
 
17 Diversos outros exemplos interessantes, apresentados de maneira didática, podem ser encontrados na 
seção 3.1 do livro de Bolfarine, H. e Sandoval, M.C., “Introdução à Inferência Estatística”, Editora da 
Sociedade Brasileira de Matemática. 
12 
 
Manipulando chega-se a 1+ 2p2 – 3p = 0. Aplicando a fórmula de Bhaskara, são obtidas 
duas soluções (raízes do polinômio), ݌̂ = 1 e ݌̂ = 1/2. A primeira pode ser eliminada 
pois gera um valor para a função ݂(݌) = pଶ + pସ − 2pଷ inferior ao gerado pela 
segunda, e, portanto, não pode ser um ponto de máximo. Basta observar que f(1) = 0 e 
f(1/2) =1/16. 
O resultado obtido é intuitivo: o valor de p que maximiza a probabilidade de uma 
amostra de quatro indivíduos em que apenas dois estão empregados é 50%, valor 
exatamente equivalente à proporção de indivíduos empregados na amostra. Será que 
esta intuição tem validade geral, i.e., se aplica a todas as amostras possíveis de tamanho 
N e a todas as combinações possíveis em que os indivíduos amostrados são divididos 
em dois grupos, X= 1 e X=0? A resposta é afirmativa, conforme a demonstração abaixo. 
A probabilidade de ocorrência de uma amostra de tamanho N em que s indivíduos 
possuem valor unitário para X (s = número de indivíduos empregados) é L(θ; x1,...,xN) = 
ps(1-p)N-s. O problema de máxima verossimilhança é: 
݉áݔ{௣}[p௦(1 − p)ேି௦] 
A condição de primeira ordem é 
݀
݀݌
(p௦(1− p)ேି௦) = 0 
Aplicando a regra do produto de derivação: 
ݔp௦ିଵ(1 − p)ேି௦ − p௦(ܰ − ݏ)(1− p)ேି௦ିଵ = 0 
Fatorando chega-se a: p௦ିଵ(1 − p)ேି௦ିଵ(ݏ(1 − ݌) − ݌(ܰ − ݏ)) = 0 ↔ 
ݏ − ݏ݌ − ݌ܰ + ݏ݌ = 0 → ݌̂ெ௏ = ݏ/ܰ 
Fica, pois, demonstrado que o estimador de máxima verossimilhança para o parâmetro 
populacional correspondente à probabilidade de uma variável binária assumir valor 
unitário, p, é a proporção de valores binários observados na amostra. Tal como a 
intuição nos dizia desde o início. 
5.3 Propriedades de estimadores 
Uma vez que há múltiplas maneiras de obter estimadores, e, consequentemente, para 
estimar um parâmetro populacional, mais de um estimador pode estar disponível, é 
preciso ter critérios para estabelecer qual é a melhor opção. Ou seja, é preciso ter 
indicadores da qualidade, ou melhor, de confiabilidade, dos estimadores, no que tange à 
geração de estimativas para o parâmetro-alvo. 
Há três propriedades cuja verificação é um indicativo de que o estimador é confiável: 
ausência de viés, eficiência e consistência. Antes de passar às definições é preciso 
13 
 
esclarecer que tais propriedades não dizem respeito ao valor assumido pelo estimador na 
amostra disponível. Mas sim a tendências ou padrões que seriam - atenção para o uso do 
subjuntivo – observados caso o estimador fosse calculado repetidas vezes em todas as 
amostras que é possível retirar da população dentro do mesmo período de tempo18. Por 
esta razão,as definições das propriedades fazem referência a experimentos mentais. 
Além disso, por simplicidade, será assumido que, com base em uma amostra para 
apenas uma característica, {X1,...,XN}, se deseja estimar um parâmetro populacional 
genérico, θ, recorrendo-se a um estimador igualmente genérico, θ෠ = ݂(ܺ), em que f(.) é 
uma função qualquer dos dados disponíveis. 
A primeira propriedade toma por base a realização de um experimento mental que 
consiste em obter o valor do estimador, ou estimativa, para cada uma de todas as 
amostras aleatórias possíveis da população (todas as combinações possíveis de 
observações) de tamanho N finito (qualquer que seja 1 ≤ N < ∞). Acaba-se, portanto, 
com a distribuição completa do estimador, ou seja, sua distribuição populacional. Neste 
caso, pois, o conceito de expectativa se aplica e pode-se tomar E[θ෠ே]. O subscrito “N” 
vai passar a ser utilizado a partir de agora para indicar o tamanho da amostra em que o 
estimador é calculado. Esta expectativa tem de ser entendida como a média 
populacional do estimador. O viés do estimador, B(θ෠ே), é dado pela diferença entre o 
valor populacional que se deseja estimar e a expectativa do estimador, i.e., B(θ෠ே) = 
θ - E[θ෠ே]. 
O que ocorre se o estimador não atender à propriedade de ausência de viés, i.e., se 
B(θ෠ே) = θ - E[θ෠ே] ≠ 0? Basta perceber que, no limite, tomando-se todas as amostras 
possíveis da população, o conteúdo informacional com base no qual se calcula a média 
das estimativas geradas para cada amostra, é a população em si, completa. Se, com base 
nesta, o estimador gera uma estimativa que difere do valor populacional, há algum 
problema em sua fórmula, i.e., ele é intrinsicamente mal especificado, uma vez que o 
motivo do erro em que incide não é a falta de informação. O que dá origem a uma 
interpretação pertinente do conceito de ausência de viés: um estimador não apresenta 
viés se ele erra ao estimar o parâmetro populacional única e exclusivamente por tomar 
por base, para isso, um conteúdo informacional insuficiente. 
A propriedade de eficiência requer que a variância das estimativas calculadas a partir de 
todas as amostras disponíveis – segundo o experimento mental descrito no parágrafo 
anterior - seja a menor possível entre todos os estimadores alternativos. O estimador que 
atender a este critério é dito eficiente, ou, de maneira mais precisa, mais eficiente (do 
que os demais). 
A última propriedade, de consistência, é estabelecida com base em um experimento 
mental em que também são retiradas amostras de um número suficientemente grande da 
população, mas, porém, o tamanho das amostras varia, tornando-se arbitrariamente 
 
18 Não se trata, portanto, de calcular a renda média das famílias com a PNAD 2008, depois com a PNAD 
2009, 2010, e assim por diante, mas sim calcular a renda para todas as combinações de brasileiros que 
compuseram a população em 2008. 
14 
 
grande. Mais precisamente, retiram-se todas as amostras possíveis da população para 
um determinado tamanho amostra N = 1, por exemplo, então, em um segundo passo, 
retira-se todas as amostras de tamanho N = 2, e assim sucessivamente com N tendendo 
ao infinito. As propriedades de estimadores estabelecidas com base neste experimento 
são denominadas assintóticas e também são referidas como “propriedades em amostras 
grandes” (intuição retirada de Wooldrigde19). A propriedade de consistência estabelece 
que o valor esperado do estimador se torna progressivamente mais próximo do valor 
efetivo do parâmetro com o aumento da amostra. De fato, para uma amostra 
arbitrariamente grande, o quadrado da diferença torna-se nulo. Formalmente, a 
propriedade de consistência pode ser exprimida de três maneiras. lim
ே→ஶ
P(|θ෠ே	– 	θ| > 	ε) = 0, para	ε	muito	pequeno		(݅) lim
ே→ஶ
E ቂ൫θ෠ே − θ൯ଶቃ 	= 0	(݅݅) lim
ே→ஶ
Eൣθ෠ே൧	= θ	e lim
ே→ஶ
Vൣθ෠ே൧	= 0	(݅݅݅) 
A primeira notação faz referência ao conceito de convergência em probabilidade. Ela 
afirma que a probabilidade da diferença entre a estimativa pontual e o valor 
populacional do parâmetro ser não desprezível tende a zero com o aumento ilimitado da 
amostra. As duas últimas notações são equivalentes. Elas estabelecem a convergência 
em média quadrática, a qual pode ser exprimida da seguinte maneira: com o aumento da 
amostra, o valor esperado do estimador se torna progressivamente mais próximo do 
valor populacional do parâmetro e a variância do estimador se torna nula. Para entender 
porque esta última condição é necessária basta ter em conta que o valor populacional do 
parâmetro é fixo, não varia jamais, de modo que afirmar que as estimativas pontuais se 
tornam cada vez mais próximas de tal valor é afirmar que elas se tornam 
progressivamente fixas, ou seja, variam cada vez menos. Colocando de outra maneira, 
produzir valores cada vez mais próximos de um valor-alvo fixo é produzir valores que 
discrepam cada vez menos deste valor-alvo e, portanto, discrepam cada vez menos entre 
si. 
As duas últimas propriedades garantem que os valores gerados pelo estimador para 
diferentes amostras da mesma população tenham uma volatilidade, medida pela 
variância, não muito grande, aceitável. Um estimador que gera valores muito 
discrepantes comparando amostras diferentes não é confiável, porque leva a conclusões 
acerca do valor populacional que mudam em magnitude considerável com a amostra. 
Neste caso, as conclusões da análise econométrica, portanto, dependem demais da 
amostra disponível, valendo apenas para “dentro” dela, o que é equivalente a dizer que 
não se poder retirar nenhuma conclusão em relação à população. Além disso, uma vez 
que o valor populacional do parâmetro-alvo é fixo, uma alta volatilidade das estimativas 
significa que a probabilidade destas distanciarem-se do valor populacional que se 
procura inferir é relevante. 
 
19 3°edição em inglês do livro, p.178, cap.5. 
15 
 
Os gráficos abaixo mostram como os efeitos do viés e da alta volatilidade sobre a 
qualidade das estimativas se diferenciam. 
Estimação viesada com baixa volatilidade 
 
Estimação não viesada com alta volatilidade 
 
 
Estimação viesada com alta volatilidade 
 
. . . . . .
. .
A.1 A.2 A.3 A.3 A.4 A.5 A.6 A.6 Amostras
Estimativas
θ
.
.
.
.
.
.
.
.
Estimativas
θ
A.1 A.2 A.3 A.3 A.4 A.5 A.6 A.6 Amostras
.
.
.
.
.
.
.
.
Estimativas
θ
A.1 A.2 A.3 A.3 A.4 A.5 A.6 A.6 Amostras

Continue navegando

Outros materiais