Nota_de_aula_2_corr_05_10

Econometria

•

UNIFESP

1

0

1

0

Julio Cezar

22/12/2014

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.361 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1

Notas de aula para o curso de Econometria I
Nota 2: Fundamentos de inferência estatística
Thiago Fonseca Morello
fonseca.morello@ufabc.edu.br
sala 301, Bloco Delta, SBC

1 Conceitos fundamentais: população e amostra
É raro que um cientista social disponha de dados que captem todas as unidades às quais
a pergunta que ele procura responder diz respeito. Sejam tais unidades indivíduos,
empresas ou regiões, na maioria dos casos há um custo proibitivo de coletar as
informações requeridas junto a todas aquelas que são abrangidas pela análise. Alguns
exemplos são esclarecedores.
Um exemplo é de um estudo em que se procura avaliar em função de quais fatores a
demanda por certa classe de bens de consumo, alimentos, por exemplo, varia. A
Pesquisa de Orçamentos Familiares (POF) do IBGE, realizada a partir de 1974 sem
periodicidade definida, contém variáveis como despesas em bens e serviços,
quantidades adquiridas de um amplo espectro de alimentos, renda mensal familiar,
características do domicílio, entre outras. Estas características são coletadas com base
na aplicação de questionários detalhados às famílias.
Um pesquisador interessado em construir uma curva de demanda por alimentos básicos
para as famílias brasileiras, um exercício recorrente na literatura empírica1, tem na POF
o conjunto de dados mais amplo e completo disponível para tanto no País. Ao realizar a
POF, porém, os enumeradores do IBGE não entrevistam todas as famílias brasileiras,
apenas um subconjunto delas. Na POF de 2008-2009 foram entrevistados membros de
55.412 famílias brasileiras, de um total estimado de 57 milhões de famílias.
Uma particularidade da POF, a qual contribui para elevar seu custo, está em que os
enumeradores retornam diversas vezes, dentro do intervalo de um ano, aos domicílios
com o intuito de acompanhar especialmente as despesas, mas também a renda, das
famílias – eles procuram não deixar de lado nenhum item com papel relevante nas
despesas das famílias, o que não é fácil, uma vez que, em nossas vidas, realizamos
diversos gastos que se diferenciam não apenas por seu valor, mas também por sua
frequência.
Duas pesquisas do IBGE muito úteis para estudos microeconômicos do comportamento
de empresas, tais como os desenvolvidos na literatura de Organização Industrial (OI),

1 Um resumo dessa literatura pode ser encontrado no capítulo 2 da dissertação de mestrado da pfa. da
USP Paula Pereda. Link: http://www.teses.usp.br/teses/disponiveis/12/12138/tde-04092008-
105503/publico/Dissert_Paula_Carvalho_Pereda.pdf
2

são a Pesquisa Industrial Anual – Empresa (PIA-Empresa) e a Pesquisa da Inovação
Tecnológica (PINTEC). Em ambas são aplicados questionários a representantes a
subconjuntos de empresas que compõem cada um dos setores econômicos definidos de
acordo com a Classificação Nacional de Atividades Econômicas (CNAE2). Não são,
portanto, entrevistadas todas as empresas que compõem os setores, apenas algumas
delas3.
Outro exemplo bem conhecido é o de pesquisas de intenção de voto em candidatos de
um pleito referente a algum nível governamental. A pesquisa da Datafolha, realizada de
1 a 3 de Setembro de 20144, apontou que, para o pleito da presidência da república, 35%
dos eleitores votariam em Dilma Roussef, 34% em Marina Silva, 14% em Aécio Neves,
e 6% votariam branco ou nulo. Trata-se de uma pesquisa de opinião, em que pessoas
são contatadas, por via telefônica ou abordadas no tête-a-tête. Será que todos os
brasileiros foram entrevistados? A resposta é não. Foram entrevistadas apenas 10.054
pessoas. Este número corresponde a 0,007% da população de eleitores brasileiros (sete
em cada cem mil), 142.822.046 eleitores, segundo o TSE5 e a 0,005% da população
brasileira, de 202.768.662 brasileiros, segundo a última estimação do IBGE6.
A Datafolha realizou, em conjunto com outras duas empresas (F/NAZCA e Saatchi &
Saatchi), uma pesquisa denominada “Panorama do Brasil na Internet” ou F/Radar. Entre
os indicadores calculados pela pesquisa há o número de brasileiros com acesso à
internet (84 milhões), número de brasileiros com acesso à internet móvel, fração de
brasileiros por categorias socioeconômicas (nível de escolaridade, nível salarial, etc.)
com acesso à internet, número de brasileiros que participam de redes sociais, etc. A
divulgação dos resultados no sítio da Datafolha7 traz uma frase no mínimo curiosa,
reproduzida a seguir.
“Atualmente, aproximadamente 43 milhões de brasileiros com 12 anos ou mais
navegam pela internet utilizando dispositivos móveis, revela o estudo, que ouviu 2.236
pessoas em todas as regiões do Brasil.”
Uma pergunta que pode surgir é de como se pode fazer uma afirmação que se estende
para 43 milhões de brasileiros tendo-se entrevistado apenas 2.236 brasileiros, uma
extrapolação de em torno de 20.000 brasileiros por brasileiro entrevistado? A resposta é
a de que há um procedimento de inferência estatística e não apenas os dados coletados,
dando fundamentação aos resultados.

2 A estrutura setorial da última versão da CNAE pode ser consultada em http://www.cnae.ibge.gov.br/.
3 Para mais informações consultar os links abaixo com as notas técnicas das últimas versões de cada uma
das pesquisas, PIA-Empresa e PINTEC.
ftp://ftp.ibge.gov.br/Industrias_Extrativas_e_de_Transformacao/Pesquisa_Industrial_Anual/Empresa2010
/notatecnica2010.pdf,
http://www.pintec.ibge.gov.br/downloads/pintec2011%20publicacao%20completa.pdf.
4 Disponível em http://media.folha.uol.com.br/datafolha/2014/09/04/intencao-de-voto-para-presidente.pdf
5 http://www.tse.jus.br/noticias-tse/2014/Julho/presidente-do-tse-anuncia-aumento-de-5-17-do-eleitorado-
brasileiro
6 ftp://ftp.ibge.gov.br/Estimativas_de_Populacao/Estimativas_2014/estimativa_dou_2014.pdf
7 http://datafolha.folha.uol.com.br/mercado/2014/01/1400618-43-milhoes-de-brasileiros-acessam-
internet-por-dispositivos-moveis.shtml.
3

Outra pesquisa do Datafolha de particular interesse para economistas é a chamada
“Expectativas Econômicas”8. Uma das perguntas em que ela se apoia é a seguinte: “Na
sua opinião, daqui para frente a inflação vai aumentar, vai diminuir ou vai ficar como
está?” As demais perguntas têm a mesma estrutura, se referindo à taxa de desemprego,
poder de compra dos salários, situação econômica do entrevistado, etc. Na edição de
Maio de 2014, 2.844 entrevistas foram conduzidas em 174 municípios do País.
Nos exemplos, as famílias, empresas, eleitores e indivíduos em geral constituem uma
amostra selecionada aleatoriamente a partir da população-alvo da pesquisa. As
pesquisas do IBGE e da Datafolha têm uma população-alvo, assim como um estudo
econométrico, e o motivo é o mesmo, trata-se de responder perguntas que dizem
respeito a um conjunto específico de tomadores de decisão ou agentes. A pergunta
científica que motiva o estudo econométrico, portanto, é o que define a população-alvo.
No caso do estudo de demanda por alimentos básicos, a população-alvo pode ou não ser
composta por todas as famílias brasileiras, isso depende do objetivo da análise, definido
pelo analista. Por exemplo, se o governo federal procura verificar se o programa Bolsa
Família tem surtido efeito no sentido de aumento da ingestão de calorias pelos
contemplados, com base apenas na POF 2008-2009, a população-alvo não pode se
restringir apenas aos contemplados, tendo de se estender por todos os brasileiros com
características socioeconômicas semelhantes aos contemplados. A razão para isso está
em que o efeito de uma política é sempre avaliado comparando-se a situação em que ela
não ocorre com a situação em que ela ocorre. Porém, como nunca se observa o cenário
potencial que corresponde a não implementação de uma política que foi efetivamenteimplementada9, não há saída a não ser tomar como base de comparação os indivíduos
que não foram contemplados pela política - o que apenas é factível para políticas
focalizadas, não sendo, por exemplo, para políticas macroeconômicas. Excluir, pois, da
amostra os não-contemplados pelo Bolsa Família, é eliminar, automaticamente, a base
de comparação.
De maneira complementar, é equivocado incluir famílias que não podem se candidatar
ao Bolsa Família – i.e., famílias com renda familiar per capita consideravelmente
superior a R$77 - para avaliar os efeitos do mesmo. Essas famílias não são uma base de
comparação válida, por dois motivos que se combinam para criar resultados distorcidos.
O primeiro é o de que elas nunca receberão o auxílio; o segundo se refere ao fato de que
elas possuem características socioeconômicas muito distintas daqueles que têm direito
ao auxílio.
Caso, porém, a análise tenha por meta testar a hipótese de que a estabilização monetária
em 1994 resultou no aumento do consumo de determinados alimentos, a população-alvo

8 http://media.folha.uol.com.br/datafolha/2014/05/12/expectativas-economicas-site.pdf.
9 Este cenário é chamado de “contrafactual”. Para uma introdução à mensuração de resultados de políticas
públicas ou intervenções em geral, consultar o primeiro capítulo de Morgan, S.L. & Winship, C.,
“Counterfactuals and causal inference”, Cambridge University Press.
http://www.amazon.com/Counterfactuals-Causal-Inference-Principles-Analytical/dp/0521671930
4

corresponde à todas as famílias brasileiras, uma vez que todas elas foram atingidas pela
contenção da hiperinflação.
Quando a meta é entender a adoção de tecnologias com determinadas propriedades (alta
produtividade, baixo impacto ambiental, baixo custo, etc) por empresas de um
determinado setor, a população é composta por todas as empresas do setor.
Talvez o interesse se restrinja a testar a hipótese de que, entre as empresas do setor de
bens de capital que possuem plantas no Brasil, aquelas com maior fração de seu
controle acionário nas mãos de estrangeiros têm maior propensão a investir em novas
tecnologias. Neste caso, a população não corresponde a todas as empresas de bens de
capital do mundo e nem mesmo a todas as empresas do setor industrial brasileiro, mas
sim às empresas do subsetor de bens de capital e que têm plantas no Brasil.
Em todos esses casos, por mais que a definição da população caiba ao analista, há uma
regra de ferro da qual ele não se pode escapar quando o orçamento disponível não
permite estender a sondagem a todos os membros da população: é preciso recorrer à
inferência estatística. Esta, em poucas palavras, se resume à, com base em uma amostra,
elaborar uma afirmação que se aplique a toda a população. Trata-se, pois, de um salto
informacional relevante, uma vez que se parte de um conteúdo informacional
consideravelmente inferior à população para elaborar afirmações que se apliquem a ela.

Uma ilustração para a diferença dos conteúdos informacionais da amostra (A.1,
A.2 e A.3) e da população

2 Afirmações sobre a população
É possível precisar melhor qual tipo de afirmação sobre a população se procura fazer em
um estudo empírico. A pesquisa de intenção de voto, por exemplo, foi desenhada para
Ω (População)
A.1 A.2 A.3
5

gerar um número correspondente à proporção de eleitores brasileiros que optam por
cada um dos candidatos. Contudo, uma vez que a pesquisa não entrevistou todos os
eleitores, mas apenas uma amostra deles, as proporções que ela informa não
necessariamente são equivalentes às que seriam observadas caso fossem entrevistados
todos os eleitores10. O fundamental está em que o objetivo da pesquisa é chegar a
afirmações sobre proporções de votantes, e, mais do que isso, sobre os valores que tais
proporções assumem considerando-se toda a população de eleitores. Ou seja, tem-se por
meta fazer afirmações quanto aos valores de proporções calculadas da seguinte maneira:
Proporção de eleitores do candidato j = Eleitores do candidato j no BrasilTodos eleitores do Brasil
Comumente emprega-se o termo “parâmetro” para designar uma variável não-aleatória,
constante, cujo valor é desconhecido. A porcentagem dos eleitores brasileiros que têm
intenção de votar na candidata Marina Silva, por exemplo, é desconhecida, pois não há
informação disponível acerca da intenção de voto de todos os eleitores brasileiros. A
proporção em questão é, portanto, um parâmetro. Um termo análogo a parâmetro é o de
“valor populacional”. Pode-se, portanto, dizer que o valor populacional da proporção de
eleitores da candidata Marina Silva é desconhecido. A expressão “valor populacional do
parâmetro” também é empregada.
Em geral, o objetivo da inferência é fazer afirmações sobre o valor de parâmetros. Há
três técnicas para isso, quais sejam, estimação pontual, estimação por intervalo e teste
de hipóteses. Elas são apresentadas nas próximas seções. Por hora, cabe atentar para o
emprego do verbo “estimar”. A Datafolha, por exemplo, estima o valor populacional
das proporções de votantes com base em uma amostra.
No caso do estudo de demanda por alimentos básicos o parâmetro de interesse é a
elasticidade-preço da demanda, ou seja, a proporção em que a quantidade demandada de
um determinado alimento aumentaria caso o preço do alimento sofresse um aumento de
1%. O analista deseja ter um número para elasticidade-preço que descreva a maneira
como os brasileiros, em média, reagem a aumentos de preço. Porém, a informação
disponível se restringe à amostra da POF. Ele precisa, portanto, estimar o valor
populacional da elasticidade-preço com base na amostra.
Um exemplo mais simples de um parâmetro é o da renda média per capita da população
brasileira. Com base nas pesquisas do IBGE, POF e PNAD, é possível calcular a renda
média da amostra e a utilizar como estimativa para a renda média da população.

3 Amostra como uma sequência de variáveis aleatórias
Uma amostra é concebida como a realização de uma série de valores para um conjunto
de variáveis de interesse. Há, portanto, um processo aleatório, representado, como é a

10 Há, de fato, uma margem de erro, de dois pontos percentuais para a proporção de votantes em cada
candidato.
6

convenção em estatística, por uma função de distribuição de probabilidades (FD), o qual
atua “por trás” dos dados para definir os valores observados das variáveis.
Para simplificar, seja assumido que apenas há apenas uma característica de interesse,
denotada por X. Por exemplo, a renda mensal. Uma amostra de N observações pode ser
denotada por uma sequência de N VAs dada por X1,...,XN, em que Xi representa ao
valor que a característica assume para a i-ésima observação. A probabilidade de
ocorrência de uma amostra em que N VAs assumem valores particulares, denotados por
x1,..., xN, é dada por P(X1 = x1,...,XN = xN). Trata-se, portanto, da probabilidade conjunta
de ocorrência simultânea de N eventos, cada um deles consistindo na atribuição de um
valor específico para cada uma das observações. Esta probabilidade pode ser
representada por uma FD conjunta, ܨ௑భ,…,௑ಿ(ݔଵ, … , ݔே;ߠ), em que θ representa o vetor
de parâmetros em função do qual a FD conjunta é definida.
É preciso assinalar que P(X1 = x1,...,XN = xN) representa a probabilidade de ocorrência
da amostra observada. Focando em apenas uma característica, a renda, uma amostra
consistiria em uma coluna de uma planilha preenchida por valores para a renda das
famílias para as quais se pôde coletar a informação. Desta maneira, pois, P(X1 =
x1,...,XN = xN) é a probabilidade de que os valores observados ocorram, dentre todas as
combinações possíveis de valores.
Retomando o exemploda renda familiar, a distribuição conjunta corresponde à
probabilidade de que domicílios da amostra da PNAD 2013, por exemplo, possuam
renda familiar equivalente a valores específicos. Assumindo que a renda familiar tem
distribuição normal, o vetor paramétrico contém as médias e variâncias populacionais
que resumem a distribuição da renda de cada domicílio, como é intuitivo, mas, além
disso, o vetor também contém os coeficientes de correlação captando as relações entre
as rendas dos domicílios11.
Geralmente, as distribuições multivariadas contêm, em seus vetores paramétricos,
medidas que descrevem não apenas as distribuições individuais, mas também, relações
entre as observações12. Por conta disso, os vetores paramétricos das distribuições
conjuntas tendem a ser complicados.
4 Amostra aleatória
Há mais de uma maneira de selecionar um subconjunto de unidades (ou observações13)
da população. A maneira mais adequada, tanto do ponto de vista da teoria estatística
quanto para aplicações econométricas é o sorteio aleatório. Ou seja, trata-se de escolher
observações de maneira a que todas tenham a mesma probabilidade de serem
escolhidas. Seja si a VA binária que indica com valor unitário se uma observação é
selecionada e com valor nulo se a observação não é selecionada. Uma amostra aleatória

11 Para mais detalhes, ver Greene, W., 2003. Econometric Analysis, apêndice B, seção B.11.
12 Um exemplo nada didático, mas talvez útil, é dado pela distribuição Bernoulli bivariada na página 3 do
artigo no link a seguir http://arxiv.org/pdf/1206.1874.pdf.
13 Neste texto os termos “unidades” e “observações” são tratados como sinônimos. Ambos se referem aos
entes portadores das características focadas pela análise.
7

de uma população de tamanho #Ω é tal que P(si = 1) = P(sj = 1), i≠j, i=1,..., #Ω, j=1,...,
#Ω.
Seja mantida a hipótese simplificadora de que há apenas uma característica de interesse,
denotada por X.
Há duas propriedades fundamentais de uma amostra aleatória. A primeira é a
independência das observações. Ou seja, o fato de Xk assumir um determinado valor
não altera a probabilidade com a qual as demais N-1 observações assumem um dado
valor. Formalmente, P(X1 = x1,...,XN = xN) = P(X1 = x1)...P(XN = xN), o que é
equivalente a ܨ௑భ,…,௑ಿ (ݔଵ, … , ݔே;ߠ) = ∏ ܨ௑೔(ݔ௜;ߠ).ே௜ୀଵ
A segunda propriedade é a de que todas as observações possuem a mesma FD, i.e., P(X1
= x1) = P(XN = x1) = P (X = x1). O que também pode ser escrito como ܨ௑೔(ݔ௜;ߠ) =
ܨ௑ೕ(ݔ௜;ߠ), ݅ ≠ ݆ ou, de maneira equivalente, ܨ௑೔(ݔ௜;ߠ) = ܨ(ݔ;ߠ), i=1,...,N.
É por conta dessas duas características que as variáveis que compõem uma amostra
aleatória são ditas independentes e identicamente distribuídas, ou, de maneira abreviada,
i.i.d.
5 Estimação pontual
5.1 Conceitos básicos: estatística, estimador, estimativa14
Alguns conceitos básicos permitem uma compreensão mais precisa do que seguirá. Por
“estatística” se entende qualquer função dos dados disponíveis que não seja função de
parâmetros desconhecidos, especialmente daqueles que definem a FD conjunta (vetor
θ). Uma estatística é, pois, geralmente uma operação matemática que resume os dados.
Os exemplos mais comuns são a média, a variância, o valor mínimo, o valor máximo e
os quartis.
O termo “estimador” designa uma estatística (função dos dados, portanto) que assume
valores dentro do domínio de variação de um parâmetro que define a FD conjunta. Os
estimadores são utilizados para fazer afirmações acerca dos valores populacionais de
medidas relevantes para a análise empírica. Por exemplo, as proporções de eleitores
com intenção de voto nos candidatos presidenciais, a elasticidade-preço da demanda por
alimentos e a renda média dos brasileiros.
A média amostral, por exemplo, é um estimador para a média populacional. Em
primeiro lugar, trata-se de uma estatística, pois sua fórmula contém apenas valores das
variáveis observadas. Em segundo lugar, a média amostral tende a assumir valores
dentro do domínio de variação da média populacional, dado que é calculada em função
de valores observados que pertencem, obrigatoriamente, a este domínio.

14 As definições aqui apresentadas foram retiradas de Bolfarine, Heleno e Sandoval, Monica C.,
2001,“Introdução à inferência estatística”. Coleção Matemática Aplicada, Sociedade Brasileira de
Matemática.
8

“Estimativa” se refere ao valor assumido pelo estimador para um conjunto de dados em
específico, em uma amostra. O valor da média amostral, por exemplo, varia de acordo
com a amostra disponível. Calculando-se o valor médio da renda das famílias
brasileiras, este assumirá um valor, com base na amostra da PNAD 2009, possivelmente
distinto do valor a que se pode chegar a partir da amostra da PNAD 2010.
Os exemplos anteriores permitem entender o uso prático dos conceitos apresentados. O
número fornecido pelo Datafolha para a proporção de eleitores da candidata Dilma
Roussef, 35% em 4 de Setembro de 2014, é uma estimativa para o valor populacional da
proporção de eleitores da candidata. Há, pois, um “salto” de inferência claro aí, pois é
completamente desconhecido o número total de eleitores da candidata na população
brasileira como um todo.
O estimador empregado pelo Datafolha é simplesmente a proporção de entrevistados
que declararam intenção de voto em Dilma Roussef, i.e.,
݌̂௝ = ௝ܰܰ
O índice j indicando um candidato específico a presidente, Nj ≡ número de
entrevistados que manifestaram opção pelo j-ésimo candidato e N ≡ número total de
entrevistado (10.057).
O símbolo “^” é utilizado para indicar uma medida calculada a partir de uma amostra,
um estimador ou uma estimativa. Isso se faz necessário uma vez que, se houvesse
recurso financeiro suficiente para entrevistar todos os brasileiros votantes, a mesma
fórmula acima seria empregada para obter o valor populacional da proporção de
eleitores do j-ésimo candidato.
É importante notar que a expressão ݌̂௜ é uma estatística, pois ela é função dos dados, ou
melhor, dos valores assumidos por uma variável aleatória na amostra, o número de
eleitores do j-ésimo candidato, além de ser função do número total de entrevistados, que
não é uma variável aleatória, mas sim uma grandeza pré-definida, uma constante. Além
disso, não há nenhum parâmetro populacional na expressão matemática que a define.
No caso, como se trata de uma proporção, a distribuição populacional relevante é
binomial15. O parâmetro populacional que não deve constar na fórmula, pois, é a
probabilidade de que um eleitor opte pelo j-ésimo candidato (exatamente o que se
deseja estimar). Critério este que é claramente atendido.

15 Basta perceber que uma proporção é a razão de uma contagem de sucessos (no caso, número de
eleitores do candidato) pelo tamanho da amostra. Para a estimação de intervalos e para testes de
hipóteses, utiliza-se uma aproximação normal à binomial, como será esclarecido à frente. Neste caso, os
parâmetros relevantes são a probabilidade de opção por um candidato e a variância da opção dos
candidatos (mais precisamente a variância da variável binária que indica se o entrevistado opta ou não
pelo j-ésimo candidato).
9

5.2 Métodos de estimação: como encontrar estimadores?
5.2.1 Método de Mínimos Quadrados
Se os valores assumidos por duas características contínuas de interesse, observados em
uma amostra, forem plotados em um gráfico de dispersão, tem-se o padrão revelado
pela figura abaixo.

Há uma relação positiva entre as duas características, a qual pode ser aproximada por
uma reta. Mas qual é esta reta? O matemático Karl F. Gauss propôs uma solução para
este problema, que consiste em escolher a reta cujadiscrepância em relação aos valores
observados é a menor possível. Uma medida para a discrepância é dada pelo quadrado
absoluto de uma diferença entre o valor da variável Y, indicado ou “previsto” pela reta,
y(x), e o valor observado, para cada valor de x, yo. Esta medida é indicada pela fórmula
a seguir e a diferença em que consiste pode ser visualizada na próxima figura.
erro quadrático = ෍൫ݕ(ݔ௜)− ݕை௜൯ଶே
௜ୀଵ

Um critério possível para escolher a reta é tomar aquela que minimiza o erro quadrático.
Para isso, é preciso notar que uma reta pode sempre ser escrita como y(xi) = ߙ + βxi.
Basta, portanto, escolher o intercepto, ߙ, e a inclinação, β, da reta de maneira a
minimizar o erro quadrático. Isto é o mesmo que resolver o problema de minimização
abaixo:
݉݅݊{ఈ,ఉ} ൥෍൫ߙ + ߚݔ௜ − ݕை௜൯ଶே
௜ୀଵ
൩

0
2
4
6
8
10
12
14
16
18
0 5 10 15 20 25 30 35
Y
X
10

Diferença entre valor previsto e valor observado

5.2.2 Método de Máxima Verossimilhança: motivação
Seja a característica de interesse X discreta e binária, p.ex., status em relação ao
mercado de trabalho, X = 1 se empregado, X=0 se desempregado16. Seja assumido que
ela segue uma distribuição Bernoulli com parâmetro p, i.e., X ~ b(p). A seguinte
amostra de tamanho quatro foi retirada da população: {X1, X2, X3, X4} = {1, 0, 0, 1}. A
probabilidade de ocorrência desta amostra é dada por P(X1 = x1,..., X4 = x4 |p) = P(X1 =
1, X2 = 0, X3 =0, X4 = 1 |p). Tratando-se de uma amostra aleatória, ela é composta por
variáveis aleatórias independentes e identicamente distribuídas (i.i.d), de maneira que a
probabilidade conjunta seja equivalente ao produto das probabilidades individuais, i.e.:
P(X1 = 1, X2 = 0, X3 =0, X4 = 1 |p) = P(X1 = 1|p). P(X2 = 0|p). P(X3 =0|p). P(X4 = 1|p).
E, além disso, de acordo com a segunda propriedade de uma amostra aleatória, todas as
VAs que a compõem têm função de distribuição de probabilidades equivalente, i.e.,
P(X1=1)= P(X2=1) = P(X3=1)= P(X4=1) = p. Sendo a distribuição Bernoulli, tem-se que
P(Xi = 1|p) = p e P(Xi = 0|p) = 1 – p, de modo que o produto se reduz a:
P(X1 = 1|p). P(X2 = 0|p). P(X3 =0|p). P(X4 = 1|p) = p2(1-p)2
O valor exato de p é desconhecido, trata-se de um parâmetro populacional. É preciso,
pois, estimá-lo. Um critério possível para obter uma estimativa é o de selecionar o valor
de p que faz com que a probabilidade de ocorrência da amostra efetivamente observada
seja o maior possível.
O que é, de certa maneira, intuitivo: se uma determinada sequência de valores foi
extraída da população é porque esta sequência deve ser mais provável do que outras que
não foram observadas. O que quer dizer que a probabilidade de ocorrência da sequência
observada é maior do que a probabilidade de ocorrência de uma sequência alternativa.
Isso pode ser interpretado, no exemplo visto, da seguinte maneira: o valor do parâmetro
populacional de interesse, p, é tal que, para ele, a probabilidade de ocorrência da

16 O status em relação ao mercado de trabalho, na realidade, incorpora uma terceira possibilidade que é o
desalento, ou seja, a possibilidade de que o indivíduo desistiu de procurar emprego. Visando simplificar o
problema, esta terceira possibilidade é desconsiderada.
11

amostra observada é superior à probabilidade de ocorrência de uma amostra alternativa.
Ou seja, o valor do parâmetro populacional maximiza a probabilidade de ocorrência da
amostra observada. O estimador pode se guiar exatamente por este princípio: apontar
para um valor que maximiza a probabilidade de ocorrência da amostra observada.
5.2.3 Método de Máxima Verossimilhança: formalização
A probabilidade de uma amostra ser composta pelos valores x1,..,xN é dada por P(X1 =
x1,..., XN = xN |θ), em que θ representa o parâmetro populacional que se deseja estimar.
Uma amostra i.i.d é composta de variáveis aleatórias independentes, o que significa que
P(X1 = x1,..., XN = xN |θ) = ∏ f(X୧ = x୧|θ)୒୧ୀଵ .
O estimador de máxima verossimilhança escolhe o valor de θ que maximiza a
probabilidade de saída da amostra observada, i.e., θ෠ெ௏ é obtido a partir da solução do
problema abaixo:
݉áݔ{ఏ} ൥ෑ f(X୧ = x୧|θ)୒
୧ୀଵ
൩
A função L(θ; x1,...,xN) = ∏ f(X୧ = x୧|θ)୒୧ୀଵ é denominada por função de
verossimilhança.
Retomando o exemplo anterior17, θ = p ≡ probabilidade do indivíduo estar empregado,
tem-se que L(p; x1,...,xN) = p2(1-p)2, para o caso discutido acima. O problema de
otimização é:
݉áݔ{௣}[pଶ(1 − p)ଶ]
Ou, de maneira equivalente:
݉áݔ{௣}[pଶ(1 + pଶ − 2p)]
Ou, ainda:
݉áݔ{௣}[pଶ + pସ − 2pଷ]
A solução para o problema acima pode ser obtida a partir da condição de primeira
ordem, esta correspondendo ao critério de derivar em p e igualar a zero, ou seja:
݀
݀݌
(pଶ + pସ − 2pଷ) = 0
Aplicando a regra de derivação de potências, a equação passa a: 2p + 4pଷ − 6pଶ = 0

17 Diversos outros exemplos interessantes, apresentados de maneira didática, podem ser encontrados na
seção 3.1 do livro de Bolfarine, H. e Sandoval, M.C., “Introdução à Inferência Estatística”, Editora da
Sociedade Brasileira de Matemática.
12

Manipulando chega-se a 1+ 2p2 – 3p = 0. Aplicando a fórmula de Bhaskara, são obtidas
duas soluções (raízes do polinômio), ݌̂ = 1 e ݌̂ = 1/2. A primeira pode ser eliminada
pois gera um valor para a função ݂(݌) = pଶ + pସ − 2pଷ inferior ao gerado pela
segunda, e, portanto, não pode ser um ponto de máximo. Basta observar que f(1) = 0 e
f(1/2) =1/16.
O resultado obtido é intuitivo: o valor de p que maximiza a probabilidade de uma
amostra de quatro indivíduos em que apenas dois estão empregados é 50%, valor
exatamente equivalente à proporção de indivíduos empregados na amostra. Será que
esta intuição tem validade geral, i.e., se aplica a todas as amostras possíveis de tamanho
N e a todas as combinações possíveis em que os indivíduos amostrados são divididos
em dois grupos, X= 1 e X=0? A resposta é afirmativa, conforme a demonstração abaixo.
A probabilidade de ocorrência de uma amostra de tamanho N em que s indivíduos
possuem valor unitário para X (s = número de indivíduos empregados) é L(θ; x1,...,xN) =
ps(1-p)N-s. O problema de máxima verossimilhança é:
݉áݔ{௣}[p௦(1 − p)ேି௦]
A condição de primeira ordem é
݀
݀݌
(p௦(1− p)ேି௦) = 0
Aplicando a regra do produto de derivação:
ݔp௦ିଵ(1 − p)ேି௦ − p௦(ܰ − ݏ)(1− p)ேି௦ିଵ = 0
Fatorando chega-se a: p௦ିଵ(1 − p)ேି௦ିଵ(ݏ(1 − ݌) − ݌(ܰ − ݏ)) = 0 ↔
ݏ − ݏ݌ − ݌ܰ + ݏ݌ = 0 → ݌̂ெ௏ = ݏ/ܰ
Fica, pois, demonstrado que o estimador de máxima verossimilhança para o parâmetro
populacional correspondente à probabilidade de uma variável binária assumir valor
unitário, p, é a proporção de valores binários observados na amostra. Tal como a
intuição nos dizia desde o início.
5.3 Propriedades de estimadores
Uma vez que há múltiplas maneiras de obter estimadores, e, consequentemente, para
estimar um parâmetro populacional, mais de um estimador pode estar disponível, é
preciso ter critérios para estabelecer qual é a melhor opção. Ou seja, é preciso ter
indicadores da qualidade, ou melhor, de confiabilidade, dos estimadores, no que tange à
geração de estimativas para o parâmetro-alvo.
Há três propriedades cuja verificação é um indicativo de que o estimador é confiável:
ausência de viés, eficiência e consistência. Antes de passar às definições é preciso
13

esclarecer que tais propriedades não dizem respeito ao valor assumido pelo estimador na
amostra disponível. Mas sim a tendências ou padrões que seriam - atenção para o uso do
subjuntivo – observados caso o estimador fosse calculado repetidas vezes em todas as
amostras que é possível retirar da população dentro do mesmo período de tempo18. Por
esta razão,as definições das propriedades fazem referência a experimentos mentais.
Além disso, por simplicidade, será assumido que, com base em uma amostra para
apenas uma característica, {X1,...,XN}, se deseja estimar um parâmetro populacional
genérico, θ, recorrendo-se a um estimador igualmente genérico, θ෠ = ݂(ܺ), em que f(.) é
uma função qualquer dos dados disponíveis.
A primeira propriedade toma por base a realização de um experimento mental que
consiste em obter o valor do estimador, ou estimativa, para cada uma de todas as
amostras aleatórias possíveis da população (todas as combinações possíveis de
observações) de tamanho N finito (qualquer que seja 1 ≤ N < ∞). Acaba-se, portanto,
com a distribuição completa do estimador, ou seja, sua distribuição populacional. Neste
caso, pois, o conceito de expectativa se aplica e pode-se tomar E[θ෠ே]. O subscrito “N”
vai passar a ser utilizado a partir de agora para indicar o tamanho da amostra em que o
estimador é calculado. Esta expectativa tem de ser entendida como a média
populacional do estimador. O viés do estimador, B(θ෠ே), é dado pela diferença entre o
valor populacional que se deseja estimar e a expectativa do estimador, i.e., B(θ෠ே) =
θ - E[θ෠ே].
O que ocorre se o estimador não atender à propriedade de ausência de viés, i.e., se
B(θ෠ே) = θ - E[θ෠ே] ≠ 0? Basta perceber que, no limite, tomando-se todas as amostras
possíveis da população, o conteúdo informacional com base no qual se calcula a média
das estimativas geradas para cada amostra, é a população em si, completa. Se, com base
nesta, o estimador gera uma estimativa que difere do valor populacional, há algum
problema em sua fórmula, i.e., ele é intrinsicamente mal especificado, uma vez que o
motivo do erro em que incide não é a falta de informação. O que dá origem a uma
interpretação pertinente do conceito de ausência de viés: um estimador não apresenta
viés se ele erra ao estimar o parâmetro populacional única e exclusivamente por tomar
por base, para isso, um conteúdo informacional insuficiente.
A propriedade de eficiência requer que a variância das estimativas calculadas a partir de
todas as amostras disponíveis – segundo o experimento mental descrito no parágrafo
anterior - seja a menor possível entre todos os estimadores alternativos. O estimador que
atender a este critério é dito eficiente, ou, de maneira mais precisa, mais eficiente (do
que os demais).
A última propriedade, de consistência, é estabelecida com base em um experimento
mental em que também são retiradas amostras de um número suficientemente grande da
população, mas, porém, o tamanho das amostras varia, tornando-se arbitrariamente

18 Não se trata, portanto, de calcular a renda média das famílias com a PNAD 2008, depois com a PNAD
2009, 2010, e assim por diante, mas sim calcular a renda para todas as combinações de brasileiros que
compuseram a população em 2008.
14

grande. Mais precisamente, retiram-se todas as amostras possíveis da população para
um determinado tamanho amostra N = 1, por exemplo, então, em um segundo passo,
retira-se todas as amostras de tamanho N = 2, e assim sucessivamente com N tendendo
ao infinito. As propriedades de estimadores estabelecidas com base neste experimento
são denominadas assintóticas e também são referidas como “propriedades em amostras
grandes” (intuição retirada de Wooldrigde19). A propriedade de consistência estabelece
que o valor esperado do estimador se torna progressivamente mais próximo do valor
efetivo do parâmetro com o aumento da amostra. De fato, para uma amostra
arbitrariamente grande, o quadrado da diferença torna-se nulo. Formalmente, a
propriedade de consistência pode ser exprimida de três maneiras. lim
ே→ஶ
P(|θ෠ே – θ| > ε) = 0, para ε muito pequeno (݅) lim
ே→ஶ
E ቂ൫θ෠ே − θ൯ଶቃ = 0 (݅݅) lim
ே→ஶ
Eൣθ෠ே൧ = θ e lim
ே→ஶ
Vൣθ෠ே൧ = 0 (݅݅݅)
A primeira notação faz referência ao conceito de convergência em probabilidade. Ela
afirma que a probabilidade da diferença entre a estimativa pontual e o valor
populacional do parâmetro ser não desprezível tende a zero com o aumento ilimitado da
amostra. As duas últimas notações são equivalentes. Elas estabelecem a convergência
em média quadrática, a qual pode ser exprimida da seguinte maneira: com o aumento da
amostra, o valor esperado do estimador se torna progressivamente mais próximo do
valor populacional do parâmetro e a variância do estimador se torna nula. Para entender
porque esta última condição é necessária basta ter em conta que o valor populacional do
parâmetro é fixo, não varia jamais, de modo que afirmar que as estimativas pontuais se
tornam cada vez mais próximas de tal valor é afirmar que elas se tornam
progressivamente fixas, ou seja, variam cada vez menos. Colocando de outra maneira,
produzir valores cada vez mais próximos de um valor-alvo fixo é produzir valores que
discrepam cada vez menos deste valor-alvo e, portanto, discrepam cada vez menos entre
si.
As duas últimas propriedades garantem que os valores gerados pelo estimador para
diferentes amostras da mesma população tenham uma volatilidade, medida pela
variância, não muito grande, aceitável. Um estimador que gera valores muito
discrepantes comparando amostras diferentes não é confiável, porque leva a conclusões
acerca do valor populacional que mudam em magnitude considerável com a amostra.
Neste caso, as conclusões da análise econométrica, portanto, dependem demais da
amostra disponível, valendo apenas para “dentro” dela, o que é equivalente a dizer que
não se poder retirar nenhuma conclusão em relação à população. Além disso, uma vez
que o valor populacional do parâmetro-alvo é fixo, uma alta volatilidade das estimativas
significa que a probabilidade destas distanciarem-se do valor populacional que se
procura inferir é relevante.

19 3°edição em inglês do livro, p.178, cap.5.
15

Os gráficos abaixo mostram como os efeitos do viés e da alta volatilidade sobre a
qualidade das estimativas se diferenciam.
Estimação viesada com baixa volatilidade

Estimação não viesada com alta volatilidade

Estimação viesada com alta volatilidade

. . . . . .
. .
A.1 A.2 A.3 A.3 A.4 A.5 A.6 A.6 Amostras
Estimativas
θ
.
.
.
.
.
.
.
.
Estimativas
θ
A.1 A.2 A.3 A.3 A.4 A.5 A.6 A.6 Amostras
.
.
.
.
.
.
.
.
Estimativas
θ
A.1 A.2 A.3 A.3 A.4 A.5 A.6 A.6 Amostras