V - Estimação

Estatística II

•
UFRJ

Isabela Caldeira
16/11/2023
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística II

3.262 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
V - ESTIMAÇÃO
Neste capítulo analizaremos mais detalhadamente o critério EQM (Erro Quadrático
Médio comumente usado para comparar estimadores alternativos de um mesmo
parâmetro populacional.
Em seguida, enunciaremos o Teorema de Lehmann e Scheffé, o qual permite
identificar estimadores não viesados de menor variância (MVU: Minimum Variance
Unbiased).
Na sequência, focalizaremos as propriedades assintóticas desejáveis dos
estimadores, onde supõe-se que o tamanho da amostra pode crescer indefinidamente.
Por último, focalizaremos dois métodos de estimação privilegiada: o método da
Máxima Verossimilhança (MV) e o Método dos Momentos (MM).
Todo ao longo deste capítulo consideraremos uma amostra simples X1,X2, . . . ,Xn de
tamanho n sobre uma população X com suporte X, fdp fX. , dependente de um
parâmetro    desconhecido.
Notaremos por

 n  TX1,X2, . . . ,Xn o estimador amostral de .
1. ÊRRO QUADRÁTICO MÉDIO (EQM)
Quando temos dois estimadores alternativos

 n e

 n para o parâmetro
desconhecido  e que ambos são não viesados ou seja, E

 n    E

 n é natural
que se dê preferência ao estimador que tiver a menor variância: a menor dispersão do
estimador ao redor do parâmetro que ele pretende estimar indica que uma maior
precisão é obtida com aquela estimação.
A escolha fica todavia menos clara quando um dos estimadores é viesado mas
possui variância menor que a do outro, que é não é viesado. Em que medida o viés é
compensado pela menor variância ?
Um critério natural a ser usado na comparação de estimadores obtidos em amostras
finitas, é o critério do êrro quadrático médio (EQM): o melhor estimador será aquele que
tem o menor EQM.
Seja

 n   o êrro amostral cometido com o estimador

 n para a estimação de  .
Observe que 

 n    

 n  E

 n  E

 n  
__________________________
Hugo Boff - Estatística II 2021
2
 

 n  2  

 n  E

 n2  E

 n  2  2E

 n  

 n  E

 n
Tomando o valor esperado de ambos os lados da equação acima e levando em
conta que E

 n  E

 n  0 vem:
E

 n  2  E

 n  E

 n2  E

 n  2
Definindo EQM n  E

 n  2 obtemos finalmente:
EQM n  V

 n  E

 n  2 1
O segundo termo da soma à direita de 1 é o quadrado do viés, de modo que o erro
quadrático médio se define como:
EQM n  Variância de

 n  Quadrado do viés.
Ou seja, no cômputo do EQM, variância e viés são levados em conta com o mesmo
peso. Observe também que se

 n for não viesado, o seu EQM se reduz à sua
variância.
Exemplo 1: Estimação da variância em populações normais
Vimos no Capítulo II dois estimadores alternativos para a variância 2 :
Sn1
2  1
n  1 i1
n
X i  Xn2 o qual é não viesado e tem variância VSn12   2
4
n  1 .
n
2
 1n 
i1
n
X i  Xn2 o qual é viesado e tem variância
menor: Vn
2
   n  1n 
2VSn1
2 .
Qual dos dois é preferível pelo critério EQM ?
O viés de n
2
 n1n Sn1
2 é: En
2
  2  n1n 2  2   1n 
2
Então: EQMn2 
2n  1
n2
4  1
n2
4  2n  1
n2
4
e EQMSn12 
2
n  1 
4 .
__________________________
Hugo Boff - Estatística II 2021
3
De modo que:
EQMn2
EQMSn12

2n  14/n2
24/n  1

2n  1n  1
2n2
 1   3n  1
2n2
  1.
Ou seja, o viés de n
2
é compensado pela sua menor variância com relação à
Sn1
2 , de modo que, pelo critério EQM, n
2
é preferível à Sn1
2 .
Observe porém que a superioridade de n
2
se dissipa à medida que o tamanho da
amostra aumenta. Assintóticamente, para n  , os dois estimadores são
equivalentes.
Exemplo 2: Estimação do valor extremo em populações unformes
Sendo X  Unif0, consideramos dois estimadores amostrais alternativos para o
extremo populacional  :

 n  Xn máximo amostral;

 n  2Xn duas vezes a média amostral.
Sabemos que

 n é não viesado E2Xn   2 2
  e que sua variância é:
V

 n  4V Xn  4
2/12
n 
2
3n
.
Assim, EQM n  
2
3n
.
A densidade de

 n é f nx  n
xn1
n
; x  0, de modo que
E

 n  
0

xn x
n1
n
dx   n
n  1
 . Assim, o viés é:  n
n  1
     
n  1
.
Entretanto,

 n tem variância menor que V

 n  
2
3n
.
Com efeito, E

 n
2
  
0

x2n x
n1
n
dx  n
n  2
2 , de modo que:
V

 n  E

 n
2
  E2

 n  nn  2
2   n
n  1
22  n
n  2n  12
2  1
3n
2.
Logo o êrro quadrático de

 n será:
EQM n 
n
n  2n  12
2   
n  1
2   n
n  2
 1 
2
n  12
 2
n  1n  2
2
__________________________
Hugo Boff - Estatística II 2021
4
Então,
EQM n
EQM n

1
3n
2
2
n  1n  2
2

n  1n  2
6n

1 ; n  1,2
 1 ; n  3,4, 5. . .
Ou seja, o viés de

 n é compensado pela sua menor variância, de modo que ele é
preferível ao estimador

 n.
Diferentemente do exemplo anterior, a superioridade de

 n não se dissipa com o
aumento no tamanho da amostra. Antes, ela aumenta com o aumento de n.
2. ESTIMADORES NÃO VIESADOS DE MENOR VARIÂNCIA (MVU)
Nesta seção apresentamos primeiro a teoria que embasa a construção de
estimadores não viesados de menor variância (MVU: Minimum Variance Unbiased). Em
seguida, ilustramos como estes estimadores são obtidos através de exemplos.
A teoria se resume em dois teoremas, o segundo dos quais requer a definição
prévia de estatísticas completas. Como veremos, os estimadores MVU são funções de
estatísticas suficientes, uma noção já introduzida no Capítulo II.
1. Teorema de Rao e Blackwell
Seja SX1,X2, . . . ,Xn uma estatística suficiente para    e TX1,X2, . . . ,Xn um
estimador não viesado de , o qual não é função apenas de S. Então,

  ET  S é
um estimador não viesado de , melhor que T, pois V

  VT.
Prova: Primeiro, observe que, sendo S suficiente, a densidade condicional de T,
dado S  s, não depende de . Logo, ET  S é independente de  de modo que

  ET  S é bem um estimador (estatística).
Por outro lado, sabemos que
E

  EET  S  


ET  sfSsds  


 


tfTt  sdtfSsds
 


 


t
fTt, s
fSs
dtfSsds  


t 


fTt, sdsdt  


tfTtdt  ET  .
Assim,

 n é um estimador não viesado de .
__________________________
Hugo Boff - Estatística II 2021
5
Lembremos agora da fórmula da variância:
VT  VET  S  EVT  S 2
Ora, EVT  S  0, pois este é o valor esperado de uma v.a. não negativa. Logo,
VT  VET  S  V

. Ou seja,

 é um estimador melhor do que T. 
Como o estimador T do teorema é arbitrário, e como

  ET  S é um estimador
somente se S for uma estatística suficiente, o teorema de Rao e Blackwell nos garante
que, na busca por estimadores não viesados de menor variância, devemos olhar para
as estatísticas suficientes S. Ou seja, o estimador MVU deverá necessáriamente ser
função de uma estatística suficiente.
Entretanto, é preciso garantir que, se o estimador MVU existe, ele é único pois, do
contrário, se houver mais de um, não saberemos qual deles escolher.
A unicidade do estimador MVU será garantida (q.c. : quase certamente) se a fdp da
estatística suficiente pertencer à uma família de distribuições completa.
Famílias e Estatísticas Completas
Uma familia de densidades (distribuições) é notada fx; ;   . Ou seja, todas
as densidades da familia tem a forma de f, mas diferem entre si por diferentes s.
Por exemplo, N; 1;   é a família das distribuições normais com variância
unitária e média , parâmetro locacional. Há uma densidade para cada .
Dizemos que a família fx; ;   é completa se, para qualquer função u, a
condição EuX  0,    implica ux  0 q.c. .
A condição q.c. significa aqui: o conjunto de pontos x para os quais ux  0, tem
probabilidade 0. Genéricamente, dizemos em Estatística que uma determinada
propriedadevale quase certamente q.c.  se é improvável que ela seja inválida.
Exemplo 3:
A família das distribuições uniformes no intervalo 0, é completa. Com efeito
suponha EuX  
0

ux 1 dx  0,   0. Isto equivale dizer que
  
0

uxdx  0,  0 . Temos assim uma função de  que é nula para todo
. Assim sendo, sua derivada com relação à  também deverá ser nula, ou seja:
__________________________
Hugo Boff - Estatística II 2021
6
    

0

uxdx  u  0,   0. Ora, isso implicará que u  0 q.c.
Exemplo 4:
A família das funções de probabilidade Poisson é completa.
Com efeito suponha:
EuX  e
0
0!
u0  e
1
1!
u1  e
2
2!
u2  e
3
3!
u3 . . . . 0   0.
Vale dizer:   
0
0!
u0  
1
1!
u1  
2
2!
u2  
3
3!
u3 . . . . 0   0.
Temos acima o polinomio  que deve se anular para todo   0. Isto só ocorrerá
se todos os coeficientes do polinômio ui/i! forem nulos ou seja se:
u0  u1  u2  u3 . . . . 0.
Assim, vem que u  0 e a família Poisson é completa.
A família das distribuições exponenciais é completa. Boa parte das distribuições
mais usuais pertencem à famílias completas.
Dizemos que uma estatística TX1,X2, . . . ,Xn é completa se sua função de
probabilidade (ou densidade) pertence à uma família completa.
2. Teorema de Lehmann e Scheffé
Seja SX1,X2, . . . ,Xn uma estatística amostral suficiente para   . Suponha que a
família fSs;;    seja completa. Ou seja, suponha que S seja uma estatística
suficiente e completa. Se existe uma função S que é um estimador não viesado de
 ou seja, tal que ES   então S é o único estimador MVU de .
Obs: A prova está baseada em Rao e Blackwell. A completude de S assegura a
unicidade q.c.  de S .Com efeito, seja S um outro estimador não viesado de .
Então, ES    ES  ES  ES  0  ES  S  0.
Sendo fSs; membro de uma família completa, a igualdade



s  sfSs;ds  0    implicará: s  s  0 q.c.  ou seja, os dois
estimadores serão iguais, exceto sobre um conjunto de probabilidade nula.
__________________________
Hugo Boff - Estatística II 2021
7
Exemplo 5:
Consideremos a população X  Unif0, do Exemplo 2 acima. Na busca de um
estimador MVU, devemos olhar para as estatísticas amostrais suficientes (Rao e
Blackwel).
Já sabemos que Xn o máximo amostral é suficiente. Logo, por Lehmann e Scheffé,
a função de Xn que produzir um estimador não viesado de  este será o estimador
MVU.
Além disso, este estimador será único (q.c.) se Xn for uma estatística completa.
Vimos acima que a familia uniforme é completa. Em geral, estimadores obtidos à
partir de famílias de distribuições completas são completos. Vamos checar isto neste
caso, mostrando diretamente que a densidade fXnx;  n
xn1
n
; 0  x   pertence à
uma família completa. Com efeito, a condição EuXn  
0

uxn x
n1
n
dx  0   0 é
equivalente à: 
0

uxxn1dx  0 ;   0. Então teremos também (usando a fórmula de
Leibnitz):  

0

uxxn1dx  un1  0 ;   0.
Ora, isto implicará, u  0 q.c.  para qualquer função u, e Xn é bem uma
estatística completa.
No Exemplo 2 mostramos que E Xn  
0

xn x
n1
n
dx   n
n  1
. Sendo Xn uma
estatística suficiente e completa, por Lehmann e Scheffé a função de Xn que
produzir um estimador não viesado será o estimador MVU de  (único q.c. ). É imediato
concluir neste caso que : Xn   n  1n Xn, de modo que o estimador buscado é:
 n  Xn.
Exemplo 6:
Consideremos a população exponencial X  Exp. Os dois primeiros momentos
desta população são: EX  1

e que VX  1
2
. Pelo Teorema da Fatorização de
Neyman sabemos que S  X1  X2 . . .Xn é uma estatística amostral suficiente para .
O estimador MVU de  deverá ser uma função de S (Rao e Blackwell).
Da Estatística I sabemos que S  n, ou seja, S tem distribuição gama com
parâmetros n e .
__________________________
Hugo Boff - Estatística II 2021
8
A densidade de S é: fSs,  
n
n
sn1es ; s  0.
Esta densidade pertence à família exponencial, a qual é uma família completa (isto
é provado usando-se a Transformada de Laplace).
Qual será então o estimador MVU de  ? Ora, sabemos que ES  n

, de modo
que o inverso da média amostral é um candidato  n
S
 1
Xn
.
Calculemos E n
S
  
0

ns1fSs;ds  n
n
n

0

sn11esds. Fazendo a transformação
u  s teremos: E n
S
  n
n
nn1

0

un11eudu  n
n
n  1  n
n  1 .
Assim, o único (q.c) estimador MVU de  será S  n  1n 
n
S
 ou seja:

 n  n  1n 
1
Xn
.
Obs.: Os estimadores MVU obtidos nos dois exemplos acima convergem
rápidamente para os estimadores "naturais", de momentos , Xn e
1/Xn respectivamente, à medida que o tamanho da amostra aumenta (veja estimação
MM abaixo, item 4). Isto mostra que, quando os estimadores de momentos estão
baseados em estatísticas suficientes, o MVU apenas corrige para amostras finitas o
viés destes estimadores. Em muitos casos isto é assim.
3. PROPRIEDADES ASSINTÓTICAS DOS ESTIMADORES
Muitos estimadores possuem propriedades desejáveis como o não viés e a
menor variância não no caso natural das amostras finitas, mas apenas em grandes
amostras.
Examinar duas propriedades desejáveis importantes para os estimadores em
grandes amostras, quando n   : o não viés assintótico e a consistência.
Seja

 n um estimador de  baseado em uma amostra de tamanho n.
1. Não viés assintótico
Dizemos que o estimador

 n é assintóticamente não viesado se ele converge em
média para , quando n   :
__________________________
Hugo Boff - Estatística II 2021
9
n
lim E

 n   3
Exemplo 7:
a) Vimos que o estimador amostral da variância de uma população normal
n
2  1n i1
n
X i  Xn2 subestima 2, pois seu valor esperado é E
n
2   n  1n 
2.
Todavia, ele é assintóticamente não viesado, pois:
n
lim En
2
 
n
lim  n  1n 
2  2 ;
b) Vimos que

 n  Xn  MaxX1,X2, . . . ,Xn o estimador amostral do valor maximal 
de uma população uniforme no intervalo 0, subestima , pois E

 n   nn  1
.
Todavia, ele é assintóticamente não viesado:
n
lim E

 n 
n
lim  n
n  1
   .
2. Consistência
Dizemos que o estimador

 n é consistente se a sequência dos estimadores,


 1,

 2, . . . ,

 n, . . . . , , um para cada n, converge em probabilidade para . Formalmente:
  0,
n
lim P

 n      0 4
Notamos, neste caso: p lim

 n  .
Assim, o estimador

 n é consistente se a probabilidade que ele desvie do parâmetro
 por uma quantidade arbitráriamente pequena tende para 0 quando o tamanho da
amostra tende para o infinito.
Ou seja, se o estimador for consistente, é improvável que ele desvie do parâmetro
que pretende estimar quando o tamanho da amostra aumenta indefinidamente.
O equivalente da expressão 4 é:
  0,
n
lim P

 n      1 4
A probabilidade que a sequência dos estimadores

 n não desvie de  tende no
limite de n para 1.
Exemplo 8:
Na sequência dos Exemplos 2, 5 e 7(b), vamos usar a definição 4 para mostrar
que Xn é um estimador consistente de , que é o valor máximo assumido por aquela
população uniforme de valores.
__________________________
Hugo Boff - Estatística II 2021
10
Temos, para x  0, : FXnx  
0
x
n v
n1
n
dv   x

n;FXnx  0 para x  0 e
FXnx  1 para x  .
Assim, para   0,
P|Xn  |    P    Xn      FXn    FXn  

1     

n ; 0    
1  0  1;   
Ou seja, para todo   0 :
n
lim P|Xn  |   
n
lim 1     

n  1 
n
lim    

n  1  0  1.
Assim, p limXn   e o máximo amostral (apesar de viesado em amostras
finitas), é um estimador consistentedo máximo populacional.
Exemplo 9:
Suponha uma população exponencial truncada X  ExpA, 12 . Um estimador natural
para o mínimo populacional A é o mínimo amostral X1  minX1,X2, . . . ,Xn. Sabemos
que X1 tem distribuição Exponencial truncada com parâmetros A, n2 .
Com efeito,
PX1  x  PX1  x;X2  x;X3  x; . . .Xn  x  PX  xn  1  FXxn
 1  1  e
1
2
xAn  e
n
2
xA.
Logo, X1  ExpA, n2  com EX1  A 
2
n e VX1  
2
n 
2  4
n2
.
Vemos que o mínimo amostral X1 superestima A em amostras finitas, mas que ele
é assintóticamente não viesado. Usaremos agora 4 para mostrar que X1 é um
estimador consistente de A.
  0, P|X1  A|    PX1  A    PX1  A    e
n
2
  0  e
n
2

Logo,   0,
n
lim P|X1  A|   
n
lim e
n
2
  0 ou seja: p limX1  A.
Os dois exemplos anteriores usaram a distribuição de probabilidade do estimador
__________________________
Hugo Boff - Estatística II 2021
11
para provar a consistência. Em muitas situações todavia, não conhecemos a
distribuição exata do estimador, mas apenas os seus dois primeiros momentos: sua
média e sua variância.
Adiante, enunciaremos uma proposição estabelecendo condições suficientes sobre
estes dois primeiros momentos, para que a consistência do estimador esteja
assegurada. Estas condições baseiam-se na desigualdade de Chebyshev.
Desigualdade de Chebyshev
Se a v.a. X possui média e variância e se   X então vale a desigualdade:
  0 , P|X  |    1
2
EX  2 5
Prova:
Dado   0, defina a variável aleatória indicadora do evento
A  x  X : |x  |   :
1AX 
1 se X  A
0 se X  A
. Então, E1AX  1.PA  0.PAc  PA.
Logo, P|X  |    E1AX  PA  
X
1AxdFXx
 
A
1dFXx  
|x |22
1dFXx
  |x |2
2
1
1dFXx  
A
|x |2
2
dFXx
 1
2

X
x  2dFXx  1
2
EX  2 
Uma aplicação notável desta desigualdade se dá quando X é um estimador

 n que
possui média E

 n e variância V

 n.
Neste caso E

 n  2 é o Erro Quadrático Médio EQM n de

 n.
Ora, vimos em 1 que E

 n  2  V

 n  E

 n  2 .
Deste modo, a desigualdade de Chebyshev fica:
__________________________
Hugo Boff - Estatística II 2021
12
  0 , P

 n      1
2
V

 n  E

 n  2 5
Proposição:
Seja

 n um estimador de . Se as duas condições seguintes são atendidas:
(i)
n
lim E

 n   e
(ii)
n
lim V

 n  0.
Então, p lim

 n  .
Prova: Basta tomar o limite para n   de ambos os lados da desigualdade 5 :
0 
n
lim P

 n      1
2 n
lim V

 n  E

 n  2

n
lim V

 n 
n
lim E

 n  2  0  02  0 
Ou seja, para que um estimador seja consistente, basta que ele seja
assintóticamente não viesado e que sua variância tenda à 0 quando n tende para
infinito. Observe que as condições (i) e (ii) da Proposição são suficientes para garantir a
consistência do estimador, mas não necessárias.
Exemplo 10
a) Vimos no Exemplo 7(a) que n
2  1n i1
n
X i  Xn2 o estimador amostral da
variância da população normal é um estimador assintóticamente não viesado de 2.
Por outro lado, mostramos no Capítulo II que sua variância é Vn
2 
2n  1
n2
4 a
qual converge para 0 quando n  . Assim, pelo proposição anterior temos
p limn
2
 2 ou seja, n
2 é um estimador consistente de 2.
b) Considere o estimador MVU de  na distribuição Exponencial do Exemplo 6:

 n  n  1S onde S  X1  X2 . . .Xn  n,. Como ele é um estimador não
viesado, em virtude da Proposição acima a consistente deste estimador é assegurada
se sua variância for à 0 quando n  .
Temos:
__________________________
Hugo Boff - Estatística II 2021
13
E

 n
2
  n  12E 1
S2
  n  12 
n
n

0

sn21esds 
n  122
n

0

n21ed
onde para a última igualdade efetuamos a transformação   s.
Ora por definição, 
0

n21ed  n  2, de modo que, usando a propriedade
recursiva da gama: n  n  1n  1  n  1n  2n  2 obtemos:
E

 n
2
  n  1
n  2 
2.
Finalmente, V

 n  E

 n
2
  2   n  1
n  2  1
2  1
n  2 
2 expressão esta que vai à
0 quando n vai à infinito.
Temos então que

 n  n  1S é um estimador consistente de .
O exemplo construído abaixo mostra que de fato a convergência em média (não viés
assintótico) sózinha não tem relação direta com a convergência em probabilidade
(consistência). Uma não implica na outra.
Exemplo 11:
Para 0    1, considere o estimador

 n assim definido:

 n 
n com probabilidade n
0 com probabilidade 1  n
Vemos que E

 n  n n   01  n    ou seja, temos um estimador não viesado
de . Entretanto, a sequência dos

 n não converge para , mas para 0 :
  0, P

 n    P

 n  n  n n
 0. Ou seja, p lim

 n  0.
Para terminar esta seção, enunciamos sem demonstração um teorema de grande
utilidade prática:
Teorema:
Suponha que

 n seja um estimador consistente de  e que g :  é uma
função contínua no ponto . Então g

 n é um estimador consistente de g.
__________________________
Hugo Boff - Estatística II 2021
14
Exemplo 12:
a) Vimos no Exemplo 10(a) que n
2  1n i1
n
X i  Xn2 é um estimador consistente
de 2 em populações normais.Então, em virtude do teorema acima podemos concluir
que 1n i1
n
X i  Xn2 é um estimador consistente do desvio-padrão ;
Sabemos que Sn2  1n1 i1
n
X i  Xn2 também é um estimador consistente de
2. Então,
2Sn22
n  1 é um estimador consistente da sua variância....
b) Vimos no Exemplo 10(a) que n  1
S
é um estimador consistente de , em
populações Exponenciais. Assim, como temos EX  1

vem que 1
n  1/S
 S
n  1 é
um estimador consistente da média populacional.
Também, como VX   1

2 ,  S
n  1 
2 será um estimador consistente da
variância populacional....
Enunciaremos agora um teorema que garante a convergência em probabilidade dos
momentos amostrais de uma variável aleatória. Sua aplicação se dará adiante, na
seção 5, quando trataremos do método dos momentos.
Teorema (Lei fraca dos grandes números)
Seja Xn uma sequência iid de variáveis aleatórias com Média  e variância 2
finita. Então, a sequência Xn  1n 
i1
n
X i converge em probabilidade para .
Prova:
Imediata. Basta usar a desigualdade de Chebyshev.
4. MÉTODOS DE ESTIMAÇÃO: MV e MM
Nesta seção, apresentaremos dois métodos de estimação usuais em Estatística
Paramétrica: O método da Máxima Verossimilhança (MV) e o Método dos Momentos
(MM).
__________________________
Hugo Boff - Estatística II 2021
15
O método MV é o método mais importante, de uso disseminado em Estatística e
Econometria. É o que fornece, do ponto de vista informacional, a melhor justificativa
teórica para a estimação, além de garantir propriedades assintóticas ótimas para os
estimadores obtidos.
Entretanto, sua implementação é às vezes complexa: em algumas situações o
estimador obtido não é único. Em outras, ele pode até mesmo não existir, em razão de
descontinuidades na função de verossimilhança.
Já o método MM é um método intuitivo, de implementação mais simples, que produz
estimadores consistentes para os parâmetros embora não garanta outras propriedades
assintóticas notáveis como a eficiência e a normalidade.
A) Máxima Verossimilhança
Este método consiste na escolha dos parâmetros que maximizam a função de
verossimilhança da amostra.
O que é a função de verossimilhança ? É a densidade da amostra vista como
função dos parâmetros, a qual será notada L ou seja:
L :   :   L;x1,x2, . . . ,xn  i1n fXx i; 6
Dizemos que a estatística

 n  TX1,X2, . . . ,Xn é o estimador de Máxima
Verossimilhança (MV) de  se L

 n  L;X1,X2, . . . ,Xn   .
Isto significa: dada a amostra X1,X2, . . . ,Xn, L assumeo maior valor quando  

 n.
Por que maximizar L, e não outra função? Qual a intuição estatística por trás desta
escolha ?
Para responder à estas perguntas, vamos interpretar o significado de L.
Considere a probabilidade que a v.a. X esteja em um intervalo de comprimento
  0 ao redor do ponto x observado, o seja, que X   x  12  , x 
1
2 .
Esta probabilidde é: Px  12   X  x 
1
2 .
Ora, fXx; 
FXx
x 0
 lim
FXx 12 FXx
1
2

 de modo que, para  pequeno:
fXx; 
FXx  12   FXx 
1
2 
 
Px  12   X  x 
1
2 
 .
__________________________
Hugo Boff - Estatística II 2021
16
Assim, temos: L  i1n fXx i; 
  1
n
Px1  12   X  x1 
1
2  ; x2 
1
2   X  x2 
1
2 ; . . . ;xn 
1
2   X  xn 
1
2 
Desta última expressão vemos que a verossimilhança L é um múltiplo da
probabilidade que uma amostra aleatória X1,X2, . . . ,Xn extraída da população X, esteja
muito próxima do ponto amostral observado x1,x2, . . . ,xn.
Por isso, L;x1,x2, . . . ,xn é chamada verossimilhança da amostra.
Ao maximizar L estamos escolhendo o valor de  que torna a amostra mais
verossímil possível, pois este valor será aquele que maximizará a probabilidade da
população gerar efetivamente os dados observados.
Se  for um conjunto compacto (fechado e limitado) e L; .  for contínua, então o
estimador MV sempre existe (Teorema de Weierstrass).
Quando a solução

 n for interior 

 n  int a solução é obtida igualando-se as
derivadas primeiras à 0, e assegurando-se que a derivada segunda é negativa no ponto
crítico.
Como a verossimilhança em 6 é um produtório, o que torna complexa a derivação,
costuma-se maximizar o logaritmo da verossimilhança (a qual será notada l)uma vez
que a transformação crescente não altera o argumento do máximo:
l;x1,x2, . . . ,xn  lnL;x1,x2, . . . ,xn  i1
n ln fXx i; 6
Exemplo 13: Estimadores MV da média e variância em populações Normais
l,2;x1,x2, . . . ,xn   n2 ln2 
n
2 ln
2  1
22
n  1S12  nXn  2
Neste expressão, é imediato que l é maximizada tomando-se   Xn.
De todo modo, as condições de primeira ordem dão:
l
 
n
2
Xn    0 
  Xn.
l
2
  n
22
 1
24
n  1S12  n22
1  1
2
 n1n Sn1
2   0  
2
  n1n Sn1
2
__________________________
Hugo Boff - Estatística II 2021
17
Estas soluções correspondem à um máximo, como mostramos abaixo:
Ou seja, ,
2
  Xn, 1n i1
n
X i  Xn2 são os estimadores MV de ,2.
Observe que o estimador da variância é viesado, o que mostra que o método da MV
não produz necessáriamente estimadores não viesados em amostras finitas. Todavia
ele é assintóticamente não viesado e consistente como detalharemos adiante.
A matriz Hessiana H das condições de 2a. ordem, avaliadas na solução ,
2

são:
2l
2 22
  n2 ;
2l
2
 0  
2l
2
e 
2l
4
|22  
1
24
. Ou seja,
H 
 n2 0
0  1
24
a qual é bem definida negativa: h11  0 e |H|  0, garantindo a
condição de máximo para a solução.
O exemplo seguinte ilustra uma situação em que o estimador MV é obtido em uma
solução de canto.
Exemplo 14: Estimador MV do máximo em populações Uniformes
No Exemplo 5 vimos que o estimador MVU do máximo  em uma população
X  Unif0, é
n  1
n Xn. A verossimilhança da amostra é, neste caso:
L;x1,x2, . . . ,xn 
1
n
; se xn  
0 ; se xn  
7
Esta função é representada abaixo:
__________________________
Hugo Boff - Estatística II 2021
18
Como se percebe, o estimador MV é Xn. Isto mostra que o estimador MV não é
necessáriamente não viesado de variância mínima.
Exemplo 15: Estimador MV da média e variância em populações Laplace
A v.a. X tem distribuição Laplace com parâmetros , e suporte em se sua fdp
é:
fXx;,  12
e
1
 |x | ; x  8
O gráfico abaixo representa esta densidade para   0 e   1/ 2 Variância  1,
em vermelho (linha contínua). Em negrito (linha tracejada) aparece a densidade da
normal-padrão N0,1 para efeitos de comparação.
-5 -4 -3 -2 -1 0 1 2 3 4 5
0.2
0.4
0.6
X
density of X
Você poderá verificar que o valor esperado de X é , o desvio absoluto médio é:
E|X  |   e a variância EX  2  22.
__________________________
Hugo Boff - Estatística II 2021
19
Dada uma amostra de tamanho n extraída da população Laplace (também chamada
exponencial dupla) , o logaritmo da verossimilhança é:
l,;x1,x2, . . . ,xn  n ln2  n ln  1 i1
n |x i  | 9
Condição de Primeira Ordem:
l
 
1
 i1
n signx i    0 

  MEDX1,X2, . . . ,Xn mediana amostral.
Isto ocorre porque signx  |x|x  1 se x  0;  1 sex  0 e  0 se x  0.
Deste modo,i1
n signx i    0 quando  for igual à mediana do ponto amostral,
pois neste caso haverá o mesmo número de sinais 1 que de sinais 1, e a assim a
derivada se anula. Por outro lado,
l
  
n
 
1
2
i1
n |x i  MED|  0    1n i1
n |x i  MED|
Ou seja, o estimador MV de  é o desvio absoluto médio com relação à Mediana.
Assim, o estimador MV de , é: MED, 1n i1
n |x i  MED|.
Duas propriedades importantes dos estimadores MV são dignas de nota:
Propriedade 1: Se a amostra X1,X2, . . . ,Xn admite uma estatística suficiente S, e o
estimador MV de  for único, então ele será função de S.
Prova : Pela fatorização de Neyman a densidade da amostra se escreve:
i1
n fXx i;  gs;.hx1,x2, . . . ,xn. Ora, vista como função de , esta não é outra
que a função de verossimilhança definida em 6 :
L;x1,x2, . . . ,xn  gs;.hx1,x2, . . . ,xn 10
A expressão 10 mostra que se o estimador MV existe e for único, ele será função
de S. Com efeito, supondo solução for interior, ao tomar o logaritmo de ambos os lados
obtemos:
l;x1,x2, . . . ,xn  i1
n ln fXx i;  lngs;  lnhx1,x2, . . . ,xn 10
De modo que:
__________________________
Hugo Boff - Estatística II 2021
20
l
 
 lngs;
 
1
gs,
gs;
  0 
gs;
  0 

 n  S. 
Propriedade 2: Esta é uma propriedade que exibe a robustez dos estimadores MV.
Se

 n é um estimador amostral MV de  e se  é uma reparametrização do modelo,
então o estimador MV de  é 

 n.
Obs: A propriedade é verdadeira mesmo que a função  não seja bijetiva. Se a
parametrização é bijetiva, então       1. Deste modo,
maxL 

max L 

max L1. Como a maximização ocorre quando
1   

 n basta tomar então
  

 n.
Se a parametrização não for bijetiva, para cada  defina o conjunto das suas
pré-imagens 1     :   .Como o máximo ocorre em

 n, o qual
pertence ao domínio de ,

 n só poderá pertencer à uma das pré-imagens 1.
Logo, para maximizar L, escolhe-se  de modo a que 1 seja justamente a
pré-imagem que contém

 n. Ou seja, aquela em que
  

 n. 
Exemplo 16:
a) No Exemplo 15 anterior, em virtude da Proposição 2, o estimador MV da
variância populacional  22 é 2
2
 2 1n i1
n |x i  MED|2;
b) Na população Exponencial com média 1

do Exemplo 6, se fizermos a
reparametrização   1

será fácil constatar que o estimador MV de  é a média
amostral:   Xn . Então, o estimador MV de  será 1
Xn
(confronte este estimador MV
com o estimador MVUE obtido no Exemplo 6).
c) Em uma população Bernoullip,a variância é p1  p. Na estimação amostral da
proporção p, será fácil verificar que o estimador MV é a proporção de sucessos na
amostra: Xn. Logo, o estimador MV da variância é Xn1  Xn.
Propriedades assintóticas dos estimadores MV
Como mencionamos antes, a excelência do método MV se mostra mais claramente
em grandes amostras, assintóticamente, quando as principais propriedades requeridas
para um bom estimador são atendidas.
Com efeito, se são atendidas algumas condições de regularidade relacionadas com
a existência da função escore e de suas derivadas,a teoria estatística mostra que a
__________________________
Hugo Boff - Estatística II 2021
21
sequência de estimadores MV

 n tem as seguintes propriedades assintóticas
(sendo o o verdadeiro valor de  :
(i)

 n
n
 o q.c. 
Ou seja, o conjunto de pontos nos quais a sequência dos estimadores não converge
simplesmente para o tem probabilidade nula de ocorrer;
(ii) Assintóticamente não viesados:
n
lim E

 n  ;
(iii) Consistentes: p lim

 n  o;
(iv) n 

 n  o converge em distribuição para uma v.a. Normal com média 0 e
variância igual à 1/I1o, o inverso da quantidade de informação (Fisher) contida em X1.
Isto significa que, assintóticamente, podemos usar a distribuição normal para fazer
inferências sobre  pois

 n  N; I1...n1  onde I1...n1  é o inverso da quantidade de
informação contida na amostra sobre , conceito este que vimos no Capítulo IV.
Ou seja, os estimadores MV são assintoticamente eficientes: sua variância
assintótica alcança o limite inferior de Rao e Cramér:
n
lim ef n  1.
B) Método dos Momentos
Este método consiste em estimar o valor dos parâmetros igualando os momentos
populacionais com os momentos amostrais populacionais. Se temos 1 único parâmetro
no modelo, usaremos o primeiro momento (a média) igualando: EX  X.
Se temos 2 parâmetros no modelo, usamos os dois primeiros momentos (média e
variância: EX  X e VX  Sn1
2 , e assim sucessivamente.
Observe que a Lei Fraca dos Grandes Números apresentada ao final da Seção 3,
garante também, com adaptações, a convergência em probabilidade do momento
amostral de ordem k  1n 
i1
n
X ik ; k  2,3, . . .  para o respectivo momento populacional
EXk.
Em virtude da LFGN, fica garantida uma propriedade assintótica importante para os
estimadores de momentos (MM): a consistência.
__________________________
Hugo Boff - Estatística II 2021
22
Em muitas situações, os estimadores MM coincidem com os estimadores MV, de
modo que as propriedades assintóticas destes últimos serão compartilhadas pelos
estimadores MM.
Exemplo 17: Estimação MM em populações Exponenciais
Seja X  ExpA,. Esta é uma população que possui dois parâmetros: A  e
  0. Temos os dois primeiros momentos populacionais:
EX  A  1

; VX  1
2
.
E os dois primeiros momentos amostrais: Xn e Sn1
2 não viesado).
Temos então a resolver o sistema com duas equações e duas incógnitas:
A  1

 Xn e 1
2
 Sn1
2 .
Esta última equação dá   1
Sn1
e a primeira: A  Xn  Sn1.
Assim, os estimadores MM de A e  são: A  Xn  Sn1 e

  1
Sn1
.
Exemplo 18: Estimação MM em populações Uniformes
Seja X  Unifa,b. Esta população também possui dois parâmetros:
a  b. Temos os dois primeiros momentos populacionais:
EX  a  b
2
; VX 
b  a2
12
.
Igualando estes momentos aos momentos amostrais respectivos ( Xn e
Sn1
2  teremos a resolver:
a  b
2
 Xn e
b  a2
12
 Sn1
2 .
A primeira equação dá: a  b  2Xn e a segunda: b  a  2 3 Sn1.Somando à
esquerda e direita estas duas equações vem: 2b  2Xn  2 3 Sn1. Deste modo, os
estimadores de momentos são:
a  Xn   3 Sn1 e

b  Xn   3 Sn1
Estes estimadores são viesados em amostras finitas, mas serão consistentes.
__________________________
Hugo Boff - Estatística II 2021