Buscar

Unidade III_Inferencia

Prévia do material em texto

53
UNIDADE III – ESTIMAÇÃO PONTUAL 
 
 Quando uma amostragem é realizada de uma população descrita por uma função 
( )xfθ , o conhecimento de θ especifica o membro da família de densidades mais adequado à 
situação em questão. Uma vez especificada a distribuição da população podemos determinar 
vários aspectos de interesse da população, ou seja, dizemos que temos o conhecimento da 
população inteira. Por isso, é natural que busquemos métodos para encontrar bons 
estimadores para θ , isto é, um bom estimador pontual. Na Unidade II vimos maneiras de 
“melhorarmos” estimadores quando temos estatísticas suficientes e completas. Entretanto, 
esses métodos já requerem um estimador inicial. O que acontece quando não temos um 
candidato inicial que satisfaçam as condições exigidas pelos métodos vistos anteriormente? 
Nesta unidade veremos outros métodos de encontrarmos estimadores que não necessitem de 
um candidato inicial, o método dos momentos e o método de máxima verossimilhança. 
 Na Unidade I exploramos a propriedade do EQM nos estimadores. Veremos, nesta 
unidade, mais algumas propriedades de estimadores. Aumentaremos nosso leque de avaliação 
de estimadores com o conceito de consistência e algumas propriedades assintóticas. 
 
3.1 – MÉTODOS PARA ENCONTRAR ESTIMADORES 
 A seguir, veremos dois métodos bastante comuns de obtermos estimadores sem a 
necessidade de termos um estimador inicial. Começaremos esta unidade com o método 
bastante simples conhecido por métodos dos momentos. Em seguida, veremos um dos 
métodos mais utilizados e importantes em estatística chamado de método de máxima 
verossimilhança, que têm propriedades estatísticas bastante interessantes. A ênfase nesta 
unidade será dada ao método de máxima verossimilhança devido a sua importância e 
aplicação nos métodos estatísticos. 
 
3.1.1 – MÉTODO DOS MOMENTOS 
 O método dos momentos talvez seja o método mais antigo para encontrarmos 
estimadores (± 1800, Karl Pearson). Tem a virtude de ser bem simples e intuitivo. Porém, em 
muitos casos, produz estimadores que possam ainda ser melhorados. O método dos momentos 
consiste em igualarmos os momentos amostrais de ordem r, rm , aos respectivos momentos 
populacionais de mesma ordem, ( )rXE . Normalmente os momentos populacionais ( )rXE 
 54
serão funções dos parâmetros. Por isso, ao resolvermos o sistema de equações dos parâmetros 
em função dos momentos amostrais obteremos os estimadores de momentos. 
Método dos momentos de uma AAS de tamanho n, definição: ( )r
n
i
r
i
XE
n
X
=
∑
=1
. 
Exemplos – Estimar os parâmetros das distribuições abaixo considerando uma AAS de 
tamanho n. 
 
i) ( )2σµ ,N~X 
( ) XˆXEX =⇒== µµ 
( ) ( )∑∑∑∑
=
===
−=−=−=⇒+==
n
i
i
n
i
i
n
i
i
i
n
i
i
XX
n
X
n
X
ˆ
n
X
ˆXE
n
X
1
221
2
21
2
22221
2
1µσµσ 
ii) ( )λEXP~X 
( ) XˆXEX =⇒== λλ 
iii) ( )θ,U~X 0 
( ) XˆXEX 2
2
=⇒== θθ 
iv) ( )NU~X discreta . Um exemplo de aplicação é o problema dos táxis resolvido na Unidade I. 
( ) 12
2
1
−=⇒
+
== XNˆNXEX 
v) ( )βα ,Gama~X 
( )
( ) ( ) ( )








+=+==
==
∑
=
2
2
2
221
2
β
α
β
α
β
α
XEXVarXE
n
X
XEX
n
i
i
 
 Resolvendo o sistema com duas equações e duas incógnitas obtemos: 
21
2
1
2
2
1
2
22
2
XˆX
n
X
ˆ
n
X
XˆX
ˆ
n
X
XˆXˆ
ˆ
Xˆˆ
n
i
i
n
i
i
n
i
i
βββββββ
βα
+=⇒
+
=⇒








+
=
=
∑
∑∑
=
=
=
 
 Isolando o β na segunda equação obtemos. 
 55
( ) 2
1
2
21
2
21
2
σ
ββ
~
X
n
XX
X
X
n
X
X
ˆXX
n
X
ˆ
n
i
i
n
i
i
n
i
i
=
−
=
−
=⇒=












−
∑∑
∑
==
=
, 
onde ( ) nXXX
n
X
~
n
i
i
n
i
i
∑
∑
=
=
−=−=
1
221
2
2σ , como foi definido na Unidade I. Substituindo esse 
resultado na equação de αˆ obtemos, 
2
2
2 σσ
βα
~
XX
~
XXˆˆ === . 
Portanto, os estimadores de momentos para α são β : 
2
2
2 σσ
βα
~
XX
~
XXˆˆ === e 2σβ ~Xˆ = 
vi) ( )λPoisson~X 
( ) XˆXEX =⇒== λλ 
 
Observações 
1) Nos casos (iii), (iv) e (v) os estimadores de momentos NÃO são funções de estatísticas 
suficientes. Conseqüentemente, o método dos momentos não garante que os estimadores 
obtidos sejam funções de estatísticas suficientes. 
2) Em algumas situações, o suporte do estimador obtido com o método de momentos pode 
NÃO coincidir com o suporte do parâmetro que está sendo estimado. Vejamos um exemplo. 
Temos uma AAS de tamanho n de uma v.a. ( )p,kBin~X . Encontremos os estimadores de 
momentos para os parâmetros k e p. 
( )
k
XpkpXEX
ˆ
ˆ =⇒== 
( ) ( ) 2221
2
1 pkpkpXE
n
X
n
i
i
+−==
∑
=
 
 Substituindo p por pˆ , k por kˆ e o valor de pˆ obtido na primeira equação na 
equação acima obteremos, 
 56
2
2
2
2
2
21
2
11 X
kˆ
XXX
kˆ
XX
kˆ
Xkˆ
kˆ
X
kˆ
Xkˆ
n
X
n
i
i
+−=+





−=+





−=
∑
=
 
 
( )
( )∑
∑
∑
=
=
=
−−
=⇒−−=












−−=
n
i
i
n
i
i
n
i
i
XX
n
X
XkˆXX
n
XX
n
X
X
kˆ
X
1
2
2
1
221
2
2
1
1
. 
 Portanto os estimadores de momentos para os parâmetros k e p na distribuição 
binomial numa amostra aleatória simples de tamanho n são da forma, 
( )∑
=
−−
==
n
i
i XX
n
X
Xkˆ
kˆ
Xpˆ
1
2
2
1
 e . 
 Infelizmente, ambos os estimadores acima podem ser negativos, o que não condiz 
com o suporte dos parâmetros k e p, representados por valores estritamente positivos. 
Entretanto, é importante salientar que o estimador só apresentará valores negativos quando a 
variância amostral for maior que a média amostral, indicando uma variabilidade muito grande 
nos dados observados. 
 
3.1.2 – MÉTODO DE MÁXIMA VEROSSIMILHANÇA1 (MMV) 
 É o método mais popular para encontrarmos estimadores. Vamos lembrar o conceito 
da função de verossimilhança visto na Unidade I. 
 Sejam nX,,X L1 uma AAS de uma v.a. X com função de densidade ou de 
probabilidade ( )θxf . A função de verossimilhança de θ correspondente à amostra aleatória 
observada é definida por, 
( ) ( ) ( )∏
=
==
n
i
ink xfx,,x,,LL
1 ~
11
~~
θxθ LL θθ 
 
Definição 3.1: O estimador de máxima verossimilhança – EMV (Maximum Likelihood 
Estimator – MLE) para o parâmetro 
~
θ é o valor Θ∈θˆ (espaço paramétrico) que maximiza a 
função de verossimilhança ( )
~~
xθL . 
 
1
 Verossímel – semelhante a verdade, que parece verdadeiro, provável. Verossimilhança – qualidade ou catáter 
de verossímel 
 57
Observações 
1) Por construção o suporte do EMV coincide com o suporte do respectivo parâmetro. 
2) Pelo fato da função logaritmo ser uma função crescente, o valor de Θ∈θˆ que 
maximiza a ( )
~~
xθL será o mesmo para o ( )
~~
xθLln . Em muitas situações, quando a 
diferenciação é usada, é mais fácil e simples trabalharmos com o logaritmo natural da 
verossimilhança, ( )
~~
xθLln , do que com o ( )
~~
xθL . A razão para trabalharmos com o 
ln se dá pelo fato da verossimilhança ser normalmente representado por um produto de 
vários fatores. Lembrando da seguinte propriedade do logaritmo: o logaritmo de um 
produto de fatores é a soma dos logaritmos desses fatores. Ao diferenciarmos o 
( )
~~
xθLln teremos que trabalhar com a derivada da soma, que ébem mais simples do 
que diferenciarmos ( )
~~
xθL , em que trabalharíamos com a derivada de um produto. 
3) Em muitas situações, usuais para este curso, o EMV será solução da equação, 
( )
0=
∂
∂
~
Lln
θ
xθ
~~
 
4) Para se concluir que a solução em (3) é um ponto de máximo é necessário verificar se 
a segunda derivada no ponto do EMV é negativa, 
( )
0
2
<
∂
∂
=
~~
ˆ~
Lln
θθ
2
~~
θ
xθ
 
5) Há casos onde não existe uma solução explícita para a equação em (3). Nessa situação 
métodos numéricos são empregados para encontrarmos a raiz da equação em (3). 
6) Em situações em que o espaço paramétrico, Θ , é discreto ou que o máximo da 
( )
~~
xθL ocorre na fronteira de Θ o EMV não poderá ser obtido usando (3), mas sim, 
através da inspeção de ( )
~~
xθL . 
 
Nota: As dificuldades que poderão surgir nos itens (4) e (5) são estritamente dificuldades não 
estatísticas, isto é, dificuldades matemáticas ou computacionais. 
 
Exemplos para encontrarmos um EMV em uma AAS de tamanho n 
i) ( )pBernoulli~X 
 58
( ) ( ) ( ) ( )plnxnplnxpLlnpppL n
i
i
n
i
i
xn
x n
i
i
n
i
i
−




 ∑−+∑=⇒−=
==
∑−
∑
=
= 11
11
1
1
~~
xx 
( )[ ] ( )
.x
n
x
pˆxpˆpˆnxpˆx
xnpˆxpˆ
pˆ
xn
pˆ
x
dp
pLlnd
n
i
in
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
=
∑
=⇒=∑+−∑−∑⇒
=




 ∑−−∑−⇒=
−





 ∑−−∑=
=
===
====
1
111
1111
0
010
1
11
~
x
 
 Portanto, o EMV para p é X e escrevemos ( ) XpEMV = . 
ii) ( )λExp~X 
( ) ( )
( )
.x
n
x
ˆxˆn
ˆ
xˆn
ˆ
x
ˆ
n
d
Llnd
x
lnnlnn
x
lnnLln
x
EXPL
n
i
in
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
in
==⇒=+−⇒=
+−
⇒=+−=
−−=−





=⇒












−





=
∑
∑
∑∑
∑∑∑
=
=
==
===
1
1
2
1
2
1
111
0001
111
λλ
λ
λ
λλλ
λ
λλλλλλλλ
~
~~
x
xx
 
 Portanto, o ( ) XEMV =λ . 
iii) 
( )2σµ ,N~X
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )









=−+−⇒=
−+−
⇒=
−
+−=
∂
∂
=⇒=−⇒=−⇒=
−
=
∂
∂
−
−−−=⇒












−
−





=
∑
∑∑
∑
∑∑
=
==
=
==
000
0010
2
2
2
2
22
1
1
22
3
1
22
3
1
2
222
1
2
1
2
2
1
2
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
in
ˆxˆn
ˆ
ˆxˆn
ˆ
ˆx
ˆ
n,Lln
.xˆˆx
ˆ
n
ˆnxn
ˆˆ
ˆx
,Lln
x
lnnlnn,Lln
x
EXP,L
µσ
σ
µσ
σ
µ
σσ
σµ
µµ
σ
µ
σσ
µ
µ
σµ
σ
µ
σpiσµ
σ
µ
σpi
σµ
~
~
~~
x
x
xx
 
 
( )
.
n
ˆx
ˆ
n
i
i∑
=
−
=⇒ 1
2
2
 
µ
σ 
0 
 59
 Portanto, o ( ) ( )












−
=
∑
=
n
XX
,X,EMV
n
i
i
1
2
2σµ . 
iv) ( )θ,U~X 0 
( ) ( )( )( ) ( ) ( )( ) ( )( ) ( )( )100
1
0
11
xIxIxIL
nn x,n,n
n
i
ix,n θθθ
θ == ∏
=
~
x . 
 Nessa situação a diferenciação não resolverá o nosso problema. Teremos que 
encontrar o EMV através da inspeção da ( )
~
xθL . 
 Podemos observar que θ aparece no denominador de ( )
~
xθL . Portanto, para 
maximizarmos esta função θ teria que assumir o menor valor possível. Como ( ) ⇒<θnx 
( )nx>θ . Portanto, o menor valor que θ pode assumir é ( )nx . Assim o ( ) ( )nXEMV =θ . 
 
 
 
 
 
 
 
Figura 3.1: Representação da verossimilhança na ( )θ,U 0 . 
 
v) ( )θCauchy~X 
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )∏= ∞∞−∞∞− 





−+






=⇒ℜ∈
−+
=
n
i
i,
i
n
,X xI
x
L,xI
x
xf
1
22 1
11
1
11
θpi
θθ
θpi ~
x . 
( ) ( )[ ] ( ) ( )( ) 01 21 1 21 2 =−+ −=⇒−+−−= ∑∑ ==
n
i i
i
n
i
i
x
x
d
Llnd
xlnlnnLln
θ
θ
θ
θ
θpiθ ~
~
x
x 
 Para resolvermos a equação acima e encontrarmos o EMV para quaisquer nx,,x L1 
temos que usar métodos numéricos. 
vi) ( )2121 +− θθ ,U~X 
( ) ( ) ( )xIxf ,X 2121 +−= θθ ⇒ ( ) ( ) ( ) ( ) ( )( )( )θθ θθ 2121
1
2121 1 +−
=
+− == ∏ x,xn
i
i, n
IxIL
~
x 
( )nx = máximo na amostra 
( )
n
nx
1
 
( )
~
xθL 
θ 
 60
 
 
 
 
 
 
Figura 3.2: Representação da verossimilhança na ( )2121 +− θθ ,U . 
 
 Podemos observar na Figura 3.2 que a função de verossimilhança assume o valor um 
no intervalo ( ) ( )[ ]2121 1 +− x,x n e zero caso contrário. Como queremos maximizar ( )
~
xθL , 
qualquer valor ( ) ( )( )2121 +−∈ nn x,xˆθ será um EMV. Assim, concluímos que o EMV nesse 
exemplo não é único. 
vii) Temos uma caixa com bolas brancas e vermelhas. Sabe-se que a proporção θ de bolas 
vermelhas na caixa é 31 ou 32 . Portanto, o espaço paramétrico { }3231 ,=Θ . Com o intuito 
de obtermos informação sobre θ, uma amostra aleatória de n = 3 bolas é observada com 
reposição. O resultado foi bola vermelha na primeira extração e branca nas restantes. Seja 



=
branca é retirada bola ésima- a se0
 vermelhaé retirada bola ésima- a se 1
i,
i,
X i , para i = 1, 2,3. 
 A função de verossimilhança ( )001 321 === x,x,xL θ é dada pela expressão: 
( ) ( ) ( ) ( ) ( )001001001 321321321 =========== XPXPXPX,X,XPx,x,xL θθθθθ = 
 ( )( ) ( )2111 θθθθθ −=−−= . 
 Como existem apenas duas possibilidades de valores para θ a verossimilhança pode 
ser escrita como 









=





=





===
=





=





===
27
2
3
1
3
2001
3
2
e
27
4
3
2
3
1001
3
1
2
321
2
321
x,x,xL
x,x,xL
 
 Ao compararmos as duas possibilidades para a verossimilhança a que tem o maior 
valor é 





>





~~
xx
3
2
3
1 LL . Dessa forma, o ( )
3
1
=θEMV . 
θ 
( )
~
L xθ 
( ) 21−nx 
1 
( ) 211 +x 
0 
 61
Exercícios 
a) Problema da Captura-Recaptura 
Usar os métodos de momentos e de máxima verossimilhança para estimar N, o tamanho da 
população. 
N � estimar o tamanho da população n � tamanho da amostra 



− marcados não :
marcados :
aN
a
N 



− marcados não :
marcados :
xn
x
n 
O número de animais marcados na amostra de tamanho n é uma v.a. com distribuição 
hipergeométrica. 
( ) ( ).n,amin,,,x,
n
N
xn
aN
x
a
xXP L10=












−
−






== 
a) Métodos dos momentos – usar a proporção amostral para estimar a proporção 
populacional 
( )
X
anNˆ
N
anXEX =⇒== (método dos momentos) 
X
anNˆ
N
a
n
X
=⇒= (proporção amostral = proporção populacional) 
 
b) Método de máxima verossimilhança 
 
( )












−
−






=
n
N
xn
aN
x
a
NL
~
x , 
 
Observação: Não podemos usar a diferenciação, uma vez que N pertence a um espaço 
paramétrico discreto, para encontrarmos o EMV. 
 
( ) ( )
~~
xx NLNL >+1 
⇒




 +






−
−
>











−
−+
⇒












−
−






>





 +






−
−+






n
N
xn
aN
n
Nxn
aN
n
N
xn
aN
x
a
n
N
xn
aN
x
a
11
1
1
 
 62
( )
( ) ( ) ( )
( )
( ) ( )
( )
( )
nN
N
xnaN
aN
-nNn
N
n-xxnaN
aN
N-nn
N
n-xxnaN
aN
−+
+
>
+−−+
−+
⇒
+
+
+−−
−
>
+−−+
−+
1
1
1
1
!1!
!1
!!
!
!!
!
!!1
!1
 
 
( )( ) ( )( )⇒+−−++>−+−+ xnaNNnNaN 1111 
 
( ) ( ) ( ) ( ) ( ) ( ) ( )⇒+++−+−+>++−+−+ 1111111 22 NxNnNaNanNaNnN 
( ) 111 −<⇒<+⇒+>
x
anN
x
anNNxan . 
 Fazendo agora ( ) ( )
~~
xx NLNL <+1 obteremos 1−>
x
anN . 
( ) ( ) 11 −<⇔>+
x
anNNLNL
~~
xx 
( ) ( ) 11 −>⇔<+
x
anNNLNL
~~
xx 
 Há duas possibilidades, 
x
an
 pode ser inteiro e 
x
an
 pode não ser inteiro. 
Exemplo 58,
x
an
= Exemplo 8=
x
an
 
 8 7 = 8 
 7 9 6 9 
 N O N O 
 3 3 
 2 2 
1 1 




=
X
anNˆ 






=
−=
X
anNˆ
X
anNˆ
2
1 1
 
 
b) Achando o EMV através de um processo iterativo 
 Em algumas situações a função de verossimilhança não apresenta solução analítica 
explicita. Portanto, métodos numéricos precisam ser usados para auxiliar na busca do EMV. 
Função maior inteiro contido 
 63
Um exemplo de tal situação está ilustrado no exemplo (v) acima da distribuição de Cauchy. 
Vejamos agora um procedimento para usarmos um método numérico passo-a-passo. 
 
Resultados que precisaremos: 
(1) Série de Taylor de uma função ( )xf : ( ) ( ) ( ) ( )∑
∞
=
−=
0
0
0
!n
n
n
xx
n
xf
xf . 
Truncando a série de Taylor até o primeiro grau obtemos: ( ) ( ) ( ) ( )000 ' xfxxxfxf −+≅ . 
 Denotemos por ( ) ( )
θ
θ
d
θLlnd
U ~
x
= a função escore. Já sabemos que o EMV θˆ é a 
solução da equação ( ) 0=θˆU , quando o método da diferenciação se aplica. Se usarmos a 
aproximação da série de Taylor até o primeiro grau na função ( )θˆU obteremos, 
( ) ( ) ( ) ( ) ( )( )000000 'ˆ'ˆˆ0 θ
θθθθθθθθ
U
UUUU −≅⇒−+≅= . (3.1) 
 Da Equação (3.1) derivamos o procedimento iterativo de Newton Raphson, 
( )
( )j
j
jj U
U
θ
θ
θθ
'
1 −≅+ , (3.2) 
que é iniciado com um valor inicial 0θ (podendo ser usado o método dos momentos para este 
fim) em (3.2), e a cada iteração o valor de 1+jθ é atualizado. O processo iterativo segue até 
que o procedimento se estabilize, ou seja, para um 0>ε pequeno, εθθ <−+ jj 1 . Assim, o 
valor θˆ em que o procedimento se estabiliza será o EMV. Existem outros métodos iterativos, 
que não serão abordados neste curso, que também são bastante utilizados, mas para nosso fim 
o método de Newton Raphson será o suficiente. 
 
Aplicação – Seja X uma v.a. com função densidade e função de distribuição acumulada dada 
respectivamente por, 
( ) ( ) [ ]( )xIxxf X 1,112
1
−
+= θ , com [ ]1,1−∈θ e 
( ) ( ) ( )
4
1
2
1
2
21
2
1 2
1
2
1
−
+
+
=
+
=+=
−
−
∫
xx
tt
dttxF
x
x
X
θθθ . 
 A função de verossimilhança é dada por, 
 64
( ) ( ) ( ) ( ) ( ) ( )∑∑∏ === +−=⇒+==⇒+=
n
i i
i
n
i i
i
n
i
in
x
x
'U
x
x
d
Llnd
UxL
1
2
2
11 11
1
2
1
θ
θ
θθ
θ
θθθ ~
~
x
x . 
 Assim, o procedimento (3.2) se reduz a 
( )∑
∑
=
=
+
+
+
+=
n
i ij
i
n
i ij
i
jj
x
x
x
x
1
2
2
1
1
1
1
θ
θ
θθ . (3.3) 
 
Nota: Repare que o índice j (processo iterativo) não tem relação alguma com o índice i 
(elementos da amostra)! 
 
Resultados que precisaremos: 
(2) Teorema – Se X é uma v.a. com função de distribuição acumulada ( )•XF , então: 
a – ( ) ( )1,0~ UXFU X= . 
b – Se ( )1,0~ UU , então ( )UFX X 1−= tem função de distribuição acumulada ( )•XF . 
Aplicação: Gerar números aleatórios de uma ( )•XF especificada através da ( )1,0U . 
 
 Para usarmos o procedimento iterativo de Newton Raphson precisaremos gerar 
números aleatórios segundo a distribuição definida por ( ) ( )
4
1
2
1 2 −
+
+
=
xx
xFX
θ
. Entretanto, 
essa não é uma distribuição usual e assim, muito provavelmente, não acharemos um software 
que já contenha uma função para gerar números aleatórios de acordo com tal ( )•XF . Para 
tanto, usaremos o resultado acima envolvendo a distribuição uniforme. 
( ) ( ) ( ) uxxuxxxFX 41224
1
2
1 22
=−++⇒=
−
+
+
= θθ . Vamos agora inverter a função ( )•XF 
para acharmos ( )•−1XF . 
( )
( )







−−−+−
=
−−−−−
=
=−−++
θ
θθ
θ
θθ
θθ
u
x
u
x
uxx
4211
4211
04222 , 
como 11 ≤≤− x temos que ( )
θ
θθ u
x
4211 −−−+−
= . (3.4) 
 65
 Dessa forma, para gerar números aleatórios segundo a distribuição 
( ) ( )
4
1
2
1 2 −
+
+
=
xx
xFX
θ
, basta gerar em (3.4) valores de u a partir da ( )1,0U . 
 
3.2 – PROPRIEDADES DOS ESTIMADORES 
 Veremos nesta seção algumas propriedades que tornam um estimador mais atraente 
do ponto de vista estatístico. As Subseções 3.2.4 e 3.2.5 tratam de propriedades assintóticas e, 
portanto associadas ao tamanho da amostra. A ênfase será dada aos EMV. 
 
3.2.1 – NÃO-TENDENCIOSIDADE 
 A propriedade de não-tendenciosidade já foi abordada na Unidade I. Vale ressaltar, 
entretanto, que não há garantia de que tanto o método de momentos quanto o de máxima 
verossimilhança forneçam estimadores não-tendenciosos. Por exemplo, no caso da 
distribuição normal ( )2σµ , ambos os métodos fornecem os mesmos estimadores para os 
parâmetros µ e 2σ . Todavia, verifica-se que o estimador X para a média populacional ( )µ 
é não-tendencioso. O mesmo não acontece com o estimador da variância populacional ( )2σ , 
( )∑
∑
=
=
−=−=
n
i
i
n
i
i
XX
n
X
n
X
ˆ
1
221
2
2 1σ , que é tendencioso. 
 Conclusão, seja pelo método dos momentos ou de máxima verossimilhança cada 
caso terá que ser investigado separadamente para sabermos se o estimador obtido é de fato 
não-tendencioso. 
 
3.2.2 – O MMV E A SUFICIÊNCIA 
 Vimos na Unidade II um conceito muito importante para uma estatística, o de 
suficiência. Seria desejável que um estimador fosse função de uma estatística suficiente. Para 
o método dos momentos não há garantias de que o estimador obtido seja função de uma 
estatística suficiente. No entanto, para o MMV podemos afirmar que o EMV é função de uma 
estatística suficiente. Assim, o EMV contém, num certo sentido, toda a informação sobre o 
parâmetro, que ele está estimando, presente na amostra. 
 66
Teorema 3.1: Sejam nX,,X L1 uma AAS de uma v.a. X com função de densidade ou de 
probabilidade ( )
~
θxf . Seja ( )
~
XT uma estatística suficiente para 
~
θ . Então o EMV θˆ , dado 
que exista, será função de ( )
~
XT . 
Prova: Pelo critério da fatoração temos que se ( )
~
XT
 é suficiente então a verossimilhança 
pode ser escrita como o produto de dois fatores, isto é, 
( ) ( ) ( )[ ]
~
θ
~~~
xxxθ
~
TghL = . 
 Sabemos que ( )[ ]
~
θ
x
~
Tg depende de 
~
x apenas através de T. Como ( )
~
xh
 não depende de 
~
θ , maximizar ( )
~~
xθL
 com relação a 
~
θ
 é equivalente a maximizar ( )[ ]
~
θ
x
~
Tg com relação a 
~
θ . 
Como ( )[ ]
~
θ
x
~
Tg depende de 
~
x somente através de T, temos que 
~
θˆ
 será certamente função da 
estatística suficiente ( )
~
XT . 
 
3.2.3 – INVARIÂNCIA DO EMV 
 O princípio da invariância, como o próprio nome sugere, diz que uma vez 
encontrado o EMV, θˆ , se quisermos saber sobre o EMV de uma função, ( )•g , basta 
aplicarmosa função ao EMV. Em outras palavras, o ( )[ ]θgEMV = ( )θˆg . 
 
Teorema 3.2: (Princípio da invariância do EMV) Sejam nX,,X L1 uma AAS de uma v.a. X 
com função de densidade ou de probabilidade ( )
~
θxf . Se 
~
θˆ é um ( )
~
θEMV , então ( )
~
ˆg θ é um 
( )[ ]
~
θgEMV . 
Prova: Mostraremos a prova apenas para o caso uniparamétrico em que a função é invertível. 
Sendo ( )•g uma função invertível temos que ( )[ ]θθ gg 1−= . Portanto, 
( ) ( )[ ]( )
~~
xx θθ ggLL 1−= . 
 Dessa forma, θˆ maximiza os dois lados da equação. Assim, 
( )[ ] ( ) ( )θθθθ ˆggggˆ =⇒= −1 . 
 Conclusão o ( )[ ] ( )θθ ˆggEMV = . 
 67
Exemplos – Sejam nX,,X L1 uma AAS de uma: 
i) ( )2σµ ,N~X , o ( ) XEMV =µ 
O ( )[ ] ( )XosenosenEMV =µ 
O ( )[ ] ( )22 XEMV =µ 
Se 1=σ e ( ) ( ) ( )µφµ µ −=≤= 0XPg . Então o ( )[ ] ( )XgEMV −= φµ 
ii) ( )pBernoulli~X , o ( ) XpEMV = 
O ( )[ ] ( )XXppEMV −=− 11 
iii) ( )λExp~X , o ( ) XEMV 1=λ 
O ( )[ ] XeeXPEMV 11 −− ==> λλ 
 
3.2.4 – DISTRIBUIÇÃO DO EMV EM AMOSTRAS GRANDES 
 Na subseção anterior vimos a propriedade de invariância dos estimadores de máxima 
verossimilhança. A propriedade de invariância certamente auxilia bastante na busca de EMV 
baseado em funções de outros EMV bastante complicadas. Todavia, determinar a distribuição 
desses estimadores não é tarefa fácil, em alguns casos, pode ser extremamente complicado. 
Vejamos, por exemplo, o item (i) da subseção anterior, ( )[ ] ( )XgEMV −= φµ . Desenvolver 
teoricamente a distribuição para ( )X−φ é uma tarefa bastante difícil. Felizmente existe um 
resultado assintótico que estabelece uma distribuição limite para os EMV. Para que o 
resultado valha certas condições de regularidade para o estimador têm que ser satisfeitas. 
 
Para o nosso curso as condições de regularidade podem ser descritas como: 
(i) O suporte do estimador tem que ser independente do parâmetro que está sendo 
estimado; 
(ii) Que seja possível trocar as ordens das operações de derivação e integração sob a 
distribuição da v.a. Em outras palavras, a seguinte igualdade vale 
( ) ( ) ( ) ( )[ ]∫∫ = dxxfxgd
ddxxfxg
d
d
θθ θθ
. Onde ( )•g é uma função mensurável. 
 68
Resultados 
(1) ( ) ( )












−
321
Variância
10
θ
θθ
F
a
I
,N~ˆn ou ( )












321
Variância
1
θ
θθ
F
a
nI
,N~ˆ ; 
(2) ( ) ( )[ ] ( )[ ]( )












−
43421
Variância
2
0
θ
θθθ
F
a
I
g´
,N~gˆgn ou ( ) ( ) ( )[ ]( )












43421
Variância
2
θ
θθθ
F
a
nI
g´
,gN~ˆg , 
onde símbolo “
a
~ ” significa distribuição assintótica e o fator ( )θFI é chamado de informação 
de Fisher. A informação de Fisher é dada pela seguinte expressão: 
( ) ( ) ( )





−=














= θ
θ
θ
θ
θ Xfln
d
dEXfln
d
dEI F 2
22
 (3.5) 
 
Exemplos 
i) Considere o exemplo (ii) da Subseção 3.2.3. A distribuição do EMV é dada por: 
( ) ( )[ ] ( ) ( )[ ]ppp,N~pppˆgn a −−−− 12101 2 
Calculando ( ) ( ) ppppp
dp
dpg´ 2111 −=−−=−⇒ . 
Calculando ( )pI F 
( ) ( )





−= pXfln
dp
dEpI F 2
2
 
( ) ( ) ( )plnXplnXpXfln −−+= 11 
( ) ( )
p
X
p
XpXfln
dp
d
−
−
−=
1
1
 
( ) ( )( )222
2
1
1
p
X
p
XpXfln
dp
d
−
−
+−= 
( ) ( )( ) ( )
( ) ( ) ( ) ( )pppp
pp
ppp
p
p
p
p
p
p
p
X
p
XEpXfln
dp
dE
−
=
−
+−
=
−
+=
−
−
+=
=
−
−
+=





−
−
+=





−
1
1
1
1
1
11
1
11
 
1
1
1
1
2
22222
2
 
 69
Calculando ( )[ ]( )pI
pg´
F
2
 
( )[ ]
( ) ( )( )
2
2
211 ppp
pI
pg´
F
−−= 
 
ii) Considere o exemplo (iii) da Subseção 3.2.3. 
( )[ ] [ ]λλ λλ 220 −−− e,N~eˆgn a 
Calculando ( ) λλλλ
−−
−=⇒ ee
d
dg´ . 
Calculando ( )λFI 
( ) ( )





−= λλλ Xflnd
dEI F 2
2
 
( ) XlnXfln λλλ −= 
( ) XXfln
d
d
−= λλλ
1
 
( ) 22
2 1
λλλ −=Xflnd
d
 
( ) 222
2 11
λλλλ =



=





− EXfln
d
dE 
Calculando ( )[ ]( )λ
λ
FI
g´ 2
 
( )[ ]
( )
λλλ
λ 222 −
= e
I
g´
F
 
 A informação de Fisher é bastante utilizada no cálculo de cotas inferiores para 
variâncias de estimadores não-tendenciosos, que será visto com mais detalhes na Subseção 
3.2.7. Outra aplicação para a informação de Fisher é em métodos numéricos para encontrar 
estimadores. Vejamos agora alguns resultados ligados à informação de Fisher. 
Propriedades 
a) Já vimos que a função ( ) ( )θ
θ
θ Xfln
d
dU = é chamada de função escore. Quando as 
condições de regularidade estão satisfeitas temos que ( )[ ] ( ) 0=



= θ
θ
θ Xfln
d
dEUE . 
 70
Prova 
( )[ ] ( )
( )
( )
( )
( ) ( ) ( )
( ) 01 
ln
===
===












=



=
∫
∫∫
θ
θ
θ
θ
θ
θ
θ
θ
θ
θ
θ
θθ
θ
θ
d
ddxxf
d
d
dxxf
d
ddxxf
xf
xf
d
d
Xf
Xf
d
d
EXf
d
dEUE
 
Como a ( )[ ] 0=θUE ⇒ ( )[ ] ( )[ ]2θθ UEUVar = . 
b) Quando as condições de regularidades estão satisfeitas temos que a ( )θFI pode ser 
escrita de duas maneiras: ( ) ( ) ( )





−=














= θ
θ
θ
θ
θ Xfln
d
dEXfln
d
dEI F 2
22
. 
Prova 
Já sabemos que a esperança da função escore é zero, isto é, ( )[ ] 0=θUE . Também 
sabemos que a derivada de zero em relação ao parâmetro θ também é zero, ou seja, 
( )[ ] ( ) 000 =



⇒== Xfln
d
dE
d
d
d
dUE
d
d
θθθ
θ
θ
. 
Desenvolvendo a expressão ( ) 0=


 Xfln
d
dE
d
d
θθ
. 
( ) ( ) ( ) ( ) ( ) =










=



=



= ∫∫
4444 34444 21
produto um de Derivada
0 dxxfxfln
d
d
d
ddxxfxfln
d
d
d
dXfln
d
dE
d
d
θθθθθθ
 
( ) ( ) ( ) ( )
( ) ( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( ) ( ) =











+





=
=





+





=
=





+





=
∫∫
∫∫
∫∫
dxxfxfln
d
d
xfln
d
ddxxfxfln
d
d
dxxf
xf
xf
d
d
xfln
d
ddxxfxfln
d
d
dxxf
d
d
xfln
d
ddxxfxfln
d
d
θθθ
θ
θθ
θθθ
2
2
2
2
2
2
 
 
 
 
 
( ) ( ) ( ) ( ) ( ) ( ) ⇒





+





=





+





= ∫∫
2
2
22
2
2
 Xfln
d
dEXfln
d
dEdxxfxfln
d
ddxxfxfln
d
d
θθθθ
 
 71
( ) ( )





−=



⇒ Xfln
d
dEXfln
d
dE 2
22
θθ
. 
c) Uma propriedade muito importante envolvendo a informação de Fisher é que a 
informação total de Fisher de θ correspondente à amostra observada é a soma da 
informação de Fisher das n observações da amostra. 
( ) ( ) ( ) ( )
( )θ
θ
θ
θ
θ
θ
θ
θ
θ
F
n
i
i
n
i
i
nI
d
Xflnd
E
d
Xflnd
E
d
flnd
E
d
flnd
E
=
=





−=





−=








−=
















∑∑
==
 
1
2
2
1
2
2
2
22
~~
XX
 
3.2.5 – CONSISTÊNCIA E BAN 
 O critério de consistência, que ajuda a avaliar a qualidadede um estimador, não é 
baseado em tamanho de amostra fixo. Na verdade, a consistência é definida para tamanho de 
amostras crescentes, e por isso, é uma propriedade de uma seqüência de estimadores e não de 
um elemento da seqüência. Todavia, normalmente chamamos o estimador de “estimador 
consistente”. 
 Veremos a seguir dois tipos de consistências, a consistência do erro quadrático médio 
e a consistência simples. Chamamos a atenção daqui para frente que toda vez que usarmos o 
termo “estimador consistente” estaremos na realidade nos referindo a seqüência de 
estimadores do qual ele faz parte. 
 
Definição 3.2: Consistência do Erro Quadrático Médio (EQM) – Seja nT,,T L1 uma seqüência 
de estimadores para θ, onde nT é baseado numa amostra de tamanho n. Essa seqüência é 
definida como consistente para o EQM ⇔ ( ) Θ∈∀=−
∞→
θθ ,TElim n
n
02 . 
 
Observação Importante: A consistência do EQM implica que tanto a variância quanto a 
tendência se aproximam de zero quando o tamanho da amostra cresce indefinidamente, já que 
( ) ( ) ( ) ( )nnnn TBTVarTETEQM 22 +=−= θ . 
Exemplo 3.1: Em uma amostra de uma v.a. com uma densidade qualquer, cuja esperança seja 
µ e variância seja 2σ . Sejam ∑
=
=
n
i
in X
n
X
1
1
 e ( )∑
=
−
−
=
n
i
nin XX
n
S
1
22
1
1
 seqüências de 
 72
estimadores para µ e 2σ , respectivamente. Mostraremos que ambas as seqüências são 
consistentes para os seus respectivos parâmetros. 
 Já sabemos que tanto nX quanto 
2
nS são estimadores não tendenciosos para µ e 2σ , 
respectivamente. Portanto, os EQM´s = Var’s. Para mostrarmos, então, que as seqüências são 
consistentes para os EQM’s basta mostrarmos que suas variâncias tendem a zero à medida que 
n tende a infinito. 
( ) ( )
( ) ( ) ( ) .XE,
n
n
n
SVarSEQM
n
XVarXEQM
n
nn
n
nn
4
4
4
4
22
2
 onde 0
1
31
0
µµσµ
σ
−=





−
−
−==
==
→
→
∞→
∞→
 
 
Definição 3.3: Consistência Simples (Fraca) – A consistência simples, ou simplesmente 
consistência, é definida em função de um limite de uma probabilidade da seguinte forma: Seja 
nT,,T L1 uma seqüência de estimadores para θ. A seqüência ( ){ }nT é consistente para θ se 
0>∀ε 
( ) ( )
( ) ( ) ( )[ ]



=+>+−<=>−
=+≤≤−=≤−
∞→∞→
∞→∞→
0
ou
1
θεεθεθ
θεεθεθ
nn
n
n
n
n
n
n
n
TPTPlimTPlim
TPlimTPlim
. 
O conceito de consistência está ligado ao conceito de convergência em probabilidade. 
Normalmente usamos a desigualdade de Chebyshev para a verificação dessa propriedade. 
Desigualdade de Chebyshev: ( ) ( )2
2
ε
θ
εθ −≤>− TETP . 
 
Exemplo 3.2: Seja nX,,X L1 uma AAS de tamanho n da distribuição da v.a. X com esperança 
θ e variância 2σ . Mostraremos que a seqüência de estimadores { }nX é consistente. 
( ) ( ) 022 =>−⇒≤>−
∞→
εθ
ε
σ
εθ XPlim
n
XP
n
, assim X é um estimador consistente. 
 
Observação: Se um estimador for consistente para o EQM ⇒ consistente. A volta não é 
necessariamente verdadeira. 
Prova: ( ) ( ) ( )2 222 1 ε θεθεθ −−≥≤−=≤− nnn TETPTP , se ( ) 02 →−⇒∞→ θnTEn , pois 
ele é consistente para o EQM. 
 73
 
Teorema 3.3: Consistência dos EMV – Seja θˆ o ( )θEMV , sob as condições de regularidades, 
( ) 0=>−
∞→
εθθˆPlim
n
. 
 
Definição 3.4: O melhor estimador assintoticamente normal (Best Asymptotically Normal – 
BAN) – Uma seqüência de estimadores *n* T,,T L1 de θ é definido como BAN ⇔ as quatro 
condições são satisfeitas: 
(1) ( ) ( )( )[ ]20 θσθ *
n
*
n ,NTn
∞→
≈− ; 
(2) ( ) Θ∈∀=>−>∀
∞→
θεθε ,TPlim *n
n
0 0 , *nT é consistente; 
(3) Seja { }nT uma outra seqüência de estimadores consistentes que satisfaça (1) 
( )( )[ ]20 θσ,N
n ∞→
≈ ; 
(4) ( ) ( ) θθσθσ ∀> ,* em um intervalo aberto. 
 A utilidade desse resultado vem do fato de que muitos estimadores usuais são 
assintoticamente normais. É sabido que amostras retiradas de populações normais, com 
esperança µ e variância 2σ , têm a seqüência L,,n,XX
n
T n
n
i
i
*
n 21 
1
1
=== ∑
=
 como 
estimadores BAN. Entretanto, há vários outros estimadores para essa situação que também são 
estimadores BAN para µ, isto é, com a mesma distribuição normal no limite. Por exemplo, 
,,,n,X
n
T
n
i
i
'
n L21 1
1
1
=
+
= ∑
=
 também é um estimador BAN. 
 
3.2.6 – FAMÍLIA EXPONENCIAL E O MMV 
 Se a distribuição da v.a. X pertence à família exponencial unidimensional de 
distribuição, então o ( )θEMV baseado na amostra 
~
X é solução da equação ( )[ ] ( )
~~
XX TTE = , 
desde que a solução pertença ao espaço paramétrico correspondente de θ. 
Esse resultado pode ser estendido para o caso k-paramétrico em que os estimadores de 
máxima verossimilhança de k,, θθ L1 seguem como soluções das equações 
( )[ ] ( ) k,,j,TTE jj L1==
~~
XX . 
 
 74
Exemplo 3.3: Consideremos uma população com três tipos de indivíduos denominados 
(rotulados) 1, 2 e 3, ocorrendo na proporção de Hardy-Weinberg ( ) 2;1 θθ =p , 
( ) ( )θθθ −= 12;2p e ( ) ( )21;3 θθ −=p , com ( )10,∈θ . Para uma amostra de tamanho n = 3 
indivíduos , se 11 =x , 22 =x e 13 =x , significa que o primeiro e terceiro indivíduos 
observados são do tipo 1 e o segundo indivíduo é do tipo 2. A ( )
~
XθL da amostra observada 
é dada por: 
( ) ( ) ( ) ( ) ( )
θθ
θ
θ
θθθθθθ
−
−=⇒−++=⇒−=
1
1515212 5
~~~
XXX L
d
dlnlnlnLlnL . 
Achando o EMV: 
6
50550
1
15
=⇒=−−⇒=
−
− θθθ
θθ
ˆˆˆ
ˆˆ
. (3.6) 
Verificando que θˆ é ponto de máximo: ( )
{ ( ) ( ) θθθθθθ
ˆEMVL
d
d
=⇒<
−
−−=
>
>
0
1
15
0
2
0
22
2
43421
~
X . 
 
Nota: A distribuição acima pode ser vista como uma multinomial, com três categorias 
mutuamente excludentes, onde as probabilidades de sucessos para cada categorias são: 
( ) ( )23221 1 e 12 θθθθ −=−== pp,p , com 12122 222321 =+−+−+=++ θθθθθppp . 
 Em geral, para uma amostra de tamanho n, sendo 321 e nn,n o número de elementos de 
{ }nx,,x L1 iguais a 1, 2 e 3, respectivamente, temos que a verossimilhança é dada por: 
( ) ( ) ( ) nnnnnnnnnL 2222 1
1
212
21
223212 θ
θ
θθθθ −





−
=−=
+
++
~
X . 
Assumindo que os ni’s são quantidades conhecidas, o único parâmetro desconhecido 
envolvido na verossimilhança acima é θ. Portanto, verificamos que ( )
~
XθL pertence à família 
exponencial. 
( )
( )
{( )
( )
( )
( )
⇒


















−
+−=
321
4342143421
θ
θ
θ
θθθ
1
2
1
212 21
2
w
tc
n
xh
n lnnnEXPL
~
X 
( )[ ] ( ) ( ) .nnnNNETE θθθθ 21222 221 =−+=+=⇒
~
X 
 Usando o resultado da família exponencial e do MMV temos que, 
( )
n
NNEMV
n
NN
ˆˆnNN
2
2
2
222 212121
+
=⇒
+
=⇒=+ θθθ . (3.7) 
 75
 Se substituirmos os valores amostrais observados em (3.7) obteremos: 
( )
6
5
32
122
=⇒
×
+×
= θθ ˆEMV , que é exatamente o valor obtido em (3.6). 
 
3.2.7 – EFICIÊNCIA 
 Veremos nesta seção mais um critério para avaliarmos a qualidade de um estimador, o 
critério da eficiência. Como a classe de todos os estimadores para um determinado parâmetro 
é extremamente grande, assim, escolhermos um estimador com o “menor EQM” torna-se uma 
busca intratável do ponto de vista prático e teórico. 
 
Qual é a solução que podemos adotar para contornarmos esse empecilho? 
Resposta: Restringirmos a classe dos estimadores. 
Objetivo: Estudarmos os estimadores não-tendenciosos. 
 
Desigualdade de Cramér-Rao (Cota Inferior para a Variância de Estimadores Não-
Tendenciosos). Sejam nX,,X L1 umaAAS de uma v.a. X com função densidade ou de 
probabilidade ( )θxf satisfazendo as condições de regularidade da Subseção 3.2.4 e seja 
( ) ( )nX,,XWW L1=
~
X um estimador não-tendencioso para ( )θg e ( )[ ]
~
XWE
 seja 
diferenciável em relação a θ. Então, 
 
( )[ ] ( )[ ]( ) ( )[ ]( ) ( )θθθθθ CCRnI'gnI
WE
d
d
WVar
FF
==




≥
2
2
~
~
X
X . 
Definição 3.5: Chamamos de eficiência de um estimador θˆ , não-tendencioso para θ, o 
quociente ( ) ( )( )θθθ ˆVarCCRˆe = , 
em que ( )θCCR é o limite inferior dos estimadores não-tendenciosos para θ. 
 
Observações: 
(1) Se ( ) ( ) ( )θθθ ˆVarCCRˆe =⇒= 1 , significa que a variância de θˆ coincide com a cota 
inferior da variância dos estimadores não-tendenciosos. Nesse caso, dizemos que o 
estimador é eficiente. A eficiência está sempre no intervalo ( ) 10 ≤< θˆe . 
 76
(2) Se ( )θ1e é a eficiência do estimador 1 e ( )θ2e é a eficiência para o estimador 2, ambos 
para o parâmetro θ, com ( )θ1e > ( )θ2e . Então, o estimador 1 é mais eficiente que o 
estimador 2. Mais ainda, do ponto de vista da eficiência o estimador 1 é melhor que o 
estimador 2. 
(3) A informação de Fisher, ( )θFI , é o inverso da variância do melhor estimador não-
tendencioso para θ. Quanto maior ( )θFI , menor a variância do melhor estimador não-
tendencioso, assim, maior a informação sobre θ. 
 
 Antes de provarmos o resultado da CCR vejamos um exemplo: Vamos encontrar a 
CCR para λ quando ( )λPoisson~X . 
( ) L,,x,
x
e
xXP
x
10
!
===
−λλ
 
( ) ( ) λ
λ
λλλλ λλ
−
=−==⇒−−==
xx
xXPln
d
d
xlnlnxxXPln 1! 
( ) ( ) ( )
( ) λλ
λ
λ
λλλ
λλλ
λ
λ λ
11
1
22
2
2
222
==
=−=




 −
=⇒




 −
=



=
XVar
XEXEIxxXPln
d
d
F
 
( )
n
n
CCR λ
λ
λ == 1
1
. 
Conclusão: O estimador X tem a propriedade de ter a variância igual a cota inferior de 
Cramér-Rao. Portanto, X é eficiente, isto é, de todos os estimadores não-tendenciosos para λ, 
nenhum consegue ter uma variância menor que 
n
λ
. 
 
Nota: Quando a variância de um estimador não-tendencioso coincide com a CCR então esse 
estimador é UMVUE. 
Prova da Desigualdade de Cramér-Rao 
Resultado Usado na Demonstração – Desigualdade de Cauchy-Swarz (DCS) 
( )[ ] ( ) ( ) ( ) ( )[ ]( )YVar
Y,XCovXVarYVarXVarY,XCov
2
2 ≥⇒≤ 
 77
 O que temos que fazer é “enxergar” a desigualdade de Cramér-Rao como uma 
desigualdade de Cauchy-Swarz. Se X e Y na DCS forem iguais a ( )
~
XW e ( )θ
θ ~
Xfln
d
d
 na 
CCR teremos: 
( )[ ] ( ) ( )( )












≥
θ
θ
θ
θ
~
~~
~
X
XX
X
fln
d
dVar
fln
d
d
,WCov
WVar
2
. (3.8) 
Desenvolvendo (3.8): 
Já sabemos que ( ) ⇒= 0θθ ~XflnddE 
( ) ( ) ( )θθ
θ
θ
θ F
nIfln
d
dEfln
d
dVar =



=



⇒
2
~~
XX . (3.9) 
Vamos calcular agora a ( ) ( )




 θ
θ ~~
XX fln
d
d
,WCov . 
( ) ( ) ( ) ( ) ( )[ ] ( )− ×= θθθθθθ ~~~~~~ XXXXXX flnddEWEflnddWEflndd,WCov 
Assim, ( ) ( ) ( ) ( ) ×= θθθθ ~~~~ XXXX flnddWEflndd,WCov . (3.10) 
Calculando ( ) ( ) × θθ ~~ XX flnddWE . 
( ) ( ) ( ) ( ) ( )
( ) ( )( ) ( ) ==
==



×
∫ ∫
∫ ∫
n
n
dxdxff
f
d
d
W
dxdxffln
d
dWfln
d
dWE
LL
LL
1
1
 θ
θ
θ
θ
θθ
θ
θ
θ
~
~
~
~
~~~~~
x
x
x
x
xxxXX
 
( ) ( ) == ∫ ∫ ndxdxfd
dW LL 1 θθ
xx 
( ) ( ) ( )[ ]
~~~
Xxx WE
d
ddxdxfW
d
d
n θ
θ
θ
== ∫ ∫ LL 1 . (3.11) 
Substituindo (3.11) em (3.10) obtemos: 
( ) ( ) ( )[ ]
~~~
XXX WE
d
dfln
d
d
,WCov
θ
θ
θ
=





. (3.12) 
0 
 78
Substituindo (3.12) e (3.9) em (3.8) obtemos assim a CRR. 
( )[ ] ( )[ ]( ) ( )[ ]( ) .nI'gnI
WE
d
d
WVar
FF θ
θ
θ
θ 2
2
=




≥
~
~
X
X
 
Resultado: Os EMV são assintoticamente eficientes – ( )[ ]( ) 1=∞→ θ
θ
CCR
EMVVarlim
n
. 
Exemplo 3.4: Se ( )2σµ ,N~X encontre a CCR para µ . 
( )
( )
( ) ( )2
2
2
2
2
2
1 2
2
σ
µ
σpi
σpi
σ
µ
−
−−−=⇒=
−
− xlnlnxflnexf
x
. 
 
( ) ( ) ( )
( ) ( ) ( ) ( )[ ] .XEXEXfln
d
dEI
XXXfln
d
d
F 24
2
2
4
2
2
2
22
11
2
2
σσ
σµ
σσ
µ
µ
µ
σ
µ
σ
µ
µ
==−=


 −
=





=⇒
⇒
−
=
−
=
 
 
Assim, a ( )
n
n
CCR
2
2
1
1 σ
σ
µ == . Com isso, concluímos que o estimador X na 
distribuição é ( )µUMVUE . 
 79
Exercícios – Unidade III 
 
1 – Se ( )θ,U~X 0 
(a) Qual é o estimador de máxima verossimilhança para θ? 
(b) Qual é a cota de Cramér-Rao para θ, ( )θCCR , de um estimador não-tendencioso? 
(c) Compare a variância do ( )θEMV com a ( )θCCR . Que observação você pode fazer a respeito dessa 
comparação? 
 
2 – Considere o caso em que o vetor ( )Y,X é distribuído de acordo com a distribuição normal bivariada, com 
( )ρσσµµ ,,,, yxyx 22=θ . Portanto, 






























2
2
2
yyx
yxx
y
x
;N~
Y
X
σσρσ
σρσσ
µ
µ
, com densidade dada por: 
( ) ( )( ) ( )
( ) ( )( ) ( )
















−
+−−−
−
−
−
−
=
−
2
2
2
2
22
1 2
12
1
12 y
y
yx
yxx
xyx yyx
x
EXPy,xf
σ
µ
µµ
σσ
ρ
σ
µ
ρρpi
σσ
θ 
Como a distribuição normal pertence à família exponencial ela pode então ser escrita como: 
( ) ( )( ) ( )
( ) ( ) ( )
( ) ( ) ( ) ( ) .xyEXP
yxyEXP
xEXPlnlny,xf
yx
yx
y
y
x
x
yx
yxyx
x
y
y
yx
y
x
x
yx








−
+
−
−
−
−
−
×
×








−
−
−
−








−
−
×
×
















−
−
−−−=
σσρ
ρµµ
σρ
µ
σρ
µ
σσρ
ρ
σρσρσσ
ρµ
σ
µ
ρ
σσ
ρµ
σ
µ
ρ
ρσσpi
222
2
22
2
2
2
22
2
2222
22
2
112121
 
12
1
12
1
1
1
 
1
112θ
 
 
 Encontre os estimadores de máxima verossimilhança para ( )ρσσµµ ,,,, yxyx 22=θ . 
 
3 – Sejam nX,,X L1 uma AAS de uma v.a. X com distribuição Weibull. 
( ) 01 >= −− θθθ θ ,a,x;eaxa,xf axa . 
Encontre as equações de verossimilhança para os dois parâmetros. Como seria a sua estratégia para encontrar os 
EMV para os dois parâmetros? 
4 – Faça um programa, em qualquer linguagem, para o método iterativo de Newton-Raphson com 10 iterações 
com o intuito de encontrar o EMV. Siga as instruções da Subseção 3.1.2, página 58 para esse exercício. 
Considere as seguintes distribuições: 
 80
(a) ( ) ( ) [ ]( )xIxxf X 1,112
1
−
+= θ , com [ ]1,1−∈θ 
(b) ( )θCauchy~X , ∞<<∞− x e ∞<<∞− θ . 
 
5 – Se ( )2σµ ,N~X podemos dizer que ( ) σ=SE , isto é, S é um estimador não-tendencioso para σ? Se a 
resposta for negativa, como seria um estimador não-tendencioso para o desvio padrão populacional. 
 
6 – Seja X uma observação de uma população com 
( ) ( ) 1011
2
1
,,x,xf x
x
X −=−





=
−θθ e 10 << θ . 
 
(a) ( )xf X pertence à família exponencial? 
(b) X é uma estatística suficiente e completa? 
(c) X é umaestatística suficiente e completa? 
 
7 – Encontre uma estatística suficiente minimal para θ dada uma AAS proveniente de uma população com a 
seguinte distribuição: 
( ) ( ) ∞<<∞−∞<<= −− θθθ e x,exf xX . 
 
8 – Se ( )2σµ ,N~X encontre o 





2
2
σ
µUMVUE 
 
9 – No problema 1 da lista de exercício da Unidade I, sobre a estimação do número total de táxis – N, encontre o 
[ ]NUMVUE . (Dica: use o estimador não tendencioso 2X –1 para N) 
 
10 – Se ( )2σµ ,N~X encontre o ( )θUMVUE , sabendo que θ = ( )2σµ , .

Continue navegando