Buscar

Estatística - Resumo teórico 8.0

Prévia do material em texto

1 
 
ECO 1721 - Introdução à Estatística Econômica 
8- Conceitos Fundamentais de Inferência Estatística e de Estimação 
Resumo Teórico 
Professores: Thadeu Keller Filho e Juarez Figueiredo 
8.1 População 
 Chama-se população qualquer conjunto que é objeto de um estudo estatístico. Os 
elementos de uma população são denominados objetos elementares ou, simples-
mente, elementos da população (ou populacionais) 
 O número de elementos (objetos elementares) de uma população denomina-se ta-
manho da população. Quanto ao tamanho, uma população pode ser finita ou infini-
ta; quanto à natureza dos seus elementos (objetos elementares), uma população po-
de ser concreta (finita) ou abstrata (finita ou infinita). 
Uma população genérica será aqui denotada por: (i) 
1 2 3 NC {c ,c ,c ,...,c }
 se for fini-
ta, de tamanho N; e (ii) 
1 2 3 NC {c ,c ,c ,...,c ,...}
 se for infinita. 
8.2 Característica e População Matriz 
 Denomina-se característica um aspecto particular, qualitativo (atributo) ou quantita-
tivo (grandeza mensurável), associado aos elementos de uma população e que pos-
sui interesse para fins de estudo estatístico. Pode-se então definir uma regra de as-
sociação de valores da característica de interesse aos elementos da população, de tal 
forma que a cada elemento da população (objeto elementar) corresponda um único 
valor dessa característica. O conjunto formado por esses valores é denominado po-
pulação matriz. Assim, do ponto de vista formal, pode-se conceber a característica 
como uma função que associa a cada elemento da população o seu correspondente 
valor na população matriz. 
Serão adotadas aqui as seguintes notações: 
a) População matriz: 
1 2 3 NW {w ,w ,w ,...,w ,...}
 
b) Característica: G – a função 
 
i i
g: C W
 c w , para i =1,2,3,..., N,...

 
 
8.3 Universo 
Seja X a variável aleatória que representa o valor eventual de uma característica 
numérica associada a um elemento (objeto elementar) escolhido ao acaso de uma 
população C. A variável aleatória X denomina-se universo associado a C pela ca-
2 
 
racterística G. A distribuição de probabilidade de X é denominada, genericamente, 
distribuição de probabilidade do universo e é, em geral, desconhecida. 
Em uma população finita C, a expressão “escolha ao acaso” significa a seleção de 
um elemento (objeto elementar) da população utilizando probabilidades iguais de 
escolha. Se C é infinita, a expressão “escolha ao acaso” significa a seleção de um 
elemento (objeto elementar) da população em condições iguais de oportunidade de 
escolha. Vale observar que, neste caso, o conceito de escolha não faz referência às 
probabilidades de seleção. 
 
8.4 Amostra Aleatória 
 Considere-se um universo X e seja 
 1 2 3 nX ,X ,X ,...,X
 a variável aleatória n-
dimensional cujas componentes 
iX
(i = 1, 2, 3, ... , n) correspondem a n observa-
ções (determinações) de X. A variável aleatória n-dimensional 
 1 2 3 nX ,X ,X ,...,X
denomina-se amostra aleatória de tamanho n do universo X. Deve-se destacar que, 
sendo as componentes da amostra observações do universo X, então todas as variá-
veis 
iX
 (i = 1, 2, 3, ... , n) possuem a mesma distribuição do universo. A distribui-
ção de probabilidade conjunta da variável aleatória 
 1 2 3 nX ,X ,X ,...,X
é denomi-
nada distribuição de probabilidade da amostra, sendo geralmente desconhecida. 
Convém ainda ressaltar que o conceito de amostra aleatória é abstrato e correspon-
de à definição de uma variável aleatória que pode assumir determinações distintas 
em cada observação possível. 
Há dois tipos de amostra a serem considerados. 
8.4.1 Amostra Aleatória Simples (AAS) 
Denomina-se amostra aleatória simples uma amostra 
 1 2 3 nX ,X ,X ,...,X
na qual as 
componentes são independentes. Portanto, a amostra aleatória simples caracteriza-
se por ter as componentes 
iX
 (i = 1, 2, 3, ... , n) independentes e identicamente dis-
tribuídas. O processo de obtenção de uma amostra desse tipo é denominado esque-
ma de amostragem aleatória simples. A amostra aleatória simples é indicada abre-
viadamente por AAS. 
8.4.2 Amostra Sem Reposição (ASR) 
Quando a população considerada é finita, em geral a seleção de seus elementos para 
observação da amostra é realizada sem reposição. Nessas condições, se a caracterís-
tica de interesse é fixa (para cada elemento da população) e a seleção dos elementos 
populacionais é realizada com igual probabilidade de escolha de cada um, tem-se 
então uma amostra 
 1 2 3 nX ,X ,X ,...,X
 em que as variáveis 
iX
 (i = 1, 2, 3, ... , n) 
são identicamente distribuídas mas não são independentes. Essa amostra é denomi-
nada amostra aleatória sem reposição. O processo de obtenção de uma tal amostra é 
3 
 
denominado esquema de amostragem sem reposição. A amostra aleatória sem repo-
sição ou simplesmente amostra sem reposição é indicada abreviadamente por ASR. 
Cabe observar que se uma população tiver as características descritas anteriormente 
mas a seleção de seus elementos for realizada com reposição tem-se uma amostra 
aleatória simples, pois nesse caso há independência na seleção de seus elementos. 
Porém, na prática, não se utiliza a reposição de elementos observados. 
8.4.3 Determinação da Amostra (ou Amostra Efetiva) 
Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória de tamanho n de um universo X e 
represente-se por 
 1 2 3 nx ,x ,x ,..., x
uma particular observação (determinação) dessa 
amostra. Esse vetor de números reais denomina-se determinação da amostra ou, 
ainda, amostra efetiva. 
 
8.5 Parâmetros Populacionais e Distribuições do Universo e da Amostra 
Entre os conceitos básicos centrais da Inferência Estatística tem-se aqueles de pa-
râmetros populacionais, de distribuição do universo e dos parâmetros do universo. 
Na definição dos parâmetros populacionais há dois casos a considerar, conforme a 
população seja finita ou infinita. 
8.5.1 Parâmetros de uma população finita 
Sejam 
1 2 3 NC {c ,c ,c ,...,c }
uma população finita de tamanho N e G a característica 
de interesse, cujos valores são admitidos fixos. Represente-se agora por 
1 2 3 NW {a ,a ,a ,...,a }
 a população matriz associada a C pela característica G. Nesse 
caso, definem-se certos parâmetros populacionais, como a média e a variância dos 
valores dessa característica para todos os elementos da população. Os principais pa-
râmetros considerados são: a média, a variância e o total. Mas é útil tratar separa-
damente dois casos, conforme o tipo da característica: (i) quantitativa (isto é, numé-
rica); e (ii) qualitativa (isto é categórica ou atributo). 
a) Característica quantitativa ou numérica 
Sendo numérica a característica, definem-se os parâmetros a seguir. 
Média da População 
A média da população é definida por 
 N
i
i=1
1
μ a
N
 
 
Variância da População 
A variância da população é definida por 
4 
 
 
 
2N N
2 2 2
i i
i=1 i=1
1 1
σ a -μ a μ
N N
   
 
Total da População 
O total da população é definido por 
 N
i
i=1
τ a
 
e portanto está relacionado com a média populacional, como é mostrado a seguir. 
 N N
i i
i=1 i=1
1
τ a N a Nμ
N
   
 
b) Característica qualitativa ou categórica – para atributo dicotômico 
Nesse caso, é comum definir-se a característica por meio de uma variável binária 
indicadora que assume os valores 0 ou 1, conforme indiquem a ausência ou a pre-
sença do atributo no elemento populacional. 
Desse modo, definem-se os parâmetros a seguir. 
Proporção de elementosna população que possuem certo atributo A 
A proporção de elementos da população que possuem o atributo A é definida por 
A
A
N
p
N

 que equivale à média populacional para a variável indicadora 
onde 
AN
representa o número de elementos da população que possuem o atributo A 
e N é o tamanho da população. 
Variância 
A variância da população é definida por 
2 A A
A A
N N
σ p (1 p ) 1
N N
  
     
  
 que equivale à variância populacional para a va-
riável indicadora 
Número de elementos na população que possuem certo atributo A 
O número de elementos da população que possuem o atributo A é 
A Aη N
 que equivale ao total populacional para a variável indicadora 
 
8.5.2 Distribuição do universo associado a uma população finita 
Somente será aqui considerado o caso de seleção equiprovável dos elementos da 
população. 
 
5 
 
Distribuição do Universo 
Nessas condições, admitindo-se conhecido o tamanho da população, N, a distribui-
ção do universo é determinada pela seguinte função de probabilidade: 
 
1 2 3 N
1
p(x) , para x a ,a ,a ,...,a
N
 
 
Deve-se destacar que a distribuição de probabilidade do universo é desconhecida, 
porquanto mesmo no caso em que se conhecem as probabilidades de seleção (como 
no caso ora tratado), os valores da característica são desconhecidos. 
Na determinação dos principais parâmetros do universo é conveniente tratar sepa-
radamente os dois casos, conforme o tipo da característica – quantitativa ou qualita-
tiva. 
a) Característica quantitativa ou numérica 
Média e Variância do Universo 
A média (expectância) do universo X é 
 
X
N N
X i i
x R i=1 i=1
1 1
μ E(X) x p(x) a a μ
N N
      
 
e a variância do universo é 
 
     
N N N
2 2 22 2
X i i i
i=1 i=1 i=1
1 1
σ V(X) a E(X) p(x) a μ a μ σ
N N
         
 
A expressão acima pode ser reescrita como 
 N
2 2 2 2
X i
i=1
1
σ V(X) a μ σ
N
   
 
da qual resulta 
 
 
N
2 2 2
i
i=1
a N σ μ 
 
Portanto, a média (expectância) e a variância do universo coincidem com aqueles 
parâmetros de mesma denominação definidos para a população; isto é são iguais, 
respectivamente, à média e à variância populacionais. Isso faz com que os trata-
mentos matemáticos dos casos de população finita e infinita (este último será visto 
mais adiante) sejam, no plano teórico, formal, inteiramente similares, apesar da di-
ferença conceitual que existe entre ambos. 
 
b) Característica qualitativa ou atributo 
Se a característica corresponde a um atributo dicotômico, representada por uma va-
riável indicadora binária, o universo tem distribuição de Bernoulli e portanto tem-se 
6 
 
Média e Variância do Universo 
A média (expectância) do universo X é 
 
X
N N
X i i
x R i=1 i=1
1 1
μ E(X) x p(x) a a μ p
N N
       
 
e a variância do universo é 
 
     
N N N
2 2 22 2
X i i i
i=1 i=1 i=1
1 1
σ V(X) a E(X) p(x) a μ a μ σ
N N
         
 
A expressão acima pode ser reescrita como 
 N
2 2 2 2
X i
i=1
1
σ V(X) a μ σ p(1 p) pq
N
      
 
 
8.5.3 Distribuição da amostra de uma população finita com seleção equiprovável 
Seja 
 1 2 3 nX ,X ,X ,...,X
 uma amostra aleatória de tamanho n do universo X deter-
minado pela escolha ao acaso em uma população finita. Na determinação da distri-
buição da amostra é necessário considerar os dois casos possíveis – seleção com re-
posição e sem reposição. 
a) Seleção com reposição 
Nesse caso, as componentes da amostra são independentes e a amostra é aleatória 
simples (AAS). Portanto, tem-se: 
a-i) a distribuição marginal de uma componente da amostra é determinada pela se-
guinte função de probabilidade: 
jX j j 1 2 3 N
1
p (x ) , para x a ,a ,a ,...,a
N
 
 
a-ii) a distribuição conjunta da amostra é determinada pela seguinte função de pro-
babilidade conjunta: 
1 2 nX X ...X 1 2 n i 1 2 3 Nn n
N
1 1
p (x ,x ,..., x ) , para x a ,a ,a ,...,a e i =1,2,..., n
AR N
  
 
Nesse caso, a distribuição conjunta de duas componentes quaisquer da amostra 
iX
e 
jX
, é determinada pela seguinte função de probabilidade bidimensional: 
i jX X i j i j 1 2 3 N2
1
p (x ,x ) , para x , x a ,a ,a ,...,a , com i, j 1,2,..., n
N
  
 
b) Seleção sem reposição 
Nesse caso as componentes não são independentes e a amostra é do tipo aleatória 
sem reposição (ASR). 
7 
 
b-i) a distribuição marginal de uma componente da amostra é determinada pela se-
guinte função de probabilidade: 
jX j j 1 2 3 N
1
p (x ) , para x a ,a ,a ,...,a ; com j 1,2,...,n
N
  
 
b-ii) considerando a ordem de seleção, a distribuição da amostra é determinada pela 
seguinte função de probabilidade conjunta n-dimensional: 
1 2 nX X ...X 1 2 n i 1 2 3 Nn
N
1 2 n
1 1
p (x ,x ,..., x ) , para x a ,a ,a ,...,a
A N(N-1)(N-2)...(N-n 1)
com i 1,2,..., n , sendo x x ... x
  

   
 
Além disso, nesse caso a distribuição conjunta de duas componentes quaisquer da 
amostra, 
iX
e 
jX
, é determinada pela seguinte função de probabilidade bidimensi-
onal:
i jX X i j i j 1 2 3 N
i j
1
p (x ,x ) , para x , x a ,a ,a ,...,a , com i, j 1,2,..., n , e i j ;
N(N-1)
sendo x x
   

 
Covariância entre duas componentes da amostra 
No caso de população finita, convém ainda determinar a covariância entre pares de 
variáveis componentes da amostra. Sejam 
iX
 e 
jX
 duas componentes distintas da 
amostra aleatória. A covariância entre elas é calculada pela expressão 
       i j ij i j i jCov X ,X σ E X X E X E X  
 
Mas 
i
N N
X k k
k =1 k =1
1 1
μ E(X) a a μ
N N
    
 
 e também 
j
N N
X k k
k =1 k =1
1 1
μ E(X) a a μ
N N
    
 
Por outro lado, 
 
i j
i X j Xi j
i j i j X X i j
x R x R
E X X x x p (x ,x )
 
  
 
No cálculo dessa expressão, desenvolvido a seguir, deve-se considerar os dois casos 
de amostragem – com e sem reposição. 
a) seleção com reposição 
8 
 
Nesse caso, a soma se estende a todos os valores possíveis de 
ix
 e 
jx
, inclusive 
quando são iguais, logo 
 
i j
i X j Xi j
N N N N
i j i j X X i j i j i j2
x R x R i=1 j=1 i=1 j=1
1 1 1
E X X x x p (x ,x ) a a a a
N N N 
  
     
  
    
donde 
  2i jE X X μ
 
b) seleção sem reposição 
Nesse outro caso, a soma se estende a todos os valores possíveis de 
ix
 e 
jx
, consi-
derados conjuntamente, que devem portanto ser diferentes; logo 
 
i j
i X j Xi j
j i
N N
i j i j X X i j i j
x R x R i=1 j=1
j ix x
1
E X X x x p (x ,x ) a a
N(N-1) 

   
 
Assim, tem-se 
 
N N
i j i j
i=1 j=1
j i
1
E X X a a
N(N-1)

 
 
que equivale a 
 
N N N
2
i j i j i i j
i=1 j=1 i=1
1
E X X a a a , agora incluindo também a a
N(N-1)
 
   
 
 
 
Logo 
 
N N N
2
i j i j i i j
i=1 j=1 i=1
1
E X X a a a , inclusive com a a
N(N-1)
 
   
 
  
 
Agora, notando que na expressão acima tem-se 
N N
i j
i=1 j=1
a Nμ a  
 
e que 
 
N
2 2 2
i
i=1
a N σ μ 
 
Segue, por substituição dos resultados acima na expressão de 
 i jE X X
, que 
       2 2 2 2 2 2i j
1 1
E X X Nμ N σ μ N Nμ σ μ
N(N-1) N(N-1)
      
 
 
ou seja 
9    2 2 2 2i j
1 1
E X X N 1 μ σ μ σ
N-1 N-1
      
 
Portanto, finalmente, tem-se: 
a) no caso de seleção com reposição: 
        2 2i j ij i j i jCov X ,X σ E X X E X E X μ -μ 0    
 
A covariância é nula, como era de se esperar, pois as componentes da amostra são 
independentes e assim a amostra é do tipo aleatória simples. 
e 
b) no caso de seleção sem reposição: 
        2 2 2i j ij i j i j
1
Cov X ,X σ E X X E X E X μ - σ -μ
N-1
   
 
logo 
  2i j
1
Cov X ,X σ
N-1
 
 
A covariância não é nula, devido à interdependência das componentes da amostra. 
Mas é interessante notar que quando o tamanho da população aumenta indefinida-
mente a covariância se aproxima de zero (isto é, tende a zero no limite quando n 
tende a infinito). 
 
8.5.4 Parâmetros de uma população infinita 
Sejam 
1 2 3 NC {c ,c ,c ,...,c ,...}
uma população finita e G a característica de interesse. 
Nesse caso, a população matriz associada à população por meio da característica G 
pode ser representada por: 
i) 
1 2 3 kW {a ,a ,a ,...,a }
se somente existir um número finito k de valores possíveis 
para G; 
ii) 
1 2 3 NW {a ,a ,a ,...,a ,...}
 se existir um número infinito enumerável de valores 
possíveis para G; 
iii) 
WW R
no caso de existir uma infinidade não enumerável de valores possíveis 
para G, onde 
WR
indica um subconjunto adequado dos números reais. 
No caso de uma população infinita, os parâmetros “populacionais” são, a rigor, pa-
râmetros da distribuição de probabilidade do universo a ela associado. Assim, a 
média e a variância da população são a média e a variância da distribuição do uni-
verso. 
 
10 
 
8.5.5 Distribuição do universo associado a uma população infinita e parâmetros 
No caso de população infinita, a distribuição do universo é, em geral, totalmente 
desconhecida, embora por vezes seja possível conhecer algumas de suas caracterís-
ticas, como o tipo de distribuição, com base em informações anteriores disponíveis 
sobre o mesmo ou mesmo por meio de considerações de natureza teórica. De fato, 
nessas condições muitas vezes é possível supor um particular modelo probabilístico 
para a distribuição do universo. 
 
Distribuição do Universo 
No caso de populações infinitas, a distribuição do universo pode ser tratada de for-
ma abstrata. Seja 
XR
 o conjunto de valores admissíveis para o universo X. Seja, 
ainda, 
Xp (x)
 a sua função de probabilidade ou 
Xf (x)
 a sua função de densidade de 
probabilidade, conforme o caso do universo ser de natureza discreta ou contínua, 
respectivamente. Tem-se então as seguintes definições para os parâmetros do uni-
verso. 
Parâmetros – Média e Variância do Universo 
(i) Se X for discreto 
A média (expectância) do universo X é 
 
X
X X
x R
μ E(X) x p (x)

  
 
e a variância do universo é 
 
    
X X
2 22
X X X
x R x R
σ V(X) x E X p (x) x μ p (x)
 
     
 
A expressão acima pode ser reescrita como 
 
 
X X
2 2 2 2 2
X X X
x R x R
σ V(X) x p (x) E X x p (x) μ
 
     
 
(ii) Se X for contínuo 
A média (expectância) do universo X é 
 
X
X X
R
μ E(X) x f (x)dx  
 
e a variância do universo é 
 
   
X X
2 22
X X X
R R
σ V(X) x E X f (x) dx x μ f (x) dx       
 
A expressão acima pode ser reescrita como 
11 
 
 
 
X X
2 2 2 2 2
X x x
x R x R
σ V(X) x f (x)dx E X x f (x)dx μ
 
     
 
Os parâmetros populacionais coincidem com esses parâmetros do universo. 
 
Obs: Não tem sentido, no caso de população infinita, o parâmetro total populacio-
nal. 
 
Dois casos particulares de modelos teóricos de distribuição de probabilidade do 
universo que tem importantes aplicações são apresentados a seguir. 
 
a) Universo com distribuição normal 
Se o universo X tem distribuição normal de média 
μ
 e variância 
2σ
 então a função 
de densidade de probabilidade do universo é 
2
2
(x-μ)
2σ1f(x) , para x
2π
e

    
 
b) Universo com distribuição de Bernoulli 
Se o universo X tem distribuição de Bernoulli de parâmetro 
p
, então a função de 
probabilidade do universo é 
x 1 x x 1 x
Xp (x) p (1 p) p q , para x 0,1
    
 
 
8.5.6 Distribuição da amostra de uma população infinita 
Sejam X um universo e 
 1 2 3 nX ,X ,X ,...,X
 uma amostra aleatória de tamanho n de 
X. Então tem-se: 
i) a distribuição do universo é genericamente expressa por 
Xf (x)
, onde 
Xf (.)
deno-
ta (propriamente, com é usual) a função de densidade, se X for do tipo contínuo, ou 
a função de probabilidade (usualmente denotada por 
Xp (.)
), se X for do tipo dis-
creto. 
ii) a distribuição marginal de uma componente da amostra (seja, no caso, a i-ésima) 
é expressa por 
iX i
f (x ) , para i = 1,2,3,...,n
, sendo 
iX i
f (x )
 uma função do mesmo 
tipo da distribuição do universo 
f(x)
 
iii) a distribuição conjunta da amostra é expressa por: 
 
1 2 n i
n
X X ...X 1 2 n X i
i 1
f (x , x ,..., x ) f (x )


 
12 
 
Portanto, especificando um modelo de distribuição para o universo é possível de-
terminar tanto as distribuições marginais quanto a distribuição conjunta da amostra. 
Serão considerados apenas dois dos casos particulares de distribuição do universo – 
o que corresponde à distribuição normal e aquele correspondente à distribuição de 
Bernoulli –, por serem os mais importantes. Para esses modelos serão apresentados 
alguns resultados referentes a distribuições das estatísticas importantes na prática. 
 
a) Distribuição da amostra quando o universo tem distribuição normal 
Se o universo X tem distribuição normal de média 
μ
 e variância 
2σ
 e a amostra 
 1 2 3 nX ,X ,X ,...,X
é aleatória simples (AAS), de tamanho n, então a distribuição da 
amostra é normal multivariada de componentes independentes. Logo, tem-se as se-
guintes funções de densidade de probabilidade: 
i) distribuição do universo: 
2
2
(x-μ)
2σ1f(x) , para x
2π
e

    
 
ii) distribuições marginais das componentes da amostra 
2
i
2
i
(x -μ)
2σ
X i i
1
f (x ) , para x , e i = 1,2,3,..., n
2π
e

    
 
iii) distribuição conjunta da amostra: 
2
i
2
1 2 n
(x -μ)
n
2σ
X X ...X 1 2 n i
i 1
1
f (x , x ,..., x ) , para x , i 1,2,..., n
2π
e


     
 
Como será visto posteriormente, esse modelo de distribuição permite a determina-
ção de distribuições exatas para as principais estatísticas empregadas nas inferên-
cias. 
b) Distribuição da amostra quando o universo tem distribuição de Bernoulli 
Se o universo X tem distribuição de Bernoulli de parâmetro 
p
, e a amostra 
 1 2 3 nX ,X ,X ,...,X
é aleatória simples (AAS), de tamanho n,então tem-se as se-
guintes funções de probabilidade: 
i) distribuição do universo 
x 1 x x 1 x
Xp (x) p (1 p) p q , para x 0,1
    
 
ii) distribuições marginais das componentes da amostra 
i i i i
i
x 1 x x 1 x
X i ip (x ) p (1 p) p q , para x 0,1 com i 1,2,3,...,n
     
 
iii) distribuição conjunta da amostra: 
13 
 
i i i i
1 2 n i
n n
x 1 x x 1 x
X X ...X 1 2 n X i i
i 1 i 1
p (x ,x ,...,x ) p (x ) p (1 p) p q , para x 0,1 
 
    
 
 
8.6 Estatísticas 
 Seja 
 1 2 nX ,X …,X
uma amostra aleatória de tamanho n de um universo 
X
e re-
 presente-se por 
 1 2 nY= h X ,X ,…,X
uma função dos elementosda amostra. Se 
 essa função for observável e não depender de parâmetros desconhecidos, ela recebe 
 o nome de Estatística. 
 Note-se que toda estatística é uma variável aleatória real. A distribuição de uma 
 estatística recebe o nome de distribuição amostral (ou distribuição por amostra-
 gem) 
 Algumas Estatísticas Importantes 
 (i) Média da Amostra (ou Média Amostral) 
 
n
n j
j=1
1
X = X
n

 
 (ii) Segundo Momento Ordinário da Amostra 
 
n
2
2 j
j=1
1
M = X
n

 
 (iii) k-ésimo Momento Ordinário da Amostra 
 n
k
k j
j=1
1
M = X
n

 
 (iv) Segundo Momento Central da Amostra 
 
 
n
2
2 j n
j=1
1
M X X
n
  
 
 É fácil provar que 
2M
pode ser escrito na forma: 
 
2
n n n
2 2 2
2 j j j
j=1 j=1 j=1
1 1 1
M X X X X
n n n
     
         
     
  
 
 que se lê “Média dos Quadrados Menos o Quadrado da Média”. 
 (v) Variância da Amostra (ou Variância Amostral) 
 
 
n
22
j n
j=1
1
S X X
n 1
 


 
14 
 
 Observe-se que 
2
2
n
S = M
n 1
 
 
 
 
 
(vi) Estatística de Ordem k da Amostra 
 Considerando os valores da amostra 
 1 2 nX ,X …,X
dispostos em ordem crescente 
 
(1) (2) (k) (n)X X .... X ... X    
 denota-se por 
(k)X
 o k-ésimo valor assim defi-
nido que é denominado estatística de ordem k
 (vii) Mínimo da Amostra 
 
 (1) 1 2 nX Min X ,X …,X
 
 (viii) Máximo da Amostra 
 
 (n) 1 2 nX Max X ,X …,X
 
 (ix) Amplitude da Amostra 
    n 1 2 n 1 2 nA Max X ,X …,X Min X ,X …,X 
 
 (x) Média Geométrica da Amostra 
  1/nn 1 2 n-1 nG = X X …X X
 
 
 Distribuição Amostral de uma Estatística 
Toda estatística é uma variável aleatória real e a sua distribuição de probabilidade 
relaciona-se com a distribuição da amostra. A distribuição de uma estatística recebe 
o nome de distribuição amostral (ou distribuição por amostragem) e torna-se impor-
tante estudar tais distribuições porque elas possuem um importante papel na Infe-
rência Estatística. Esse estudo será apresentado mais adiante, na seção 8.20, por-
quanto somente após essa seção serão abordadas as aplicações das distribuições 
amostrais das estatísticas. 
 
8.7 Estimador 
Seja 
 1 2 nX ,X …,X
uma amostra aleatória de um universo
X
cuja distribuição de-
pende de um parâmetro desconhecido 
θ
. Chama-se estimador de 
θ
 qualquer esta-
tística utilizada para se estimar esse parâmetro. Um estimador do parâmetro 
θ
 é re-
presentado por 
θˆ
, onde 
 1 2 3 nθˆ h X ,X ,X ,...,X
 é uma função da amostra. 
 
 
15 
 
8.8 Estimativa Pontual 
 Chama-se estimativa pontual do parâmetro
θ
cada determinação que 
θˆ
 assume em 
uma determinação da amostra (amostra efetiva). Uma estimativa pontual de 
θ
 é re-
presentada por *θˆ . Assim, *θˆ é um número real, função da determinação da amostra 
aleatória: 
 *θˆ = 
 1 2 nh x ,x ,...,x
 
 
8.9 Tendenciosidade (ou Viés) de um Estimador 
 Chama-se tendenciosidade do estimador 
θˆ
 a diferença entre sua expectância e o 
 valor do parâmetro a ser estimado: 
    ˆ ˆθ = E θ θt 
 
 Se 
 ˆE θ =θ,
 a tendenciosidade é nula e o estimador é denominado não tenden-
 cioso. 
 
8.10 Erro Quadrático Médio de um Estimador 
 A cada estimador 
θˆ, dotado de variância, corresponde uma medida denominada 
 erro quadrático médio, definida por 
    
2
ˆ ˆEQM θ E θ θ
 
   
 
 O erro quadrático médio expressa o grau de concentração da distribuição do esti-
 mador em torno do parâmetro a ser estimado. Quanto maior for essa concentração 
 menor será o valor do erro quadrático médio. 
 
8.11 Decomposição de Erro Quadrático Médio 
 Prova-se que 
     
2
ˆ ˆ ˆEQM θ = Var θ + θt 
 
 
 Da expressão anterior verifica-se que o erro quadrático médio de um estimador so-
 mente será pequeno se tanto a variância do estimador quanto sua tendenciosidade 
 possuírem valores pequenos. 
 
8.12 Estimador Assintoticamente não Tendencioso 
 Dizemos que um estimador 
θˆ
 é assintoticamente não tendencioso se for 
16 
 
  n
ˆlim θ 0t


 ou, equivalentemente, 
 
n
ˆlim E θ = θ

 
 
8.13 Convergência ou Consistência em Probabilidade 
 Diz-se que o estimador 
θˆ
 é convergente ou consistente em Probabilidade se 
  n
ˆlim P θ θ 1 qualquer que seja 0ε ε

   
 
 Neste caso, escreve-se: 
 ˆplim θ θ
 
 
8.14 Convergência ou Consistência em Média Quadrática 
 Diz-se que o estimador
θˆ
é convergente ou consistente em média quadrática se for 
  n
ˆlim EQM θ 0


 
 Equivalentemente, 
θˆ é convergente ou consistente em média quadrática se for 
  n
ˆlim E θ = θ

 e 
 
n
ˆlim Var θ 0


 
 Assim, todo estimador consistente em média quadrática é assintoticamente não ten-
 dencioso. 
 Se 
θˆ
 for convergente ou consistente em média quadrática, escreve-se 
 
mq
θˆ θ
. 
 Demonstra-se que se 
 
mq
θˆ θ,
então 
 ˆplim θ θ
. Ou seja, se um estimador é con-
vergente em média quadrática então ele também é convergente em probabilidade. 
 
8.15 Eficiência Relativa 
 Sejam 
1θˆ
 e 
2θˆ
 dois estimadores não tendenciosos de um parâmetro 
θ
. Diz que 
1θˆ
é 
mais eficiente que 
2θˆ
 se 
   1 2ˆ ˆV θ V θ
. A medida da eficiência relativa de 
1θˆ
em 
relação a 
2θˆ
 é expressa por 
 
 
 
2
1 2
1
ˆV θ
ˆ ˆef θ ,θ
ˆV θ

 
 
17 
 
8.16 Desigualdade de Cramer-Rao 
Teorema. Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória de tamanho n de um uni-
verso X cuja função de densidade de probabilidade 
Xf (x)
(ou função de probabili-
dade 
Xp (x)
) depende de um parâmetro desconhecido 
θ
 e satisfaz certas condições 
(chamadas condições de regularidade), entre as quais que o domínio da função não 
dependa de 
θ
 e que a derivada da função de densidade (ou de probabilidade) em re-
lação ao parâmetro seja uma função continuamente diferenciável do parâmetro. Se-
ja
 1 2 nθˆ h X ,X ,…,X
 um estimador desse parâmetro 
θ
com tendenciosidade 
 ˆt θ
. 
Então: 
i) Se X é uma variável aleatória contínua 
  
  
   
2
2
X
ˆ1 ' θ dˆ ˆ ˆEQM θ onde ' θ θ
dθ
n E ln f (x)
θ
t
t t

 
  
  
   
 
 ii) Se X é uma variável aleatória discreta 
  
  
   
2
2
X
ˆ1 ' θ dˆ ˆ ˆEQM θ onde ' θ θ
dθ
n E ln p (x)
θ
t
t t

 
  
  
   
 
 Corolário. Nas mesmas condições do resultado acima, se o estimador 
θˆ
 for não 
tendencioso, tem-se; 
i) Se X é uma variável aleatória contínua 
   2
X
1ˆV θ
n E ln f (x)
θ

  
  
   
 
ii) Se X é uma variável aleatória discreta 
   2
X
1ˆV θ
n E ln p (x)
θ

  
  
   
 
18 
 
O lado direito da equação acima é uma expressão conhecida como limite inferior de 
Cramér-Rao. 
Prova-se, ainda, o seguinte teorema, válido quando o estimador 
θˆ
 for não tendenci-
oso. 
Teorema. 
i) Se X é uma variável aleatória contínua 
 
  2
X2
1ˆV θ
 n E ln f (x)
θ

 
  
 
 
ii) Se X é uma variável aleatória discreta 
 
  2
X2
1ˆV θ
n E ln p(x)
θ

 
  
 
 
Esse resultado alternativo é muitas vezes útil por tornar o cálculo do limite inferi-
or de Cramér-Rao mais simples. 
 
8.17 Suficiência 
A idéia básica de suficiência de uma estatística está relacionada a sua capacidade de 
condensar e utilizar toda a informação relevante contida na amostra para efeitos de 
inferência. 
8.17.1 Definição 
Seja 
 1 2 nX ,X ,...,X
uma amostra aleatória de tamanho n de um universo X cuja dis-
tribuição depende de um parâmetro 
θ
 desconhecido. Uma estatística 
 1 2 nθˆ h X ,X ,...,X
 é dita ser uma estatística suficiente se, a distribuição condicio-
nada da amostra para um dado valor *θˆ de θˆ independe desse valor. Isto é, se 
 *1 2 3 n ˆf x , x , x ,..., x |θ
 independe de *θˆ . 
O próximo teorema permite analisar se uma estatística é suficiente. 
 
 
19 
 
8.17.2 Teorema da Fatoração de Fisher-Neyman 
Seja 
 1 2 nX ,X ,...,X
uma amostra aleatória de tamanho n de um universo X cuja 
distribuição depende de um parâmetro 
θ
 desconhecido. Uma estatística 
 1 2 nθˆ h X ,X ,...,X
 é dita ser suficiente para 
θ
 se a distribuição da amostra dado 
um valor *θˆ de θˆ puder ser fatorada como o produto de duas funções 
t(.)
 e 
g(.)
tais que uma depende somente da estatística 
θˆ
 e do parâmetro 
θ
 e a outra depende 
só da amostra, sendo independente do parâmetro. Isto é, 
 
   1 2 3 n 1 2 3 nˆf x ,x ,x ,..., x |θ t(θ,θ) g x ,x ,x ,..., x
 
8.18 Métodos de Estimação 
Um problema importante que se coloca no campo da estimação de parâmetros é a 
determinação de estimadores para os parâmetros de interesse relativos à distribui-
ção de um universo. A seguir serão vistos dois dos métodos mais importantes para 
a determinação de parâmetros: 
i) Método dos Momentos; 
ii) Método de Máxima Verossimilhança. 
 
8.18.1 Método dos Momentos 
O método dos momentos baseia-se na idéia de que os momentos ordinários de uma 
distribuição são funções dos parâmetros dessa distribuição. Desse modo, igualando-
se a expressão de um momento ordinário (teórico) de determinada ordem da distri-
buição ao momento ordinário amostral correspondente (estatística) referente a uma 
amostra de um universo com essa distribuição fornece uma equação que, resolvida 
em termos do(s) parâmetro(s), permite estabelecer uma expressão para o estimador 
do(s) parâmetro(s). 
O procedimento para obtenção de estimadores por esse método é o seguinte: 
(1) Calculam-se, sucessivamente, os momentos ordinários do universo, de ordens j 
= 1, 2, 3, ... , k , onde k é a ordem do primeiro momento ordinário cuja expressão 
depende do parâmetro 
θ
 a ser estimado; 
(2) Essa expressão, denotada por 
 kkμ E X g(θ) 
, é igualada ao momento amos-
tral de ordem correspondente, isto é 
 
n
k k
k k i
i 1
1
E X μ g(θ) M X
n

    
. 
20 
 
(3) Essa equação, resolvida em termos de 
θ
, fornece a expressão 
 1 kθˆ g M

 do 
estimador pelo método dos momentos para o parâmetro. 
 
8.18.2 Método de Máxima Verossimilhança 
O método de máxima verossimilhança baseia-se na idéia de que os parâmetros des-
conhecidos da distribuição de um universo devem ser estimados pelos valores des-
ses parâmetros que tornam máxima a probabilidade de se obter a determinação dis-
ponível da amostra. 
a) Função de Verossimilhança da Amostra 
Considere-se um universo X, do tipo discreto ou do tipo contínuo, cuja distribuição 
depende de um parâmetro desconhecido 
θ
. Represente-se por 
f(x,θ)
a função de 
probabilidade de X, no caso de X ser do tipo discreto, ou a função de densidade de 
probabilidade de X, no caso de X ser do tipo contínuo. Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória de tamanho n de um universo X e represente-se agora por 
 1 2 3 nx , x , x ,..., x
uma particular determinação dessa amostra. Chama-se função de 
verossimilhança da amostra, associada àquela determinação da amostra, a seguinte 
função do parâmetro 
θ
: 
 
1 2 3 n i
n
1 2 3 n X 1 X 2 X 3 X n X i
i=1
L x , x , x ,..., x ,θ f (x ,θ) f (x ,θ) f (x ,θ)...f (x ,θ) f (x ,θ) 
 
Como a determinação da amostra por hipótese é conhecida, os valores da amostra 
1 2 3 nx ,x ,x ,..., x
 são constantes e a expressão anterior é função apenas do parâmetro 
desconhecido 
θ
. Assim, pode-se representar a função de verossimilhança da amos-
tra simplesmente por 
 L θ
. 
b) Estimativas e Estimadores de Máxima Verossimilhança 
Fixada a determinação da amostra 
 1 2 3 nx , x , x ,..., x
, chama-se estimativa de má-
xima verossimilhança (ou estimativa máximo-verossímil) de 
θ
 o valor *θ desse pa-
râmetro que maximiza a função de verossimilhança da amostra. Assim, a estimativa 
de máxima verossimilhança da amostra é dada por 
      * *1 2 3 n
θ
θ h x , x , x ,..., x θ|L θ Max L θ  
 
E chama-se estimador de máxima verossimilhança de 
θ
 a variável aleatória 
θˆ
 que 
assume o valor 
 * 1 2 3 nθ h x ,x ,x ,..., x
para cada determinação possível da amostra 
21 
 
 1 2 3 nX ,X ,X ,...,X
. Portanto, a expressão do estimador de máxima verossimilhan-
ça é 
 1 2 3 nθˆ h X ,X ,X ,...,X
 
c) Propriedades dos Estimadores de Máxima Verossimilhança: 
Sob condições muito gerais e não muito restritivas (que não podem ser abordadas 
em um curso elementar de Estatística), os estimadores de máxima verossimilhança 
possuem as seguintes propriedades: 
i) são consistentes em média quadrática e, portanto, são consistentes em probabi-
lidade; 
ii) são assintoticamente normais; 
iii) são assintoticamente eficientes, isto é, quando o tamanho da amostra tende a in-
finito, apresentam um erro quadrático médio não superior ao de qualquer outro es-
timador do mesmo parâmetro; 
iv) se existe um estimador mais eficiente que todos os demais, ele é um estimador 
de máxima verossimilhança; 
v) propriedade de invariância: seja 
g(θ)
 uma função contínua e monótona de 
θ
; 
admita-se que 
θˆ
 é um estimador de máxima verossimilhança de 
θ
, então 
ˆg(θ)
 é 
um estimador de máxima verossimilhança de 
g(θ)
; 
vi) os estimadores de máxima verossimilhança nem sempre existem e nem sempre 
são únicos. 
 d) Notas: 
i) em geral, ao invés de maximizar diretamente a função de verossimilhança da 
amostra, 
   1 2 3 nL x ,x ,x ,..., x ,θ L θ
, é mais fácil maximizar uma outra função, 
chamada de função de log-verossimilhança, o logaritmo neperiano da função de ve-
rossimilhança, definida por 
     1 2 3 nθ ln L x ,x ,x ,..., x ,θ ln L θl  
. Como o loga-
ritmo é uma função contínua e monótona, o resultado encontrado na maximização 
da função de log-verossimilhança é igual ao que é obtido na maximização da fun-
ção de verossimilhança; 
ii) nem sempre a maximização da função de verossimilhança pode ser obtida por 
meio das técnicas do cálculo diferencial; neste caso, são necessárias soluções espe-
ciais que muitas vezes apresentam sérios obstáculos; 
22 
 
iii) quando as técnicas do cálculo diferencial são aplicáveis, é necessário resolver a 
equação 
 
d
L θ 0
dθ

 ou, equivalentemente, a equação 
 
d
θ 0
dθ
l 
, cuja solução po-
de ser difícil ou analiticamente impossível; neste último caso, devem ser emprega-
das técnicas de cálculo numérico. 
 
8.19. Estimadores dos Parâmetros Média, Total, Proporção e Variância 
Grande parte das aplicações práticas dos métodos da Inferência Estatística relacio-
nam-se a estimação dos parâmetros média, total, proporção, número de elementos 
da população quepossuem um atributo A e variância. A seguir serão apresentados 
os estimadores desses parâmetros bem como duas de suas principais características 
– a média e a variância – para os dois esquemas de amostragem considerados. 
Em todos os casos tratados a seguir, sejam X um universo, de média de média 
μ
 e 
variância 
2σ
, e 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória de tamanho n de X. 
 
8.19.1 Estimação da Média 
Na estimação da média é empregada a estatística média aritmética amostral 
 n
n j
j=1
1
X = X
n

 
Prova-se que o estimador é convergente em média quadrática. 
Média (expectância) e variância da média amostral 
 a) Expectância de 
nX
 
 
 nE X μ
 
 b) Variância de 
nX
 
 i) Para AAS 
 
 
2
n
σ
V X
n

 
 ii) Para ASR 
 
 
2
n
σ N n
V X
n N 1



 
 
 
23 
 
8.19.2 Estimação do Total 
Na estimação do total é empregada a estatística 
 n
n j
j=1
1
 N X N X
n
τˆ   
 
Prova-se que o estimador é convergente em média quadrática. 
Média (expectância) e variância do estimador do total 
 a) Expectância de 
τˆ
 
 
 E Nμτˆ τ 
 
 b) Variância de 
τˆ
 
 i) Para AAS 
 
 
2
2 σV N
n
τˆ 
 (não tem importância prática) 
 ii) Para ASR 
 
 
2
2 σ N nV N
n N 1
τˆ



 
Obs: Como o total só é definido para uma população finita (com característica fi-
xa) a expressão da variância do estimador do total para AAS só tem valor teórico, 
porquanto, nesse caso, para obter-se o esquema AAS a seleção de elementos deve 
ser realizada com reposição, o que não é feito na prática. 
8.19.3 Estimação da Proporção 
Na estimação da proporção é empregada a estatística proporção amostral 
 n
A
n j
j=1
n1
pˆ X = X
n n
 
 
Prova-se que o estimador é convergente em média quadrática. 
Média (expectância) e variância da proporção amostral 
 a) Expectância de 
pˆ
 
 
 ˆE p p
 
 b) Variância de 
pˆ
 
 i) Para AAS 
 
 
p(1 p) pq
ˆV p
n n

 
 
24 
 
 ii) Para ASR 
 
 
p(1 p) N n pq N n
ˆV p
n N 1 n N 1
  
 
 
 
8.19.4 Estimação do Número de Elementos da População com certo Atributo A 
Na estimação do número de elementos da população que possuem certo atributo A 
é empregada a seguinte estatística 
n
A
A n j
j=1
n1
ˆ ˆη N p N X N X N
n n
   
 
Prova-se que o estimador é convergente em média quadrática. 
Média (expectância) e variância do estimador 
Aηˆ
 
 a) Expectância de 
Aηˆ
 
 
 A Aˆ ˆE η η Np 
 
 b) Variância de 
Aηˆ
 
 i) Para AAS 
 
  2 2A
p(1 p) pq
ˆV η N N
n n

 
 (não tem importância prática) 
 ii) Para ASR 
 
  2 2A
p(1 p) N n pq N n
ˆV η N N
n N 1 n N 1
  
 
 
 
Obs: Como o número de elementos da população que possuem certo atributo A só 
é definido para uma população finita (com característica fixa) a expressão da vari-
ância do estimador desse parâmetro para AAS só tem valor teórico, porquanto, 
nesse caso, para obter-se o esquema AAS a seleção de elementos deve ser realiza-
da com reposição, o que não é feito na prática. 
8.19.5 Estimação da Variância 
Na estimação da variância é empregada a estatística variância amostral. 
Há duas expressões, conforme o caso – população finita ou infinita. 
i) população infinita 
 
n n
22 2 2 2
I j j
j=1 j=1
1 n 1
σˆ S X X X X
n 1 n 1 n
 
     
  
 
 
 
 
 
25 
 
ii) população finita 
 
n n
22 2 2 2
F j j
j=1 j=1
N 1 N 1 1 N 1 n 1
σˆ S X X X X
N N n 1 N n 1 n
    
      
   
  
 
 
Prova-se que o estimador é convergente em média quadrática. 
Média e variância da variância amostral 
 a) Expectância de 2σˆ 
 
 2 2ˆE σ σ
 
 b) Variância de 2σˆ 
 i) Para AAS 
 
   
2 2
2 2 4 2 4 2
4 22 2 2
2(μ' 2μ' ) μ' 3μ'n
V S μ' μ'
(n 1) (n 1) n (n 1)
 
   
  
 
 ii) Para ASR 
 A expressão é aqui omitida por ser muito complicada, envolvendo vários termos, 
e não ser muito empregada na prática. 
Obs: 
(i) se o universo X tiver uma distribuição mesocúrtica, então 
4 2μ 3μ 
o que anula o 
terceiro termo; a distribuição normal é mesocúrtica e portanto a expressão da vari-
ância da variância amostral de universos normal se simplifica para 
 
   
2
2 2 4 2
4 22 2
2(μ' 2μ' )n
V S μ' μ'
(n 1) (n 1)

  
 
 
(ii) em qualquer dos casos, é fácil verificar que para n grande pode-se, em primeira 
aproximação, considerar apenas o primeiro termo, desprezando os demais (essa 
aproximação é boa mesmo para tamanhos moderadamente grandes de n, entre 30 e 
50). 
 
8.20.1 Distribuição por Amostragem de Estatísticas 
As estatísticas, sendo funções da amostra, são também variáveis aleatórias e assim 
possuem distribuições de probabilidade. A distribuição de probabilidade de uma es-
tatística costuma ser denominada distribuição por amostragem, porquanto tal distri-
buição depende diretamente da distribuição da variável aleatória n-dimensional que 
representa a amostra aleatória. 
A seguir serão analisadas as distribuições por amostragem das principais estatísticas 
de uma amostra. Entretanto, convém ressaltar que a referida análise restringe-se a 
tres casos apenas: 
26 
 
i) quando o universo X possui distribuição normal, caso em que se tem resultados 
exatos; 
ii) quando o universo X possui distribuição de Bernoulli, caso em que também se 
tem resultados exatos. 
iii) quando o universo possui distribuição qualquer, nos casos em que se dispõe de 
resultados assintóticos. 
 
8.20.1 Distribuição por Amostragem de Estatísticas de Universos Normais 
Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória simples de tamanho n de um uni-
verso X cuja distribuição é normal, de média 
μ
 e variância
2σ
. Então, demonstram-
se os seguintes resultados – que são exatos, válidos para qualquer tamanho, n, de 
amostra. 
A Distribuição normal da média aritmética amostral 
Teorema 1. A média aritmética amostral, n
n j
j=1
1
X X
n
 
, tem distribuição normal 
de média 
μ
 e variância 2σ
n
. Consequentemente, a transformada 
nX μZ
σ
n


 tem 
distribuição normal padronizada. 
Esse resultado é decorrência imediata do Teorema das Combinações Lineares de 
Variáveis Normais Independentes. 
 
A Distribuição de qui-quadrado da variância amostral 
Teorema 2. Sendo n
n j
j=1
1
X = X
n

 a média amostral e 
 
n
22
j n
j=1
1
S X X
n 1
 


a va-
riância amostral, então: 
i) a média amostral e a variância amostral são independentes; 
ii) a estatística 
 
n2
2
i2 2
i=1
(n 1)S 1
Q X X
σ σ

  
 tem distribuição de qui-quadrado 
com 
ν n 1 
 graus de liberdade. 
Com relação à estatística Q deve-se ressaltar que sendo o universo normal e o es-
quema de amostragem aleatório simples então a expressão 
 
   2n n n2 2 ii
i2 2
i=1 i=1 i=1
X μ X μX X(n 1)S 1
Q X X
σ σ σ σ
    
       
    
  
 
27 
 
donde 
 
2n n2
2
i
i2
i=1 i=1
X μ(n 1)S X μ
Q Z Z
σ σ σ
    
       
    
 
 
onde 
i
i
X μ
Z
σ


 para i=1,2,3,...,n e 
n
in n
i 1i
i
i 1 i 1
X n μ
X μ1 1 1 1 n X n μ X μ
Z Z
n n σ n σ nσ σ

 
 
 
       

  
Além disso, as variáveis 
iZ
 são independentes entre si e, também, cada uma delas é 
independente de 
Z
. Desse modo, resulta que a estatística Q é uma soma de quadra-
dos de variáveis normais padronizadas independentes, sendo n-1 relações indepen-
dentes; portanto Q tem distribuição de qui-quadrado com 
ν n 1 
 graus de liber-
dade. Em representação simbólica: n
2 2
i n 1
i 1
Q Z χ~ 


. 
Veja-se a nota didática Funções de Variáveis Aleatórias. 
 
A Distribuição T de Student da estatística razão T 
Teorema 3. A estatística X μ
T
S
n


, denominada razão de Student, tem distribuição 
T de Student com 
ν n 1 
 graus de liberdade. 
Com relação a essa estatística, deve-se ressaltar que ela é expressa por uma razão 
X μ
T
S
n


, conhecida como razão T de Student, a qual pode ser reescrita como 
2
2
X μ X μ X μ
X μ σ n σ n σ n
T
S S Q(n 1) S
σn (n 1)(n 1) σ
  

   


 
Ou seja, em termos de representação de distribuições de probabilidade, a razão en-
tre uma variável aleatória com distribuição normal padronizada e a raiz quadrada de 
uma variável aleatória com distribuição de qui-quadrado dividida pelo seu número 
de graus de liberdade. Em representação simbólica 
28 
 
n 1
2
n 1
Z
T T
χ
(n 1)
~ 



 
Portanto, T tem distribuição T de Student, com 
ν n 1 
graus de liberdade. Veja-se 
a nota didática sobre funções de variáveis aleatórias. 
Deve-se ainda ressaltar que o cancelamento do parâmetro 
σ
 permite empregá-la ao 
estudo de situações em que o desvio padrão, 
σ
, e assim também, a variância, 
2σ
, 
não é conhecido(a). 
 
A Distribuição F de Snedecor da estatística razão F 
Além das estatísticas examinadas até aqui, referentes a um universo com distribui-
ção normal, é importante considerar o caso de uma estatística relacionada a dois 
universos com distribuição normal, apresentado a seguir, que também é exato, váli-
do para qualquer tamanho de amostra. 
Sejam 
 1 2 3 nX ,X ,X ,...,X
 e 
 1 2 3 mY ,Y ,Y ,...,Y
duas amostras aleatórias simples de 
tamanho n, de um universo X, e de tamanho m, de um universo Y, independentes, 
cujas distribuições são normais, de médias 
xμ
 e 
Yμ
 e variâncias 
2 2 2
X Yσ σ σ 
. 
Então, demonstra-se o seguinte resultado. 
 
Teorema 4. A estatística  
 
X
Y
Q / n 1
F
Q / m 1



tem distribuição F de Snedecor com 
1ν n 1 
 e 
2ν m 1 
 graus de liberdade, nessa ordem. Em termos de representação 
simbólica, tem-se 
 
 
2
n-1
2
m-1
χ / n 1
F
χ / m 1



 
 
8.20.2 Distribuição por Amostragem da Estatística Proporção Amostral – Univer-
so com Distribuição de Bernoulli 
Os métodos de inferência relativos ao parâmetro proporção populacional dos ele-
mentos que possuem um atributo A envolvem uma característica representada por 
uma função indicadora. O parâmetro proporção é: 
i) no caso de uma população finita – esquema de amostragem aleatória sem reposi-
ção (ASR): a proporção (propriamente dita) de elementos da população que possu-
em o atributo A, definida por 
29 
 
A
A A
N
p p onde N é o número de elementos da população com o atributo A
N
 
e N é o tamanho da população. 
 
ii) no caso de uma população infinita – esquema de amostragem aleatória simples 
(AAS): a probabilidade de ser selecionado um elemento da população que tem o 
atributo A (que também é usualmente denominada proporção), definida por 
P(A) p
 
Em ambos os casos o universo tem distribuição de Bernoulli com parâmetro p, sen-
do então a sua função de probabilidade expressa por 
x 1 x
Xp p (1 p) para x 0,1
  
 
Deve-se ressaltar que o parâmetro proporção coincide com a média do universo, em 
ambos os casos. 
 
Nos problemas sobre a proporção estatística empregada é a proporção amostral, de-
finida por 
n
A
i
i 1
n1
pˆ Y X
n n

  
 
A distribuição de probabilidade dessa estatística é apresentada nos dois resultados a 
seguir. As distribuições são exatas e válidas para qualquer tamanho de amostra; po-
rém, como o tamanho da amostra empregada na maioria das aplicações práticas é 
grande, usualmente são empregadas aproximações para essas distribuições. 
Teorema 5. A estatística proporção amostral tem a seguinte distribuição: 
a) no caso de amostragem aleatória simples (AAS) 
 
  y y n yY N
1 2 3
P Y y p (y) p (1 p) , para y 0, , , , ...,1
n n n
C 
 
     
 
 
Obs: 
i) note-se que n
i
i 1
ˆn p n Y X

 
tem distribuição binomial de parâmetros n e p. 
 ii) a distribuição dessa estatística pode ser aproximada por uma normal 
 
b) no caso de amostragem aleatória sem reposição (ASR) 
 
  A A
y n y
N N N
Y n
N
C 1 2 3
P Y y p (y) , para y 0, , , , ...,1
C n n n
C   
    
 
 
30 
 
Supondo que 
An N
. 
Onde 
AN, N e n
são, respectivamente, o tamanho da população, o número de ele-
mentos da população que possuem o atributo A e o tamanho da amostra. 
Obs: 
i) note-se que n
i
i 1
ˆn p n Y X

 
tem distribuição hipergeométrica de parâme-
tros 
AN, N e n
. 
ii) a distribuição dessa estatística pode ser aproximada por uma normal 
 
8.20.3 Distribuição por Amostragem de Estatísticas de Universos Genéricos 
Base Teórica 
Na prática, é raro conhecer-se com exatidão a distribuição do universo. Portanto, os 
resultados apresentados anteriormente não tem grande amplitude no campo das 
aplicações. Entretanto, há alguns importantes resultados assintóticos, válidos para 
qualquer distribuição de probabilidade do universo. A principal sustentação teórica 
para as distribuições assintóticas é o Teorema do Limite Central. Em alguns casos é 
empregada uma extensão dos resultados assintóticos, com base no conceito de ro-
bustez. 
Métodos Robustos 
Na literatura estatística o termo robustez é muito utilizado para denotar métodos es-
tatísticos que possuem resultados aproximados mesmo quando as situações que se 
colocam na prática afastam-se dos pressupostos teóricos nos quais são deduzidos 
certos resultados; tais métodos são denominados robustos. 
 
Resultados Assintóticos e suas Extensões 
Quando o universo tem distribuição qualquer podem ser empregados os resultados 
assintóticos apresentados a seguir ou alguma extensão dos mesmos. 
Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória de tamanho n de um universo X de 
distribuição qualquer de média 
μ
 e variância 
2σ
. Então, tem-se os seguintes resul-
tados e extensões. Em todos os casos considera-se que o tamanho da amostra n, su-
ficientemente grande. 
 
Distribuição Assintótica da Média Aritmética Amostral 
Nas aplicações relativas à media de um universo a estatística empregada é a média 
aritmética amostral. 
31 
 
 n
n j
j=1
1
X = X
n

 
No que diz respeito á distribuição dessa estatística, há quatro casos a considerar, 
conforme a variância do universo seja conhecida ou não e o esquema de amostra-
gem seja AAS ou ASR, como apresentado a seguir. 
 
Teorema 6. Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória de tamanho n de um 
universo X de distribuição qualquer de média 
μ
 e variância 
2σ
. Então, para n sufi-
cientemente grande 
a) Quando a variância do universo, 
2σ
, é conhecida: 
a-i) 
nX
 tem distribuição aproximadamente normal de média 
μ
 e variância 2σ
n
, se 
o esquema de amostragem é AAS; consequentementea transformada 
nX μZ
σ n


 
tem distribuição aproximadamente normal padronizada. 
a-ii) 
nX
 tem distribuição aproximadamente normal de média 
μ
 e variância 
2σ N n
n N 1


, se o esquema de amostragem é ASR; consequentemente a transformada 
nX μZ
σ N n
N 1n




 tem distribuição aproximadamente normal padronizada. 
Obs: estes resultados são decorrentes do Teorema do Limite Central. 
 
Método robusto 
b) Quando a variância do universo, 
2σ
, é desconhecida: 
Nesse caso, estima-se a variância do universo com base na amostra observada por 
meio da estatística variância amostral, utilizando-se uma das seguintes expressões, 
conforme o caso: 
i) se o esquema de amostragem é AAS 
 
n n
22 2 2 2
I j j
j=1 j=1
1 n 1
σˆ S X X X X
n 1 n 1 n
 
     
  
 
 
 
ii) se o esquema de amostragem é ASR 
32 
 
 
n n
22 2 2 2
F j j
j=1 j=1
N 1 N 1 1 N 1 n 1
σˆ S X X X X
N N n 1 N n 1 n
    
      
   
  
 
 
Emprega-se a estatística transformada da média amostral, conhecida por razão T, 
expressa por 
nX μT
S n


, onde 
2 ˆS S σ 
 
Considera-se que a estatística T possui distribuição: 
b-i) aproximadamente T de Student, com 
ν n 1 
 graus de liberdade, se o esque-
ma de amostragem é AAS; sendo a variância do universo estimada por 
 
n n
2
2 2 2 2
I j j
j=1 j=1
1 n 1
ˆ ˆσ S σ S X X X X
n 1 n 1 n
 
           
 
 
b-ii) aproximadamente T de Student, com 
ν n 1 
 graus de liberdade, se o esque-
ma de amostragem é ASR; sendo a variância do universo estimada por 
 
 
n n
2
2 2 2 2
F j j
j=1 j=1
N 1 N 1 1 N 1 n 1
ˆ ˆσ S σ S X X X X
N N n 1 N n 1 n
    
             
 
 
Obs: Nestes dois últimos casos não há resultados teóricos propriamente ditos 
para embasar os procedimentos; de fato, eles são decorrentes em parte do Te-
orema do Limite Central mas, também, e principalmente, da robustez do mé-
todo, que é constatada empiricamente (particularmente quando o universo não 
é muito assimétrico). 
 
Distribuição Assintótica do Estimador do Total 
Nas aplicações envolvendo o total é empregada a seguinte estatística, relacionada à 
média aritmética amostral, definida como proporcional a esta 
n
n j
j=1
1
 N X N X
n
τˆ   
 
Por essa razão, a princípio, todas as considerações e resultados apresentados para a 
distribuição da média amostral, aplicam-se, de forma análoga, à distribuição dessa 
estatística. Entretanto, por razões de ordem prática pode-se restringir a análise ape-
nas ao caso de amostragem sem reposição (ASR). Assim sendo, tem-se: 
 
33 
 
Teorema 7. Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória de tamanho n de um 
universo X de distribuição qualquer de média 
μ
 e variância 
2σ
. Então, para n sufi-
cientemente grande 
a) Quando a variância do universo, 
2σ
, é conhecida, 
n NXτˆ 
 tem distribuição 
aproximadamente normal de média 
μ
 e variância 2
2 σ N nN
n N 1


; consequentemen-
te, a transformada 
μ
Z
σ N n
N
N 1n
τˆ 



 tem distribuição aproximadamente normal padronizada. 
Obs: o resultado decorre do Teorema do limite Central. 
Método robusto 
b) Quando a variância do universo, 
2σ
, é desconhecida, a transformada denomi-
nada razão de Student, μ
T
S N n
N
N 1n
τˆ 



, onde 
2 ˆS S σ 
tem distribuição apro-
ximadamente T de Student com 
ν n 1 
 graus de liberdade. 
Obs: não há, nesse caso, um resultado propriamente dito mas sim um procedimento 
apioado na robustez do método. 
 
Distribuição Assintótica da Proporção Amostral 
Nas aplicações que envolvem a proporção, é empregada a estatística proporção 
amostral 
n
A
n j
j=1
n1
pˆ X = X
n n
 
 
Como essa estatística consiste na média aritmética amostral de um universo particu-
lar – com distribuição de Bernoulli – aplicam-se a ela, com as devidas adaptações, 
todos os resultados anteriormente apresentados para a média amostral. 
Inicialmente, convém relembrar que se o universo X tem distribuição de Bernoulli 
de parâmetro p então a sua média é igual p e a sua variância é igual a p(1-p)=pq. 
Teorema 8. Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória de tamanho n de um 
universo X com distribuição de Bernoulli de média 
μ p
 e variância 
2σ p(1 p) 
. 
Então, para n suficientemente grande: 
a) Quando a variância do universo é conhecida 
34 
 
a-i) A estatística 
pˆ
possui distribuição aproximadamente normal de média igual a p 
e variância 
 
p(1 p) pq
ˆV p
n n

 
, se o esquema de amostragem é AAS; conse-
quentemente, a transformada 
ˆ ˆp p p p
Z
pq n pq n
 
 
tem distribuição aproxima-
damente normal padronizada. 
a-ii) A estatística 
pˆ
possui distribuição aproximadamente normal de média igual a p 
e variância 
 
p(1 p) N n pq N n
ˆV p
n N 1 n N 1
  
 
 
, se o esquema de amostragem é 
ASR; consequentemente, a transformada 
pˆ p
Z
pq N n
n N 1




tem distribuição apro-
ximadamente normal padronizada. 
Esse caso é empregado nos testes de hipóteses sobre a proporção. 
b) Quando a variância do universo é desconhecida, emprega-se a estatística 
2 ˆ ˆ ˆ ˆσˆ p(1 p) pq  
 ou a estatística 
2 N n N nˆ ˆ ˆ ˆσˆ p(1 p) pq
N N
 
  
 para estimá-la. 
Resulta disso que a transformada (razão de Student) 
b-i) 
ˆ ˆp p p p
T
ˆ ˆ ˆ ˆpq n 1 pq (n 1)
 
 
 
 tem aproximadamente distribuição T de Stu-
dent com 
ν n 1 
graus de liberdade, se o esquema de amostragem é AAS. 
b-ii) ˆ ˆp p p p
T
ˆ ˆ ˆ ˆpq N n pq n
1
n 1 N n 1 N
 
 


 
 tem aproximadamente distribuição T de 
Student com 
ν n 1 
graus de liberdade, se o esquema de amostragem é ASR. 
Esse caso é empregado na estimação por intervalo de confiança da proporção. 
Obs: os resultados decorrem da aproximação das estatísticas pela normal e a 
consequente aplicação do Teorema do Limite Central. 
 
Distribuição Assintótica da Estatística 
Aηˆ
 
Assim como ocorreu no caso do estimador de um total, anteriormente visto, o esti-
mador do número de elementos da população que possuem certo atributo está rela-
cionado à proporção amostral sendo definido como proporcional a esta 
A
A
n
ˆ ˆη N p N
n
 
 
35 
 
Analogamente, também aqui cabem todas as considerações e resultados apresenta-
dos para a distribuição da proporção amostral. Ou seja, a princípio aplicam-se, ana-
logamente, à distribuição dessa estatística. Entretanto, por razões de ordem prática 
pode-se restringir a análise apenas ao caso de amostragem sem reposição (ASR). 
Assim sendo, tem-se: 
Teorema 9. Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória de tamanho n de um 
universo X com distribuição de Bernoulli de média 
μ p
 e variância 
2σ p(1 p) 
. 
Então, para n suficientemente grande: 
a) A estatística 
Aηˆ
 possui distribuição aproximadamente normal de média igual a p 
e variância 
  2 2A
p(1 p) N n pq N n
ˆV η N N
n N 1 n N 1
  
 
 
, se o esquema de amostra-
gem é ASR; consequentemente, a transformada 
pˆ p
Z
pq N n
N
n N 1




tem distribui-
ção aproximadamente normal padronizada. 
Esse caso é empregado nos testes de hipóteses sobre 
Aηˆ
. 
b) a transformada (razão de Student) ˆ ˆp p p p
T
ˆ ˆ ˆ ˆpq N n pq n
N N 1
n 1 N n 1 N
 
 


 tem 
aproximadamente distribuição T de Student com 
ν n 1 
graus de liberdade, se o 
esquema de amostragem é ASR. 
Esse caso é empregado na estimação por intervalo de confiança de 
Aηˆ
. 
Obs: os resultados decorrem da aproximação das estatísticas pela normal e a 
consequente aplicação do Teorema do Limite Central. 
 
Distribuição Assintótica dos Momentos Ordinários Amostrais 
Teorema 10. Seja 
 1 2 3 nX ,X ,X ,...,X
uma amostra aleatória simples (AAS) de ta-
manho n de um universo X de distribuição qualquer de média 
μ
 e variância 
2σ
. 
Então, para n suficientemente grande o momento ordinário amostral de ordem k, 
n
k
k i
j=1
1
M = X
n

, tem distribuição aproximadamente normal de média 
kμ
 e variância 
2
2k kμ μ
n
 , onde 
jμ
 denota o momento ordinário de ordem j (teórico) da distribuição 
do universo X . 
Obs: este resultado é decorrente do Teorema do Limite Central. 
 
36 
 
Distribuições Assintóticas do Segundo Momento Central e da Variância Amos-
tral 
 
Teorema 11. Distribuição Assintótica do Segundo Momento Central Amostral 
Se o esquema de amostragem for de amostra aleatória simples (AAS), para um ta-
manho de amostra, n, suficientemente grande, o segundo momento central amostral, 
 
 
n
2
2 j n
j=1
1
M X X
n
  
 
tem distribuição aproximadamente normal de média 
kμ
 e variância (aproximada)
2
4 2μ μ
n
  , onde 
jμ
 denota o momento central de ordem j (teórico) da distribuição do 
universo X. 
Obs: estes resultados são decorrentes do Teorema do Limite Central, para ta-
manhos de amostra suficientemente grandes; porém, em alguns casos, são em-
pregadas aproximações para tamanhos de amostra moderados (da ordem de 
50), com base na relativa robustez do método (particularmente quando o uni-
verso é aproximadamente simétrico). 
 
Teorema 12. Distribuição Assintótica da Variância Amostral 
Analogamente ao caso anterior, a estatística variância amostral, no caso do esque-
ma de amostragem aleatória simples (AAS) 
 
n
22
j n
j=1
1
S X X
n 1
 


 
possui distribuição de qui-quadrado com 
ν n 1 
graus de liberdade, aproximada-
mente, para tamanhos de amostra suficientemente grandes, 
Obs: estes resultados são decorrentes do Teorema do Limite Central, para ta-
manhos de amostra suficientemente grandes; porém, em alguns casos, são em-
pregadas aproximações para tamanhos de amostra moderados (da ordem de 
50), com base na relativa robustez do método (particularmente quando o uni-
verso é aproximadamente simétrico). 
 
Finalmente, é importante considerar as distribuições de probabilidade das estatísti-
cas de ordem. Os principais resultados são apresentados a seguir. 
 
 
37 
 
8.20.4. Distribuições das Estatísticas de Ordem de uma Amostra Aleatória Simples 
de um Universo com Distribuição Qualquer 
Um outro tipo de função de variáveis aleatórias multidimensionais que apresenta 
interesse é aquele correspondente às estatísticas de ordem de uma amostra aleatória 
simples de um universo X. A abordagem geral é apresentada a seguir. 
 
(1) Distribuição da Estatística de Ordem k de uma Amostra Aleatória Simples 
Teorema 13. Sejam X um universo e 
 1 2 3 nX ,X ,X ,...,X
 uma amostra aleatória 
simples de tamanho n desse universo. Sejam 
 (1) (2) (3) (n)X ,X ,X ,...,X
 a amostra orde-
nada (em ordem crescente) e as estatísticas de ordem definidas por 
 
 (k) (1) (2) (3) (n)X k ésimo valor de X ,X ,X ,...,X para k 1,2,3,..., n  
 
Seja 
Xf (x)
 a função de densidade de probabilidade de X. Então, a função de densi-
dade de probabilidade de 
(k)X , para k 1,2,3,...,n
é expressa por 
 
   
(k)
k 1 n k
X X X X
n!
f (x) F (x) 1 F (x) f (x)
(k 1)! (n k)!
 
 
 
 
 
(2) Distribuições do Mínimo e do Máximo de uma Amostra Aleatória Simples 
É importante destacar as distribuições dos casos particulares referentes ao mínimo, 
(1)X
, e ao máximo, 
(n)X
, da amostra. Esses dois casos de especial importância são 
a seguir analisados e demonstrados. 
Teorema 14. Seja X um universo com função de densidade de probabilidade 
Xf (x)
e função de distribuição acumulada 
XF (x)
 e seja 
 1 2 3 nX ,X ,X ,...,X
 uma amostra 
aleatória simples de tamanho n desse universo. Sejam 
 (1) (2) (3) (n)X ,X ,X ,...,X
 a 
amostra ordenada (em ordem crescente) e as estatísticas de mínimo e máximo da 
amostra definidas por 
i) 
(1)X
= mín
 1 2 3 nX ,X ,X ,...,X
 
ii) 
(n)X
= máx 
 1 2 3 nX ,X ,X ,...,X
 
Então, as distribuições de probabilidade das duas estatísticas, expressas por meio de 
suas funções de distribuição e funções de densidade de probabilidade, são, respecti-
vamente: 
 
 
38 
 
i) 
   
(1) (1)
n n 1
X X X X XF (x) 1 1 F (x) e f (x) n 1 F (x) f (x)

    
 
ii) 
   
n (n)
n n 1
X X X X XF (x) F (x) e f (x) n F (x) f (x)

 
 
Considerando-se distribuições de probabilidade específicas para o universo é possí-
vel determinar resultados exatos para certos casos. 
 
8.21 Estimação por Intervalos de Confiança 
8.21.1 Considerações Gerais 
 Um estimador é uma variável aleatória. Assim, as estimativas do parâmetro desco-
nhecido apresentam uma variabilidade imprevisível quando se observam as possí-
veis determinações de uma amostra. Por isso, é importante que se forneçam os va-
lores das estimativas pontuais acrescidos de alguma informação sobre a possível 
variabilidade do estimador. Um procedimento usual é apresentar estimativas pontu-
ais contidas em intervalos cuja amplitude permite julgar a precisão alcançada na es-
timação. Esses intervalos recebem o nome de Intervalos de Confiança. Na estima-
ção por intervalo de confiança é empregado um par de estatísticas - 
i sL e L
- que 
representam, respectivamente, os limites inferior e superior do intervalo. Cada uma 
dessas estatísticas é uma função da amostra, isto é 
 
   i 1 1 2 n s 2 1 2 nL h X ,X ,...,X e L h X ,X ,...,X 
 
e o par de estatísticas assim formado constitui o intervalo de confiança 
 i sL ,L
. 
Esse par de estatísticas deve atender à seguinte condição 
 
   i s i sP θ L ,L P L θ L 1 α       
 
Na determinação do par de estatísticas 
i sL e L
 deve ser considerada, explicitamen-
te, a distribuição de probabilidade dessas estatísticas. 
 
8.21.2 Probabilidades Associadas a um Intervalo de Confiança 
 (i) Nível de Significância 
 Chama-se Nível de Significância da estimação a probabilidade que o intervalo de 
 confiança não venha a conter o valor do parâmetro que está sendo estimado. O ní-
 vel de significância é representado por 
α.
 Assim, 
   ˆ ˆα P θ θ ,θε ε   
 
39 
 
 (ii) Nível de Confiança 
 Chama-se Nível de Confiança da estimação a probabilidade que o intervalo de con-
 fiança venha a conter o valor do parâmetro que está sendo estimado. O nível de 
 confiança é representado por 
1 α.
Tem-se, portanto, 
     ˆ ˆ ˆ ˆ1 α P θ θ ,θ P θ θε ε ε θ ε         
 
 
8.21.3 Intervalos de Confiança Simétricos 
 Em muitos casos os intervalos de confiança são construídos simetricamente em 
relação aos valores possíveis do estimador. Assim, para o estimador 
θˆ
, o intervalo 
de confiança é definido por 
  ˆ ˆθ ,θ +ε ε
 ou seja, nesse caso, 
i sL θ+ε e L θ ε  
 
 onde 
0ε 
 é denominado erro de amostragem. Outras denominações correntes 
 são: tolerância nas estimativas e margem de erro. 
 Note-se que os intervalosde confiança são aleatórios, apresentando flutuações im-
 previsíveis nas diversas determinações possíveis das amostras. Para cada amostra 
 efetiva o estimador 
θˆ
 fornece uma estimativa *θˆ e o intervalo de confiança apre-
 senta uma única determinação, denominada estimativa por intervalo, ou intervalo 
 de confiança efetivo: 
    * *ˆ ˆθ ,θ ,ε ε i sl l  
 
----------------------------------------------------------------------------------------------------------

Continue navegando