1 Curso de Estatística - Tópico 4

•

UFRPE

0

Ivanildo Batista

27/07/2019

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.298 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Tópico 4:
Inferência Estatística
Universidade Federal de Pernambuco, Recife, PE
Principais referências:
Bussab e Morettin, Seções 10-12
Casella e Berger, Seções 5.1-5.2, 7, 8.1
Meyer, Seções 13-15
1 Amostras Aleatórias
População é o conjunto de todos os elementos ou resultados sob investigação.
Amostra é qualquer subconjunto da população.
Seja X uma variável aleatória com fp ou fdp f(x) (ou X ∼ f(x)). Seja também
X1, ...,Xn um conjunto de n variáveis aleatórias mutuamente independentes,
cada uma com a mesma fp ou fdp marginal f(x) (ou seja um conjunto de variá-
veis aleatórias independentes e identicamente distribuídas, ou iid). O conjunto
X1, ...,Xn é definido como uma amostra aleatória de tamanho n de uma popu-
lação X.
Um parâmetro, θ, é uma medida usada para descrever uma característica de
uma população, tal que X ∼ f(x∣θ). Uma estatística, T , é uma característica
da amostra, uma função do vetor aleatório (X1, ...,Xn) que não depende de pa-
râmetros desconhecidos (ou seja, uma função não-paramétrica). A distribuição
amostral de T é a fdp ou fp g(t) da estatística T .
Observação. Da definição de independência mútua, a fp ou fdp conjunta de
X1, ...,Xn é dada por f(x1, ..., xn) = f(x1)f(x2)...f(xn) =∏ni=1 f(xi). Em par-
ticular, se a fdp ou fp da população é paramétrica, então a fdp ou fp conjunta é
f(x1, ..., xn∣θ) =∏ni=1 f(xi∣θ).
O problema da inferência estatística consite em fazer uma afirmação sobre um
parâmetro θ da população X, através do valor t de uma estatística T em uma
ou mais amostras aleatórias.
1
Curso de Estatística Tópico 4
Figura 1: Esquema de inferência sobre θ.
Três estatísticas que são frequentemente utilizadas e fornecem bons sumários da
amostra são as seguintes:
• A média amostral é a média aritmética dos valores de uma amostra alea-
tória, denotada por
X¯ = X1 + ... +Xn
n
= 1
n
n∑
i=1Xi;
• A variância amostral é a estatística definida por
S2 = 1
n − 1 n∑i=1(Xi − X¯)2;
• O desvio padrão amostral é a estatística definida por S = √S2.
Teorema 1: Sejam X1, ...,Xn uma amostra aleatória de uma população com
média µ e variância σ2 <∞. Então,
• E(X¯) = µ,
• Var(X¯) = σ2
n
,
• E(S2) = σ2.
Demonstração. Seja E(Xi) = E(X) = µ e Var(Xi) = Var(X) = σ2. Das de-
finições e teoremas estabelecidos para a média e a variância de uma variável
aleatória, temos
E(X¯) = E( 1
n
n∑
i=1Xi) = 1n E( n∑i=1Xi) = 1n n∑i=1 E(Xi) = 1nnµ = µ;
Var(X¯) = Var( 1
n
n∑
i=1Xi) = 1n2 Var( n∑i=1Xi) = 1n2 n∑i=1 Var(Xi) = 1n2nσ2 = σ
2
n
.
2
Curso de Estatística Tópico 4
Para provar a última relação, note que ∑ni=1X2i = ∑ni=1(Xi−X¯+X¯)2 = ∑ni=1(Xi−
X¯)2−2∑ni=1(Xi−X¯)X¯+∑ni=1 X¯2 = ∑ni=1(Xi−X¯)2+∑ni=1 X¯2, pois o termo cruzado
é 0. Logo ∑ni=1(Xi − X¯)2 = ∑ni=1X2i −∑ni=1 X¯2 e
E(S2) = E [ 1
n − 1 n∑i=1 (Xi − X¯)2] = E [ 1n − 1 ( n∑i=1X2i − n∑i=1 X¯2)]
= 1
n − 1 [ n∑i=1 E(X2i ) − n∑i=1 E(X¯2)]
= 1
n − 1 { n∑i=1 [Var(Xi) + (E(Xi))2] − n∑i=1 [Var(X¯) + (E(X¯))2]}
= 1
n − 1 [n(σ2 + µ2) − n(σ2n + µ2)] = σ2.
2 Estimação Pontual
Um estimador pontual é qualquer função não-paramétrica de uma amostra.
Isto é, qualquer estatística é um estimador pontual. Uma estimativa é o valor
observado de um estimador em uma determinada amostra.
2.1 Propriedades de Estimadores
O erro quadrático médio (EQM) de um estimador T de um parâmetro θ é a
função de θ definida por E(T −θ)2 (ou seja, o EQM mede a diferença quadrática
média entre o estimador T e o parâmetro θ). Segue que
E(T − θ)2 = Var(T ) + [E(T ) − θ]2 = Var(T ) + [Vθ(T )]2,
em que Vθ(T ) = E(T )− θ é definido como o viés de um estimador pontual T de
um parâmetro θ (ou seja, Vθ é a diferença entre θ e o valor esperado de T ).
Um estimador cujo viés, em θ, é identicamente igual a 0 é chamado de não
viesado e satisfaz
E(T ) = θ e E(T − θ)2 = Var(T ).
Observação. As estatísticas X¯ e S2 são exemplos de estimadores não-viesados
de µ e σ2, respectivamente. O uso de n− 1 na definição de S2 pode parecer não
intuitivo. Mas se S2 for definido como a média usual dos desvios quadráticos
com n no denominador, então E(S2) seria n−1
n
σ2 e S2 não seria um estimador
não viesado de σ2.
3
Curso de Estatística Tópico 4
Figura 2: Representação gráfica para o EQM.
Uma sequência Tn de estimadores de um parâmetro θ é consistente se, para
todo ε > 0,
lim
n→∞P (∣Tn − θ∣ < ε) = 1.
Isto implica que, à medida que o tamanho da amostra se torna infinito, o estima-
dor estará arbitrariamente próximo do parâmetro com elevada probabilidade.
Teorema 2: Uma sequência de estimadores é consistente se
lim
n→∞E(Tn) = θ e limn→∞Var(Tn) = 0.
Se T e T ′ são dois estimadores não viesados de um mesmo parâmetro θ, e ainda
Var(T ) < Var(T ′),
então T diz-se mais eficiente do que T ′. Este é um critério útil para comparação
entre dois estimadores de um mesmo parâmetro.
Um estimador T ∗ é um melhor estimador não viesado de θ se satisfaz E(T ∗) = θ
e, para qualquer outro estimador T com E(T ) = θ, temos Var(T ∗) < Var(T ).
2.2 Métodos de Estimação
Estimadores de Momentos Seja X1, ...,Xn uma amostra de uma popula-
ção X com fdp ou fp f(x∣θ1, ..., θr). Seja o µ′k = E(Xk) o k-ésimo momento
de X e mk = 1n ∑ni=1Xki o k-ésimo momento amostral. Dizemos que θˆ1, ..., θˆr
são estimadores de θ1, ..., θr obtidos pelo método dos momentos se eles forem
soluções das equações
4
Curso de Estatística Tópico 4
mk = µ′k,
para k = 1,2, ..., r.
Estimadores de Máxima Verossimilhança Seja X1, ...,Xn uma amostra
iid de uma população X com fdp ou fp f(x∣θ) e x1, ..., xn os valores efetivamente
observados desta amostra. A função de verossimilhança é a função de θ definida
por
L(θ∣x1, ..., xn) = n∏
i=1 f(xi∣θ).
O estimador de máxima verossimilhança de θ é o valor θˆMV que maximiza
L(θ∣x1, ..., xn). Ou seja, é o valor do parâmetro para o qual a amostra observada
é a mais provável.
Observação. Seja x = (x1, ..., xn)′ o vetor contendo a amostra. Se a função
de verossimilhança for diferenciável em θ, um possível candidato para θˆMV é o
valor θ que resolve ∂
∂θ
L(θ∣x) ou ∂
∂θ
l(θ∣x), em que l(θ∣x) = log[L(θ∣x)].
3 Estimação Intervalar
Uma estimativa intervalar de um parâmetro θ é qualquer par de funções L(⋅)
e U(⋅) tal que, para toda amostra X1, ...,Xn = X, L(X) ≤ U(X). Se X = x
for observado, a inferência L(x) ≤ θ ≤ U(x) é efetuada. O intervalo aleatório[L(X), U(X)] é chamado de estimador intervalar.
O coeficiente de confiança γ do intervalo aleatório [L(X), U(X)] é o valor as-
sociado à probabilidade de que [L(X), U(X)] abranja o parâmetro verdadeiro
θ. Isto é,
P (θ ∈ [L(X), U(X)]) = γ
3.1 Intervalos de Confiança
Estimadores intervalares, em conjunto à um coeficiente de confiança, são co-
nhecidos como intervalos de confiança. Para exemplificar a construção de um
intervalo de confiança, suponha que queiramos estimar a média µ de uma po-
pulação X, usando a média X¯ de uma amostra de tamanho n. Do TLC,
e = (X¯ − µ) ∼ N (0, σ2
n
) ,
em que e é o erro amostral associado à X¯. Podemos daqui determinar qual a
probabilidade de cometermos erros de determinadas magnitudes, ou
5
Curso de Estatística Tópico 4
P (∣e∣ < ε) = γ,
O seguinte desenvolvimento é imediato:
P (∣e∣ < ε) = P (∣X¯ − µ∣ < ε) = P (−ε < X¯ − µ < ε) = P ⎛⎝− εσ√
n
< X¯ − µσ√
n
< εσ√
n
⎞⎠= P (−z 1−γ
2
< Z < z 1−γ
2
) = γ,
em que Z ∼ N(0,1) e z 1−γ
2
é um valor tabelado da distribuição normal padrão.∗
Voltando alguns passos, temos
P (−z 1−γ
2
< Z < z 1−γ
2
) = P (µ − z 1−γ
2
σ√
n
< X¯ < µ + z 1−γ
2
σ√
n
) .
Logo, para uma dada amostra, o intervalo de confiança para µ com coeficiente
de confiança γ e com σ2 conhecido será indicado por:
IC(µ, γ) = [µ − z 1−γ
2
σ√
n
, µ + z 1−γ
2
σ√
n
] .
Figura 3: Significado de um IC para µ e γ, com σ2 conhecido.
∗De acordo com a notação adotada, a tabela utilizada deveindicar o valor z 1−γ
2
tal que
P (z 1−γ
2
< Z) = 1−γ
2
.
6
Curso de Estatística Tópico 4
Observação. Convém notar que intervalos de confiança são construídos sobre
parâmetros, não sobre variáveis aleatórias. Devemos assim interpretar um in-
tervalo de confiança da seguinte maneira: se pudéssemos construir uma grande
quantidade de intervalos (aleatórios) da forma [L(X), U(X)], 100 × γ% deles
conteriam o parâmetro θ.
4 Testes de Hipóteses
Uma hipótese é uma declaração sobre um parâmetro da população. As duas
hipóteses complementares em um problema envolvendo um teste de hipóteses
são chamadas hipótese nula e hipótese alternativa, denotadas por H0 e H1, res-
pectivamente.
Dado um parâmetro populacional θ, o formato geral da hipótese nula e da hi-
pótese alternativa é H0 ∶ θ ∈ Θ0 e H1 ∶ θ ∈ ΘC0 , onde Θ0 é um algum subconjunto
do espaço de parâmetros e ΘC0 é seu complemento. Por exemplo, suponha que
a hipótese nula seja que o verdadeiro valor de θ é θ0. Assim,
H0 ∶ θ = θ0.
A hipótese alternativa, considerada aceitável caso H0 seja rejeitada, pode pode
ter formas como
H1 ∶ θ ≠ θ0, H1 ∶ θ < θ0 ou H1 ∶ θ > θ0,
a depender das informações do problema.
Um procedimento para testar uma hipótese, ou um teste de hipótese, é uma re-
gra que especifica: (a) para quais valores amostrais a decisão aceita H0 como
verdadeira; e (b) para quais valores amostrais H0 é rejeitada e H1 é aceita como
verdadeira. O subconjunto do espaço amostral para o qual H0 será rejeitada é
chamado de região de rejeição, ou região crítica. O complemento da região de
rejeição é chamado de região de aceitação.
Geralmente, um teste de hipóteses é especificado em termos de uma estatística
de teste W (X1, ...,Xn) = W (X), uma função da amostra. Por exemplo, um
teste pode especificar que H0 será rejeitada se X¯, a média amostral, for maior
que θ0. Neste caso, W (X) = X¯ é a estatística de teste e a região de rejeição é{x ∶ x¯ > θ0}, em que x = x1, ..., xn é um ponto amostral.
4.1 Probabilidades de Erro e Função Poder
Um teste de hipóteses pode resultar em um de dois tipos de erros, conhecidos
como Erro do Tipo I e Erro do Tipo II. Se θ ∈ Θ0, mas o teste de hipóteses
decide incorretamente rejeitar H0, então o teste cometeu um Erro do Tipo I.
7
Curso de Estatística Tópico 4
Se, por outro lado, θ ∈ ΘC0 , mas o teste decide aceitar H0, temos um Erro do
Tipo II.
Decisão
Aceitação H0 Rejeição H0
Verdade H0 Decisão correta Erro do tipo I
H1 Erro do tipo II Decisão correta
Suponha que RC denote a região de rejeição para um teste. Então, para θ ∈ Θ0,
o teste resultará em um erro se W (x) ∈ RC, de modo que a probabilidade de
um Erro do Tipo I é dada por
P (Erro do tipo I) = P (W (X) ∈ RC ∣θ ∈ Θ0) = P (Rejeitar H0|H0 é verdadeira)= α.
Para θ ∈ ΘC0 , a probabilidade de um Erro do Tipo II é dada por
P (Erro do tipo II) = P (W (X) ∉ RC ∣θ ∈ ΘC0 ) = P (Não rejeitar H0|H0 é falsa)= β.
A probabilidade α é um valor arbitrário e recebe o nome de nível de significância
do teste. Escolhas típicas para o valor de α são 0,01, 0,05 e 0,10. O valor 1−β
usualmente é chamado de poder do teste, e corresponde à probabilidade de se
rejeitar H0 quando esta é falsa. A probabilidade β é uma função dos valores
atribuídos ao parâmetro θ, especificados ou não em H1.
Figura 4: Ilustração dos erros tipo I e II e da RC para um teste tal que H0 = µA e
H1 = µB , sendo µA > µB .
8
Curso de Estatística Tópico 4
4.2 Valores P
Depois que um teste de hipóteses é realizado, as conclusões devem ser relata-
das de algum modo estatisticamente significativo. Um método para relatar os
resultados de um teste é expor o nível de significância α utilizado e a decisão
de rejeitar ou aceitar H0. Se α for pequeno, a decisão de rejeitar H0 é bastante
convincente, mas se α for grande, a decisão de rejeitar H0 não é muito convin-
cente porque o teste tem uma grande probabilidade de levar, incorretamente, a
esta decisão.
Outro meio de relatar os resultados de um teste é expor o chamado p-valor do
teste. O p-valor p(X) é uma estatística que satisfaz 0 < p(x) < 1 para cada ponto
amostral x, e corresponde à probabilidade de ocorrer valores da estatística de
teste W (X) mais extremos do que o observado para x, sob a hipótese de H0 ser
verdadeira. Ou seja,
p(x) = P (W (X) ≤W (x)∣θ ∈ Θ0).
Rejeitaremos H0 para aqueles níveis de significância α maiores do que o p-valor
encontrado.
4.3 Principais Exemplos
Teste para a Média de uma População Testar a hipótese de que a média
de uma população µ seja igual a um número fixado µ0, supondo-se a variância
σ2 dessa população conhecida.
Definimos, primeiro, as nossas hipóteses de interesse:
H0 ∶ µ = µ0
H1 ∶ µ ≠ µ0
Em seguida, definimos a estatística a ser utilizada:
X¯ ∼ N (µ, σ2
n
)
Atribuímos então um nível de significância α = α0% ao teste e calculamos a
região crítica:
±zα0
2
= √n(x¯c − µ0)
σ
⇒ ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩
x¯c1 = µ0 − zα0
2
σ√
n
x¯c2 = µ0 + zα0
2
σ√
n
Aqui utilizamos valores tabelados da distribuiçao normal padrão para encontrar
o valor zα0
2
tal que P (∣Z ∣ < zα0
2
) = 1 − α0. Segue que:
9
Curso de Estatística Tópico 4
RC = {x¯ ∈ R∣x¯ ≤ x¯c1 ou x¯ ≥ x¯c2}
Calculamos, por fim, a estatística de teste x¯0. Caso x¯0 pertença à RC, rejeitamos
H0. Caso contrario, não rejeitamos H0.
Figura 5: Região crítica para o teste H0 ∶ µ = µ0 vs H1 ∶ µ ≠ µ0.
Observação. Caso o teste em questão seja unilateral (H1 ∶ µ > µ0 ou H1 ∶ µ <
µ0), utilizamos valores tabelados da distribuiçao normal padrão para encontrar
o valor zα0 tal que P (Z < zα0) = 1 − α0, caso H1 ∶ µ > µ0, ou P (Z > −zα0
2
) =
1 − α0, caso H1 ∶ µ < µ0. Daí RC = {x¯ ∈ R∣x¯ ≥ x¯c} ou RC = {x¯ ∈ R∣x¯ ≤ x¯c},
respectivamente.
Observação. Caso a variância da população σ2 não seja conhecida, a estatística
a ser utilizada é t = √n(X¯−µ0)
S
∼ t(n−1). Fixado o valor α0, utilizamos os valores
tabelados da distribuiçao t de Student para encontrar o valor tα0
2
tal que P (∣t∣ <
tα0
2
) = 1 − α0.
Testes para Proporção Testar a hipótese de que a proporção p de indivíduos
portadores de certa característica seja igual a certo valor p0, contra a hipótese
de esta proporção ser maior que p0.
Definimos as hipóteses de interesse:
H0 ∶ p = p0,
H1 ∶ p > p0;
a estatística utilizada (proporção amostral):
pˆ ∼ N (p, p(1 − p)
n
) ;
10
Curso de Estatística Tópico 4
e nível de significância α = α0%. Utilizando os valores tabelados da distribuição
normal-padrão, calculamos a região crítica:
zα0 = √n(pˆc − p0)σ ⇒ pˆc = p0 + zα0 σ√n,
RC = {pˆ ∈ R∣pˆ ≤ pˆc}.
Por fim, calculamos a estatística de teste pˆ0. Caso pˆ0 pertença à RC, rejeitamos
H0. Caso contrario, não rejeitamos H0.
Figura 6: Região crítica para o teste H0 ∶ p = p0 vs H1 ∶ p > p0.
Teste para a Variância de uma População (com Distribuição Normal)
Testar a hipótese de que a variância de uma população σ2 seja igual a um nú-
mero fixado σ0.
Definimos as hipóteses de interesse:
H0 ∶ σ2 = σ20 ,
H1 ∶ σ ≠ σ20 ;
a estatística utilizada: X 2 = (n − 1)S2
σ20
∼ X 2(n−1);
e o nível de significância α = α0%. Utilizamos os valores tabelados da distribui-
çao qui-quadrado para encontrar os valores X 21 e X 22 tais que P (0 < X 2 < X 21 ouX 2 > X 22 ) = α0. Em seguida, observado o valor s20 da estatística S2, obteremos o
valor X 20 = (n−1)s20σ20 . Se X 20 ∈ RC, rejeitamos H0. Caso contrário, aceitamos H0.
11
Curso de Estatística Tópico 4
Figura 7: Região crítica para o teste H0 ∶ σ2 = σ20 vs H1 ∶ σ ≠ σ20 .
∎
12
	Amostras Aleatórias
	Estimação Pontual
	Propriedades de Estimadores
	Métodos de Estimação
	Estimação Intervalar
	Intervalos de Confiança
	Testes de Hipóteses
	Probabilidades de Erro e Função Poder
	Valores P
	Principais Exemplos