Buscar

INFERENCIA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Probabilidade Estatística - Professor: Hiron Pereira Farias
1 Inferência Estatística
Seja X uma variável aleatória com função de densidade( ou de probabilidade) que abreviaremos
por f.d.p. (f.p.) e que denotaremos por f(x|θ). Chamaremos de inferência estatística o problema
que consiste em especificar um ou mais valores para θ , baseado em um conjunto de valores obser-
vados de X. No caso de um problema de estimação, o objetivo é procurar, segundo algum critério
especificado, valores que representem adequadamente os parâmetros desconhecidos. No caso de
testes de hipóteses, o objetivo é verificar a validade de afirmações sobre o valor do parâmetro de-
sconhecido. Por exemplo, quando o interesse é verificar se a proporção θ de eleitores de determindo
candidato é igual a 50%, as hipóteses a serem testadas são H0 : θ = 0,5 versus H1 : θ 6= 0,5.
1.1 Definições importantes
1) O conjunto de valores de uma característica (observável) associada a uma coleção de indivíduos
ou objetos de interesse é dito ser uma população.
2) Uma amostra aleatória simples (AAS) de tamanho n de uma variável aleatória X, com dada
distribuição, é o conjunto de n variáveis independentes X1, X2, . . . , Xn, cada uma com a mesma
distribuição de X.
3) As quantidades da população, em geral desconhecidas e sobre as quais temos interesse, são de-
nominados parâmetros e geralmente denotados por letras gregas tais como θ, µ, σ2 entre outros.
4) O conjunto Θ em que θ toma valores é denominado espaço paramétrico.
5) Qualquer estatística que assuma valores em Θ é um estimador para θ.
6) Qualquer estatística que assuma valores somente no conjunto dos possíveis valores de g(θ) é um
estimador para g(θ).
7) Qualquer função da amostra que não depende de parâmetros desconhecidos é denominada uma
estatística.
8) À combinação dos elementos da amostra, construídos com a finalidade de representar, ou esti-
mar, um parâmetro de interesse na população, denominamos estimador. Em geral, denotamos os
estimadores por símbolos com acento circunflexo: θ̂, µ̂, σ̂2 e P̂ . Aos valores númericos assumi-
dos pelos estimadores denominamos estimativas pontuais ou simplesmente estimativas.
Notamos que um estimador, digamos θ, é uma função das variáveis aleatórias constituinte da
amostra, isto é, θ̂ = f(X1, X2, . . . , Xn). Logo, um estimador também é uma variável aleatória.
a correspondente distribuição de probabilidade formará a base das argumentações probabilísticas
utilizadas na extrapolação da informação da amostra para os parâmetros da população.
Os estimadores mais comuns são:
X =
X1 +X2 + . . .+Xn
n
=
1
n
n∑
i=1
xi “ média amostra ”;
S2 =
1
n− 1
n−1∑
i=1
(Xi −X)2 “ variância amostral ”.
P̂ =
Y
n
“ proporção amostral ”.
em que, Y é uma variável aleatória que determina o número de elementos na amostra com a
característica de interesse.
1.2 Propriedades dos Estimadores
Uma propriedade desejável de um estimador é que ele esteja “ próximo", de alguma maneira
do verdadeiro valor do parâmetro desconhecido. Formalmente, dizemos que θ̂ é um estimador
não-viciado do parâmetro θ se
E(θ̂) = θ.
Isto é, θ̂ é um estimador não-viciado de θ se, "na média", seus valores forem iguais a θ. Note que
isso é equivalente a se exigir que a média da distribuição amostral de θ̂ seja igual a θ.
Se o estimador for viesado, então a diferença
E(θ̂)− θ
é denominada de Viés do estimador θ̂ .
Muito embora seja desejável que uma estimativa seja não-viesada (ou tendenciosa), haverá ocasiões
em que poderemos preferir estimativa tendênciosa. È possível encontrar mais de uma estimativa
não tendenciosa para o parâmetro desconhecido. a fim de realizar a escolha plausível em tais
situações, introduziremos o conceito.
Definição: Seja θ̂ uma estimativa não tendenciosa de θ. Diremos que θ̂ é uma estimativa não-
tendenciosa de variância mínima (ENTVM) de θ, se para todas as estimativas θ∗ tais queE(θ∗) =
θ, tivermos V (θ̂) ≤ V (θ∗) para todo θ. Isto é, dentre todas as estimativas não-tendenciosas de θ, θ̂
tem a variância menor de todas.
È possível obter um limite inferior para a variância de todos os estimadores não-viesados do
parâmetro θ. Seja θ̂ um estimador não viciado do parâmetro θ, com base em uma amostra aleatória
de n observações, e denote por f(x, θ) a distribuição de probabilidade da variável aleatória X. Então,
o limite inferior da variância dos estimadores não viciados de θ é:
LI(θ) =
1
nE
[(
∂lnf(X|θ)
∂θ
)2]
Definição: SeX1, X2, . . . , Xn for uma amostra de tamanho n, proviniente de uma distribuição com
média µ e variância σ2 , então a média da amostra, X , será o ENTVM para µ.
Definição: O erro-padrão de um estimador θ̂ é o seu desvio-padrão, dado por σ̂θ̂ =
√
V (θ̂). Se
o erro-padrão envolver parâmetros desconhecidos que possam ser estimados, então a substituição
daquele(s) valor(es) em σ̂θ̂ produzirá um erro padrão estimado, denotado por Sθ̂ ou e.p.(θ̂).
Definição: O erro quadrático médio (EQM) de um estimador θ̂ do parâmetro θ é dado por
EQM [θ̂] = E
[
(θ̂ − θ)2] = E[θ̂ − E(θ̂) + E(θ̂)− θ]2 = E[(θ̂ − E(θ̂)) + (E(θ̂)− θ))]2 =
E
[
θ̂ − E(θ̂)]2 + E[E(θ̂)− θ)]2 − 2E(θ̂ − E(θ̂))(E(θ̂)− θ)) = V ar[θ̂] +B2(θ̂), em que
B(θ̂) = E[θ̂]− θ
é denominado o vício do estimador θ̂. Dizemos que um estimador θ̂ é não viciado para θ se
E[θ̂] = θ,
para todo θ ∈ Θ, ou seja B(θ̂)= 0, para todo θ ∈ Θ. No caso em que θ̂ é um estimador não viciado
para θ, temos que
EQM[ θ̂] = Var[ θ̂],
ou seja, o erro quadrático médio de θ̂ reduz à sua variância.
Definição: Chamamos de eficiência de um estimador θ̂, não viciado para o parâmetro θ, o quo-
ciente
e(θ̂) =
LI(θ)
V ar(θ̂)
,
onde LI(θ) é o limite inferior da variância dos estimadores não viciados de θ.
e(θ)= 1 quando LI(θ)= Var(θ̂), ou seja, quando a variância de θ̂ coincide com o limite inferior da
variância dos estimadores não viciados de θ. Nesse caso, θ̂ é dito ser eficiente.
1.3 O Método de Máxima Verossimilhança
Definição: Sejam X1, X2, . . . , Xn uma amostra aleatória de tamanho n da variável aleatória X
com função de densidade ( ou de probabilidade) f(x| θ), com θ ∈ Θ , onde Θ é o espaço paramétrico.
A função de verossimilhança de θ correspondente à amostra aleatória observada é dada por
L(θ;x) =
m∏
j=1
f(xi|θ).
Definição: O estimador de máxima verossimilhança de θ é o valor θ ∈ Θ que maximiza a função
de verossimilhança L(θ; x).
O logaritmo natural da função de verossimilhança de θ é denotado por
l(θ; x)=ln L(θ; x).
Não é dificil verificar que o valor de θ que maximiza a função de verossimilhança L(θ; x), também
maximiza l(θ; x).
1.4 Verossimilhança para Amostras Independentes
Existem situações em que temos duas ou mais amostras independentes de distribuições que
dependem de um parâmetro θ de interesse. No caso de duas amostras aleatórias independentes,
X1, X2, . . . , Xn e Y1, Y2, . . . , Yn, podemos escrever
L(θ; x, y) = L(θ; x) L(θ; y),
devido à independência entre as amostras. Portanto a verossimilhança conjunta é igual ao produto
da verossimilhança correspondente à amostraX1, X2, . . . , Xn pela verossimilhança correspondente
à amostra Y1, Y2, . . . , Yn. De modo que podemos escrever
l(θ; x, y) = l(θ; x) + l(θ; y),
de modo que o logaritmo da verossimilhança conjunta é igual ao produto da verossimilhanças
correspondentes a cada uma das amostras.
1.5 Teorema Limite Central
No que foi estudado até o presente momento, consideramos a distribuição amostral da média
X , calculada em uma amostra cuja elementos são constituídos por variáveis aleatórias indepen-
dentes e com distribuição normal. Na prática, muitas vezes não temos informações a respeito da
distribuição das variáveis constituintes da amostra, o que nos impede de utilizar o resultado ap-
resentado. Felizmente satisfeitas certas condições, pode ser mostrado que, para um tamanho de
amostra suficientemente grande, a distribuição de probabilidade da média amostral pode ser aprox-
imada por uma distribuição normal.
Esse resultado, fundamental na teoria da Inferência Estatística,é conhecido como Teorema Limite
Central.
definição: Para amostras aleatórias simples (X1, X2, . . . , Xn), retiradas de uma população com
média µ e variância σ2 finita, a distribuição amostral da média X aproxima-se, para n grande, de
uma distribuição normal, com média µ e variância
σ2
n
.
Esse resultado sugere que, quando o tamanho da amostra aumenta, independentemente da forma
da distribuição da população, a distribuição amostral de X aproxima-se cada vez mais de uma
distribuição normal.
1.6 Determinação do tamanho de uma amostra
Em nossas considerações anteriores fizemos a suposição que o tamanho da amostra, n, era
conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da amostra a ser
escolhida de uma população, de modo a obter um erro de estimação previamente estipulado, com
determinado grau de confiança.
Suponha que estejamos estimando a média µ populacional e para tanto usaremos a média amostral,
X , baseada numa amostra de tamanho n. Suponha que se queira determinar o valor de n de modo
que
P (|X − µ| ≤ ε) ≥ γ,
com 0 < γ < 1 e ε é o erro amostral máximo que podemos suportar, ambos valores fixados.
Sabemos que
X ∼ N(µ; σ
2
n
) , logo X − µ ∼ N(0; σ
2
n
) e portanto
P (−ε ≤ X − µ ≤ ε) = P
(
−
√
nε
σ
≤
√
n(X − µ)
σ
≤
√
nε
σ
)
de modo que
√
nε
σ
= zγ
do que obtemos finalmente n =
σ2z2γ
ε2
1.7 Estimação por Intervalos
Até aqui, somente estimadores pontuais foram considerados, pois fornecem como estimativa
um único valor numérico para o parâmetro de interesse. Em muitos problemas de estimação,
entretanto, prefere-se um intervalo que expresse a precisão do estimador. Por serem variáveis
aleatórias, os estimadores possuem uma distribuição d probabilidade e, levando este fato em con-
sideração, podemos apresentar uma estimativa mais informativa para o parâmetro de interesse que
inclua uma medida de precisão do valor obtido. Esse método de estimação, denominado intervalo
de confiânça, incorpora, à estimativa pontual do parâmetro, informações a respeito de sua varia-
bilidade. Intervalos de confiânça são obtidos atráves da distribuição amostral dos estimadores. A
interpretação de um intervalo de confiânça é de que se muitas amostras forem coletadas e se for
calculado um intervalo de confiânça de 100(1 − α)% de confiança para o parâmetro θ a partir de
cada amostra, então 100(1 − α)% desses intervalos conterão o verdadeiro valor de θ. Na prática,
obtemos apenas uma amostra aleatória e calculamos um intervalo de confiânça. Como esse inter-
valo conterá, ou não, o verdadeiro valor de θ , não é razoavel atribuir um nível de probabilidade a
esse evento específico.
O comprimento do intervalo de confiânça bilateral é uma medida importante da qualidade da infor-
mação obtida da amostra. O comprimento do semi-intervalo, é chamado de precisão do estimador.
Quanto maior o intervalo de confiânça, mais confiantes estaremos de que o intervalo contenha real-
mente o verdadeiro valor de θ. Por outro lado, quanto maior o intervalo, menos informação temos
sobre o verdadeiro valor de θ. Em uma situação ideal, obtemos um intervalo relativemente pequeno
com alta confiânça. como o comprimento do intervalo de confiânça mede a precisão da estimação,
vemos que a precisão está inversamente relacionada ao nível de confiânça. È altamente desejável
obter um intervalo de confiânça que seja pequeno o bastante para o proposito de tomada de decisão,
mas que tenha, também, a confiânça adequada. Uma maneira de conseguir isso é escolhendo-se o
tamanho n da amostra grande o suficiente para resultar em um intervalo de tamanho especificado
com a confiânça prescrita.
1.7.1 Intervalo de Confiânça para Populações Normais
Suponha-se que X tenha distribuição N(µ;σ2), onde se supõe σ2 conhecido, enquanto µ é
o parâmetro desconhecido. Seja X1, X2, . . . , Xn uma amostra aleatória de X e seja X a média
amostral.
Sabemos que X tem distribuição N(µ; σ
2
n
), portanto, Z =
√
n(X − µ)
σ
tem distribuição N(0;1).
Observa-se que, muito embora Z depende de µ , sua distribuição de probabilidade não depende.
Empregamos este fato a nosso favor da seguinte maneira:
Fixado um valor γ tal que 0 < γ < 1, podemos encontrar um valor tal que :
P (|Z| < z γ
2
) = P (−z γ
2
< Z < z γ
2
) = γ.
Para γ fixo o valor z γ
2
pode ser obtido da tabela normal padrão.
P (−z ≤ Z ≤ z) = P (−z ≤
√
n(X − µ)
σ
≤ z) = P (−z σ√
n
≤ X − µ ≤ z σ√
n
) =
P (X − z σ√
n
≤ µ ≤ X + z σ√
n
) = 2Φ(z)− 1
Assim o intervalo de confiança para µ , com coeficiente de confiança γ , é dadao por
IC(µ; γ) = [X − z γ
2
σ√
n
;X + z γ
2
σ√
n
].
A amplitude do intervalo de confiança é dada pela diferença entre o extremo superior e inferior,
isto é, X + z γ
2
σ√
n
−X + z γ
2
σ√
n
= 2z γ
2
σ√
n
, o que claramente indica que ela depende da confiança γ
, do desvio-padrão σ e do tamanho da amostra n. É usual se referir à semi-amplitude, como o erro
envolvido na estimação.
De modo geral o intervalo de confiança para um parâmetro θ é dado por
IC(θ; γ)= [θ̂ − vt ep(θ̂); θ̂ + vt ep(θ̂)]
em que vt é um valor tabelado da distribuição de θ̂ e ep(θ̂) o erro-padrão do estimador θ̂.
Sabemos que sabemos que a proporção amostral, P̂ , tem distribuição normal com média P e vari-
ância
P (1− p)
n
, isto é, P̂ ∼ N(P, P (1− p)
n
)
e que
P̂ − P√
p(1−p)
n
∼ N(0; 1).
Assim o intervalo de confiança para P , com coeficiente de confiança γ , é dado por
IC(P ; γ) =
[
P̂ − z γ
2
√
p(1−p)
n
; P̂ + z γ
2
√
p(1−p)
n
]
.
Como não conhecemos P, que o parâmetro a ser estimado, primeiro ao fazermos P = P̂ , temos
IC(P ; γ) =
[
P̂ − z γ
2
√
P̂ (1−P̂ )
n
; P̂ + z γ
2
√
P̂ (1−P̂ )
n
]
.
e para P = 1
2
, obtemos
IC(P ; γ) =
[
P̂ − z γ
2
√
1
4n
; P̂ + z γ
2
√
1
4n
]
.
Consideremos o caso em que temos X1, X2, . . . , Xn , uma amostra aleatória da variável aleatória
X ∼ N(µ1;σ21) e Y1, Y2, . . . , Ym , uma amostra aleatória da variável aleatória Y ∼ N(µ2;σ22), onde
X e Y são independentes. Sabemos que
(X − Y ) ∼ N(µ1 − µ2; σ21n + σ22m )
de modo que , sendo θ = µ1 − µ2 , consideremos a quantidade
(X − Y )− (µ1 − µ2)√
σ21
n
+
σ22
m
∼ N(0; 1)
Sendo σ21 e σ
2
2 conhecidas, temos , como no caso anterior, o intervalo
IC(µ1 − µ2; γ) =
[
(X − Y )− z γ
2
√
σ21
n
+
σ22
m
; (X − Y ) + z γ
2
√
σ21
n
+
σ22
m
]
Se as variâncias σ21 e σ
2
2 são conhecidas, e se os tamanhos amostrais n e m são iguais, então para
determinar o tamanho amostral necessário tal que o erro na estimativa de µ1−µ2 usando X1−X2
seja menor do que ε com γ% de confiânça. O tamanho de cada amostra é
n =
(z γ
2
ε
)2
(σ21 + σ
2
2).
Suponha que X seja normalmente distribuída, com média µ e variância desconhecidas. Seja
X1, X2, . . . , Xn uma amostra aleatória de tamanho n, e seja S2 a variância amostral. Já demostrou-
se que a distribuição amostral de
(n− 1)S2
σ2
∼ χ2(n−1).
Portanto dado γ , podemos determinar q1 e q2 de modo que
P
[
q1 ≤ (n− 1)S
2
σ2
≤ q2
]
= γ.
Considerando o intervalo simétrico, ou seja, P [χ2n−1 ≥ q2] = P [χ2n−1 ≤ q1] = 1−γ2 , temos o
intervalo de confiança para σ2, dado por
IC(σ2; γ) =
[(n− 1)S2
q2
;
(n− 1)S2
q1
]
1.8 Distribuição t de Student
Sejam Z ∼ N(0, 1) e V ∼ χ2n variáveis aleatórias independentes. A variável aleatória
T =
Z√
V
n
∼ tn
tem distribuição t com n graus de liberdade, denotado por T ∼ tn.
Teorema: Se (X1, X2, . . . , Xn) é uma amostra aleatória de tamanho n da distribuição N(0,1), então
√
n(X − µ)
s
∼ t(n−1).
Prova:
Notemos que podemos escrever
√
n(X − µ)
s
=
√
n(X − µ)
σ
s
σ
=
X−µ
σ√
n√
(n−1)S2
(n−1)σ2
∼ t(n−1)
1.8.1 Intervalo de confiança para µ com variância desconhecida
Quando a variância é desconhecida, construímos intervalos de confiânça para a média popula-
cional utilizando a distribuição t-Student. Supondo uma amostra aleatória (X1, X2, . . . , Xn) obtida
de uma população com distribuição Normal com média e varância desconhecidas, temos que
√
n(X − µ)
s
∼ t(n−1).
Desta forma, fixando-se o coeficiente de confiança γ(0 < γ < 1) e utilizandoa tabela da dis-
tribuição t-Student com n-1 graus de liberdade, obteremos o valor de t γ
2
tal que
P
(
−t γ
2
≤
√
n(X − µ)
S
≤ t γ
2
)
.
Logo, o intervalo com coeficiente de confiança γ para µ , com varância desconhecida, será dado
por
IC(µ; γ) =
[
X − t γ
2
S√
n
;X + t γ
2
S√
n
]
.
1.8.2 Intervalo de confiança para diferença entre médias
Seja (X1, X2, . . . , Xn) uma amostra aleatória de tamanho n de uma distribuição normal com
média µ1 e variância σ21 desconhecida, e seja (Y1, Y2, . . . , Ym) uma amostra aleatória de tamanho
m de uma distribuição normal com média µ2 e variância σ22 desconhecida. Assumiremos que
as duas amostras são independentes uma da outra e que há homogeneidade das variâncias, isto é,
σ21 = σ
2
2 = σ
2. Queremos uma estimação intervalar da diferença das médias populacionais µ2−µ1.
Sabemos que (Y −X) é normalmente distribuída com média µ2 − µ1 e variância σ2n + σ
2
m
, isto é
(X − Y ) ∼ N(µ1 − µ2; σ21n + σ22m )
e
(X − Y )− (µ1 − µ2)√
σ2
n
+ σ
2
m
∼ N(0; 1)
Sabemos também que ∑
(Xi −X)2
σ2
=
(n− 1)S2
σ2
tem distribuição qui-quadrado com n-1 graus de liberdade, e
∑
(Yi − Y )2
σ2
=
(m− 1)S2
σ2
tem distribuição qui-quadrado com m-1 graus de liberdade, então
V =
∑
(Xi −X)2
σ2
+
∑
(Yi − Y )2
σ2
=
(n− 1)S2
σ2
+
(m− 1)S2
σ2
∼ t(m+n−2)
. Finalmente, temos que a variável aleatória
T =
Z√
V
m+n−2
∼ t(m+n−2)
tem distribuição t com (m+n-2) graus de liberdade.
Fazendo
S2p =
(m− 1)S2 + (n− 1)S2
m+ n− 2 ,
temos que a estatística
T =
(X − Y )− (µ1 − µ2)
SP
√
1
n
+ 1
m
,
tem distribuição t com m+n-2 graus de liberdade. Dai
IC(µ1 − µ2; γ) =
[
(X − Y )− t γ
2
SP
√
1
n
+ 1
m
; (X − Y ) + t γ
2
SP
√
1
n
+ 1
m
]
O estimador combinado de σ2, denotado por S2P e definido por
S2p =
(m− 1)S2 + (n− 1)S2
m+ n− 2 ,
pode ser escrito como
S2p =
(m− 1)S2
m+ n− 2 + S
2
p =
(n− 1)S2
m+ n− 2 = wS
2
1 + (1− w)S22 ,
sendo 0 < w ≤ 1. Logo, S2P é uma média ponderada das duas variâncias das amostras S21 e
S22 , em que os pesos w e 1-w dependeram dos tamanhos das amostras n1 e n2. Obviamente, se
n1 = n2 = n , então w = 0,5 e S2P será exatamente igual à média aritmética entre S
2
1 e S
2
2 .
1.9 Distribuição F de Snedecor
Sejam U e V variáveis aleatórias independentes com m e n graus de liberdade respectivamente.
Então a variável aleatória
X =
U
m
V
n
tem distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador,
denotaremos por X ∼ F(m, n).
Se X1, X2, . . . , Xm é uma amostra aleatória de tamanho m de uma população normal com média
µX e variância σ2X , e seja também Y1, Y2, . . . , Yn uma amostra aleatória de tamanho n de uma
população Normal com média µY e variância σ2Y , e se as duas amostras são independentes, então
isto resulta que
1
σ2
m∑
i=1
(Xi −X)2
tem distribuição qui-quadrado com m-1 graus de liberdade, e
1
σ2
n∑
j=1
(Yi − Y )2
tem distribuição qui-quadrado com n-1 graus de liberdade, assim a estatística
F =
1
(m− 1)σ2X
m∑
i=1
(Xi −X)2
1
(n− 1)σ2Y
n∑
j=1
(Yi − Y )2
=
S2X
σ2X
S2Y
σ2Y
tem uma distribuição F com m-1 e n-1 graus de liberdade.
Um procedimento de teste de hipóteses para a igualdade de duas variâncias é baseado no seguinte
resultado. Sujeita a hipótese nula H0 : σ2X = σ
2
Y , a estatística
F =
S2X
S2Y
,
distribuição F com m-1 e n-1 graus de liberdade.
EXERCÍCIOS
Professor: Hiron Pereira Farias
Disciplina: Probabilidade e Estatística
Questão 1: Uma amostra de 25 observações de uma Normal (µ; 16) foi coletada e forneceu uma
média amostral de 8. Construa intervalos com confiança 80%, 85%, 90% e 95%
Resp. a) [6,97; 9,03] ; b) [6,85; 9,15] ; c) [6,69; 9,31] d) [6,43; 9,57].
Questão 2: Por analogia a produtos similares, o tempo de reação de um novo medicamento pode
ser considerado como tendo distribuição Normal com desvio padrão igual a 2 minutos. Vinte
pacientes foram sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os
dados foram os seguintes ( em minutos ): 2,9; 3,4; 3,5; 4,1; 4,6; 4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7; 5,8;
5; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2. Obtenha um intervalo de confiança para o tempo médio de reação.
Use γ = 96%
Resp. IC(µ; 96%) = [3,83 ; 5,67]
Questão 3: Será coletada uma amostra de uma população Normal com desvio-padrão igual a 9.
Para uma confiança de γ = 90%, determine a amplitude do intervalo de confiança para a média
populacional nos casos em que o tamanho da amostra é 30, 50 ou 100.
Resp. para n = 30 A = 5,42; para n = 50 A = 4,2; para n = 100 A = 2,97;
Questão 4: Para uma Normal (5; 10) coletou-se uma amostra de tamanho 25. Calcule:
a) P(X ≤ 4,8); ( Resp. 0,3745 )
b) P(4,5 ≤ X ≤ 5,3); ( Resp. 0,466 )
c) P(X ≤ 4,7 ou X ≥ 5,1) ( Resp. 0,7556 ).
Questão 5: Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença
da média amostral para a média da população, em valor absoluto, seja menor que 1. com coefi-
ciente de confiança igual a:
(a) 95% (Resp. n = 385 ) (b) 99% (Resp. n = 666 )
Questão 6: Uma população tem desvio padrão igual a 10.
(a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em estimar a média
seja superior a uma unidade?( Resp. n = 307)
(b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confiança, se X = 5? Resp.
[49 ; 51]
Questão 7: A vida de um componente usado em um motor de uma turbina de um avião a jato é uma
variável aleatória, com média de 5.000 h e desvio-padrão de 40h. A distribuição da vida efetiva é
razoavelmente próxima da distribuição Normal. O fabricante do motor introduz uma melhoria no
processo de fabricação para esse componente, que aumenta a vida média para 5.050 h e diminui
o desvio-padrão para 30h. Suponha que uma amostra aleatória de n1 = 16 componentes seja se-
lecionada do processo antigo e uma amostra aleatória de n2 = 25 componentes seja selecionada
do processo melhorado. Considere que o processo antigo e o melhorado possam ser considerados
como populações independentes.
i) Qual a probabilidade de que a diferença nas duas médias amostrais X2 −X1 seja no mínimo de
25h? ii) Construir um intervalo de confiança para a diferença entre as médias populacionais dos
dois processos?
Questão 8: Suponha que amostras de tamanho n = 25 sejam selecionadas, ao acaso, de uma po-
pulação normal, com média igual a 100 e desvio-padrão igual a 10. Qual a probabilidade de que a
média amostral caia no intervalo de µX − 1,8σX a µX + 1,0σX?
Questão 9: Numa pesquisa de mercado para estudar a preferência da população de uma cidade em
relação a um determinado produto, colheu-se uma amostra aleatória de 300 indivíduos, dos quais
180 preferiam esse produto.
(a) Determine o intervalo de confiança para a proporção da população que prefere o produto em
estudo; tome γ = 0,90. (Resp. [0,553 ; 0,647] )
(b) Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro
valor em mais de 0,001. (Resp. 2,7%)
Questão 10: Antes de uma eleição em que existam dois candidatos, A e B, foi feita uma pesquisa
com 400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar no candidato
a. Construa um intervalo de confiança, com c.c. γ = 0,95, para a porcentagem de eleitores fa-
voráveis ao candidato A na época das eleições. (Resp. [0,471 ; 0,569])
Questão 11: Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marca
A de detergente. Construir um intervalo de confiança para p = proporção das donas de casa que
preferem A. Utilize (γ = 90%).
Questão 12: Numa pesquisa com 50 eleitores o candidato José João obteve 35% da preferência
dos eleitores. Construa, para a confiança de 94%, os intervalos otmista e conservador de confiança
para a proporção de votos a serem recebidos pelo candidato mencionado, supondo que a eleição
fosse nesse momento.
Questão 13: Antes de uma eleição, um determinado partido está interessado em estimar a pro-
porção p de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100revelou que
60% dos eleitores eram favoráveis ao candidato em questão.
a) Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de , no
máximo, 0,01 com probabilidade de 80%; (Resp. n = 3.994)
b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos eleitores
eram favoráveis ao candidato em questão, construa um intervalo de confiança para a proporção p.
Utilize (γ = 95%).
Questão 14: Suponha que estejamos interessados em estimar a porcentagem de consumidores de
um certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado
produto, determine:
a) o intervalo de confiança de p, com coeficiente de confiança de 95%; (Resp. [0,280 ; 0,386])
b) o tamanho da amostra para que o erro da estimativa não exceda a 0,02 unidades com probabili-
dade de 95%. (Resp. n = 2.133 ou n = 2.401)
Questão 15: Com auxílio da tabela t-Student calcule:
a) P(−3,365 ≤ t5 ≤ 3,365); (Resp. 0,98)
b) P(|t8| < 1,4); (Resp. 0,80)
c) O valor de b tal que P(t16 ≤ b) = 0,05; (Resp. -1,746)
d) O valor de c tal que P(|t11| ≤ c) = 0,10; (Resp. 0,129)
Questão 16: Uma amostra com 10 observações de uma variável aleatória Normal forneceu média
de 5,5 e variância amostral 4. Determine o intervalo de confiança para µ com coeficiente de confi-
ança γ = 95%
Questão 17: Admitindo que a pressão sanguínea arterial em homens siga o mdelo Normal, 7 pa-
cientes foram sorteados e tiveram sua pressão medida com os seguintes resultados: 84, 81, 77, 85,
69, 80 e 79. Determine o intervalo de confiança para µ com coeficiente de confiança γ = 98%
Questão 18: Uma amostra com 10 observações de uma variável aleatória Normal forneceu média
de 5,5 e variância amostral 4. Determine o intervalo de confiança para µ com coeficiente de confi-
ança γ = 95%
Questão 19: Encontre o c.c. de um intervalo de confiança para p, se n = 100, p̂= 0,6 e a amplitude
do intervalo deve ser igual a 0,090. (Resp. γ = 0,64)
Questão 20: Estão sendo estudados dois processos para conservar alimentos, cuja principal va-
riável de interesse é o tempo de duração destes. No processo A, o tempo X de duração segue a
distribuição N(µA; 100), e processo B o tempo Y obedece à distribuição N(µB; 100). Sorteiam-se
duas amostras independentes: a de A, com 16 latas, apresentou tempo médio de duração igual a 50,
e a de B, com 25 latas, duração média igual a 60.
(a) Construa um IC para µA e µB , separadamente.
(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se construir um IC
para a diferença µA− µB. Caso o zero pertença ao intervalo, pode-se concluir que existe evidência
de igualdade dos processos. Qual seria sua resposta?
Questão 21: O tempo de reação de uma pessoa a certa droga é uma variável aleatória com média
5 minutos e desvio padrão 3 minutos. Esse tempo foi medido em uma amostra de 80 pessoas esco-
lhidas, sem reposição, na cidade de São Paulo. Pergunta-se a probabilidade:
(a) O tempo médio amostral ser inferior a 5,5? (Resp. 0,9319)
(b) O tempo médio na amostra não diferir da verdadeira média por mais de 0,4? (Resp. 0,7660)
Questão 22: Numa pesquisa de mercado desejamos estimar a proporção de pessoas que compram
o sabonete Bom-cheiro.
(a) Que tamanho de amostra devemos colher para que, com probabilidade 0,9; a estimativa não se
desvie do verdadeiro valor por mais de 0,05? (Resp. n ' 269)
(b) Se tivermos a informação adicional de que a aceitação do sabonete Bom-cheiro é no mínimo
0,8, qual deve ser então o tamanho da amostra? (Resp. n ' 173)
(c) Decidimos colher uma amostra de tamanho 81. Qual o erro máximo cometemos com probabi-
lidade 0,9? (Resp. 0,09 )
(d) Para uma amostra de tamanho 81, qual a probabilidade de que o erro máximo seja 0,08? (Resp.
0,8502 )
Questão 23: Um pesquisador está estudando a resistência de um determinado material sob de-
terminadas condições. Ele sabe que essa variável é normalmente distribuída com desvio padrão de
duas unidades.
(a) Utilizando os valores 4,9; 7; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de uma amostra
de tamanho 9, determine o intervalo de confiança para a resistência média com um coeficiente
γ = 0,90.
(Resp. [5,13 ; 7,32])
(b) Qual o tamanho da amostra necessário para que o erro cometido, ao estimarmos a resistência
média, não seja superior a 0,01 unidade com probabilidade 0,90? (Resp. n = 108.900)
(c) Suponha que no item (a) não fosse conhecido o desvio padrão, determine o intervalo de confi-
ança para a resistência média com um coeficiente γ = 0,90.
Questão 24: Uma amostra aleatória de n1 = 49 é selecionada de uma população µ1 normal com
uma média de 75 e um desvio -padrão igual a 8. Uma segunda amostra aleatória de tamanho
n2 = 9 é retirada de uma outra população µ2 normal com média 70 e desvio-padrão 12. Faça X1 e
X2 serem duas médias amostrais. Encontre:
a) a probabilidade de X1 −X2 exceder 4;
b) a probabilidade de 3,5 6 X1 −X2 6 5,5;
c) construir um intervalo de confiança para a diferença µ1 − µ2
2 Teste de Hipóteses
Em muitas situações temos interesse em tomar a decisão de aceitar ou rejeitar determinda afir-
mação baseando-se em um conjunto de evidências.
A construção de um teste de hipóteses, para um parâmetro populacional, pode ser colocado do
seguinte modo. Existe uma variável X associada a dada população e tem-se uma hipótese sobre
determinado parâmetro θ dessa população. Por exemplo, afirmamos que o verdadeiro valor de θ é
θ0 . Colhe-se uma amostra aleatória de elementos dessa população, e com ela deseja-se comprovar
ou não tal hipótese.
Qualquer que seja a decisão tomada, estamos sujeitos a cometer erros. São dois os erros que
podem ser cometidos ao se realizar um teste de hipótese, são eles:
Erro tipo I: rejeitar a hipótese nula quando essa é verdadeira. Chamaremos de α a probabilidade
de cometer esse erro, isto é,
α = P(erro tipo I) = P(rejeitar H0|H0 é verdadeira).
Erro tipo II: não rejeitar H0 quando H0 é falsa. A probabilidade de cometer esse erro é denotado
por β, logo
β = P(erro tipo II) = P(não rejeitar H0|H0 é falsa).
O objetivo do teste de hipótese é dizer, usando uma estatística θ̂, se a hipótese H0 é ou não
aceitável. Essa decisão é tomada através da consideração de uma região crítica RC. Caso o valor
observado da estatística pertença a essa região, rejeitamos H0; caso contrário, não rejeitamos H0.
Esta região é construída de modo que P(θ̂ ∈ RC|H0 é verdadeira) seja igual a α, fixado a priori.
A probabilidade α de cometer um erro de tipo I é um valor arbitrário e recebe o nome de nível
de significância ou tamanho do teste. O resultado da amostra é tanto mais significante para re-
jeitar H0 quanto menor for esse nível α, ou seja, quanto menor α menor é a probabilidade de se
obter uma amostra com estatística (estimativa) pertencente à região crítica, sendo pouco provável
a obtenção de uma amostra da população para a qual H0 seja verdadeira. Geralmente, o valor de α
é fixado em 10%, 5% ou 1%.
Passos para construção de um teste de hipóteses:
I) Estabelecer as hipóteses nula e alternativa;
II) Fixar α;
III) Definir a forma da região crítica, com base na hipótese alternativa;
IV) Identificar a distribuição do estimador e obter sua estimativa;
V) Concluir o teste com base na estimativa e na região crítica.
2.1 P-valor
Ao realizarmos um teste de hipóteses, partimos de um valor de α , pré-fixado, para construir
a regra de decisão uma alternativa é deixar a cargo de quem vai utilizar as conclusões do teste a
escolha do valor para a probabilidade α , que não precisará ser fixado à priori. A idéia consiste em
calcular, supondo que a hipótese nula seja verdadeira, a probabilidade de se obter estimativas mais
desfavoráveis ou extremas (à luz da hipótese alternativa) do que a que está sendo fornecida pela
amostra. Esta probabilidade será o P-valor, denotado por P. Valores pequenos de P evidenciam que
a hipótese nula é falsa, pois, sendo a amostra nossa ferramenta de inferência sobre a população,
ela fornece umaestimativa que teria probabilidade muito pequena de acontecer, se H0 fosse ver-
dadeira. O conceito do que é “pequeno"fica a cargo do pesquisador, que assim decide qual α usar
para comparar com o valor P. Daremos agora uma definição formal de um valor P.
definição: O P-valor é o menor nível de significância que conduz à rejeição da hipótese nula H0
com dados fornecidos pela amostra. Assim, um valor P carrega informação sobre o peso da evidên-
cia contra H0.
2.2 Distribuição F de Snedecor
Sejam U e V variáveis aleatórias independentes tendo ambas distribuição qui-quadrado com m
e n graus de liberdade respectivamente. Então a variável aleatória
X =
U
m
V
n
tem distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador,
denotaremos por X ∼ F(m, n).
Se X1, X2, . . . , Xm é uma amostra aleatória de tamanho m de uma população normal com média
µX e variância σ2X , e seja também Y1, Y2, . . . , Yn uma amostra aleatória de tamanho n de uma
população Normal com média µY e variância σ2Y , e se as duas amostras são independentes, então
isto resulta que
1
σ2
m∑
i=1
(Xi −X)2
tem distribuição qui-quadrado com m-1 graus de liberdade, e
1
σ2
n∑
j=1
(Yi − Y )2
tem distribuição qui-quadrado com n-1 graus de liberdade, assim a estatística
F =
1
(m− 1)σ2X
m∑
i=1
(Xi −X)2
1
(n− 1)σ2Y
n∑
j=1
(Yi − Y )2
=
S2X
σ2X
S2Y
σ2Y
tem uma distribuição F com m-1 e n-1 graus de liberdade.
Um procedimento de teste de hipóteses para a igualdade de duas variâncias é baseado no seguinte
resultado. Sujeita a hipótese nula H0 : σ2X = σ
2
Y , a estatística
F =
S2X
S2Y
,
distribuição F com m-1 e n-1 graus de liberdade.
EXERCÍCIOS
Questão 1: Uma máquina automática para encher pacotes de café enche-os segundo uma dis-
tribuição normal, com média µ e variância sempre igual a 400 g2. A máquina foi regulada para
µ = 500g. Desejamos, periodicamente, escolher uma amostra de 16 pacotes e verificar se a pro-
dução está sob controle, isto é, se µ = 500g ou não. Se uma dessas amostras apresentasse uma
média x= 492 g, você pararia ou não a produção para regular a máquina?
Questão 2: Um relatório de uma companhia afirma que 40% de toda a água obtida, através de
poços artesianos no nordeste, é salobra. Há muitas controvérsias sobre essa informação, alguns
dizem que a proporção é maior, outros que é menor. Para dirimir as dúvidas, 400 poços foram
sorteados e observou-se, em 120 deles, água salobra. Qual a conclusão ao nível de 3%.
Questão 3: Deseja-se investigar se uma certa moléstia que ataca o rim altera o consumo de ox-
igênio desse órgão. Para indivíduos sadios, admite-se que esse consumo tem distribuição Normal
com média 12cm3/min. Os valores medidos em cinco pacientes com a moléstia foram: 14,4; 12,9;
15; 13,7 e 13,5. Qual seria a conclusão, ao nível de 1% de significância?
Questão 4: Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu pro-
grama especial da última segunda-feira. Uma rede competidora deseja contestar essa afirmação e
decide usar uma amostra de 200 famílias para um teste. Admitindo que, da pesquisa realizada com
as 200 famílias, obtivemos 104 pessoas que estavam assistindo ao programa. Qual a conclusão ao
nível de 5% de significância?
Questão 5: Um pesquisador deseja estudar o efeito de certa substância no tempo de reação de
seres vivos a um certo tipo de estímulo. Um experimento é desenvolvido com cobaias, que são
inoculadas com a substância e submetidas a um estimulo elétrico, com seus tempos de reação (em
segundos) anotados. Os seguintes valores foram obtidos: 9,1; 9,3; 7,2; 7,5; 13,3; 10,9; 7,2; 9,9; 8;
8,6. Admite-se que o tempo de reação segue, em geral, o modelo Normal com média 8 e desvio-
padrão σ = 2 segundos. O pesquisador desconfia, entretanto, que o tempo médio sofre alteração
por influência da substância. Qual a conclusão ao nível de 6% de significância?
Questão 6: Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina. Uma
amostra de 25 cigarros forneceu média de 31,5 mg e desvio padrão de 3 mg. No nível de 5%, os
dados refutam ou não a afirmação do fabricante?
Questão 7: Para verificar se duas populações têm a mesma média,amostras independêntes foram
retiradas. Sabendo que a população I é Normal (µ1, 25) e a população II Normal (µ2, 40), que con-
clusão pode ser retirada, ao nível 2% ? Os valores obtidos foram:
População Dados
I 12 14 15 14 13 17 14 13
II 13 17 14 13 16 17 18 16
Questão 8: As variáveis X e Y seguem a distribuição Normal com mesma variância. Deseja-se
testar se, também, têm a mesma média. Doze observações de cada variável foram escolhidas e os
resultados foram os seguintes:
12∑
i=1
xi = 48 ;
12∑
i=1
yi = 56 ;
12∑
i=1
x2i = 4.900 ;
12∑
i=1
y2i = 5.650.
Qual é a conclusão ao nível de significância de 5% ?
Questão 9: Para comparar as médias de duas populações Normais, amostras aleatórias foram obti-
das. Sabe-se que as variâncias populacionais são diferentes, sendo seus valores desconhecidos.
Amostra I 7 9 3 8 11 5 9
Amostra II 2 7 5 15 9 16 8
O que pode ser dito a respeito das médias das populações, com α = 0,05 ?
Questão 10: Dois medicamentos para tratamento de infecções bucais estão sendo sendo estudados
e o melhor desempenho é definido pela rapidez em eliminar a infecção. Pacientes escolhidos ao
acaso receberam um dos medicamentos e tiveram a sua cura classificada em rápida ou não. Deseja-
se testar, ao nível 10% , se os medicamentos são equivalentes. os dados obtidos são apresentados a
seguir.
Amostra Pacientes com cura rápida
Medicamento A 50 32
Medicamento B 100 48
Qual é sua conclusão? Indique as hipóteses do teste e as suposições necessárias.
Questão 11: Para comparar o grau de diversidade de duas populações primitivas, uma medida
antropométrica foi obtida em fósseis coletados em sítios arqueológicos, fornecendo a tabela a
seguir.
característica Sítio A (n = 17) Sítio B (n = 23)
Média (cm ) 15,12 12,21
Variância (cm2) 0,124 0,184
O que pode ser concluído a respeito das variâncias? E das médias populacionais?
Questão 12: Um fabricante de esferas para rolamentos desenvolveu um novo método de produção,
mais barato. Entretanto, ele desconfia que os novos lotes apresentam variabilidade diferente daque-
les produzidos pelo método, ele selecionou aleatoriamente 15 esferas que forneceram os seguintes
diâmetros ( em mm):
X 29,9 29,8 29,8 29,7 29,9 29,8 29,9 29,9 30,1 29,9 30,0 30,0 29,6 30,4 29,9
Y 29,8 29,8 30,4 29,8 30,5 29,6 29,3 29,4 30,3 29,9 29,7 30,3 30,4 29,1 30,0
Questão 13: Uma linha de montagem produz peças cujos pesos, em gramas, obedecem ao modelo
Normal com variância 30 g2. Os equipamentos foram modernizados e, para verificar se o processo
continua sob controle, foi tomada uma amostra de 23 peças, forneceu s2obs = 40g
2. Existem ev-
idências indicando que a variância mudou, considerando α = 10% ?
Questão 14: Para avaliar o nível de tensão ocasionada por exames escolares, doze alunos foram
escolhidos e sua pulsação medida antes e depois do exame.
Estudante 1 2 3 4 5 6 7 8 9 10 11 12
Antes 87 78 85 93 76 80 82 77 91 74 76 79
Depois 83 84 79 88 75 81 74 71 78 73 76 71
Faça um teste, com nível de significância de 1% , para verificar se existe maior tensão (isto é, maior
pulsação) antes da realização dos exames. Indique as suposições necessárias.

Outros materiais

Outros materiais