Buscar

P2s e PFs

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 110 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 110 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 110 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UFRJ - CCMN - IM - Departamento de Métodos Estat́ısticos
Probabilidade e Estat́ıstica - Estat́ıstica
Prova # 02 26-11-2013
Atenção: Não serão aceitas respostas sem justificativa: as expressões que levaram a alguma resposta
numérica devem ser indicadas nos espaços apropriados.
1. Dado um conjunto de pares (xi, yi), i variando de 1 até n.
(a) Que relação existe entre as médias das variáveis X e Y=a+X, onde “a” é uma constante
(isto é, yi = a+ xi)? E entre as variâncias de X e Y? E entre as distâncias interquartis
(DIQ) de X e Y? Qual o coeficiente de correlação de X e Y?
(b) Responda as mesmas quatro perguntas do item (a) se Y=bX, onde “b” é uma constante
positiva.
Solução
(a) ȳ =
∑
(a+xi)
n
= a+ x̄ ;
s2y =
∑
(yi−ȳ)2
n−1 =
∑
(a+xi−(a+x̄))2
n−1 = s
2
x;
Q1(y) = y(n+3
4
) = a+ x(n+3
4
) = a+Q1(x) e Q3(y) = y( 3n+1
4
) = a+ x( 3n+1
4
) = a+Q3(x)
DIQ(y) = Q3(y)−Q1(y) = DIQ(x);
rxy =
∑
xiyi−nx̄ȳ√
(
∑
x2i−nx̄2)(
∑
y2i−nȳ2)
=
∑
xi(a+xi)−nx̄(a+x̄)√
(
∑
x2i−nx̄2)(
∑
(a+xi)2−n(a+x̄)2)
= 1
(b) ȳ =
∑
(bxi)
n
= b x̄ ;
s2y =
∑
(yi−ȳ)2
n−1 =
∑
(bxi−(bx̄))2
n−1 = b
2s2x;
Q1(y) = y(n+3
4
) = b x(n+3
4
) = b Q1(x) e Q3(y) = y( 3n+1
4
) = b x( 3n+1
4
) = b Q3(x) , porque
b>0. Assim, DIQ(y) = Q3(y)−Q1(y) = b DIQ(x);
rxy =
∑
xiyi−nx̄ȳ√
(
∑
x2i−nx̄2)(
∑
y2i−nȳ2)
=
∑
xi(bxi)−nx̄(bx̄)√
(
∑
x2i−nx̄2)(
∑
(bxi)2−n(bx̄)2)
= b√
b2
= 1, porque b>0
2. Os dados abaixo correspondem a medições do QI (Quociente de Inteligência) para uma amostra
de 30 pessoas.
117 106 106 100 90 91 130 96 98 99 112 130 102 101 94
100 126 83 106 121 79 103 126 78 79 97 100 93 103 107
Deseja-se estimar a média populacional µ dessa variável, supondo distribuição Normal.
(a) Qual a probabilidade de que o erro absoluto na estimação com base nessa amostra seja
inferior a 3 unidades?
(b) Qual seria o tamanho de uma nova amostra para que, com 95% de probabilidade, o erro
absoluto de estimação seja inferior a 3 unidades?
Obs.: Para facilitar os cálculos, informa-se que:
∑
xi = 3.073 e
∑
x2i = 320.757.
Solução
Sabemos que (X1, ..., X30) é uma amostra aleatória de uma distribuição N(µ;σ
2).
Dáı X̄ ∼ N(µ, σ2/30).
(a) P [|X̄ − µ| < 3] = P [ |X̄−µ|
S/
√
30
< 3
√
30
S
]
Como T = X̄−µ
S/
√
30
∼ t de Student com 29 g.l. e Sobs =
√
320757−30732/30
29
= 14, 36,
P [|X̄ − µ| < 3] = P [|T | < 3
√
30
14,36
] = P [|T | < 1, 144]
Da tabela da t, vemos que P [T < 0, 854] = 0, 8 , o que implica que P [|T | < 0, 854] = 0, 6,
e que P [T < 1, 311] = 0, 9 , o que implica que P [|T | < 1, 311] = 0, 8.
Dáı, 0, 6 < P [|X̄ − µ| < 3] < 0, 8.
Por outro lado, para 29 g.l. a distribuição t de Student já se aproxima muito da Normal
Padrão. Então:
P [|X̄ − µ| < 3] = P [|Z| < 1, 144] = 2Φ(1, 144)− 1 = 2× 0, 8729− 1 = 0, 7458.
(b) Para que tenhamos P [|X̄ − µ| < 3] = 0, 95, o tamanho n da amostra terá de ser maior
que 30. Então, com maior razão, podemos aproximar a t de Student com n-1 g.l. pela
N(0;1). Dáı ,
n =
(z0,975 × Sobs
3
)2
=
(1, 96× 14, 36
3
)2
≈ 88.
3. Sabe-se que a altura dos indiv́ıduos de uma certa população é Normalmente distribúıda. Em
uma amostra aleatória de tamanho 16, obteve-se o seguinte intervalo de 95% de confiança para
a altura média populacional (177, 66; 185, 5) (em cm).
(a) Forneça estimativas pontuais para a altura média e para o desvio padrão da altura.
(b) Qual seria o novo intervalo se a confiança exigida fosse 99%?
(c) Qual deveria ser o tamanho de uma nova amostra para que o novo intervalo tivesse a
mesma amplitude do intervalo anterior, porém agora com 99% de confiança, supondo que
o desvio padrão populacional seja igual a 9 cm?
Solução
(a) Estimativa pontual para a média: x = 177,66+185,50
2
= 181, 58.
Estimativa pontual para o desvio padrão: temos que 185, 50−181, 58 = 3, 92 e, portanto,
3, 92 = t1−α/2
s√
n
=
2,13︷︸︸︷
t0,975
s√
16
⇒ s = 7, 3615.
(b)
IC(0, 99) =
(
x− t0,995
s√
n
; x+ t0,995
s√
n
)
=
(
181, 58− 2, 95× 7, 3615
4
; 181, 58 + 2, 95× 7, 3615
4
)
= (176, 12; 186, 98).
(c) Se σ = 9 cm e o novo Int. Confiança para µ ao ńıvel 0,99 tem a mesma amplitude do
anterior), temos:
185,5 - 177,66 = 2 z0,995 × 9√n , o que implica que n =
(
2×2,58×9
7,84
)2
≈ 35, 087, n = 36.
4. Suponha que os tempos de vida, em horas, de certos semicondutores a laser sejam Normalmente
distribuidos com média µ e variância σ2.
Para testar H0 : µ ≤ 7.000 versus H1 : µ > 7.000, uma amostra aleatória de tamanho 25 foi
observada e apresentou os seguintes resultados:∑
xi = 179.500,
∑
(xi − x̄)2 = 8.640.000
(a) Qual a sua conclusão, ao ńıvel de significância de 1%?
(b) Determine o menor intervalo no qual você sabe que o p-valor associado aos dados obtidos
se encontra.
(c) Com base no intervalo obtido no item (b), diga qual seria sua decisão se o ńıvel de
significância fosse de 5%. E se fosse 10%?
Solução
Vamos testar H0 : µ ≤ 7000 horas contra H1 : µ > 7000 horas.
(a) Usaremos α = 0, 01 e uma amostra de tamanho n = 25. Já que σ é desconhecido, a
estat́ıstica de teste é T = x̄−7000
S/
√
25
, cuja distribuição é uma t de Student com 24 g.l., se
µ = 7000.
A região de rejeição é definida por Tobs > t0,99;24 = 2, 492. (Pela tabela da t)
Como
∑
xi = 179500, x̄ =
179500
25
= 7180.
Como
∑
(xi − x̄)2 = 8640000, s =
√
8640000
24
= 600.
Então, Tobs =
7180−7000
600/
√
25
= 1, 5.
Uma vez que Tobs = 1, 5 < 2, 492, H0 deve ser aceita.
(b) p-valor =P [T > 1, 5], onde T ∼ t de Student com 24 g.l.
Pela tabela da t, vemos que P [T < 1, 318] = 0, 90 e P [T < 1, 711] = 0, 95.
Dáı, P [T > 1, 711] < p− valor < P [T > 1, 318], ou seja, 0, 05 < p− valor < 0, 10.
(c) A partir da conclusão do item (b), vemos que se α = 0, 05, H0 seria aceita; e se α = 0, 10,
H0 seria rejeitada. Isto porque o p-valor é o menor valor de α para o qual H0 ainda seria
rejeitada, com os dados dispońıveis.
Boa prova!
UFRJ - CCMN - IM - Departamento de Métodos Estat́ısticos
Probabilidade e Estat́ıstica - Estat́ıstica
Prova #2 22-05-2014
Atenção: Não serão aceitas respostas sem justificativa: as expressões que levaram a alguma
resposta numérica devem ser indicadas nos espaços apropriados.
1. A tabela abaixo apresenta o número de gols sofridos pela seleção brasileira de futebol em
cada uma das edições da copa do mundo.
Ano 1930 1934 1938 1950 1954 1958 1962 1966 1970 1974
Gols sofridos 2 3 11 6 5 4 5 6 7 4
Ano 1978 1982 1986 1990 1994 1998 2002 2006 2010
Gols sofridos 3 6 1 2 3 10 4 2 4
(a) Qual é o número médio de gols sofridos pela seleção por edição da copa? Calcule o
desvio padrão e o coeficiente de variação do número de gols sofridos.
(b) Calcule os quartis e construa um box-plot. Existe algum valor que pode ser considera-
do discrepante?
Resposta: (a) x̄ = 88
19
= 4, 631579; s2 =
∑
x2i−nx̄2
n−1 =
532−19×4,6315792
19−1 = 6, 912281 ⇒ s =
2, 629122; cv = s
x̄
× 100 = 2,629122
4,631579
× 100 = 56, 7651%.
(b) Q1 = 3, Q2 = 4, Q3 = 6; LI = 3− 1, 5× 3 = −1, 5, LS = 6 + 1, 5× 3 = 10, 5.
●
2
4
6
8
10
O valor 11 da copa de 1938 é discrepante.
2. Deseja-se estimar a proporção p das empresas localizadas em uma região que possuem um
setor de treinamento de pessoal. Determine o tamanho mı́nimo de uma amostra aleatória
simples a ser extráıda do conjunto dessas empresas para que o erro absoluto de estimação
seja inferior a 0, 105, com uma probabilidade de 0, 98, nas seguintes situações:
(a) Nada se sabe sobre o valor de p;
(b) Sabemos que pelo menos 80% das empresas dessa região possuem um setor de treina-
mento.
Resposta: Para garantir que P [|p̂−p| < 0, 105] = 0, 98, devemos ter n ≥ (z0,99/0, 105)2p(1−
p). Consultando a tabela da Normal padrão, obtemos z0,99 = 2, 33.
(a) Fazendo p = 0, 5, obtemos n ≥ (2, 33/0, 105)2 × 0, 5× 0, 5 ≈ 124.
(b) Fazendo p = 0, 8, obtemos n ≥ (2, 33/0, 105)2 × 0, 8× 0, 2 ≈ 79. Obs.: Em ambos os
casos foi feito um arredondamento para cima.
3. Suponhamos que se queira estimar, usando intervalo de confiança, o tempo médio que
levao prinćıpio ativo de um remédio para chegar à corrente sangúınea de um paciente
desde o momento que ele é ingerido.
(a) Suponha inicialmente que a distribuição de X é desconhecida e obtenha um intervalo
de confiança de 95% para a média. Suponha que 80 medidas deste tempo X, em segundos,
foram feitas e obteve-se:
80∑
i=1
xi = 1 920 e
80∑
i=1
x2i = 48 055.
Use como valor da variância, o obtido pelo calculo de s2.
(b) Suponha agora que somente 25 medidas de X estão dispońıveis e obteve-se:
25∑
i=1
xi = 600 e
25∑
i=1
x2i = 15 018.
Se for posśıvel dizer que X é normalmente distribúıda, obtenha um intervalo de confiança
de 95% para a média sem fazer nenhuma suposição sobre o valor da variância de X.
Resposta: (a) Temos x̄ = 24, s2 = 25 e z1−α/2 = 1, 96, onde 1 − α/2 = 0, 975. Logo, os
limites do intervalo são:
l1 = 24− 1, 96
5√
80
= 24− 1, 0957 e l2 = 24 + 1, 96
5√
80
= 24 + 1, 0957.
(b) Já que a variável segue uma distribuição Normal, temos x̄ = 24, s2 = 25, 75 e
t1−α/2;24 = 2, 06, onde 1− α/2 = 0, 975 e usamos 24 graus de liberdade. Logo, os limites
do intervalo são:
l1 = 24− 2, 06
5, 07√
25
= 24− 2, 089 e l2 = 24 + 2, 06
5, 07√
25
= 24 + 2, 089.
4. Pretende-se realizar um teste de hipótese de H0: µ ≥ 10 versus H1: µ < 10 com n=25,
σX = 3 e α = 0, 1.
(a) Aponte a estat́ıstica de teste e o critério de decisão (ou seja, as regiões de rejeição e
de aceitação) a serem usados.
(b) Diga, no contexto de teste de hipóteses, o que são: o erro I e o erro II. Determine a
P(erro de tipo II) para µ = 8, 5.
(c) Que decisão deve ser tomada se x=8,2 nesta amostra com 25 elementos.
Resposta: (a) H0: µ = 10 versus H1: µ < 10, sendo a hipóteses H0 considerada como
simples a região de rejeição deveria ser X ≤ xc. Assim, Φ(zc) = 0, 10 =⇒ Φ(−zc) =
0, 90 =⇒ −zc = 1, 28 =⇒ zc = −1, 28. Como zc = xc−µ0σ/√n =⇒ xc = −1, 28 × 3/5 + 10 =
9, 23. Assim, rejeita-se H0 se xobs < 9, 23, caso contrário não há evidência para a rejeição
de H0 .
(b) Erro I: Rejeitar H0 quando H0 é verdadeira. Erro II: Aceitar H0 quando H0 é falsa.
A P (erro II) é obtida supondo µ = 8, 5 e calculando P (Xc < 9, 23) = Φ(
9,23−8,5
3/5
) ≈
Φ(1, 22) = 0, 8888.
(c) Como xobs = 8, 2 < 9, 23 há evidência para a rejeição da hipótese H0.
Boa prova!
UFRJ - CCMN - IM - Departamento de Métodos Estat́ısticos
Probabilidade e Estat́ıstica - Estat́ıstica
Prova #2 25-11-2014
Atenção: Não serão aceitas respostas sem justificativa: As expressões que levaram a alguma resposta numérica
devem ser indicadas nos espaços apropriados.
1. Um grupo de engenheiros deseja estudar a relação entre o número médio de itens defeituosos produzidos pelas
máquinas a cada lote de 1.000 peças e o tempo de funcionamento dessas máquinas, em anos. Para isso, coletaram
esses dados para 10 máquinas:
X = Tempo de funcionamento 1 1 2 4 5 6 9 9 11 x10
Y = Número médio de itens defeituosos 6 8 15 12 13 18 28 21 26 y10
Sabe-se que:
10∑
i=1
xi = 63aaaaaa
10∑
i=1
yi = 182aaaaaa
10∑
i=1
x2i = 591aaaaaa
10∑
i=1
y2i = 4088aaaaaa
10∑
i=1
xiyi = 1517
(a) Quais os valores da observação faltante (x10, y10)? Construa o gráfico de dispersão das variáveis X e Y.
(b) Calcule o coeficiente de correlação amostral entre X e Y, interpretando o valor obtido.
(c) Calcule os coeficientes da reta de regressão Y = a + bX e utilize a equação desta reta para estimar a
proporção esperada de itens defeituosos entre os que forem produzidos por uma máquina já em funcionamento
por 10 anos.
2. Sejam X1, X2, . . . Xn uma amostra aleatória da variável aleatória X com distribuição Bernoulli(p).
(a) Qual a distribuição de Y = X1 +X2 + . . .+Xn?
(b) Considere os dois seguintes estimadores para p: T1 =
Y
n
e T2 =
Y +
√
n
2
n+
√
n
. Esses estimadores são não
tendenciosos(não viciados) para p?
(c) Expresse o erro quadrático médio (EQM) desses dois estimadores em função de n e p.
(d) Suponha n=4 e faça um único gráfico mostrando o comportamento do EQM em função de p para os dois
estimadores.
3. Um procedimento qúımico utilizado por uma indústria gera em média µ mg de cloreto de sódio como produto
final de uma reação. A quantidade de cloreto obtida a cada vez apresenta um comportamento aleatório N(µ, σ2),
onde σ2 = 2500. A partir de 100 repetições do mesmo procedimento, obteve-se em média 200 mg de cloreto.
(a) Calcule o intervalo de confiança de 99% para µ. Interprete o resultado.
(b) Considere que a indústria modificou o procedimento anterior e que agora a variância da quantidade de
cloreto produzida não é mais conhecida. Com uma amostra de 51 repetições desse novo procedimento, obteve-se
média e desvio-padrão amostrais respectivamente iguais a 250 mg e 60 mg. Obtenha o intervalo de confiança
de 99% para o µ que o novo procedimento é capaz de produzir.
(c) Com base nos itens anteriores, você acredita que o novo procedimento seja capaz de produzir, em média,
uma quantidade de cloreto de sódio diferente da que era obtida anteriormente? Qual é o ńıvel de confiança
associado à sua conclusão? (Suponha que as seleções de amostra relativas aos dois procedimentos qúımicos
tenham sido realizadas independentemente uma da outra).
4. O teor da substância S no minério M0 se comporta como uma Normal de média 25% e desvio padrão 10%. Já
o teor da substância S no minério M1 também se comporta como uma Normal, porém esta com média 30% e
desvio padrão 10%. A Companhia C dispõe de um volume apreciável de um minério cuja natureza (M0 ou M1)
é desconhecida. Como S é uma impureza indesejável, só interessa à Cia. C utilizar esse material no caso de ele
ser M0. Serão coletadas n unidades amostrais desse material a serem analisadas quimicamente e, com base nos
resultados, se pretende testar H0: o minério é M0 contra H1: o minério é M1.
(a) Qual deve ser o tamanho n da amostra para que as probabilidades do Erro I e do Erro II sejam respectiva-
mente de 0,01 e 0,10?
(b) Usando o n obtido em (a), qual a decisão a ser tomada se X̄obs = 28%? Justifique a sua resposta.
Sugestão: Note que quanto maior for a média amostral, maiores serão os motivos para se rejeitar H0.
Boa prova!
SOLUÇÕES
1. (a) X10 =
10∑
i=1
Xi −
9∑
i=1
Xi = 63− (1 + . . .+ 11) = 15aaaaaY10 =
10∑
i=1
Yi −
9∑
i=1
Yi = 182− (6 + . . .+ 26) = 35
(b)
rxy =
10∑
i=1
XiYi − nX̄Ȳ√√√√ 10∑
i=1
X2i − nX̄2
√√√√ 10∑
i=1
Y 2i − nȲ 2
=
1517− 10× 6, 3× 18, 2√
591− 10× (6, 3)2
√
4088− 10× (18, 2)2
= 0, 95464
Como esse valor está próximo de 1, as variáveis número médio de itens defeituosos produzidos e tempo de
funcionamento da máquina tem forte relação linear positiva.
(c)
b̂ =
10∑
i=1
XiYi − nX̄Ȳ
10∑
i=1
X2i − nX̄2
=
1517− 10× 6, 3× 18, 2
591− 10× (6, 3)2
= 1, 908aaaaaâ = Ȳ − b̂X̄ = 18, 2− 1, 908× 6, 3 = 6, 178
Quando X=10 temos que o Y estimado será: Ŷ = â+ b̂× 10 = 6, 178 + 1, 908× 10 = 25, 258. Então a proporção
estimada será: 25,2581000 = 2, 526%
2. (a) X1, . . . , Xn são iid’s Bernoulli(p) ⇒ Y =
n∑
i=1
Xi ∼ binomial(n,p).
(b) E(T1) = E
(
Y
n
)
=
np
n
= p ⇒ T1 é não tendencioso(não viciado) para p.
E(T2) = E
(
Y +
√
n
2
n+
√
n
)
=
np+
√
n
2
n+
√
n
⇒ T2 é tendencioso(viciado) para p.
(c) Viés(T1) = 0
Viés(T2) =
np+
√
n
2
n+
√
n
− p =
np+
√
n
2 − np−
√
np
n+
√
n
=
√
n
(
1
2 − p
)
√
n(
√
n+ 1)
=
1
2 − p√
n+ 1
Var(T1) = Var
(
Y
n
)
=
np(1− p)
n2
=
p(1− p)
n
Var(T2) = Var
(
Y +
√
n
2
n+
√
n
)
=
np(1− p)
(n+
√
n)2
=
np(1− p)
(
√
n(
√
n+ 1))2
=
p(1− p)
(
√
n+ 1)2
Como EQM(Ti) = Viés(Ti)
2 + Var(Ti), temos que:
EQM(T1) =
p(1− p)
n
EQM(T2) =
(
1
2 − p√
n+ 1
)2
+
p(1− p)
(
√
n+ 1)2
=
1
4 − p+ p
2 + p− p2
(
√
n+ 1)2
=
1
4(
√
n+ 1)2
(d) Com n=4, temos: EQM(T1) =
p(1− p)
4
e EQM(T2) =
1
36
.
3. (a)
x̄ = 200; σ = 50; n = 100; q0,995 = 2, 573
x̄± q0,995 ×
σ√
n
=
(
200− 2, 573× 50
10
; 200 + 2, 573× 50
10
)
= (187, 135; 212, 865)
(b)
x̄ = 250; s = 60; n = 51; t0,995 = 2,678; q0,995 = 2, 573
Resolvendo utilizando a t-student:
x̄± t0,995 ×
s√
n
=
(
250− 2, 678× 60√
51
; 250 + 2, 678× 60√
51
)
= (227, 5; 272, 5)
Resolvendo utilizando a aproximação para normal:
x̄± q0,995 ×
s√
n
=
(
250− 2, 573× 60√
51
; 250 + 2, 573× 60√
51
)
= (228, 4; 271, 6)
(c) Ambos os intervalos conterão simultaneamente a respectiva média populacional com probabilidade 0, 992 =
0, 9801. Logo, como a interseção dois dois intervalos é vazia, as médias devem ser diferentes ao ńıvel de confiança
de 98, 01%
4. (a) Sejam µ0 = 25, µ1 = 30, α = 0, 01, β = 0, 10, e σ = 10.
Se H0 é verdadeira, X1, X2, . . . Xn são v.a’s iid’s com distribuição N(µ0;σ
2), e se H0 é falsa, X1, X2, . . . Xn são
v.a’s iid’s com distribuição N(µ1;σ
2)
Já que se trata de um teste de média, a estat́ıstica de teste será a média amostral X̄.
Como µ0 = 25 < 30 = µ1, o critério de decisão será do tipo: Rejeitar H0 se X̄obs > x̄c, onde o ponto de corte
x̄c é uma constante a determinar. Caso contrário, aceitar H0.
Então α = P(Erro I) = P(X̄ > x̄c), se H0 é verdadeira. Neste caso X̄ ∼ N
(
µ0;
σ2
n
)
.
Logo, padronizando temos: α = P
(
X̄ − µ0
σ√
n
>
x̄c − µ0
σ√
n
)
= P
(
Z >
(x̄c − µ0)
√
n
σ
)
, o que implica em Z(1−α) =
(x̄c−µ0)
√
n
σ ⇒ x̄c =
σZ(1−α)√
n
+ µ0 (I)
Por outro lado, β = P(Erro II) = P(X̄ ≤ x̄c), se H0 é falsa. Neste caso X̄ ∼ N
(
µ1;
σ2
n
)
.
Logo, padronizando temos: β = P
(
X̄ − µ1
σ√
n
≤ x̄c − µ1σ√
n
)
= P
(
Z ≤ (x̄c − µ1)
√
n
σ
)
, o que implica em Zβ =
(x̄c−µ1)
√
n
σ ⇒ x̄c =
σZβ√
n
+ µ1 (II)
De (I) e (II) decorre que
σZ(1−α)√
n
+ µ0 =
σZβ√
n
+ µ1, o que implica em:
n =
(
σ(Z(1−α) − Zβ)
µ1 − µ0
)2
=
(
10(2, 33− (−1, 28))
30− 25
)2
∼= 52.
(b) De (I) temos que x̄c =
10× 2, 33√
52
+ 25 = 28, 23.
Como X̄obs = 28 < 28, 23, H0 deve ser aceita.
UFRJ - CCMN - IM - Departamento de Métodos Estat́ısticos
Segunda Prova de Probabilidade e Estat́ıstica 02-07-2015
Atenção: Não serão aceitas respostas sem justificativa. As soluções devem ser feitas nos espaços apropriados.
1. Túlio está vendendo cartelas de rifa com o objetivo de juntar dinheiro para comprar um v́ıdeo-game que custa
R$ 1.200,00. Cada cartela de rifa tem um preço aleatório, definido por raspadinhas no corpo da cartela. Em
média, compradores pagam R$ 50,00 com desvio padrão de R$ 10,00.
(a) Túlio vendeu 25 cartelas. Qual é a probabilidade de ele ter conseguido uma quantia suficiente para fazer
a compra que deseja?
(b) Quantas cartelas Túlio precisaria vender para conseguir recursos suficientes para essa compra com 50%
de probabilidade?
Obs.: Admita que, em ambos os casos, o tamanho amostral é suficientemente grande para que seja válida a
aproximação fornecida pelo Teorema Central do Limite.
2. Cinco pessoas estão almoçando juntas. Os nomes dessas pessoas, ordenando-as em termos de idade (do mais
novo para o mais velho), são: Paulo, Andrea, Jorge, Daniela e Vitor. Com base em suas idades, foram calculadas
as seguintes medidas: Média = 21, Mediana = 25, Distância Interquartil = 10, Amplitude = 30 (todas elas
expressas em anos) e Variância = 146 anos2.
(a) Quais são as idades de cada um deles?
(b) Alguma dessas cinco observações pode ser considerada discrepante, pelo critério para identificação de
outliers que se baseia nos quartis da variável? Qual?
Obs.: Amplitude = (Maior valor) − (Menor valor).
3. Um administrador do governo quer avaliar a proporção p de aprovação da comunidade sobre determinado
projeto. Para isso fez uma pesquisa de opinião selecionando ao acaso 40 pessoas da população de interesse.
Considerando “1” = favorável e “0”= desfavorável, temos então 40 variáveis aleatórias iid X1, X2, ..., X40,
todas elas com distribuição de Bernoulli(p). Considere as quatro seguintes alternativas de estimador para p:
p̂A =
X10 +X20 +X30 +X40
4
, p̂B =
X10 + 2X20 + 3X30 + 4X40
10
, p̂C =
∑40
i=1Xi
40
e
p̂D =
∑10
i=1Xi + 2.
∑20
i=11Xi + 3.
∑30
i=21Xi + 4.
∑40
i=31Xi
100
(a) Qual é o viés (ou v́ıcio) de cada um desses estimadores?
(b) Expresse o erro quadrático médio (EQM) de cada um deles em função de p. Ordene esses estimadores em
termos de seus EQM, e diga qual é o melhor de acordo com esse critério.
(c) Se os dados coletados foram:
10001 11111 10111 11110 11000 11111 11111 11100,
qual é a estimativa de p para cada uma das quatro alternativas?
4. Um disparador de part́ıculas realiza o lançamento de part́ıculas idênticas e o tempo com que essas part́ıculas
percorrem uma certa distância é normalmente distribuido com média e variância desconhecidas. Com objetivo
de estudar propriedades desse disparador, foram lançadas 25 part́ıculas e foi computado o tempo, em segundos,
que cada uma delas levou para percorrer uma distância D. Esses dados seguem abaixo:
9, 12, 13, 15, 15, 17, 18, 18, 18, 19, 19, 20, 20, 21, 22, 24, 24, 24, 25, 26, 26, 27, 29, 31, 33
Denotando por xi as medições acima, temos:
∑25
i=1 xi = 525
∑25
i=1 x
2
i = 11877
(a) Construa um intervalo de 95% de confiança para o tempo médio com que as part́ıculas lançadas percorrem
essa distância D. Interprete o significado do intervalo obtido.
(b) Um f́ısico afirmou que o tempo médio necessário para as part́ıculas disparadas percorrerem uma distância
D, como essa, é de no máximo 18 segundos. Utilizando o conceito de p-valor, verifique se a afirmação H0
do f́ısico será constestada ao ńıvel de significância de 2%.
(c) Construa um teste de hipóteses com ńıvel de significância 8% para testar se o 3o quartil dos tempos com
que as part́ıculas disparadas percorrem essa distância D é igual a 23 contra a alternativa de que ele é
diferente de 23. Qual a conclusão desse teste?
Obs.: Note que é posśıvel relacionar quartis com proporções.
Boa prova!
Soluções
1. (a) Sejam X1, . . . , X25 variáveis aleatórias representando os valores pagos em cada cartela. Assim, a proba-
bilidade do dinheiro ser suficiente é
P
(
25∑
i=1
Xi ≥ 1200
)
= P (X̄ ≥ 1200/25), em que X̄ ∼ N(50, 100/25).
Logo,
P (X̄ ≥ 1200/25) = P (X̄ ≥ 48) = P
(
Z ≥ 48− 50
10/
√
25
)
= P (Z ≥ −1) = 0, 8413.
(b) Deseja-se saber qual é o valor de n tal que
P
(
n∑
i=1
Xi ≥ 1200
)
= 0, 50.
Temos que
P
(
n∑
i=1
Xi ≥ 1200
)
= P (X̄ ≥ 1200/n), em que X̄ ∼ N(50, 100/n).
Logo,
P (X̄ ≥ 1200/n) = P
(
Z ≥ 1200/n− 50
10/
√
n
)
= 0, 50
⇒ 1200/n− 50
10/
√
n
= 0⇒ n = 1200/50 = 24.
2. (a) Sejam x1 ≤ x2 ≤ x3 ≤ x4 ≤ x5 as idades de Paulo, Andrea, Jorge, Daniela e Vitor, respectivamente.
Então, temos:
Mediana = x3 = 25, (I)
Distância Interquartil = x4 − x2 = 10, (II)
Amplitude = x5 − x1 = 30, (III)
Média = 21→ x1 + x2 + x3 + x4 + x5 = 5× 21 = 105 (IV)
Variância = 146→ x21 + x22 + x23 + x24 + x25 − 5× 212 = 4× 146 (V)
Substituindo (I), (II) e (III) em (IV), obtemos:
x1 + x2 + 25 + (x2 + 10) + (x1 + 30) = 105→ 2x1 + 2x2 = 40→ x1 + x2 = 20→ x2 = 20− x1 (VI)
Além disso, de (II), x4 = x2 + 10 = 20− x1 + 10 = 30− x1 (VII)
Substituindo (VI), (I), (VII) e (III) em (V), chegamos a:
x21 + (20− x1)2 + 252 + (30− x1)2 + (30 + x1)2 = 4× 146 + 5× 441 = 2789.
Isto nos leva a equação do 20 grau : x21 − 10x1 + 9 = 0, cujas ráızes são 9 e 1.
Experimentemos inicialmente a solução x1 = 9.
Ela nos leva a: x2 = 20− 9 = 11, x3 = 25, x4 = 30− 9 = 21 e x5 = 30 + 9 = 39.
Essa solução não serve, porque aqui temos x3 = 25 > x4 = 21, contrariando a premissa de que os dados
estão ordenados.
Experimentemos agora a solução x1 = 1. Ela nos leva a:
x2 = 20− 1 = 19, x3 = 25, x4 = 30− 1 = 29 e x5 = 30 + 1 = 31. Solução correta!
As idades são, portanto, as seguintes: Paulo: 1, Andrea: 19, Jorge: 25, Daniela: 29 e Vitor: 31.
(b) As cercas neste caso são: Cerca inferior = x2 − 1, 5×DIQ = 19− 1, 5× 10 = 4 e
Cerca superior = x4 + 1, 5×DIQ = 29 + 1, 5× 10 = 44.
Sendo assim, temos um único outlier, que é a idade de Paulo = 1 ano.
3. (a) Usando as propriedades da esperança de uma combinação linear de variáveis aleatórias iid:
E(p̂A) = E(
X10+X20 +X30 +X40
4
) = p, E(p̂B) = E(
X10 + 2.X20 + 3.X30 + 4.X40
10
) = p,
E(p̂C) = E(
∑40
i=1Xi
40
) = p, E(p̂D) = E(
∑10
i=1Xi + 2.
∑20
i=11Xi + 3.
∑30
i=21Xi + 4.
∑40
i=31Xi
100
) = p
O viés é B(θ̂) = E(θ̂)− θ. Assim, B(p̂A) = B(p̂B) = B(p̂C) = B(p̂D) = 0
(b) Usando as propriedades da variância de uma combinação linear de variáveis aleatórias iid:
V ar(p̂A) = V ar(
X10 +X20 +X30 +X40
4
) =
1
16
(V ar(X10)+V ar(X20)+V ar(X30)+V ar(X40)) =
p(1− p)
4
,
V ar(p̂B) =
V ar(X10) + 4.V ar(X20) + 9.V ar(X30) + 16.V ar(X40)
100
=
3
10
p(1− p)
V ar(p̂C) = V ar(
∑40
i=1Xi
40
) =
∑40
i=1 V ar(Xi)
402
=
p(1− p)
40
V ar(p̂D) =
V ar(
∑10
i=1Xi) + 4.V ar(
∑20
i=11Xi) + 9.V ar(
∑30
i=21Xi) + 16.V ar(
∑40
i=31Xi)
1002
=
3
100
p(1− p)
Colocando as frações: 14
3
10
1
40
3
100 com o mesmo denominador:
100
400
120
400
10
400
12
400 . Assim,
V ar(p̂C) ≤ V ar(p̂D) ≤ V ar(p̂A) ≤ V ar(p̂B). Como os estimadores são não viciados, temos que:
EQM(p̂C) ≤ EQM(p̂D) ≤ EQM(p̂A) ≤ EQM(p̂B)
O melhor estimador é o p̂C .
(c) Para esse conjunto de dados, temos as seguintes estimativas:
p̂A =
2
4
= 0, 5
p̂B =
1 + 2× 0 + 3× 1 + 4× 0
10
=
4
10
= 0, 4
p̂C =
30
40
= 0, 75
p̂D =
7 + 2× 8 + 3× 7 + 4× 8
100
=
76
100
= 0, 76
4. (a) Estat́ısticas necessárias: x̄ =
25∑
i=1
xi
25
=
525
25
= 21 e s2x =
∑25
i=1 x
2
i − 25x̄2
25− 1
=
11877− 25.(21)2
24
= 35, 5
Seja µ o tempo médio. Como temos variância desconhecida e tamanho amostral pequeno (n < 30), é preciso
construir o intervalo através da distribuição t-student. Temos que:
P
(
tn−1
(α
2
)
<
X̄ − µ
S√
n
< tn−1
(
1− α
2
))
= 1− α
P
(
−tn−1
(
1− α
2
) S√
n
< X̄ − µ < tn−1
(
1− α
2
) S√
n
)
= 1− α
P
(
X̄ − tn−1
(
1− α
2
) S√
n
< µ < X̄ + tn−1
(
1− α
2
) S√
n
)
= 1− α
Os extremos do Intervalo de Confiança a 95% para µ são, portanto:
x̄± t24(0, 975)
sx√
n
, ou seja, 21± 2, 064
√
35, 5
25
Logo, IC(µ, 95%) = [ 18, 540 ; 23, 460 ] em segundos.
Interpretação: Esse procedimento nos permite obter intervalos que conterão o verdadeiro valor do parâmetro
µ, tempo médio, com 95% de chance. Vale observar que µ é um valor fixo, embora desconhecido, enquanto que
os limites do intervalo são aleatórios.
(b) Queremos testar
{
H0 : µ ≤ 18
H1 : µ > 18
Como σ2 é desconhecido e n < 30, vamos utilizar o fato de que, sob H0,
X̄ − µ
S√
n
∼ tn−1
Denotando p-valor por α̃, temos que sendo H0 verdadeira, ou seja, sendo µ = 18.
α̃ = P (X̄ > x̄) = P
(
Tn−1 >
x̄− µ
s√
n
)
= P
T24 > 21− 18√35,5√
25
 = P (T24 > 3
1, 192
)
=
= P (T24 > 2, 527) = 1− P (T24 ≤ 2, 527)
Pela tabela da t-student, podemos ver (olhando na linha associada a 24 graus de liberdade) que esse
P (T24 ≤ 2, 527) está entre 0, 99 e 0, 995. Logo, α̃ ∈ [ 0, 005 ; 0, 01 ].
Então, α̃ < 0, 02 = α, indicando que H0 deve ser rejeitado ao ńıvel de 2%, ou seja, a afirmação do f́ısico deve
sim ser contestada.
(c) Queremos testar
{
H0 : Q3 = 23
H1 : Q3 6= 23
Defina p como sendo a proporção teórica de valores do tempo abaixo de 23 e p̂ o estimador para p, dado
pela proporção amostral de valores abaixo de 23. Como a probabilidade de um ensaio da variável ”tempo de
deslocamento da part́ıcula” retornar um resultado abaixo de Q3 é 75%, temos que o teste desejado equivale a
testar, ao ńıvel α = 0.08: {
H0 : p = 0, 75
H1 : p 6= 0, 75
Como np0(1− p0) = 25× 0, 75× 0, 25 = 4, 59 ≥ 3, podemos aproximar Binomial por Normal. Então:
α = P ( Rej H0), se H0 é verdadeira ⇒
A região de aceitação é um intervalo da forma: 0, 75 ± c, onde P (0, 75 − c < p̂ < 0, 75 + c) = 0, 92, sendo
p̂ ∼ N(0, 75; 0,75×0,2525 )
P (p̂ < 0, 75 + c) = 0, 96 ⇒ P
 p̂− p√
p(1−p)
n
<
0, 75 + c− 0, 75√
0,75(0,25)
25
 = 0, 96
P
(
Z <
c
0, 0866
)
= 0, 96 ⇒ c
0, 0866
= Z0,96 ⇒
c
0, 0866
= 1, 75 ⇒ c = 0.15155
Logo, a região de aceitação desse teste é dada por RA: [0, 75−0, 15155 ; 0, 75+0, 15155] = [0, 59845 ; 0, 90155].
Como na amostra se observou p̂ = 1525 = 0, 6 e esse valor pertence a região de aceitação encontrada, temos que
H0 não foi rejeitado ao ńıvel 8%, ou seja, não foi rejeitado que Q3 = 23.
obs: Esse teste também poderia ser aplicado definindo por p a proporção de valores acima de 23. Nesse caso,
testariamos se p = 0, 25. Com cálculos similares chegariamos à região de aceitação RA:[0, 09845 ; 0, 40155] e
concluiŕıamos pela não rejeição de H0 pois p̂ = 0, 4 ∈ RA.
UFRJ - CCMN - IM - Departamento de Métodos Estatísticos
Segunda Avaliação de Probabilidade e Estatística 16-11-2017
Atenção: Não serão aceitas respostas sem justificativa.
Resolver as questões nos espaços apropriados.
1. Suponha que Xi, i = 1, . . . , 50, sejam variáveis aleatórias independentes, cada uma delas tendo distribuição de Pois-
son com parâmetro λ = 0, 03. Faça S = X1 + . . . + X50. Observação: a soma de variáveis aleatórias de Poisson
independentes tem distribuição de Poisson.
(a) Empregando o Teorema Central do Limite, calcule uma aproximação para P (S ≥ 3).
(b) Calcule o valor exato dessa probabilidade.
OBS: Aqui se trata de aproximar uma distribuição discreta por uma contínua. Então, da mesma forma como foi visto
no caso da aproximação de Binomial por Normal, cabe usar uma correção de continuidade.
2. Os dados abaixo correspondem a notas de uma turma de Probest com 30 alunos:
68 47 87 65 97 49 65 70 73 81
85 77 83 56 63 79 82 84 69 70
61 73 30 81 67 76 58 53 71 82
onde:
∑30
i=1 xi = 2102 e
∑30
i=1 x
2
i = 152996
(a) Construa um gráfico ramo e folha, com os ramos: 3,4,5,...,9.
(b) (i) Calcule a média e os quartis; (ii) Calcule a variância e o desvio padrão;
(iii) Existe alguma nota fora do intervalo x̄± 2s?
(c) Construa um desenho esquemático (boxplot).
3. Deseja-se estimar a concentração de uma determinada substância indesejada em uma amostra de um produto químico.
Devido a imprecisões do aparelho utilizado, que induzem erros de medição supostos normalmente distribuídos, são
realizadas diversas repetições do experimento, implicando na obtenção das medidas:
8, 80 10, 98 11, 48 13, 42 9, 61,
expressas na unidade de ppm (partes por milhão). A fim de concatenar tais estimativas em somente uma, mais
precisa, o pesquisador considera a média amostral como uma estimativa da concentração da substância indesejada, e
para estudar a qualidade da estimação ele considera intervalos de confiança. Para isso, faça o que se pede abaixo:
(a) Construa um intervalo de confiança de 95% para a média amostral supondo que σ = 2, ou seja, a incerteza
introduzida pelo equipamento é conhecida.
(b) Construa um intervalo de confiança de 95% para a média amostral, agora supondo σ desconhecido, ou seja, no
caso em que a incerteza introduzida pelo equipamento de medição é desconhecida.
4. O consumo médio de gasolina em um certo tipo de automóvel é de 15 km/`, segundo informações da montadora.
Uma revista especializada verificou o consumo em 25 desses veículos, escolhidos ao acaso, e constatou consumo médio
de 14,3 km/`. Admita que o consumo siga o modelo normal com variância igual a 9 (km/`)2. Considere nível de
siginificância de 10% para os testes abaixo.
(a) Teste a afirmação da montadora de que a média de consumo é igual a 15 km/` contra a alternativa de ser igual
a 14 km/`.
(b) Teste a afirmação da montadora de que a média de consumo é igual a 15 km/` contra a alternativa de ser diferente
de 15 km/`.
Boa Prova!
Solução
1. Como Xi ∼ Pois(λ = 0, 03), então E(Xi) = 0, 03 e V ar(Xi) = 0, 03.
Assim, S =
∑
Xi ∼ Pois(50λ).
Seja a variável aleatória contínua, Sc ∼ N(1, 5; 1, 5). Como n=50 é grande, pelo TCL, usaremos a Sc como aproximação
da distribuição da Poissom pela Normal.
(a)
P (S ≥ 3) = P (Sc ≥ 2, 5) = P
(
Z ≥ 2, 5− 1, 5√
1, 5
)
≈ P (Z ≥ 0, 8165) = 1− Φ(0, 8165) = 1− 0, 7929 = 0, 2071.
(b) S ∼ Poi(50× λ) ∼ Poi(1, 5).
P (S ≥ 3) = 1− P (S < 3) = 1− (P (S = 0) + P (S = 1) + P (S = 2)) =
= 1− e−1,5(1 + 1, 5 + 1, 52/2) = 1− 0, 8088 = 0, 19115.
2. (a) 3 | 0
4 | 79
5 | 368
6 | 1355789
7 | 00133679
8 | 11223457
9 | 7
(b)(i)x̄ = 210230 = 70, 07
(ii) Pos(Q2) = n+12 =
31
2 = 15, 5. Assim, Q2 = 0, 5x15 + 0, 5x16 = 0, 5× 70 + 0, 5× 71 = 70, 5
Pos(Q1) =
n+3
4 =
33
4 = 8, 25. Assim, Q1 = 0, 75x8 + 0, 25x9 = 0, 75× 63 + 0, 25× 65 = 63, 5
Pos(Q3) =
3n+1
4 =
91
4 = 22, 75. Assim, Q3 = 0, 25x22 + 0, 75x23 = 0, 25× 81 + 0, 75× 81 = 81
(iii) s2 = 152996−
(2102)2
30
29 ≈ 197, 1 ≈ 14, 04
2. Então x̄+2s = 70, 07+14, 04 = 98, 15 e x̄−2s = 70, 07−14, 04 = 41, 99
Somente a nota 30 está fora do intervalo x̄± 2s.
(c) DIQ = Q3 −Q1 = 81− 63, 5 = 17, 5,
CI = Q1 − 1, 5DIQ = 63, 5− 1.5× 17, 5 = 37, 25 e
CI = Q1 − 1, 5DIQ = 81 + 1.5× 17, 5 = 107, 25
 
3. A partir dos dados calculamos x̄ = 10, 86 e s = 1, 79
(a) Sendo conhecido o valor de σ e sendo o intervalo de confiança de 95%, temos que ele é dado por(
x̄− z1−α/2
σ√
n
, x̄− z1−α/2
σ√
n
)
,
com α = 0, 05 e n = 5, lembrando que z1−α/2 = z0,975 = 1, 96 é o respectivo quantil da distribuição normal padrão.
Dessa forma, temos que o intervalo de confiança pedido é 10,86±1, 96× 2/
√
5, o que resulta em (9, 10; 12, 61).
(b) Sendo σ desconhecido, agora o intervalo é da forma
(
x̄− t1−α/2;ν
s√
n
, x̄− t1−α/2;ν
s√
n
)
, onde t1−α/2;ν = 2, 776
é o respectivo quantil da distribuição t com ν graus de liberdade, sendo ν = n− 1 = 4, e s = 1, 79. Dessa forma,
temos que o intervalo de confiança pedido é 10,86±2, 776× 1, 79/
√
5, o que resulta em (8, 64; 13, 08).
4. (a) Teste unilateral. α = 0, 10⇒ 1− α = 0, 90⇒ z0,90 = 1, 28.{
H0 : µ = 15
H1 : µ = 14
RC =
{
x : x < 15− 1, 28×
√
9√
25
}
= {x : x < 14, 232}.
Como x = 14, 3 > 14, 232, então não se rejeita a hipótese de que o consumo médio seja de 15 km/`.
(b) Teste bilateral. α = 0, 10⇒ 1− α/2 = 0, 95⇒ z0,95 = 1, 64.{
H0 : µ = 15
H1 : µ 6= 15
RC =
{
x : x < 15− 1, 64×
√
9√
25
ou x > 15 + 1, 64×
√
9√
25
}
= {x : x < 14, 02 ou x > 15, 98}.
Como 14, 02 < x < 15, 98, então não se rejeita a hipótese de que o consumo médio seja de 15 km/`.
UFRJ - CCMN - IM - Departamento de Métodos Estatísticos
Segunda Avaliação de Probabilidade e Estatística 19-06-2018
Atenção: Não serão aceitas respostas sem justificativa.
Resolver as questões nos espaços apropriados.
1. Os lucros diários de determinado comerciante com a venda de um de seus produtos podem ser considerados variáveis
aleatórias independentes. Suponha que o valor médio e o desvio padrão dos lucros diários sejam de respectivamente
µ = R$60, 00 e σ = 6, 40. Usando a aproximação fornecida pelo Teorema Central do Limite, calcule:
(a) A probabilidade do lucro trimestral (90 dias) ser superior a R$5500, 00.
(b) O lucro semestral (180 dias) máximo a ser garantido com 98% de chance.
(c) Qual o número mínimo de dias necessários para garantir um lucro de pelo menos R$5000, 00 com 95% de chance.
2. Dois especialistas X e Y estimaram o tempo em horas a ser gasto no desenvolvimento de 11 projetos:
Projeto 1 2 3 4 5 6 7 8 9 10 11
X 8,5 6,7 4,4 4,8 6,1 5,4 5,7 5,9 6,7 5,6 6,1
Y 7,6 7,4 6,2 4,6 7,0 6,5 6,5 7,8 6,6 7,8 7,9
(a) Fazer um gráfico ramo-folha (ramo = parte inteira e folha = parte decimal) para X.
(b) Calcule os três quartis para as duas variáveis X e Y. Construa um box-plot dos dados para cada especialista. Os
dois box-plots devem aparecer juntos na mesma figura, utilize a mesma escala de forma que os gráficos fiquem
comparáveis. Comente os gráficos
(c) Construa um diagrama de dispersão.
(d) Se, num conjunto de n pontos no plano, existir um deles que está muito destoante do comportamento geral, qual
será o efeito sobre o coeficiente de correlação de se excluir este ponto?
3. Em uma eleição de 2o turno um instituto de opinião pretende estimar, numa pesquisa de boca de urna, a proporção
p de eleitores que votaram no candidato do partido liberal. Responda às seguintes questões.
(a) Determine o número de eleitores que devem ser consultados de modo que a proporção p possa ser estimada com
margem de erro de 0,01 e coeficiente de confiança de 95%?
(b) Se as pesquisas de opinião do dia anterior indicam claramente que o candidato deverá ter entre 25% e 40% dos
votos, você conseguiria reduzir o tamanho amostral calculado em (a) com essa informação? Justifique.
(c) Suponha que o instituto tenha consultado 1200 eleitores, dos quais 564 afirmam terem votado no candidato do
partido liberal. Obtenha um intervalo de confiança não conservativo com coeficiente de confiança de 95% para a
proporção p.
4. O fabricante de determinado modelo de automóvel afirma que seu desempenho médio é de 12 km/` de gasolina. Testes
foram feitos em 36 desses veículos, escolhidos ao acaso, e apurou-se um desempenho médio de 10,8 km/`. Admita que
o desempenho siga o modelo Normal com variância igual a 16 (km/`)2. Através do p-valor execute os dois testes, itens
(a) e (b) a seguir, com relação a afirmação do fabricante:
(a) H0 : µ ≥ 12km/` contra a alternativa H1 : µ < 12km/`. Que decisão deve ser tomada ao nível de 5%?
(b) H0 : µ = 12km/` contra a alternativa H1 : µ 6= 12km/`. Que decisão deve ser tomada ao nível de 5%?
(c) No item (a) obtenha a região de rejeição com α = 5%. Se, de fato, µ = 10km/`, isso corresponderia a que valor
da probabilidade do erro tipo II?
Boa Prova!
Solução
1. (a) Seja X =
∑90
j=1Xj o lucro trimestral, onde Xj é o lucro do j-ésimo dia. Seja Z ∼ N (0, 1), pelo TCL
P (X ≥ 5500) = P
(
X−90×60√
90×6,4 ≥
5500−90×60√
90×6,4
)
≈ P (Z ≥ 1, 65) = 0, 0495 .
(b) Seja X =
∑180
j=1Xj o lucro semestral. Queremos encontrar o quantil a 98% de X. Ou seja, queremos x tal que
0, 98 = P (X ≤ x) ≈ P
(
Z ≤ x− 180× 60√
180× 6, 4
)
= P
(
Z ≤ x− 10800
85, 865
)
.
Como P (Z ≤ 2, 05) = 0, 98 temos: 2, 05 = x−1080085,865 =⇒ x = 10800 + 2, 05× 85, 865 = 10976, 02 .
(c) Seja Xn =
∑n
j=1Xj o lucro obtido em n dias. Queremos encontrar o menor n tal que
0, 95 ≥ P (Xn ≥ 5000) ≈ P
(
Z ≤ 5000− 60n
6, 4
√
n
)
.
Como P (Z ≥ −1, 64) = 0, 95, temos
5000− 60n = −1, 64× 6, 4×
√
n ou 60n− 10, 496
√
n− 5000 = 0
Então n será quadrado de uma raiz positiva da equação acima. A única raiz positiva é aproximadamente 9, 217
cujo quadrado é 84, 95, logo devemos escolher n = 85. Ou seja, são necessários pelo menos 85 dias para garantir
um lucro de pelo menos R$5000,00 com 95% de chance.
2. (a) O gráfico ramo-folha para X:
4 | 48
5 | 4679
6 | 1177
7 |
8 | 5
(b) Pos(Q1)= (3+n)/4=14/4=3,5; Pos (Q2)= (11+1)/2 = 6; Pos(Q3)=(3n+1)/4=8,5.
Os valores de X em ordem crescente são: 4,4 4,8 5,4 5,6 5,7 5,9 6,1 6,1 6,7 6,7 8,5. Assim,
Q1=(X3 +X4)/2 = (5, 4 + 5, 6)/2 = 5, 5; Q2=X6 = 5, 9; Q3=(X8 +X9)/2 = (6, 1 + 6, 7)/2 = 6, 4
DIQ=Q3-Q1=0,9; CI=5,5-1,5×0,9=4,15; CS=6,4+1,5×0,9=7,75
Os valores de Y em ordem crescente são: 4,6 6,2 6,5 6,5 6,6 7,0 7,4 7,6 7,8 7,8 7,9. Assim,
Q1=(Y3 + Y4)/2 = (6, 5 + 6, 5)/2 = 6, 5; Q2=Y6 = 7, 0; Q3=(Y8 + Y9)/2 = (7, 6 + 7, 8)/2 = 7, 7
DIQ=Q3-Q1=1,2; CI=6,5-1,5×01,2=4,7; CS=7,7+1,5×1,2=9,5
Os dois box-plots têm valores discrepantes, por excesso em X e por falta em Y. Tirando estes pontos a variável
Y se mostra simétrica, mas a X ainda apresenta uma leve assimetria.
(c) ver o gráfico
(d) O resultado esperado dessa exclusão deve ser um aumento do coeficiente de correlação em módulo.
3. (a) Como d = 0, 01, α = 0, 05 e não há informação a priori sobre a proporção p, o tamanho amostral n deve satisfazer
n = (1/4)(1, 96/0, 01)2 = 9604.
(b) Sabemos a priori que 0, 25 ≤ p ≤ 0, 4. Como a função p 7→ p(1− p) é crescente no intervalo [0, 25; 0, 4] podemos
reduzir o tamanho amostral n para
(0, 4)(0, 6)(1, 96/0, 01)2 ≈ 9220.
(c) Como p̂ = 0, 47, 0 intervalo de confiança não conservativo com com coeficiente de confiança de 95% para p é dado
por: (
0, 47− 1, 96
√
(0, 47)(0, 53)
1200
; 0, 47 + 1, 96
√
(0, 47)(0, 53)
1200
)
= (0, 4418; 0, 4982).
4. (a) X = desempenho do automóvel, X ∼ N(µ, σ2)
O teste é unilateral. Vamos usar o caso mais desfavorável a H0, o mais dificil de decidir entre H0 e H1. Assim,
H0:µ=12 versus H1:µ <12. Supondo H0 verdadeira a estatística de teste é:
X ∼ N(µ0, σ2/n) ou no eixo da Normal padronizada Z = X−µ0σ/√n . Como, na amostra, X=10,8
p-valor=P (Z <10,8−124/6 = P (Z < −1.80) = 1− Φ(1.80) = 0, 0359.
Como o p-valor, uma medida de quanto os dados concordam com H0, é baixo, menor que 5%, devemos rejeitar a
hipótese H0.
(b) O teste é bilateral. p-valor=2× P (Z < 10,8−124/6 = 2× 0, 0359 = 0, 0718.
Para este teste os dados não apresentam uma evidência para rejeção da hipótese H0 ao nível de 5%.
(c) RC={x < −1, 64× 4/6 + 12} = {x < 10, 91}. Assim, se µ = 10,
β = P (X > 10, 91) = 1− Φ( 10,91−104/6 ) = 1− Φ(1, 37) = 1− 0, 9147 = 0, 0853.
UFRJ - CCMN - IM - Departamento de Métodos Estatísticos
Segunda Avaliação de Probabilidade e Estatística 13-11-2018
Atenção: Não serão aceitas respostas sem justificativa.
Resolver as questões nos espaços apropriados.
Q1) Queremos desenvolver um software que será composto por 5 módulos. Admita que o número de comandos em cada
módulo pode ser tratado como uma variável aleatória com distribuição Normal de média µ= 60 comandos e desvio
padrão σ= 10 comandos. Há independência entre os números de comandos dos diversos módulos. O objetivo é calcular
a média e o desvio padrão do número total de comandos desse software.
Foi proposta a seguinte solução: Sejam X = número de comandos em um módulo e Y = número de comandos total
no software. Então X ∼ N(60; 102). Além disso, Y = 5X.
Logo: E(Y ) = 5 × 60 = 300 comandos; Var(Y) = 52 × 102 = 2500 comandos2; DP(Y )=
√
2500 = 50 comandos.
Pergunta-se:
(a) Está correta essa solução? Se sim, por que sim? Se não, por que não?
(b) Apresente outra resolução para o problema.
(c) A suposição de Normalidade é de fato essencial para se resolver o problema? E quanto à suposição de indepen-
dência?
Q2) Os dados da tabela abaixo representam o número de acidentes relacionados a uma empresa com dez construções em
andamento durante os anos de 2016 e 2017.
Ano Número de acidentes
2016 (x) 9 15 10 18 12 14 8 17 18 9
2017 (y) 11 0 10 11 9 8 5 10 15 7∑10
i=1 xi = 130;
∑10
i=1 x
2
i = 1828;
∑10
i=1 yi = 86;
∑10
i=1 y
2
i = 886;
∑10
i=1 xiyi = 1160
(a) Calcule o número médio de acidentes e o desvio padrão do número de acidentes para cada ano.
(b) Calcule os quartis do número de acidentes e construa um box-plot dos dados para cada ano. Os dois box-
plots devem aparecer juntos na mesma figura, ou seja, utilize a mesma escala de forma que os gráficos fiquem
comparáveis. Existe(m) valor(es) discrepante(s)?
(c) Calcule o coeficiente de correlação.
Q3) Uma determinada empresa de telefonia pretende estimar a proporção p de clientes satisfeitos com o plano básico de
telefonia móvel oferecido. Responda às seguintes questões.
(a) Suponha que a empresa tenha realizado uma pesquisa de satisfação com 2000 clientes, dos quais 800 afirmam estar
satisfeitos com o plano básico de telefonia. Obtenha um intervalo de confiança não conservativo com coeficiente
de confiança de 96% para a proporção p.
(b) Apenas para raciocinar, admita que a empresa tenha realizado 80 pesquisas de satisfação sobre este mesmo
assunto. Se para cada pesquisa um intervalo de confiança de 95% para a proporção p for construído, quantos
desses intervalos se espera que não contenham a proporção p?
(c) Encontre o menor número de clientes que devem compor uma pesquisa de satisfação de modo que a proporção
estimada p̂ difira de p em menos de 2% com probabilidade de 95%?
Q4) O desempenho médio na estrada para um certo tipo de automóvel SUV movido a diesel é de 15 km/l segundo
informações da montadora. A revista Auto Rodas especializada no assunto, verificou o desempenho na estrada em 27
desses automóveis e apurou um desempenho médio amostral de 14,3 km/l. Admitindo que o desempenho ao longo da
estrada siga um modelo Normal com desvio padrão de 3 km/l :
(a) teste ao nível de significância de 5% a afirmação da montadora de que a média de consumo é igual a 15 km/l
contra a alternativa de ser diferente de 15 km/l. O que você pode concluir?
(b) determine a probabilidade do erro do tipo II assumindo µ = 14 km/l. O que esta probabilidade significa?
(c) calcule o p-valor desse teste.
Boa Prova!
Solução
Q1) (a) A solução proposta acima não está correta. Ao afirmar que Y = 5X, ela pressupõe que o número de comandos
será o mesmo em todos os 5 módulos, o que quase certamente não acontecerá.
(b) Solução correta: Sejam Xi = número de comandos no módulo i, i = 1,...,5. Então Xi é N(60; 102) para todo i; e
os X ′is são v.a.’s independentes. Ou seja, são iid. Além disso, Y é igual à soma dos X ′is .
Logo, E(Y) = 5 × 60 = 300 comandos; Var(Y) = 5× 102 = 500 comandos2; DP(Y) =
√
500 = 22,36 comandos.
(c) A suposição de Normalidade é desnecessária. Observe que ela não foi usada em nenhum ponto da solução. Já a
suposição de independência é essencial. Foi o que nos permitiu afirmar que Var(Y) é igual à soma das variâncias
dos X ′is, uma vez que independência implica em covariâncias nulas.
Q2) Sejam x= Número de acidentes em 2016 e y= Número de acidentes em 2017.
(a) x̄ =
∑
x
n =
130
10 = 13; s
2
x =
∑
x2−(
∑
x)2/n
n−1 =
1828−1302/10
9 = 15, 33 = 3, 91
2; sx = 3, 91 e
ȳ =
∑
y
n =
86
10 = 8, 6; s
2
y =
∑
y2−(
∑
y)2/n
n−1 =
886−862/10
9 = 16.27 = 4, 03
2; sy = 4, 03
(b) Pos(Q1)= (3+n)/4=13/4=3,25; Pos (Q2)= (11)/2 = 5,5; Pos(Q3)=(3n+1)/4=31/4=7,75; Os valores de X e de
Y em ordem crescente são:
x =⇒ 8 9 9 10 12 14 15 17 18 18
y =⇒ 0 5 7 8 9 10 10 11 11 15
Q1x = 0, 75× x(3) + 0, 25× x(4) = 0, 75× 9 + 0, 25× 10 = 9, 25;
Q1y = 0, 75× y(3) + 0, 25× y(4) = 0, 75× 7 + 0, 25× 8 = 7, 25;
Q2x = 0, 5× x(5) + 0, 5× x(6) = 0, 5× 12 + 0, 5× 14 = 13;
Q2y = 0, 5× y(5) + 0, 5× y(6) = 0, 5× 9 + 0, 5× 10 = 9, 5;
Q3x = 0, 25× x(7) + 0, 75× x(8) = 0, 25× 15 + 0, 75× 17 = 16, 5;
Q3y = 0, 25× y(7) + 0, 75× y(8) = 0, 25× 10 + 0, 75× 11 = 10, 75;
DIQx = Q3x−Q1x = 16, 5−9, 25 = 7, 25; CIx = 9, 25−1, 5×7, 25 = −1, 625; CSx = 16, 5+1, 5×7, 25 = 27, 375
DIQy = Q3y −Q1y = 10, 75− 7, 25 = 3, 5; CIy = 7, 25− 1, 5× 3, 5 = 2; CSy = 10, 75 + 1, 5× 3.5 = 16
Assim, só o valor zero, no ano de 2017, é um valor discrepante.
O boxplot conjunto:
(c) rxy = cor(x, y) =
sxy
sx×sy =
(
∑
xy−
∑
x×
∑
y/n)/(n−1)
sx×sy =
(1160−130×86/10)/9
3,91×4,03 ≈ 0, 30
Q3) (a) Como p̂ = 0, 4, o intervalo de confiança não conservativo com coeficiente de confiança de 96% para p é dado por:
IC(p) =
(
0, 4− 2, 05
√
(0, 4)(0, 6)
2000
; 0, 4 + 2, 05
√
(0, 4)(0, 6)
2000
)
= (0, 3775; 0, 4224).
(b) Como os 80 intervalos de confiança foram construídos ao nível de 95%, se espera que cerca de 80 × (5/100) = 4
desses intervalos não contenham a proporção p desconhecida.
(c) Como d = 0, 02, α = 0, 05 e não há informação a priori sobre a proporção p, o tamanho amostral n deve satisfazer
n ≥ (1/4)(1, 96/0, 02)2 = 2401.
Q4) (a) As hipóteses envolvem o parâmetro µ e podem ser escritas como:{
H0 : µ = 15
H1 : µ 6= 15
Como decidir pela a aceitação ou rejeição de H0 sob o nível de significância de 5% já previamente estipulado?
Uma vez que o teste envolve a média populacional, consideramos a média amostral X̄ para construir a estatística
de teste e usamos o fato de que X̄ ∼ N(µ, σ2/n = 32/27). A estatística de teste sob H0 é
Z = X̄−µ0
σ/
√
n
= X̄−15
3/
√
27
∼ N(0, 1).
Note que a regra de decisão pode ser formulada em termos da estatística Z ou em termos da própria média
amostral X̄. Rejeitamos H0 se
zobs < −1, 96 ou zobs > 1, 96,
ou equivalentemente pela região crítica, x̄ < 15− 1, 96 3√
27
= 13, 86 ou x̄ > 15 + 1, 96 3√
27
= 16, 13
Dada a amostra de tamanho n = 27, o valor observado da estatística de teste é :
zobs =
x̄− µ0
σ/
√
n
=
14, 3− 15
3/
√
27
= −1, 212.
Como −1, 96 < zobs = −1, 212 < 1, 96, estamos na região de aceitação da hipótese e a decisão é não rejeitar a
hipótese de que o consumo médio na estrada é de 15 km/l. Da mesma forma, como x̄ = 14, 3 não pertence a região
crítica, não rejeitamos a hipótese H0 ao nível de significância de 5%. Concluímos que a média de desempenho na
estrada é compatível com H0 : µ = 15 km/l, como divulgado pela montadora.
(b) Assumindo µ = 14 km/l, a probabilidade do erro do tipo II é dada por
β(14) = P (não rejeitarH0 | H0 falsa)= P (13, 86 ≤ X̄ ≤ 16, 13 | µ = 14)
= P
(
13, 86− 14
3/
√
27
≤ X̄ − 14
3/
√
27
≤ 16, 13− 14
3/
√
27
)
= P (−0, 24 ≤ Z ≤ 3, 68)
= 0, 5938.
Assim, com µ = 14 km/l concluiríamos de forma equivocada que H0 não deveria ser rejeitada com probabilidade
de 0,5938.
(c) Como o teste é bilateral e zobs = −1, 212,
Temos que o p-valor=2(1-Φ(1, 212)) = 2(1− 0, 8872) = 0, 2256
Como o p-valor é grande, maior do que 5%, confirmamos a conclusão do item (a), ou seja, não temos evidência
para a rejeição de H0.
UFRJ - CCMN - IM - Departamento de Métodos Estatísticos
Segunda Avaliação de Probabilidade e Estatística 17-06-2019
Atenção: Não serão aceitas respostas sem justificativa.
Resolver as questões nos espaços apropriados.
Q1) Temos dois conjuntos de dados:
• x1, x2, ..., xm, de tamanho m, cuja média é x̄ e cuja variância é s2x; e
• y1, y2, ..., yn, de tamanho n, cuja média é ȳ e cuja variância é s2y;
e eles foram unidos para formar um novo conjunto de dados x1, x2, ..., xm, y1, y2, ..., yn, de tamanho m + n, cuja média é z̄
e cuja variância é s2z.
(a) Calcule média e variância do conjunto de dados: 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1.
(b) Prove que z̄ = mx̄+nȳm+n
(c) Prove que s2z =
(m−1)s2x+m(x̄−z̄)
2+(n−1)s2y+n(ȳ−z̄)
2
m+n−1
Sugestão: use as identidades:
∑m
i=1(xi − z̄)2 =
∑m
i=1(xi − x̄+ x̄− z̄)2 e
∑n
j=1(yj − z̄)2 =
∑n
j=1(yj − ȳ + ȳ − z̄)2
No 1o somatório faça ai = xi − x̄ e b = x̄− z̄, ficando com
∑m
i=1(a
2
i + b
2 + 2aib).
Faça algo análogo com o 2o somatório.
(d) Usando o que deve ser provado nos itens (b) e (c), recalcule a média e a variância do conjunto de dados do item (a).
Desta vez, divida os dados em um primeiro conjunto com as 5 primeiras observações e um segundo conjunto com as
7 últimas observações.
Q2) Numa linha de produção se precisa estimar a proporção de peças defeituosas. Existem dois tipos de defeitos: A e B. Sejam
pA a proporção de peças que apresentam o defeito A e pB a proporção de peças que apresentam o defeito B. Deseja-se que as
estimativas não se desviem das proporções verdadeiras, tanto para pA quanto para pB , por mais de 0,08 com probabilidade
de 98%.
(a) Sem nenhum conhecimento prévio, quantas peças se precisa examinar para satisfazer as exigências na estimativa da
proporção pA?
(b) Foi verificado que o tipo de defeito B afeta no máximo 20% das peças. Quantas peças se precisa examinar para
satisfazer as exigências?
(c) Numa única amostra, quantas peças se precisa examinar para se satisfazer as duas exigências conjuntamente, tanto
para pA quanto para pB?
(d) Repita o que foi feito no item (c), porém agora sendo um pouco mais tolerante com a precisão na estimação de pA: o
erro absoluto deve ser menor que 0,12 com 95% de probabilidade
Q3) Os seguintes dados foram coletados de uma população normal cuja média e variância são desconhecidas:
13, 10, 8, 11, 6, 7, 12, 5, 9
(a) Achar uma estimativa pontual da média e da variância da população
(b) Qual é o intervalo de confiança de 90% para a média da população?
(c) O intervalo de confiança de 95% para a média da população contem ou está contido no intervalo de confiança de 90%?
Explique sua resposta.
(d) Se for testada a hipótese H0 : µ = 11 contra H1 : µ 6= 11 ao nível de significância α = 10% que decisão será tomada?
Q4) Um grupo de arqueólogos propõe a teoria que o tamanho médio de crânios de seres humanos aumenta ao longo do tempo.
Medições precisas garantem que atualmente tal quantidade comporta-se conforme uma distribuição normal, de média
µ = 140mm e desvio padrão de 26mm. Uma amostra de 30 crânios, datadas de 6.000 anos atrás, foi observada, com um
tamanho médio de 131,37mm. Desejamos aferir a validade da teoria proposta, ou seja, verificar se no passado o tamanho
médio dos crânios era de fato menor. Para isso, queremos testar H0 : µ ≥ 140 contra H1 : µ < 140, admitindo que o desvio
padrão não é afetado pela passagem do tempo.
(a) Diga, nesse contexto, o que significam os erros tipo I e II.
(b) Teste as hipóteses H0 contra H1, ao nível de significância de 5%.
(c) Calcule o p-valor desse teste, explicitando o seu significado.
Boa Prova!
Solução
Q1) (a) z̄ =
∑(m+n)
i=1 zi
m+n =
7
12 = 0, 5833
s2z =
∑(m+n)
i=1 z
2
i−(m+n)z̄
2
m+n−1 =
7−12×0,58332
11 = 0, 265
(b) z̄ =
∑m
i=1 xi+
∑n
j=1 yj
m+n =
mx̄+nȳ
m+n
(c) s2z =
∑m
i=1(xi−z̄)
2+
∑n
j=1(yj−z̄)
2
m+n−1 (I)∑m
i=1(xi − z̄)2 =
∑m
i=1(xi − x̄+ x̄− z̄)2 =
∑m
i=1(xi − x̄)2 +m(x̄− z̄)2 + 2(x̄− z̄)
∑m
i=1(xi − x̄)
É claro que este último somatório é igual a zero, porque x̄ =
∑m
i=1 xi
m .
Então,
∑m
i=1(xi − z̄)2 = (m− 1)s2x +m(x̄− z̄)2 (II)
Analogamente:
∑n
j=1(yj − z̄)2 = (n− 1)s2y + n(ȳ − z̄)2 (III)
Substituindo (II) e (III) em (I), decorre imediatamente a expressão desejada.
Obs.: Na demonstração foi usada a propriedade (a+ b)2 = a2 + b2 + 2ab.
(d) No conjunto de dados há 5 valores iguais a 0 e 7 valores iguais a 1. Portanto:
m=5, x̄ = 0, s2x = 0 n=7, ȳ = 1, s2y = 0
Logo, m+n=12; z̄ = 5×0+7×112 =
7
12 = 0, 583
s2z =
4×0+5×(0−7/12)2+6×0+7×(1−7/12)2
5+7−1 = 0, 265
Q2) (a) O erro absoluto máximo tolerável da estimativa é d=0,08. P (|p̂− p| < d) = 0, 98, 1− α = 0, 98, assim 1− α2 = 0, 99.
Como Φ(z) = 0, 99, temos z=2,33. Como não temos informação alguma sobre p, utilizaremos p = 0,5 que maximiza
p(1-p) e calculamos o tamanho amostral:
nA =
(z
d
)2
p(1− p) =
(
2, 33
0, 08
)2
0, 25 = 212, 07 ≈ 213
(b) Se p2 for no máximo 0,2, o tamanho amostral será:
nB =
(z
d
)2
p(1− p) =
(
2, 33
0, 08
)2
0, 2× 0, 8 = 135, 72 ≈ 136
(c) n = max(nA, nB) = max(213; 136)=213
(d) ndA =
(
z
d
)2
p(1− p) =
(
1,96
0,12
)2
0, 25 = 96, 04 ≈ 97. Assim, max(ndA, nB) = max(97, 136) = 136.
Q3) (a) x̄ = 1n
∑9
i=1 xi =
81
9 = 9, s
2 = 1n−1
∑9
i=1(xi − x̄)2 =
60
8 = 7, 5 e s = 2, 74
(b) [x̄− t8;0,95 s√n , x̄+ t8;0,95
s√
n
] = [9− 2,743 1, 86; 9 +
2,74
3 1, 86] = [7, 3; 10, 7], já que t0,95;8 = 1, 86
(c) Sendo o nível de confiança maior, isso implica que o intervalo contem o intervalo anterior. Isso pode ser também
deduzido observando que t0,95;8 < t0,975;8.
(d) Como 11 não pertence ao intervalo [7,3; 10,7], H0 deve ser rejeitada, já que a distância entre x̄ = 9 e µ0 = 11 é maior
que a metade da amplitude do intervalo de confiança obtido no item (b).
Q4) (a) O erro tipo I representa rejeitar a hipótese nula quando ela é verdadeira. Nesse contexto, representa aceitar H1, uma
nova teoria científica, quando ela, de fato, não é verdadeira. Por outro lado, o erro tipo II representa não rejeitar a
hipótese nula quando ela é falsa, ou seja, não aceitar uma nova teoria científica quando ela é verdadeira. O erro tipo
I pode ser considerado mais grave pois aceitar uma nova teoria em detrimento de uma antiga, já bem consolidada,
potencialmente altera mais a perspectiva da realidade do que não aceitar uma nova teoria.
(b) Denote por X a média amostral. Parece razoável rejeitarmos H0 se observarmos um valor suficientemente baixo xc
para X. De fato, usemos o nível de significância para encontrar tal valor:
0, 05 = P (rejeitar H0 | H0 é verdade)
= P (X < xc | µ = 140)
= P
(
X − 140
26/
√
30
<
xc − 140
26/
√
30
)
= P
(
Z <
xc − 140
26/
√
30
)
,
onde Z ∼ N (0, 1). Consultando a tabela, temos que xc − 140
26/
√
30
= z0,05 = −z0,95 = −1, 65, de modo que xc =
132, 17mm. Como x = 131, 37 < xc, rejeitamos H0 ao nível de significância de 5%.
(c) O p-valor é o menor nível de significância para o qual a hipótese nula seria rejeitada, para aqueles dados observados.
Mais precisamente:
α̃ = P (X < x | µ = 140)
= P
(
X − 140
26/
√
30
<
x− 140
26/
√
30
∣∣∣∣ µ = 140)
= P (Z < −1, 82)
= 1− P (Z < 1, 82)
= 1− 0, 9656
= 0, 0344,
onde Z ∼ N (0, 1). Ou seja, o menor nível de significância para o qual ainda rejeitaríamos a hipótese nula é de 3,44%.
UFRJ - CCMN - IM - Departamento de Métodos Estatísticos
Segunda Avaliação de Probabilidade e Estatística 14-11-2019
Atenção: Não serão aceitas respostas sem justificativa.
Resolver as questões nos espaços apropriados.
Q1) Sejam X e Y variáveis aleatórias cuja função de probabilidadeconjunta seja dada como abaixo, onde
p(i, j) = P (X = i, Y = j), para i = 1, 2, 3 e j = 0, 1, 2:
p(1, 0) = 0, 1; p(2, 0) = 0, 1; p(3, 0) = 0, 2;
p(1, 1) = 0, 1; p(2, 1) = 0; p(3, 1) = 0, 2;
p(1, 2) = 0, 2; p(2, 2) = 0, 1; p(3, 2) = 0
(a) Determine as distribuições marginais de X e Y .
(b) X e Y são independentes? Justifique.
(c) Determine a distribuição de S = X + Y e calcule E(S), a esperança de S.
(d) Calcule Var(S), a variância de S.
Q2) Espécimes machos de aranhas do gênero Tidarren amputam voluntariamente um de seus pedipalpos (direito ou es-
querdo) logo antes de atingir a maturidade sexual. Especula-se que a amputação contribui para o aumento da velo-
cidade, o que favoreceria a procura por fêmeas. A velocidade de 9 aranhas (em cm/s) foi medida antes e depois da
amputação voluntária.
Velocidade antes (xi)
∑
xi
∑
x2i
∑
xiyi
1,3 2,9 2,4 3,1 3,4 3,0 2,3 2,9 3,0 24,3 68,7 92,3
Velocidade depois (yi)
∑
yi
∑
y2i
2,1 3,3 3,6 4,3 4,2 4,0 3,3 4,5 3,7 33,0 125,2
(a) Calcule os quartis das medidas de velocidade antes e depois da amputação voluntária.
(b) Construa dois box-plots na mesma escala para a velocidade antes e depois da amputação voluntária. Comente
sobre a diferença observada. Há valores discrepantes?
(c) Construa um diagrama de dispersão para as medidas de velocidade antes e depois da amputação voluntária e
calcule o coeficiente de correlação.
Q3) Marque verdadeiro ou falso para cada uma das afirmações abaixo, justificando sua resposta.
(a) Considere que se deseja estimar uma proporção populacional p desconhecida com uma precisão especificada.
Nesse contexto, denote por n1 o menor tamanho de amostra necessário para garantir tal precisão quando não se
tem nenhuma informação sobre p e denote por n2 o menor tamanho de amostra necessário caso tenhamos alguma
informação sobre p (ou seja, se soubermos que p pertence a algum intervalo [a, b] ⊂ (0, 1)). Podemos afirmar que
n1 sempre será no máximo 4 vezes superior a n2, ou seja, que n1 ≤ 4n2.
(b) O erro quadratico médio do estimador média amostral sempre converge para zero quando n→∞ (considerando
que esse estimador está sendo utilizado para estimar o parâmetro média populacional com variância finita e
conhecida).
(c) Com intenção de estimar um parâmetro θ desconhecido, foram propostos inicialmente dois estimadores θ̂1 e θ̂2,
que satisfazem E(θ̂1) = θ e E(θ̂2) =
(n−1)θ
n . Pode-se afirmar que um novo estimador θ̂3 =
2
3 θ̂1 +
1
3 θ̂2 vai ser
tendencioso para estimar θ e que seu viéis será igual a θn .
Q4) Os dados correspondem ao tempo, em minutos, de 40 funcionários para a realização de uma mesma tarefa:
42 106 44 59 80 48 61 50 63 54 94 99 96 54 62 78 61 93 62 27
21 88 121 95 49 94 67 68 54 121 62 85 57 83 111 78 165 42 58 103
Denotando por xi as medições acima, temos:
∑40
i=1 xi = 2955 e
∑40
i=1 x
2
i = 250199.
Admita que o tamanho amostral é suficientemente grande para que seja válida as aproximações fornecidas pelo TCL.
(a) Construa um Intervalo de 95% de confiança para tempo médio, µ.
(b) Construa um Intervalo de 98% de confiança, não conservativo, para a proporção de tempos maiores que 100 min.
(c) Qual a probabilidade de que o erro absoluto na estimação de µ (média populacional), com base nessa amostra,
seja inferior a 8 minutos?
(d) Qual seria o tamanho de uma nova amostra para que, com 0,95 de probabilidade, o erro absoluto na estimação
de µ seja inferior a 8 minutos?
Boa Prova!
Solução
Q1) (a) ΩX = {1, 2, 3},
pX(1) = P (X = 1) = p(1, 0) + p(1, 1) + p(1, 2) = 0, 4
pX(2) = P (X = 2) = p(2, 0) + p(2, 1) + p(2, 2) = 0, 2
pX(3) = P (X = 3) = p(3, 0) + p(3, 1) + p(3, 2) = 0, 4
ΩY = {0, 1, 2};
pY (0) = P (Y = 0) = p(1, 0) + p(2, 0) + p(3, 0) = 0, 4
pY (1) = P (Y = 1) = p(1, 1) + p(2, 1) + p(3, 1) = 0, 3
pY (2) = P (Y = 2) = p(1, 2) + p(2, 2) + p(3, 2) = 0, 3
(b) Não. P (X = 2, Y = 1) = 0 6= P (X = 2)P (Y = 1)
(c) P (S = 1) = p(1, 0) = 0, 1; P (S = 2) = p(2, 0) + p(1, 1) = 0, 2;
P (S = 3) = p(3, 0) + p(2, 1) + p(1, 2) = 0, 4; P (S = 4) = p(3, 1) + p(2, 2) = 0, 3
E(S) = 0, 1 + 2× 0, 2 + 3× 0, 4 + 4× 0, 3 = 2, 9
(d) E(S2) = 0, 1 + 4× 0, 2 + 9× 0, 4 + 16× 0, 3 = 9, 3
V ar(S) = E(S2)− (E(S))2 = 9, 3− (2, 9)2 = 9, 3− 8, 41 = 0, 89
Q2) (a) Seja (x(1), x(2), . . . , x(9)) correspondendo ao conjunto de dados ordenados. Os quartis ocupam as posições
Q1 = x(n+34 )
= x( 9+34 )
= x(3),
Q2 = x(n+12 )
= x( 9+12 )
= x(5),
Q3 = x( 3n+14 )
= x( 3×9+14 )
= x(7).
Assim, os quartis antes da amputação são Q1 = 2, 4, Q2 = 2, 9 e Q3 = 3, 0; e depois da amputação são Q1 = 3, 3,
Q2 = 3, 7 e Q3 = 4, 2.
(b) Apontaremos como valores discrepantes, dados abaixo do limite inferior LI = Q1 − 1, 5(Q3 − Q1) e acima do
limite superior LS = Q3 + 1, 5(Q3−Q1).
Para os dados antes da amputação, temos LI = 2, 4 − 1, 5(3, 0 − 2, 4) = 1, 5 e LS = 3, 0 + 1, 5(3, 0 − 2, 4) = 3, 9
⇒ o valor 1, 3 é discrepante.
Para os dados depois da amputação, temos LI = 3, 3− 1, 5(4, 2− 3, 3) = 1, 95 e LS = 4, 2 + 1, 5(4, 2− 3, 3) = 5, 55
⇒ não há valores discrepantes.
●
V
el
oc
id
ad
e
1.
5
2.
0
2.
5
3.
0
3.
5
4.
0
4.
5
Antes Depois
(c) O coeficiente de correlação é
rXY =
sxy
sxsy
,
em que
sxy =
(∑
xiyi −
(
∑
xi)(
∑
yi)
n
)
/(n− 1) =
(
92, 3− 24, 3× 33, 0
9
)
/(9− 1) = 0, 4,
sx =
√(∑
x2i −
(
∑
xi)2
n
)
/(n− 1) =
√
68, 7− 24, 3
2
9
/(9− 1) = 0, 6214,
sy =
√(∑
y2i −
(
∑
yi)2
n
)
/(n− 1) =
√
125, 2− 33, 0
2
9
/(9− 1) = 0, 7246.
Assim, rxy = 0, 4/(0, 6214× 0, 7246) = 0, 8884.
●
●
●
●
●
●
●
●
●
1.5 2.0 2.5 3.0
2.
5
3.
0
3.
5
4.
0
4.
5
x
y
Q3) (a) FALSO.
Nesse contexto, estamos buscando o menor valor de n que satisfaz a expressção P (|p̂− p| < d) ≥ γ, para algum d > 0
e γ ∈ (0, 1). Considerando a distribuição assintótica p̂ ∼ N
(
p, p(1−p)n
)
, temos que:
P (|p̂−p| < d) ≥ γ ⇒ P (−d < p̂−p < d) ≥ γ ⇒ P (p̂−p < d) ≥ γ + 1
2
⇒ P
 p̂− p√
p(1− p)
n
<
d√
p(1− p)
n
 ≥ γ + 12 .
Daí, denotando por Z(α) o quantil α da normal padrão, obtemos que:
d
√
n√
p(1− p)
≥ Z( γ+12 ) ⇒
√
n ≥
Z( γ+12 )
√
p(1− p)
d
⇒ n ≥
[
Z( γ+12 )
]2
p(1− p)
d2
= [Cγ,d] p(1− p),
onde Cγ,d está simplesmente representando tudo que não depende de p na expressão de n e que consequentemente não
será relevante na nossa justificativa. Como buscamos o menor tamanho de amostra que satisfaz a inequação acima,
iremos tomar como resultado o menor n inteiro que satisfaz a desigualdade acima.
Quando não temos nenhuma informação sobre p, devemos substituir p = 0, 5 na expressão de n (pois esse é o valor
de p que maximiza a expressção), obtendo n1 =
Cγ,d
4 . Quando sabemos que p ∈ [a, b] ⊂ (0, 1), iremos substituir p na
expressão de n pelo valor mais próximo de 0, 5 dentro do intervalo [a, b]. Caso esse valor seja tal que sua utilização
na expressão leve a p(1− p) < 116 , teremos n1 > 4n2, refutando a afirmação. Isso ocorreria por exemplo se tivessemos
informação de que p ∈ (0; 0, 05].
(b) VERDADEIRO.
Temos que EQM(X̄) −→
n→∞
0 que equivale a E(X̄) −→
n→∞
µ e V ar(X̄) −→
n→∞
0. Ambas as afirmações são verdadeiras
como podemos ver abaixo:
E(X̄) = E
(
n∑
i=1
Xi
n
)
=
1
n
n∑
i=1
E(Xi) =
1
n
nµ = µ
V ar(X̄) = V ar
(
n∑
i=1
Xi
n
)
=
1
n2
n∑
i=1
V ar(Xi) =
1
n2
nσ2 =
σ2
n
−→
n→∞
0
(c) FALSO.
De fato θ̂3 vai ser tendencioso para estimar θ, mas o viéis desse estimador não será θn . Vamos provar que esse viéis
está incorreto ao calcular o valor correto:
E(θ̂3) = E
(
2
3
θ̂1 +
1
3
θ̂2
)
=
2
3
E(θ̂1) +
1
3
E(θ̂2) =
2
3
θ +
1
3
(
n− 1
n
)
θ =
(
3n− 1
3n
)
θ
Logo, o viéis de θ̂3 será dado por |E(θ̂3)− θ| = θ3n .
Q4) (a) x̄ = 295540 = 73, 88; s
2 = 139 (250199−
29552
40 ) = 817, 91 = 28, 60
2.
Como n=40 é um tamanho de amostra razoavelmente grande poderemos usar a distribuição Normal. Assim,
d = z1−α/2
s√
n
= 1, 96 28,6√
40
≈ 8, 86. Então,
linf = x̄− d = 73, 88− 8, 86 = 65, 02 e
lsup = x̄+ d = 73, 88 + 8, 86 = 82, 74.
(b) I.C., não conservativo para p, com 98% p̂ = 6/40 = 0, 15
d = 2, 33
√
0,15×0,85
40 ≈ 0, 13. Então,
linf = p̂− d = 0, 15− 0, 13 = 0, 02 e
lsup = p̂+ d = 0, 15+ 0, 13 = 0, 28.
(c) P (|x̄− µ| < 8) = P (|Z| < 8
√
n/s) = 2Φ(8
√
40/28, 6)− 1 = 2Φ(1, 77)− 1 = 0, 9233.
(d) n = ( z0,975×sd )
2 = ( 1,96×28,68 )
2 = 49, 10 ≈ 50 funcionários.
Universidade Federal do Rio de Janeiro - UFRJ
2a Prova de Estat́ıstica Unificada
Turma: Engenharia Data: 08/12/2011
1. Um levantamento obtido, junto aos funcionários de um pequeno escritório, busca relacionar as
variáveis: tempo de carreira (X) e número de diferentes empregos nos últimos 5 anos (Y).
X 8 9 10 11 12
Y 3 2 2 2 1
a) calcule a covariância entre X e Y ;
b) estime os coeficientes α e β da reta de regressão simples (yi = α+ βxi + εi).
2. O tempo de vida X (em horas) de um tipo de componente eletrônico fabricado por certa empresa
segue distribuição conforme dada abaixo: (β > 0 constante)
f(x ; β) =
{
β2 x e−βx , se x ≥ 0,
0 , se x < 0,
Tomada uma amostra aleatória de 100 componentes deste tipo, e denotando por Xi o tempo de vida
do i-ésimo componente na amostra:
a) obtenha o estimador de máxima verossimilhança do parâmetro β;
b) obtenha o estimador de máxima verossimilhança de µ = 2/β.
3. Pesquisadores desejam estudar o tempo gasto por engenheiros para executarem determinada tarefa.
Para isto, foram selecionados aleatoriamente 64 engenheiros. Observou-se, nessa amostra, que a
soma do tempo gasto por eles foi de 192 horas enquanto a soma dos quadrados dos tempos foi de
828 horas2.
a) Determine o intervalo de 95% de confiança para a média populacional do tempo gasto pelos
engenheiros para resolverem a tarefa. Justifique.
b) Sabendo-se que, dentre os 64 engenheiros selecionados, 16 eram recém formados, determine
o intervalo de 99% de confiança (conservativo) para a proporção populacional de engenheiros
recém-formados.
4. Em uma linha de produção, discos devem ser fabricados com no máximo 48 mm de diâmetro.
Sabemos que a distribuição dos diâmetros dos discos segue um modelo Normal. Uma amostra
aleatória de 16 discos é analisada, e para esta obtemos uma média de 49,301 mm de diâmetro e
variância de 4(mm2). Com base nesta amostra:
a) teste a hipótese da média dos diâmetros dos discos produzidos ser menor ou igual a 48mm
contra a média dos diâmetros dos discos produzidos ser maior que 48mm, ao ńıvel de 5% de
significância.
b) obtenha o p-valor deste teste.
5. Uma montadora de computadores foi informada de que uma nova bateria com tempo de vida su-
perior as atuais foi lançada no mercado. Com o objetivo de testar a veracidade da informação, um
engenheiro responsável pela linha de produção realiza 25 ensaios com a bateria atual obtendo uma
vida média x̄ (horas), e 16 ensaios com a nova bateria, obtendo uma vida média ȳ (horas).
a) Supondo que em ambos os casos o tempo de vida seja uma variável aleatória com distribuição
Normal com mesmo desvio-padrão σ = 0, 3, elabore um teste de hipótese para a veracidade da
informação, explicitando a estat́ıstica de teste e determinando a região de rejeição ao ńıvel de
α = 0, 005.
b) Se x̄ = 8, 2 e ȳ = 8, 5 a que conclusão se chegaria?
Obs. use a aproximação
√
41× (0, 3)2/(25× 16) ≈ 0, 1
Respostas
1. (a) x = 10; y = 2; s2x = 2, 5; s
2
y = 0, 5 e cov(x, y) = −1, 0.
(b) α̂ = 8 e β̂ = −0, 6.
2. (a) L(β) =
100∏
i=1
β2 xi exp{−βxi} = β200
(
100∏
i=1
xi
)
exp
{
−β
100∑
i=1
xi
}
.
lnL(β) = 200 lnβ+
100∑
i=1
lnxi− β
100∑
i=1
xi.
d
dβ
lnL(β) =
200
β
−
100∑
i=1
xi = 0⇔ β =
200∑100
i=1 xi
=
2
x̄100
⇒ EMV (β) = 200∑100
i=1Xi
=
2
X100
.
(b) µ =
2
β
⇒ EMV (µ) = 2
EMV (β)
=
2
(2× 100)/
∑100
i=1Xi
=
∑100
i=1Xi
100
= X100.
3. (a) Temos que n = 64,
∑64
i=1 xi = 192 e
∑64
i=1 x
2
i = 828.
O intervalo de 95% de confiança para a média populacional µ é da forma(
x− t0,975
S√
n
;x+ t0,975
S√
n
)
,
em que t0,975 é o quantil 0, 975 da distribuição t de Student com 63 graus de liberdade,
x =
∑64
i=1
64
=
192
64
= 3
e
S =
√∑64
i=1 x
2
i − nx2
n− 1
=
√
828− 64× 32
63
=
√
4 = 2.
Como o tamanho da amostra, n, é grande, a distribuição t de Student se aproxima da dis-
tribuição normal padrão. Assim, o intervalo de 95% de confiança para a média pode ser também(
x− z0,975
S√
n
;x+ z0,975
S√
n
)
=
(
3− 1, 96× 2
8
; 3 + 1, 96× 2
8
)
= (2, 51; 3, 49)
em que z0,975 = 1, 96 é o quantil 0, 975 da distribuição normal padrão.
Podemos dizer que, com 95% de confiança, o intervalo acima compreende o verdadeiro valor da
média populacional, µ.
(b) Temos que p̂ = 16/64 = 1/4 = 0, 25.
Como o tamanho da amostra, n, é grande, podemos obter um intervalo de 99% de confiança
para a proporção populacional, p, de duas maneiras.
Intervalo conservartivo:(
p̂− z0,995
1
2
√
n
; p̂+ z0,995
1
2
√
n
)
=
(
0, 25− 2, 57× 1
2× 8
; 0, 25 + 2, 57× 1
2× 8
)
= (0, 0894; 0, 4106) .
Intervalo não-conservartivo:(
p̂− z0,995
√
p̂(1− p̂)
n
; p̂+ z0,995
√
p̂(1− p̂)
n
)
=
(
0, 25− 2, 57
√
0, 25× 0, 75
64
; 0, 25 + 2, 57
√
0, 25× 0, 75
64
)
= (0, 1109; 0, 3891) ,
sabendo que
√
0, 25× 0, 75 = 0, 4330.
Aqui, z0,995 é o quantil 0, 995 da distribuição normal padrão.
4. n = 16; x̄ = 49, 301; s2 = 4.
(a) (1) H0 : µ ≤ 48 (ou H0 : µ = 48)
H1 : µ > 48.
(2) α = 0, 05.
(3) Estat́ıstica de teste: T =
X − 48√
4/16
=
X − 48
1/2
.
(4) Sob H0, T tem distribuição t de Student com 15 graus de liberdade.
(5) Região cŕıtica: R = [t0,95;15 ; ∞) = [1, 753 ; ∞).
(6) t =
49, 301− 48
1/2
= 2, 602 ∈ R⇒ Rejeitamos H0.
OBS.: Os passos (3) - (6) também podem ser feitos da seguinte maneira:
(3’) Estat́ıstica de teste: X.
(4’) Sob H0, X ∼ N(48 ; σ2/16).
(5’) Região cŕıtica: R = [48 + t0,95;15
√
s2
n ; ∞) = [48, 8765 ; ∞).
(6’) x̄ = 49, 301 ∈ R⇒ Rejeitamos H0.
(b) α̃ = P (T ∈ [2, 602 ; ∞)) = P (T > 2, 602) = 1 − P (T ≤ 2, 602), onde T é distribúıdo conforme
H0. Logo, pela tabela da distribuição t de Student, conclúımos que
α̃ = 1− 0, 99 = 0, 01.
5. Informações do exerćıcio:
nX = 25 Xi
iid∼ N(µX ; (0, 3)2), i = 1, . . . , 25
nY = 16 Yj
iid∼ N(µY ; (0, 3)2), j = 1, . . . , 16
(a) Hipóteses: H0 : µX ≥ µY versus HA : µX < µY .
Estat́ıstica de tese:
X̄ − Ȳ√
(0, 3)2/25 + (0, 3)2/16
Cálculo da região cŕıtica: P (Z < zc) = 0, 005 ⇒ zc = −2, 578.
Logo, RC = {z ∈ IR| z < −2, 578}.
(b) Para x̄ = 8, 2 e ȳ = 8, 5 temos
z =
8, 2− 8, 5√
(0, 3)2/25 + (0, 3)2/16
≈ −3.
Como z ∈ RC, rejeitamos H0.
DME-IM-UFRJ - 2ª Prova de Estatística Unificada 
Turma: Engenharia Data: 12/06/2012 
1 - Admita que a distribuição do peso dos usuários de um elevador seja uma 
Normal com média 75kg e com desvio padrão 15kg. Suponha que quatro 
pessoas apareçam aleatoriamente para usar esse elevador. 
 
a) Sabendo que o limite de peso recomendado para o elevador é de 350 
kg, use a distribuição da soma dos pesos das quatro pessoas para 
calcular a probabilidade de que o peso no elevador não exceda esse 
limite. 
b) Na construção de um novo elevador, qual deve ser o limite de carga 
para que se garanta, com 99,5% de confiança, que a soma dos pesos 
de quatro pessoas dessa população de usuários não ultrapasse este 
limite? 
 
2 - Determinada indústria suspeita que está recebendo, de um certo 
fornecedor, peças de aço fora das especificações. Ela decidiu então avaliar a 
quantidade de carbono e a dureza do aço de tais peças. Para isso, usou nove 
peças e obteve as seguintes medidas: 
 
x = Teor de 
carbono (%) 1,41 1,24 0,95 1,13 1,21 1,32 1,05 1,02 1,29 
y = Dureza 
(Rockwell) 386 364 331 353 365 374 341 335 369 
 
a) O fornecedor do aço diz que o teor de carbono deve ser de (1,2 ± 0,08) 
= (média ± desvio padrão). Calcule a média amostral e o desvio padrão 
amostral do teor de carbono. Use os valores obtidos, e apenas os seus 
conhecimentos de Análise Exploratória, para comentar se há 
evidências contra ou a favor da afirmação do fornecedor. 
b) Calcule o coeficiente de correlação entre o teor de carbono e a dureza, 
interpretando o valor obtido. 
Para facilitar: 
2
i i i i
2
i i
x =10,62 x 12,7186 x y 3820,05
y =3218 y 1153430 

  
 
 
 
3 - Um engenheiro, interessado em estimar o comprimento médio (em cm) de 
uma peça, observou os seguintes valores de uma amostra aleatória: 1,2; 1,3; 
1,2; 1,5. Com base em conhecimentos anteriores, ele verificou que o 
comprimento dessa peça pode ser modelado por uma distribuição Normal e 
tem desvio padrão σ = 1 cm. 
 
a) Obtenha a função de verossimilhança L(µ), e determine o estimador de 
máxima verossimilhança = EMV(µ). De posse da expressão de , use 
a amostra e estime µ. 
b) Qual o erro quadrático médio EQM( )? O estimador é viciado 
(tendencioso)? Por quê? 
 
4 - Um grande banco deseja inferir sobre a proporção de clientes que estão 
satisfeitos com seu serviço. Para isto, entrevistou 25 clientes e obteve os 
resultados mostrados na seguinte lista: 
 SSISSISSSSSIISSSSSSISSSSS 
em que S representa “cliente satisfeito” e I representa “cliente insatisfeito”. 
a) Construa um intervalo de confiança não conservativo ao nível de 96% 
para a proporção de clientes satisfeitos. O intervalo obtido contém a 
proporção de clientes satisfeitos? 
b) Qual deve ser o tamanho da amostra para que a amplitude do intervalo 
de confiança conservativo, ao nível de confiança de 98%, seja menor ou 
igual a 0,04? 
 
5 - Um fabricante de cabos afirma que: “o diâmetro médio dos cabos 
produzidos pela sua empresa é de pelo menos 5mm”. Para testar se esta 
afirmação é verdadeira, uma amostra de 25 cabos foi observada e mostrou um 
diâmetro médio de 4,9mm com um desvio padrão de 0,4mm. Suponha que os 
diâmetros desses cabos sigam uma distribuição Normal. 
a) Explicite as hipóteses a serem testadas e apresente a sua conclusão a 
um nível de significância de 5%. Justifique a sua resposta. 
b) Com base nos recursos de que você dispõe, determine o intervalo de 
menor amplitude no qual o p-valor se encontra. 
 
Soluções: 
1. X=peso de uma pessoa que usa o elevador; X~N(75, 152) 
 Seja Y= X1 + X2 + X3 + X4; Y~N(nµ=300; nσ
2=302) 
a) P(Y< ) = P(Z<1,67) = 0,9525 
b) P(Y<lim)=0,995 = 2,58; lim=377,4 
2. 
(a) Temos 1,18 
SX = = 0,153 
Constatamos que [1,2 - 0,08; 1,2 + 0,08], o que conta a favor do 
fornecedor. Por outro lado, não sabemos de onde vem a margem de erro 
0,08. Como o desvio padrão é superior a esse valor, podemos considerar que a 
amostra apresenta uma variabilidade além da especificada pelo fornecedor, o 
que é evidência contra a sua afirmação. 
(b) Temos 357,56 
SY = = 18,67 
rxy = = 0,996 
Pelo valor obtido, nesta amostra há forte correlação positiva entre o teor 
de carbono e a dureza do aço. 
3. 
a) X=Comprimento da peça; X~N(µ,1), f(x)= (2π)-1/2 exp(-(x-µ)2/2); 
L(µ) = (2π)-n/2 exp(Σ-(xi-µ)
2/2); 
 l(µ)=ln(L(µ))=C- Σ(xi-µ)
2/2; 
 l’(µ)=Σ(xi-µ )=0; 
 µ x /n Xi  ; 
 para esta amostra µ x 1, 3  . 
b) EQM(µ )= Var( X ) + (B( X ))
2 = σ2/n, porque 
E( X )=E(ΣXi/n)=n
-1ΣE(X)= µ. 
 Assim, µ é não viciado e B( X )=0; 
Var( X ) = Var(ΣXi/n) = (1/n
2) Var(ΣXi) = (1/n
2) Σ (VarXi) = σ
2/n 
 
4. 
(a) Primeiramente calculamos = = 0,8. 
O IC não conservativo ao nível de confiança de 96% será 
 
Pela tabela da Normal obtemos = 2,05.Substituindo valores, 
obtemos 
 [0,636; 0,964]. 
(b) A amplitude do IC conservativo a 98% é 
 2 x . 
 Assim, devemos ter n = 3393,0625. 
 Conclusão: A amostra deve ser de tamanho 3394. 
 
5. 
(a) = diâmetro médio populacional. 
 H0: ≥ 5mm vs H1: < 5mm 
 A região crítica é , em que é o (1 – α)-
percentil da distribuição t-Student com 24 graus de liberdade. . Como 
t0,95 = 1,711, s = 0,4 e n = 25, a região crítica é 
5 – 1,711x = 4,863. 
Como obs = 4,9, concluímos, com base nos dados obtidos, que não 
podemos descartar, ao nível de significância de 5%, a hipótese de que 
o diâmetro médio dos cabos seja, na verdade, maior ou igual a 5mm. 
(b) O p-valor é = P(T < ) = P(T < – 1,25) , 
 onde T ~ t-Student com 24 g.l. 
 Consultando a tabela da t na linha correspondente a 24 g.l., vemos que 
 P(T < 0,857) = 0,8 e P(T < 1,318) = 0,9. 
 Como – 1,318 < –1,25 < – 0,857 , concluimos que 
 1 – 0,9 = P(T < – 1,318) < < P(T < – 0,857) = 1 – 0,8, 
 Ou seja, 0,1 < < 0,2 . 
UFRJ - CCMN - IM - Departamento de Métodos Estat́ısticos
Probabilidade e Estat́ıstica - Estat́ıstica
Prova # 02 19-02-2013
Atenção: Não serão aceitas respostas sem justificativa: as expressões que levaram a alguma resposta numérica
devem ser indicadas nos espaços apropriados.
1. No Departamento Comercial de certa companhia foi formada uma equipe de vendas com a admissão
de 15 vendedores. Cada um deles foi submetido a um teste especialmente concebido para prever seu
desempenho futuro. Além do teste, para a admissão, foi considerada a experiência do vendedor. Assim,
foram registradas duas variáveis: T , representando o resultado do teste e, E, o número de anos de
experiência. Um ano depois, o desempenho de cada vendedor foi medido observando-se a variável V , que
representa o volume de vendas médio mensal. Os dados estão na tabela a seguir.
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
∑
x
∑
x2
V 57 54 49 46 46 45 45 44 44 42 38 35 29 29 18 621 27159
T 9 8 7 8 8 5 5 7 7 4 6 4 4 4 4 90 586
E 5 3 4 3 4 3 2 2 5 3 2 2 3 4 2 47 163
(a) Construa um ramo e folhas da variável V e calcule a mediana amostral de V .
(b) Calcule a média e a variância amostrais de V .
(c) Comparando as variáveis desempenho no teste (T ) e anos de experiência (E), qual delas você diria
que parece ser mais importante na previsão do futuro desempenho de vendedores? Por que? Informação
útil:
15∑
i=1
TiVi = 3930 e
15∑
i=1
EiVi = 2009.
(a)
Ramo-e-folhas (ramos: dezenas e folhas: unidades)
1 8
2 9 9
3 5 8
4 2 4 4 5 5 6 6 9
5 4 7
A mediana amostral de V é o valor que ocupa a posição central, quando os valores estão ordenados. Como
n = 15, a mediana amostral será o valor que ocupa a oitava posição, a saber, 44.
(b)
V̄ = 621
15
= 41, 4
s2V =
27159−6212/15
15−1 = 103, 5429.
(c)
A correlação amostral entre V e T é dada por
3930− (621× 90)/15
√
103, 5429
√
586− (90)2/15
= 0, 79
e, a correlação amostral entre V e E é dada por
2009− (621× 47)/15
√
103, 5429
√
163− (47)2/15
= 0, 42
Logo, a variável que parece ser mais importante na previsão do futuro desempenho de vendedores é T o
resultado no teste, por apresentar maior correlação com a variável V em relação à variável E.
2. Suponha que a variável aleatória T : tempo entre chegadas consecutivas de clientes na fila de um banco
siga distribuição Exponencial com parâmetro λ desconhecido, e tome (T1, . . . , Tn) uma amostra aleatória
de T . Denote por ψ a mediana de T (lembre que
∫ ψ
−∞ f(t)dt =
1
2
, com f(t) a função de densidade da v.a.
T ), e seja Tmd = (ln 2)T um estimador de ψ, em que T denota a média amostral de (T1, . . . , Tn).
(a) Tmd é um estimador não-tendencioso para ψ? Por que? (b) Obtenha o erro médio quadrático de Tmd
como estimador de ψ. (c) O estimador de máxima verossimilhança de ψ é Tmd? Por que?
(a) ∫ ψ
−∞
f(t)dt = 1/2 ⇒
∫ ψ
0
λe−λtdt = 1/2 ⇒ 1− e−λψ = 1/2 ⇒ e−λψ = 1/2
⇒ −λψ = ln(1/2) ⇒ ψ = − ln(1/2)
λ
= − ln 1− ln 2
λ
⇒ ψ = ln 2
λ
.
E(Tmd) = E((ln 2)T ) = (ln 2)× E
(
1
n
n∑
i=1
Ti
)
= (ln 2)× 1
n
× n× E(T ) = (ln 2)× 1
λ
⇒ E(Tmd) = ψ.
Portanto, Tmd é um estimador não-tendencioso para ψ.
(b)
EQM(Tmd) = V ar(Tmd) = V ar((ln 2)T ) = (ln 2)
2 × V ar
(
1
n
n∑
i=1
Ti
)
= (ln 2)2 × 1
n2
× n× V ar(T ) = (ln 2)2 × 1
n2
× n× 1
λ2
=
1
n
(
ln 2
λ
)2
=
ψ2
n
.
(c) Como EMV (λ) = 1/T e pela propriedade de invariância dos EMV’s, temos que
EMV (ψ) = EMV
(
ln 2
λ
)
=
ln 2
EMV (λ)
= (ln 2)T = Tmd.
Portanto, Tmd é o estimador de máxima verossimilhança de ψ.
3. Um estudo com 420.095 dinamarqueses usuários de telefones celulares descobriu que 135 deles tinham
desenvolvido câncer no cérebro.

Continue navegando