Buscar

prova_2_mat_gabarito

Prévia do material em texto

1 
 
Prova #2 Introdução à Inferência Estatística Professor Thiago Fonseca Morello 
Nome______________________________________________ RA________________ Turno__________ 
INSTRUÇÕES PARA RESOLUÇÃO DA PROVA (LER ATENTAMENTE) 
1. Não é permitido o uso de calculadoras, smartphones, notebooks, qualquer tipo de aparato 
eletrônico/computacional, ou de qualquer material de consulta incluindo tabelas de FDs retiradas de 
livros-texto. Desligar todos os equipamentos durante a prova; 
2. O tempo para resolução é de 2 horas: não será concedido tempo adicional; 
3. Não ultrapassar o espaço reservado, no caderno de respostas (este documento) para a resolução de cada 
questão: todo o texto escrito fora do espaço reservado será desconsiderado; 
4. Será fornecido papel para rascunho em quantidade suficiente. Por favor, utilizar o rascunho para chegar 
a respostas consistentes e concisas e reservar tempo para transcrevê-las neste caderno de respostas; 
5. As respostas às questões deverão constar nas lacunas indicadas. A resolução (contendo justificativas e 
explicações) de cada item deverá ser apresentada na caixa abaixo do enunciado respectivo (caso haja tal 
caixa). Itens sem resolução (caixa em branco) serão anulados; 
6. Ao final da prova há um suplemento com coeficientes de confiança e valores críticos. Identificar a 
correspondência entre as figuras no suplemento e as questões é parte da prova, por isso não há indicação 
explícita; 
Q.1) [2 pontos] Um epidemiologista elaborou um modelo computacional para prever a prevalência de 
tuberculose em países em desenvolvimento. Tal modelo reportou, para o Brasil, uma taxa de quatro casos 
em dez mil (0,0004). Procurando testar a veracidade desta previsão, foi colhida uma amostra de dez mil 
entrevistados, distribuída em todas as cinco regiões do país. Resultou uma taxa de cinco casos em dez mil 
(0,0005). Execute o teste para a previsão computacional, no nível de 10%. Atenção: aplique um teste 
bilateral. Utilize a aproximação (0,0004)(1-0,0004) ~ 0,0004. 
Q.1.a) Defina as hipóteses do teste: H0: ______________ vs H1: ______________. 
(teste para proporção) H0: p = 0,0004 vs H1: p ≠ 0,0004 
Q.1.b) Calcule o valor observado da estatística do teste. (Dica: trata-se de um teste para a proporção 
populacional, a função de distribuição de probabilidade é a normal padrão; utilizar o valor da proporção 
definido por H0 para calcular a variância do estimador). A resposta é: 0,5. 
(trata-se de um teste para a proporção populacional) 
Possibilidade 1, teste para a proporção 
𝑍 =
�̂� − 𝑝0
√𝑝0(1 − 𝑝0)
𝑁
=
0,0005 − 0,0004
√0,0004(1 − 0,0004)
1000
~
0,0001
√0,0004
10000
=
0,0001
√4x10
−4
104
=
0,0001
√ 4
108
=
104. 10−4.
2
~0,5 
Q.1.c) Determine a região crítica para um nível de significância de 10%. Atenção: trata-se de um teste 
bilateral. A resposta é: RC(p;0,1) = [-∞;-1,64] U [1,64;∞] 
Q.1.d) Considerando a região crítica e o valor observado da estatística do teste, a evidência é favorável ou 
desfavorável à hipótese nula? Responda e explique em detalhe. 
R: |Zobs|= 0,5 ∉ RC(p;0,1) = {-∞;-1.64} U {1.64;∞} e H0 não deve, pois, ser rejeitada. Com isso, a 
evidência é favorável à H0. A evidência aponta para uma proporção maior, mas, contudo, a diferença em 
2 
 
relação à proporção estimada pelo modelo computacional é desprezível, estatisticamente. Atenção: este 
item foi zerado em caso de resposta errônea para pelo menos um dos dois anteriores. 
(Q.2) [2 pontos] Um banco público está medindo a produtividade de seus funcionários no atendimento 
pessoal a clientes pessoa física. Em uma amostra de 36 atendimentos, foi observada uma duração de 
atendimento média de 25 minutos, com desvio padrão de 12 minutos. Atenção: considerar a FD t de Student 
para resolver este exercício (aplique um teste bilateral). 
(a) Qual o intervalo com 95% de confiança para a duração média populacional? 
A resposta é: IC[μ;0,95]:[21;29] [Atenção: desenvolvimento deve constar na caixa a seguir] 
IC(μ;0,99) = [�̅� – tγDP/raiz(N); �̅� + tγDP/raiz(N)] = [25 - tγ12/6; 25 + tγ12/6] = [25 – 2tγ; 25 + 2tγ]. De 
acordo com o gráfico, tγ =-2  2tγ = 2*2 = 4. 
IC = [25-4;25+4] = [21;29] 
(b) Com qual nível de confiança é possível afirmar que a duração média é de 25 ± 2 minutos? (Dica: o nível 
de confiança é determinado pelos valores da t de Student com base nos quais o intervalo reportado foi 
calculado). 
A resposta é: 0,68 ou 68%. 
IC = XN ± e, e = tγDP/raiz(N). Do enunciado, e = 2  tγ = 2*raiz(N)/DP = 2*6/12 = 1. Agora basta 
determinar P(-1 < Z < 1). De acordo com o gráfico trata-se de 68% (isso pois 1 – 2*(A+B) = 1 – 2*(2,5% + 
13,5%) = 1 – 2*0,16 = 1 – 0,32 = 0,68. 
(Q.3) [1.5 pontos] Antes de uma eleição, um determinado partido está interessado em estimar a proporção p 
de eleitores favoráveis a seu candidato. Uma amostra piloto de tamanho 10.000 revelou que 50% dos 
eleitores eram favoráveis ao candidato em questão. Construa um intervalo com 90% de confiança para a 
proporção populacional de eleitores do candidato. Utilize, para calcular o IC, a aproximação 0.0082 ~ 0.01. 
A resposta é: IC[p;0,9]:[0,49; 0,51].[Atenção: desenvolvimento deve constar na caixa a seguir] 
L1 = �̂� − 𝑧𝛾√
�̂� ∗ (1 − �̂�)
𝑁
; L2 = �̂� + 𝑧𝛾√
�̂� ∗ (1 − �̂�)
𝑁
 
De acordo com o gráfico 1, z = 1,64 (em linha com a Q.1). 
L1 = 0.5 − 1,64√
0.5 ∗ 0.5
10.000
; L2 = 0.5 + 1,64√
0.5 ∗ 0.5
10.000
 
L1 = 0.5 − 1,64 ∗
0.5
100
= 0.5 − 0.0082~0.5 − 0.01 → L1 = 0.49 
L2 = 0.5 + 1,64 ∗
0.5
100
= 0.5 + 0.0082~0.5 + 0.01 → L2 = 0.51 
IC[p;0,9] = [0.49;0.51] 
3 
 
(Q.4) [2 pontos] Deseja-se verificar se, de fato, a precipitação pluviométrica anual em um dado País é de 
100 mm/mês. Considerando uma amostra compreendendo 64 pluviómetros instalados em pontos 
estratégicos do País, a média (amostral) foi de 96 mm/mês e o desvio padrão (amostral), de 8 unidades. 
(a) Teste a hipótese de que a média populacional é 100 com base na abordagem da região crítica. Considere 
um nível de significância de 5%. Para isso, tome por base a FD t de Student, construa um teste bilateral e 
preencha as lacunas a seguir. 
(a.1) Apresente as duas hipóteses que definem o teste: H0: ______________ vs H1: ______________. 
H0: μ = 100 vs H1: μ ≠ 100. 
(a.2) Calcule o valor observado da estatística do teste: Z = 8*(X̅N – 100)/8 = (96 – 100) = - 4 
(a.3) Especifique a região crítica. Atenção: teste bilateral: RC: [-∞;-1,98] U [1,98;∞] 
(a.4) Decisão (marque apenas a opção correta com um “x”): 
□ Rejeitar a hipótese de que μ = 100  correta 
□ Não rejeitar a hipótese de que μ = 100  incorreta 
(b) Considere que outra amostra foi retirada, compreendendo outros 64 pluviómetros, instalados mais 
recentemente. A média desta segunda amostra foi também de 96 mm/mês e o desvio padrão amostral de 20 
mm/mês. Teste a hipótese de que a média populacional é 100 agora com base na abordagem do p-valor. 
Considere um nível de significância de 5%, continue a assumir uma FD t de Student e construa um teste 
bilateral (atenção especial para este último detalhe!). Preencha as lacunas a seguir. 
(b.1) Calcule o valor observado da estatística do teste: 
A resposta é: -1,6 (atenção: apresentar detalhes do cálculo na caixa abaixo). 
8*(96 – 100)/20 = 2(-4)/5 = -5/5 -3/5 = -1,6 
(b.2) Determine a probabilidade de obter um valor mais extremo, em módulo, do que o observado (p-valor). 
Atenção: trata-se de um teste bilateral. 
P-valor: 10% (atenção: apresentar detalhes do cálculo na caixa abaixo). 
P(T > |t|) = P(T > 1,6 ou T < - 1,6) = 2*P(T < - 1,6) = (de acordo com a figura 3) 2*0.05 = 0.1 = 10% 
(b.3) Considerando um nível de significância de 5% em um teste bilateral, o p-valor obtido é evidência 
favorávelou desfavorável à hipótese de μ = 100? Responda e explique em detalhe. 
R: trata-se de evidência favorável, pois o p-valor obtido, 10% é superior ao nível de significância, 5%, e, 
portanto, a probabilidade de um valor mais extremo é não-desprezível, dado que é superior à probabilidade 
do erro tipo I (valor da estatística não pertence à região crítica; ou, alternativamente, valor observado ou 
ligeiramente maior, em módulo, ocorre com probabilidade relevante). O que significa que a hipótese nula 
não deve ser rejeitada. Colocando de outra maneira, não há evidência contrária forte o bastante para 
justificar a rejeição de H0. Atenção: este item foi zerado em caso de resposta errônea para pelo menos um 
dos anteriores. 
[Dentre as questões 5 e 6 abaixo, escolha apenas uma e resolva] 
4 
 
(Q.5) [2.5 pontos] Um grupo de pesquisadores foi contratado pelo Ministério do Meio Ambiente para 
averiguar a evidência de que a queima de resíduos sólidos da forma normalmente realizada nos aterros 
autorizados a operar libera poluentes causadores de câncer pulmonar. Foram realizados 1000 ensaios de 
queima de resíduos como parte do estudo, cada um deles sendo estatisticamente equivalente a uma amostra 
aleatória de partículas. Para cada amostra, calculou-se a concentração média de poluentes cancerígenos 
detectados. A técnica de detecção pode tanto subestimar como superestimar a concentração. 
O grupo de pesquisadores tem por meta realizar o teste de hipóteses abaixo, em que θ é a média 
populacional para a concentração de poluentes cancerígenos. O nível de significância é de 1%, visto como 
satisfatoriamente baixo. 
H0: θ > 0 vs H1: θ = 0 
Atenção: a hipótese nula está especificada como uma condição de desigualdade e a hipótese 
alternativa como uma condição de igualdade. Não se trata de erro. Atenção para este detalhe. 
(a) Apresente a definição geral de erro tipo 1. 
R: trata-se da probabilidade de rejeitar uma hipótese verdadeira. 
(b) Em que exatamente consistiria o erro tipo 1 no contexto do enunciado? 
R: rejeitar a hipótese de que a queima de resíduos sólidos libera poluentes cancerígenos em um nível de 
concentração considerável sendo que, de fato, isso ocorre, e, pois, a concentração liberada é relevante. 
Com isso o teste induziria ao erro de ignorar o potencial cancerígeno da atividade. 
(c) Em que exatamente consistiria o erro tipo 2 no contexto do enunciado? 
R: Em afirmar que a concentração populacional de poluentes cancerígenos é maior do que zero quando, na 
verdade, ela é nula. Ou seja, afirmar que há potencial cancerígeno quando, na verdade, não há. 
(d) Do ponto de vista da saúde da população, qual seria o seria o erro mais grave, o erro tipo 1 ou o erro tipo 
2? Justifique. 
R: O erro tipo 1 é mais grave, pois, ao afirmar que um processo não tem impacto cancerígeno, quando na 
verdade tem, leva à ignorar uma fonte de grande impacto na saúde da população. Tal erro contribui, pois, 
para que um grande impacto negativo continue a ocorrer. Já o erro tipo 2, ao afirmar que o processo tem 
impacto cancerígeno quando, de, fato, não tem, não conduz à manutenção ou anulação de um grande 
impacto, sendo, pois, neutro do ponto de vista da saúde da população (é claro que induz ao erro de 
dispêndio de dinheiro público em um ação sem qualquer retorno, e, portanto, conduz ao desperdício de 
recursos; porém não se tem aí algo de primeira importância segundo a perspectiva estabelecida pelo 
enunciado, a perspectiva da saúde da população). 
(e) Verifique se a afirmação a seguir está correta e justifique: a especificação do teste de hipóteses acima 
reduz a um nível tolerável a probabilidade daquele que seria o pior erro da perspectiva da saúde da 
população. 
R: A afirmação é correta. O pior erro para a saúde da população seria afirmar que não há risco (não há 
emissão relevante de poluentes cancerígenos) quando de fato há. Este é exatamente o erro do tipo 1, 
segundo a especificação do teste apresentada no enunciado. Com isso, o pior erro da perspectiva da saúde 
da população tem sua probabilidade fixada em um nível visto como satisfatoriamente baixo, 1% [este item 
apenas requeria a afirmação de que a especificação do teste fixa em 1% o erro do tipo 1]. 
5 
 
 
(Q.6) [2.5 pontos] Lei dos grandes números e teorema do limite central 
“Com o aumento ilimitado do tamanho de uma amostra, dois fenômenos são observados, 
independentemente da função densidade de probabilidade subjacente aos dados. O primeiro é a redução à 
zero da diferença absoluta entre média amostral e média populacional. O segundo é a redução da variância 
da média amostral.” 
A afirmação acima é correta? Justifique sua resposta com base nos experimentos, apresentados em sala, 
referentes à Lei dos Grandes Números e o Teorema do Limite Central. 
R: A afirmação é correta. O primeiro fenômeno é exatamente o que estabelece a Lei dos Grandes Números, 
a qual afirma que, com o aumento ilimitado da amostra, a diferença, em módulo, entre média amostral e 
populacional, se torna nula. Ou seja, a média amostral passa a reportar valores desprezivelmente diferentes 
da média “verdadeira”. Sendo isso verdade, como a média amostral é uma estatística, e, portanto, função 
dos dados, e daí uma variável aleatória que exibe variação relevante, a média populacional é um parâmetro 
fixo ou constante. Apenas é possível que uma estatística se aproxime de uma constante com a variação da 
primeira se tornando cada vez menor e, no limite, se tornando nula. Uma explicação alternativa para o 
segundo fenômeno estabeleceria paralelo com o Teorema do Limite Central. Basta lembrar que, no segundo 
exercício realizado em sala, o histograma passava, com o aumento da amostra, a se concentrar em torno da 
média populacional, aproximando-se da função de densidade normal. Com isso, proporção dominante e 
cada vez maior da massa de probabilidade concentra-se em torno da média populacional, e, pois a 
variância reduziu-se, uma vez que esta é sempre proporcional à massa de probabilidade contida nas caudas 
da FD. Outra maneira de entender isso é recordando que se partiu, nos dois experimentos, de uma 
distribuição uniforme e de uma distribuição assimétrica qui-quadrado. Ambas, por possuírem 
probabilidade relevante em pontos distantes da média populacional, apenas poderiam convergir para uma 
normal, a qual concentra probabilidade em pontos próximos à média, com transferência de massa de 
probabilidade de pontos afastados para pontos próximos à média populacional. E daí a redução da 
variância. 
 
6 
 
Suplemento: funções de distribuição de probabilidades (FDs) 
Figura 1 FD normal padrão (N(0,1)) 
 
Lendo a figura 1 acima: as letras A e B indicam polígonos abaixo da curva da distribuição normal padrão e 
dentro de intervalos específicos do eixo horizontal. Tem-se: 
 Polígono A (à esquerda), compreendido no intervalo [-∞;-1,96], possui área equivalente à probabilidade 
de 2,5%; 
 Polígono B (à esquerda), compreendido no intervalo [-1,96;-1,64], área equivalente a 2,5%; 
 Polígono B (à direita), compreendido no intervalo [1,64;1,96], área equivalente a 2,5 %; 
 Polígono A (à direita), compreendido no intervalo [1,96;∞], área equivalente a 2,5%. 
7 
 
Figura 2 FD t de Student com 35 graus de liberdade 
 
Lendo a figura 2 acima: as letras A e B indicam polígonos abaixo da curva da distribuição t de Student e 
dentro de intervalos específicos do eixo horizontal. Tem-se: 
 Polígono A (à esquerda), compreendido no intervalo [-∞;-2], possui área equivalente à probabilidade de 
2,5%; 
 Polígono B (à esquerda), compreendido no intervalo [-2;-1], área equivalente a 13,5%; 
 Polígono B (à direita), compreendido no intervalo [1;2], área equivalente a 13,5%; 
 Polígono A (àdireita), compreendido no intervalo [2;∞], área equivalente a 2,5%. 
Figura 3 FD t de Student com 63 graus de liberdade 
 
Lendo a figura 3 acima: as letras A e B indicam polígonos abaixo da curva da distribuição t de Student e 
dentro de intervalos específicos do eixo horizontal. Tem-se: 
 Polígono A (à esquerda), compreendido no intervalo [-∞;-1,98], possui área equivalente à probabilidade 
de 2,5%; 
 Polígono B (à esquerda), compreendido no intervalo [-1,98;-1,6], área equivalente a 2,5%; 
 Polígono B (à direita), compreendido no intervalo [1,6;1,98], área equivalente a 2,5%; 
 Polígono A (à direita), compreendido no intervalo [1,98;∞], área equivalente a 2,5%.

Continue navegando