Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Prova #2 Introdução à Inferência Estatística Professor Thiago Fonseca Morello Nome______________________________________________ RA________________ Turno__________ INSTRUÇÕES PARA RESOLUÇÃO DA PROVA (LER ATENTAMENTE) 1. Não é permitido o uso de calculadoras, smartphones, notebooks, qualquer tipo de aparato eletrônico/computacional, ou de qualquer material de consulta incluindo tabelas de FDs retiradas de livros-texto. Desligar todos os equipamentos durante a prova; 2. O tempo para resolução é de 2 horas: não será concedido tempo adicional; 3. Não ultrapassar o espaço reservado, no caderno de respostas (este documento) para a resolução de cada questão: todo o texto escrito fora do espaço reservado será desconsiderado; 4. Será fornecido papel para rascunho em quantidade suficiente. Por favor, utilizar o rascunho para chegar a respostas consistentes e concisas e reservar tempo para transcrevê-las neste caderno de respostas; 5. As respostas às questões deverão constar nas lacunas indicadas. A resolução (contendo justificativas e explicações) de cada item deverá ser apresentada na caixa abaixo do enunciado respectivo (caso haja tal caixa). Itens sem resolução (caixa em branco) serão anulados; 6. Ao final da prova há um suplemento com coeficientes de confiança e valores críticos. Identificar a correspondência entre as figuras no suplemento e as questões é parte da prova, por isso não há indicação explícita; Q.1) [2 pontos] Um epidemiologista elaborou um modelo computacional para prever a prevalência de tuberculose em países em desenvolvimento. Tal modelo reportou, para o Brasil, uma taxa de quatro casos em dez mil (0,0004). Procurando testar a veracidade desta previsão, foi colhida uma amostra de dez mil entrevistados, distribuída em todas as cinco regiões do país. Resultou uma taxa de cinco casos em dez mil (0,0005). Execute o teste para a previsão computacional, no nível de 10%. Atenção: aplique um teste bilateral. Utilize a aproximação (0,0004)(1-0,0004) ~ 0,0004. Q.1.a) Defina as hipóteses do teste: H0: ______________ vs H1: ______________. (teste para proporção) H0: p = 0,0004 vs H1: p ≠ 0,0004 Q.1.b) Calcule o valor observado da estatística do teste. (Dica: trata-se de um teste para a proporção populacional, a função de distribuição de probabilidade é a normal padrão; utilizar o valor da proporção definido por H0 para calcular a variância do estimador). A resposta é: 0,5. (trata-se de um teste para a proporção populacional) Possibilidade 1, teste para a proporção 𝑍 = �̂� − 𝑝0 √𝑝0(1 − 𝑝0) 𝑁 = 0,0005 − 0,0004 √0,0004(1 − 0,0004) 1000 ~ 0,0001 √0,0004 10000 = 0,0001 √4x10 −4 104 = 0,0001 √ 4 108 = 104. 10−4. 2 ~0,5 Q.1.c) Determine a região crítica para um nível de significância de 10%. Atenção: trata-se de um teste bilateral. A resposta é: RC(p;0,1) = [-∞;-1,64] U [1,64;∞] Q.1.d) Considerando a região crítica e o valor observado da estatística do teste, a evidência é favorável ou desfavorável à hipótese nula? Responda e explique em detalhe. R: |Zobs|= 0,5 ∉ RC(p;0,1) = {-∞;-1.64} U {1.64;∞} e H0 não deve, pois, ser rejeitada. Com isso, a evidência é favorável à H0. A evidência aponta para uma proporção maior, mas, contudo, a diferença em 2 relação à proporção estimada pelo modelo computacional é desprezível, estatisticamente. Atenção: este item foi zerado em caso de resposta errônea para pelo menos um dos dois anteriores. (Q.2) [2 pontos] Um banco público está medindo a produtividade de seus funcionários no atendimento pessoal a clientes pessoa física. Em uma amostra de 36 atendimentos, foi observada uma duração de atendimento média de 25 minutos, com desvio padrão de 12 minutos. Atenção: considerar a FD t de Student para resolver este exercício (aplique um teste bilateral). (a) Qual o intervalo com 95% de confiança para a duração média populacional? A resposta é: IC[μ;0,95]:[21;29] [Atenção: desenvolvimento deve constar na caixa a seguir] IC(μ;0,99) = [�̅� – tγDP/raiz(N); �̅� + tγDP/raiz(N)] = [25 - tγ12/6; 25 + tγ12/6] = [25 – 2tγ; 25 + 2tγ]. De acordo com o gráfico, tγ =-2 2tγ = 2*2 = 4. IC = [25-4;25+4] = [21;29] (b) Com qual nível de confiança é possível afirmar que a duração média é de 25 ± 2 minutos? (Dica: o nível de confiança é determinado pelos valores da t de Student com base nos quais o intervalo reportado foi calculado). A resposta é: 0,68 ou 68%. IC = XN ± e, e = tγDP/raiz(N). Do enunciado, e = 2 tγ = 2*raiz(N)/DP = 2*6/12 = 1. Agora basta determinar P(-1 < Z < 1). De acordo com o gráfico trata-se de 68% (isso pois 1 – 2*(A+B) = 1 – 2*(2,5% + 13,5%) = 1 – 2*0,16 = 1 – 0,32 = 0,68. (Q.3) [1.5 pontos] Antes de uma eleição, um determinado partido está interessado em estimar a proporção p de eleitores favoráveis a seu candidato. Uma amostra piloto de tamanho 10.000 revelou que 50% dos eleitores eram favoráveis ao candidato em questão. Construa um intervalo com 90% de confiança para a proporção populacional de eleitores do candidato. Utilize, para calcular o IC, a aproximação 0.0082 ~ 0.01. A resposta é: IC[p;0,9]:[0,49; 0,51].[Atenção: desenvolvimento deve constar na caixa a seguir] L1 = �̂� − 𝑧𝛾√ �̂� ∗ (1 − �̂�) 𝑁 ; L2 = �̂� + 𝑧𝛾√ �̂� ∗ (1 − �̂�) 𝑁 De acordo com o gráfico 1, z = 1,64 (em linha com a Q.1). L1 = 0.5 − 1,64√ 0.5 ∗ 0.5 10.000 ; L2 = 0.5 + 1,64√ 0.5 ∗ 0.5 10.000 L1 = 0.5 − 1,64 ∗ 0.5 100 = 0.5 − 0.0082~0.5 − 0.01 → L1 = 0.49 L2 = 0.5 + 1,64 ∗ 0.5 100 = 0.5 + 0.0082~0.5 + 0.01 → L2 = 0.51 IC[p;0,9] = [0.49;0.51] 3 (Q.4) [2 pontos] Deseja-se verificar se, de fato, a precipitação pluviométrica anual em um dado País é de 100 mm/mês. Considerando uma amostra compreendendo 64 pluviómetros instalados em pontos estratégicos do País, a média (amostral) foi de 96 mm/mês e o desvio padrão (amostral), de 8 unidades. (a) Teste a hipótese de que a média populacional é 100 com base na abordagem da região crítica. Considere um nível de significância de 5%. Para isso, tome por base a FD t de Student, construa um teste bilateral e preencha as lacunas a seguir. (a.1) Apresente as duas hipóteses que definem o teste: H0: ______________ vs H1: ______________. H0: μ = 100 vs H1: μ ≠ 100. (a.2) Calcule o valor observado da estatística do teste: Z = 8*(X̅N – 100)/8 = (96 – 100) = - 4 (a.3) Especifique a região crítica. Atenção: teste bilateral: RC: [-∞;-1,98] U [1,98;∞] (a.4) Decisão (marque apenas a opção correta com um “x”): □ Rejeitar a hipótese de que μ = 100 correta □ Não rejeitar a hipótese de que μ = 100 incorreta (b) Considere que outra amostra foi retirada, compreendendo outros 64 pluviómetros, instalados mais recentemente. A média desta segunda amostra foi também de 96 mm/mês e o desvio padrão amostral de 20 mm/mês. Teste a hipótese de que a média populacional é 100 agora com base na abordagem do p-valor. Considere um nível de significância de 5%, continue a assumir uma FD t de Student e construa um teste bilateral (atenção especial para este último detalhe!). Preencha as lacunas a seguir. (b.1) Calcule o valor observado da estatística do teste: A resposta é: -1,6 (atenção: apresentar detalhes do cálculo na caixa abaixo). 8*(96 – 100)/20 = 2(-4)/5 = -5/5 -3/5 = -1,6 (b.2) Determine a probabilidade de obter um valor mais extremo, em módulo, do que o observado (p-valor). Atenção: trata-se de um teste bilateral. P-valor: 10% (atenção: apresentar detalhes do cálculo na caixa abaixo). P(T > |t|) = P(T > 1,6 ou T < - 1,6) = 2*P(T < - 1,6) = (de acordo com a figura 3) 2*0.05 = 0.1 = 10% (b.3) Considerando um nível de significância de 5% em um teste bilateral, o p-valor obtido é evidência favorávelou desfavorável à hipótese de μ = 100? Responda e explique em detalhe. R: trata-se de evidência favorável, pois o p-valor obtido, 10% é superior ao nível de significância, 5%, e, portanto, a probabilidade de um valor mais extremo é não-desprezível, dado que é superior à probabilidade do erro tipo I (valor da estatística não pertence à região crítica; ou, alternativamente, valor observado ou ligeiramente maior, em módulo, ocorre com probabilidade relevante). O que significa que a hipótese nula não deve ser rejeitada. Colocando de outra maneira, não há evidência contrária forte o bastante para justificar a rejeição de H0. Atenção: este item foi zerado em caso de resposta errônea para pelo menos um dos anteriores. [Dentre as questões 5 e 6 abaixo, escolha apenas uma e resolva] 4 (Q.5) [2.5 pontos] Um grupo de pesquisadores foi contratado pelo Ministério do Meio Ambiente para averiguar a evidência de que a queima de resíduos sólidos da forma normalmente realizada nos aterros autorizados a operar libera poluentes causadores de câncer pulmonar. Foram realizados 1000 ensaios de queima de resíduos como parte do estudo, cada um deles sendo estatisticamente equivalente a uma amostra aleatória de partículas. Para cada amostra, calculou-se a concentração média de poluentes cancerígenos detectados. A técnica de detecção pode tanto subestimar como superestimar a concentração. O grupo de pesquisadores tem por meta realizar o teste de hipóteses abaixo, em que θ é a média populacional para a concentração de poluentes cancerígenos. O nível de significância é de 1%, visto como satisfatoriamente baixo. H0: θ > 0 vs H1: θ = 0 Atenção: a hipótese nula está especificada como uma condição de desigualdade e a hipótese alternativa como uma condição de igualdade. Não se trata de erro. Atenção para este detalhe. (a) Apresente a definição geral de erro tipo 1. R: trata-se da probabilidade de rejeitar uma hipótese verdadeira. (b) Em que exatamente consistiria o erro tipo 1 no contexto do enunciado? R: rejeitar a hipótese de que a queima de resíduos sólidos libera poluentes cancerígenos em um nível de concentração considerável sendo que, de fato, isso ocorre, e, pois, a concentração liberada é relevante. Com isso o teste induziria ao erro de ignorar o potencial cancerígeno da atividade. (c) Em que exatamente consistiria o erro tipo 2 no contexto do enunciado? R: Em afirmar que a concentração populacional de poluentes cancerígenos é maior do que zero quando, na verdade, ela é nula. Ou seja, afirmar que há potencial cancerígeno quando, na verdade, não há. (d) Do ponto de vista da saúde da população, qual seria o seria o erro mais grave, o erro tipo 1 ou o erro tipo 2? Justifique. R: O erro tipo 1 é mais grave, pois, ao afirmar que um processo não tem impacto cancerígeno, quando na verdade tem, leva à ignorar uma fonte de grande impacto na saúde da população. Tal erro contribui, pois, para que um grande impacto negativo continue a ocorrer. Já o erro tipo 2, ao afirmar que o processo tem impacto cancerígeno quando, de, fato, não tem, não conduz à manutenção ou anulação de um grande impacto, sendo, pois, neutro do ponto de vista da saúde da população (é claro que induz ao erro de dispêndio de dinheiro público em um ação sem qualquer retorno, e, portanto, conduz ao desperdício de recursos; porém não se tem aí algo de primeira importância segundo a perspectiva estabelecida pelo enunciado, a perspectiva da saúde da população). (e) Verifique se a afirmação a seguir está correta e justifique: a especificação do teste de hipóteses acima reduz a um nível tolerável a probabilidade daquele que seria o pior erro da perspectiva da saúde da população. R: A afirmação é correta. O pior erro para a saúde da população seria afirmar que não há risco (não há emissão relevante de poluentes cancerígenos) quando de fato há. Este é exatamente o erro do tipo 1, segundo a especificação do teste apresentada no enunciado. Com isso, o pior erro da perspectiva da saúde da população tem sua probabilidade fixada em um nível visto como satisfatoriamente baixo, 1% [este item apenas requeria a afirmação de que a especificação do teste fixa em 1% o erro do tipo 1]. 5 (Q.6) [2.5 pontos] Lei dos grandes números e teorema do limite central “Com o aumento ilimitado do tamanho de uma amostra, dois fenômenos são observados, independentemente da função densidade de probabilidade subjacente aos dados. O primeiro é a redução à zero da diferença absoluta entre média amostral e média populacional. O segundo é a redução da variância da média amostral.” A afirmação acima é correta? Justifique sua resposta com base nos experimentos, apresentados em sala, referentes à Lei dos Grandes Números e o Teorema do Limite Central. R: A afirmação é correta. O primeiro fenômeno é exatamente o que estabelece a Lei dos Grandes Números, a qual afirma que, com o aumento ilimitado da amostra, a diferença, em módulo, entre média amostral e populacional, se torna nula. Ou seja, a média amostral passa a reportar valores desprezivelmente diferentes da média “verdadeira”. Sendo isso verdade, como a média amostral é uma estatística, e, portanto, função dos dados, e daí uma variável aleatória que exibe variação relevante, a média populacional é um parâmetro fixo ou constante. Apenas é possível que uma estatística se aproxime de uma constante com a variação da primeira se tornando cada vez menor e, no limite, se tornando nula. Uma explicação alternativa para o segundo fenômeno estabeleceria paralelo com o Teorema do Limite Central. Basta lembrar que, no segundo exercício realizado em sala, o histograma passava, com o aumento da amostra, a se concentrar em torno da média populacional, aproximando-se da função de densidade normal. Com isso, proporção dominante e cada vez maior da massa de probabilidade concentra-se em torno da média populacional, e, pois a variância reduziu-se, uma vez que esta é sempre proporcional à massa de probabilidade contida nas caudas da FD. Outra maneira de entender isso é recordando que se partiu, nos dois experimentos, de uma distribuição uniforme e de uma distribuição assimétrica qui-quadrado. Ambas, por possuírem probabilidade relevante em pontos distantes da média populacional, apenas poderiam convergir para uma normal, a qual concentra probabilidade em pontos próximos à média, com transferência de massa de probabilidade de pontos afastados para pontos próximos à média populacional. E daí a redução da variância. 6 Suplemento: funções de distribuição de probabilidades (FDs) Figura 1 FD normal padrão (N(0,1)) Lendo a figura 1 acima: as letras A e B indicam polígonos abaixo da curva da distribuição normal padrão e dentro de intervalos específicos do eixo horizontal. Tem-se: Polígono A (à esquerda), compreendido no intervalo [-∞;-1,96], possui área equivalente à probabilidade de 2,5%; Polígono B (à esquerda), compreendido no intervalo [-1,96;-1,64], área equivalente a 2,5%; Polígono B (à direita), compreendido no intervalo [1,64;1,96], área equivalente a 2,5 %; Polígono A (à direita), compreendido no intervalo [1,96;∞], área equivalente a 2,5%. 7 Figura 2 FD t de Student com 35 graus de liberdade Lendo a figura 2 acima: as letras A e B indicam polígonos abaixo da curva da distribuição t de Student e dentro de intervalos específicos do eixo horizontal. Tem-se: Polígono A (à esquerda), compreendido no intervalo [-∞;-2], possui área equivalente à probabilidade de 2,5%; Polígono B (à esquerda), compreendido no intervalo [-2;-1], área equivalente a 13,5%; Polígono B (à direita), compreendido no intervalo [1;2], área equivalente a 13,5%; Polígono A (àdireita), compreendido no intervalo [2;∞], área equivalente a 2,5%. Figura 3 FD t de Student com 63 graus de liberdade Lendo a figura 3 acima: as letras A e B indicam polígonos abaixo da curva da distribuição t de Student e dentro de intervalos específicos do eixo horizontal. Tem-se: Polígono A (à esquerda), compreendido no intervalo [-∞;-1,98], possui área equivalente à probabilidade de 2,5%; Polígono B (à esquerda), compreendido no intervalo [-1,98;-1,6], área equivalente a 2,5%; Polígono B (à direita), compreendido no intervalo [1,6;1,98], área equivalente a 2,5%; Polígono A (à direita), compreendido no intervalo [1,98;∞], área equivalente a 2,5%.
Compartilhar