Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 UNIVERSIDADE FEDERAL DE OURO PRETO – ICEB / DEMAT CURSO DE ESTATÍSTICA Disciplina: EST002 – Estatística II Professor: Ricardo Tavares Matrícula e Nome: ______________________________________________________________ 2ª Lista de Exercícios 1) Calcule a média ou a proporção para as seguintes situações: a) O salário de cinco funcionários: 380, 700, 400, 380, 410; b) Num grupo de 300 atores somente 40 sabem cantar; c) A idade de 10 alunos da turma: 18, 20, 24, 22, 19, 24, 23, 25, 23, 22; d) Numa pesquisa sobre as próximas eleições municipais de 600 eleitores entrevistados, 150 votarão no candidato X; 2) Foram retiradas 25 peças da produção diária de uma máquina, encontrando-se para uma medida uma média de 5,2 mm. Sabendo que as medidas têm distribuição normal com desvio padrão populacional de 1,2 mm, construir intervalos de confiança para a média aos níveis de 90%, 95% e 99%. Resp.: IC[ µ ;90%]=[ 4,81 ; 5,59 ] ; IC[ µ ;95%]=[ 4,73 ; 5,67 ] ; IC[ µ ;99%]=[ 4,58 ; 5,82 ] 3) Para uma amostra de tamanho 10, média amostral igual a 110 e desvio padrão amostral igual a 10, determinar os intervalos de confiança para a média aos níveis de 90% e 95%. Qual a hipótese que você admitiu quanto à distribuição de probabilidade da população? Resp.: IC[ µ ;90%]=[ 104,21 ; 115,71 ] ; IC[ µ ;95%]=[ 102,85 ; 117,15 ] 4) Uma amostra proveniente de população normal é composta pelos seguintes elementos: 7 ; 7 ; 8 ; 9 ; 9 ; 9 ; 10 ; 11 ; 11 ; 11 ; 12 ; 13 ; 13 ; 14 ; 15 ; 15. Construir os intervalos de confiança para a média aos níveis de significância de 5% e de 20%. Comparar os resultados e comentar as diferenças de amplitudes. Resp.: IC[ µ ;95%] = [9,474; 12,276] e IC[ µ ;80%] = [9,994; 11,756] 5) Um estudo foi feito para determinar a proporção de famílias em uma comunidade que tem telefone (p). Uma amostra de 200 famílias é selecionada, ao acaso, e 160 afirmam ter telefone. Que dizer de p com 95% de confiança? a) usando o intervalo otimista b) usando o intervalo conservativo c) faça uma comparação dos comprimentos dos intervalos obtidos em (a) e em (b) com justificativas. Resp.: atendimento 0800 6) Uma amostra aleatória de 300 pessoas mostrou que 180 estavam satisfeitos com o programa FÁRMACIA POPULAR, do governo federal em parceria com a FIOCRUZ. Encontrar os limites conservativos para uma confiança de 90% e 95% para a população satisfeita com esse programa. Justifique os comprimentos diferentes. Resp.: IC[p;90%]=[ 0,553 ; 0,647 ] e IC[p;95%]=[ 0,545 ; 0,655 ] 7) Uma centena de componentes foi ensaiada, e 93 deles funcionaram mais de 1000 horas. Determinar um intervalo de confiança de 95% para a proporção de componentes que funcionam mais de 1000 horas. 2 8) Numa pesquisa de mercado desejamos estimar a proporção de pessoas que compram o sabonete BomCheiro. a) Que tamanho de amostra devemos colher se queremos que, com probabilidade 0,9, a estimativa não se desvie do verdadeiro valor por mais de 0,05? b) Se tivermos a informação adicional de que a aceitação do sabonete BomCheiro é no mínimo 0,8, qual deve ser então o tamanho da amostra? c) Decidimos colher uma amostra de tamanho 81. Qual o erro máximo que cometemos com probabilidade 0,9? d) Para esta amostra de tamanho 81, qual a probabilidade de que o erro máximo seja 0,08? Resp.: a) n=269 b) n=172 c) 0,09 d) 0,85 9) Suponha que desejamos estimar a proporção de pessoas favoráveis ao número de vereadores de BH. Sabendo-se que em BH existem 2.400.000 habitantes e que segundo uma consulta informal 77% das pessoas entrevistadas são favoráveis à diminuição deste contingente para diminuir os gastos do município. Para uma margem de erro de 3% e um grau de confiança de 96%, calcule o número de pessoas necessárias para estimar a proporção de belo horizontinos favorável ao número de vereadores existentes na câmara municipal de BH. E se adotássemos a variabilidade máxima? O que você observa nos dois casos? 10) Suponha que um analista social deseja estimar a renda média das pessoas que residem em áreas de risco na grande BH. Considerando que existem 7500 moradores neste contingente, determine o número de pessoas necessário para estimar a renda média dos residentes em áreas perigosas para que a renda média amostral esteja a no máximo R$ 100 da verdadeira renda média deste universo com probabilidade de ao menos 92%. Segundo levantamentos anteriores o desvio padrão da renda destas pessoas é aproximadamente R$ 600. 11) Identifique as hipóteses que estão sendo testadas em cada caso: a) A companhia de transporte afirma que, em média, o intervalo entre sucessivos ônibus é de 15 minutos. Uma associação de usuários de transportes coletivos acha que a pontualidade é muito importante e pretende testar a afirmação da companhia. b) Um veterinário conseguiu ganho médio diário de 3 litros de leite por vaca com uma nova composição de ração. Um pecuarista acredita que o ganho não é tão grande assim. 12) Os registros dos últimos anos de um colégio atestam para os calouros admitidos uma nota média 115 (teste vocacional). Teste a hipótese de que a média de uma nova turma é a mesma das turmas anteriores, retirou-se, ao acaso, uma amostra de 20 notas, obtendo-se média 118 e desvio padrão 20. Admitir um nível de significância de 5% para efetuar o teste. Resp.: não rejeita H0 13) As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem até 60 anos é de 60%. Testar essa hipótese, ao nível de 5% de significância, se em 1000 nascimentos amostrados aleatoriamente, verificaram-se 530 sobreviventes até 60 anos. Resp.: rejeita H0 14) Retirada uma amostra aleatória de 15 parafusos, obtiveram-se as seguintes medidas para seus diâmetros: 10, 10, 10, 11, 11, 12, 12, 12, 12, 13, 13, 14, 14, 14, e 15. Teste 5,12:)(;5,12:)(;5,12:)(:5,12: 1110 <>≠= µµµµ HiiiHiiHicontraH . Adotando um nível de significância de 5%. Resp.: (i) Não rejeita H0 (ii) Não rejeita H0 (iii) Não rejeita H0 3 15) As estaturas de 20 recém-nascidos foram tomadas num Departamento de Pediatria, cujos resultados são, em centímetros: 41, 50, 52, 49, 49, 54, 50, 47, 52, 49, 50, 52, 50, 47, 49, 51, 46, 50, 49, e 50. a) Supor inicialmente que a população das estaturas seja normal com variância de 2 cm2. Testar a hipótese de que a média dessa normal é 50 cm. Admitir um risco de 5% para cometer o erro tipo I. b) Fazer o mesmo teste para a média, mas agora desconhecendo a variância populacional. c) Calcular o valor p nos dois casos (item a e item b). Resp.: (a) Rejeita H0 (b) Não rejeita H0 (c) .... 16) Com base na tabela: Cigarros sem filtros Cigarros com filtro Não fumam Total Homens 12 64 14 90 Mulheres 8 26 16 50 Total 20 90 30 140 a) Testar a hipótese de que a proporção dos que fumam cigarros com filtro é 70%, sendo o nível de significância de 0,02; b) Testar a hipótese de que a população feminina de fumantes é de 40%, sendo o grau de confiança de 99%; 17) O consumo médio de gasolina num certo tipo de automóvel é de 15 km/litro, segundo informações da montadora. Uma revista especializada verificou o consumo em 25 desses veículos, escolhidos ao acaso, e constatou consumo médio de 14,3 km/litro. Admita que o consumo siga o modelo Normal com variância igual a 9 (km/litro)2. a) Teste, ao nível de significância de 6%, a afirmação da montadora de que a média de consumo é igual a 15 km/litro, contra a alternativa de ser igual a 14 km/litro. Interprete. b) Determine a probabilidade do erro tipo II. O que podemos falar sobre o poder do teste. 18) Considere que uma indústria compra, de um certo fabricante, pinos cuja resistência média àruptura é especificada em 60 kgf. Em um determinado dia, a indústria recebeu um grande lote de pinos e a equipe técnica do controle de produção da indústria deseja verificar se o lote atende as especificações. É claro que a equipe técnica não espera que todos os pinos tenham exatamente uma resistência de 60 kgf. Alguma variabilidade em torno deste valor é esperada. A partir de experiência anterior a indústria sabe que a resistência à ruptura dos pinos desse fabricante segue uma distribuição normal com desvio padrão 6.4 kgf. O interesse da indústria consiste, então, em determinar se a resistência média dos pinos que constituem o lote entregue pelo fabricante pode ser ou não considerado igual a 60 kgf. Sabe- se ainda que numa amostra de 30 pinos a resistência média foi de 61,2 Kgf. A) Suponha que a equipe técnica tenha decidido adotar a seguinte regra: rejeitar H0 se a média amostral da resistência à ruptura for maior que 62.5 kgf ou menor que 57.5 kgf. Calcule o erro tipo I com base nesta região de rejeição e interprete o valor desta probabilidade. B) Calcule o erro tipo II se a média populacional fosse igual a 61 Kgf e interprete o valor desta probabilidade. O poder deste teste é considerado satisfatório sim ou não? Justifique com força. C) Calcule o valor p do teste. Você acredita que a resistência média à ruptura seja especificada em 60 Kgf? Justifique com força. 19) Comente os testes abaixo identificando o nome do teste, as hipóteses testadas, o nível de significância e a conclusão sobre o resultado. 4 a) O teste abaixo foi realizado para testar se a droga B produz um índice médio de depressão igual a 20. Analise os resultados abaixo. One-Sample T: Droga B Test of mu = 20 vs < 20 99% Upper Variable N Mean StDev SE Mean Bound T P Droga B 16 11,37 7,28 1,82 16,11 -4,74 < 0,000 b) Com o objetivo de comparar a eficácia de duas drogas contra náusea, um grupo recebeu a pílula A e o outro a pílula B, sendo que no primeiro grupo 152 não enjoaram durante uma viajem e no outro grupo apenas 132. Com base nos resultados abaixo, há indicações de que a eficácia das pílulas A e B é a mesma? Test and CI for Two Proportions Sample X N Sample p 1 152 200 0,760000 2 132 200 0,660000 Difference = p (1) - p (2) Estimate for difference: 0,1 95% CI for difference: (0,0116058; 0,188394) Test for difference = 0 (vs not = 0): Z = 2,22 P-Value = 0,027 c) Com o objetivo de comparar o efeito de um antidepressivo (droga A). Foi feito um estudo em 16 indivíduos que tomaram a droga A e outro grupo que não tomaram nenhuma droga (controle). O nosso interesse é diminuir o índice de depressão das pessoas. Com base no teste abaixo, vale a pena utilizar esse antidepressivo? Justifique sua resposta. Two-Sample T-Test and CI: Controle; Droga A Two-sample T for Controle vs Droga A N Mean StDev SE Mean Controle 16 19,9 11,0 2,8 Droga A 16 11,38 7,26 1,8 Difference = mu (Controle) - mu (Droga A) Estimate for difference: 8,50000 98% lower bound for difference: 1,34767 T-Test of difference = 0 (vs >): T-Value = 2,57 P-Value = 0,008 DF = 25 20) Exemplo do livro da Viera (1980) p.122-124 sobre a perda de peso (kg) em dois grupos de pacientes; cada paciente seguindo a dieta designada para seu grupo. O objetivo do pesquisador é testar se a perda média de peso é a mesma para os dois grupos. > Dieta1<-c(12,8,15,13,10,12,14,11,12,13) > Dieta2<-c(15,19,15,12,13,16,15) a) As duas amostras são independentes? Justifique. b) Você vai usar um teste paramétrico ou não-paramétrico? Justifique. c) Qual o teste adequado para esta situação? d) Usando Inferência Estatística, tome uma decisão e auxilie o pesquisador. i) Verifique a normalidade dos dados: > shapiro.test(Dieta1) Shapiro-Wilk normality test data: Dieta1 W = 0.9615, p-value = 0.8029 > shapiro.test(Dieta2) Shapiro-Wilk normality test data: Dieta2 W = 0.926, p-value = 0.5178 ii) Verifique a homogeneidade das variâncias usando o teste de F: 5 > var.test(Dieta1,Dieta2) F test to compare two variances data: Dieta1 and Dieta2 F = 0.8, num df = 9, denom df = 6, p-value = 0.7325 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.1448382 3.4557775 sample estimates: ratio of variances 0.8 iii) realize o teste para comparar as duas médias: > t.test(Dieta1,Dieta2, var.equal=TRUE,alternative="two.sided") Two Sample t-test data: Dieta1 and Dieta2 t = -2.9021, df = 15, p-value = 0.01095 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -5.2033162 -0.7966838 sample estimates: mean of x mean of y 12 15 21) A massa de 10 pássaros migratórios foi medida em duas ocasiões, primeiro em agosto e os mesmos pássaros (marcados individualmente e recapturados) foram remedidos em setembro. O pesquisador deseja testar se os pássaros engordaram ou não neste período do estudo. > ago<-c(10.3,11.4,10.9,12.0,10.0,11.9,12.2,12.3,11.7,12.0) > set<-c(12.2,12.1,13.1,11.9,12.0,12.9,11.4,12.1,13.5,12.3) a) As duas amostras são independentes? Justifique. b) O que você pode falar para o pesquisador apenas olhando para o diagrama em caixas (boxplot)? b) Você vai usar um teste paramétrico ou não- paramétrico? Justifique. c) Qual o teste adequado para esta situação? d) Usando Inferência Estatística, tome uma decisão e auxilie o pesquisador. i) Verifique a normalidade dos dados: > boxplot(ago,set,names=c("Agosto","Setembro")) > shapiro.test(ago) Shapiro-Wilk normality test data: ago W = 0.8701, p-value = 0.1002 > shapiro.test(set) Shapiro-Wilk normality test data: set 26 W = 0.9302, p-value = 0.45 ii) Verifique a homogeneidade das variâncias usando o teste de F: > var.test(ago,set) F test to compare two variances 6 data: ago and set F = 1.6496, num df = 9, denom df = 9, p-value = 0.4674 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.4097496 6.6414787 sample estimates: ratio of variances 1.649649 iii) realize o teste para comparar as duas médias: > t.test(ago,set,paired=TRUE,alternative="two.sided", var.equal=TRUE) Paired t-test data: ago and set t = -2.6119, df = 9, p-value = 0.02818 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.6421526 -0.1178474 sample estimates: mean of the differences -0.88 22) Um professor deseja testar três métodos diferentes de ensino: I, II, III. Para isso, são escolhidos, de modo aleatório, três grupos de cinco estudantes, e cada grupo é instruído por um método diferente. É dada então a mesma prova a todos os estudantes e os graus obtidos são apresentados no quadro abaixo. Determinar se existe diferença significante entre os métodos de ensino aos níveis (a) 0,05 e (b) 0,01. Método I 75 62 71 58 73 Método II 81 85 68 92 90 Método III 73 79 60 75 81 23) No livro Planejamento e Análise de Experimentos, 4ª edição (John Wiley & Sons, 1998), D. C. Montgomery descreve um experimento em que um fabricante está interessado na resistência à tensão de uma fibra sintética. Suspeita-se que a resistência esteja relacionada à percentagem do algodão na fibra. Cinco níveis de percentagem de algodão são usados e cinco replicatas são corridas em uma ordem aleatória, resultando nos dados a seguir. Percentagem de Algodão Observações 1 2 3 4 5 15 7 7 15 11 9 20 12 17 12 18 18 25 14 18 18 19 19 30 19 25 22 19 23 35 7 10 11 15 11 a) A percentagem de algodão afeta a resistência à ruptura do fio? Faça uma análise de variância. Use α = 0,05. b) Utilizando-se comparações múltiplas,analise as médias dos tratamentos, caso a Hipótese H0 seja rejeitada. 24) Teste a hipótese de que a massa média (g) de uma espécie de pássaro é igual entre as quatro localidades de coleta (A-D, com n=10 indivíduos medidos em cada local). Se existir diferença aponte entre quais localidades esta diferença foi significativa. Analise as saídas do R abaixo. 7 A B C D 78 78 79 77 88 78 73 69 87 83 79 75 88 81 75 70 83 78 77 74 82 81 78 83 81 81 80 80 80 82 78 75 80 76 83 76 89 76 84 75 Médias A B C D 83,6 79,4 78,6 75,4 Variâncias A B C D 16,3 6,3 10,9 17,2 Verifique a maior e a menor variância. Precisamos testar se a variância maior (D) é significativamente diferente da variância menor (B). Se não for o caso então nenhuma das variâncias é significativamente diferente das outras. Realizou-se o teste de F sobre as amostras D e B e os resultados são mostrados abaixo. F test to compare two variances data: D and B F = 2.7376, num df = 9, denom df = 9, p-value = 0.1496 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.6799783 11.0215159 sample estimates: ratio of variances 2.737589 Alternativamente, pode ser usado o teste de Bartlett. Bartlett test for homogeneity of variances data: massa Bartlett's K-squared = 2.5279, df = 3, p-value = 0.4703 Para verificar a normalidade das quatro amostras, usaremos o teste de Shapiro-Wilk --Dados de A são normais Shapiro-Wilk normality test data: A W = 0.893, p-value = 0.1835 --Dados de B são normais Shapiro-Wilk normality test data: B W = 0.8992, p-value = 0.2148 8 --Dados de C são normais Shapiro-Wilk normality test data: C W = 0.9658, p-value = 0.8494 --Dados de D são normais Shapiro-Wilk normality test data: D W = 0.9463, p-value = 0.625 ANOVA Df Sum Sq Mean Sq F value Pr(>F) Localidade 3 341,90 113,97 9,0053 0,0001390*** Residuals 36 455,60 12,66 - --- Signif. Codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 1 Os valores das diferenças diff entre as médias de pares de amostras. Localidade A=1, B=2, C=3, D=4 Tukey multiple comparisons of means 95% family-wise confidence level factor levels have been ordered Fit: aov(formula = Massa ~ Localidade, data = bd.massa) $Localidade diff lwr upr 3-4 3,2 -1,08478 7,484781 2-4 4 -0,28478 8,284781 1-4 8,2 3,915219 12,48478 2-3 0,8 -3,48478 5,084781 1-3 5 0,715219 9,284781 1-2 4,2 -0,08478 8,484781 25) Em seu livro de 1997 (Design and Analysis of Experiments, 4.a edição, Iohn Wiley & Sons), D. C. Montgomery apresenta os resultados de um experimento envolvendo uma 9 bateria usada no mecanismo de lançamento de um míssil. Três materiais diferentes podem ser usados para fazer as placas das baterias. O objetivo é projetar a bateria de modo a ser relativamente não afetada pela temperatura ambiente. A variável de resposta da bateria é a vida efetiva em horas. Três níveis de temperatura (baixo, médio e alto) são selecionados e um experimento fatorial com quatro réplicas é realizado. Os dados são os da tabela ao lado. Material Temperatura (DF) 1 2 3 1 130 155 34 40 20 70 74 180 80 75 82 58 2 150 188 136 122 25 70 159 126 106 115 58 45 3 138 110 174 120 96 104 168 160 150 139 82 60 (a) Teste as hipóteses apropriadas e tire conclusões, usando a análise de variância com α = 0,05. (b) Analise graficamente a interação. (c) Analise os resíduos desse experimento. 10 26) Os dados abaixo se referem ao número de artigos produzidos por quatro operários trabalhando em dois tipos de máquinas, I e II, em diferentes dias da semana. Determinar, ao nível de significância de 0,05, se existe diferença significante (a) entre os operários e (b) entre as máquinas. Analise quando necessário as comparações múltiplas. Comente os gráficos A, B, C e D. Tipo de Máquina Máquina I Máquina II Seg Ter Qua Qui Sex Seg Ter Qua Qui Sex Ti po de O pe ra do r A 15 18 17 20 12 14 16 18 17 15 B 12 16 14 18 11 11 15 12 16 12 C 14 17 18 16 13 12 14 16 14 11 D 19 16 21 23 18 17 15 18 20 17 � Resolução realizada com o software R: O modo para entrar com os dados acima na maioria dos softwares estatísticos, inclusive no R, é assim: oper maq dia nartigos 1 1 1 15 1 1 2 18 1 1 3 17 1 1 4 20 1 1 5 12 1 2 1 14 1 2 2 16 1 2 3 18 1 2 4 17 1 2 5 15 2 1 1 12 2 1 2 16 11 2 1 3 14 2 1 4 18 2 1 5 11 2 2 1 11 2 2 2 15 2 2 3 12 2 2 4 16 2 2 5 12 3 1 1 14 3 1 2 17 3 1 3 18 3 1 4 16 3 1 5 13 3 2 1 12 3 2 2 14 3 2 3 16 3 2 4 14 3 2 5 11 4 1 1 19 4 1 2 16 4 1 3 21 4 1 4 23 4 1 5 18 4 2 1 17 4 2 2 15 4 2 3 18 4 2 4 20 4 2 5 17 # Código R que faz uma análise de variância com 2 fatores > rm(list=ls(all=TRUE)) > setwd("H:\\Usuarios\\Ricardo\\UFOP") > x=read.table(file="dados.txt", header=T) > attach(x) > toper=factor(oper) > tmaq=factor(maq) > interaction.plot(toper,tmaq,nartigos) > plot(nartigos ~ toper + tmaq, x) > x.aov=aov(nartigos~toper+tmaq+toper:tmaq) > summary(x.aov) > TukeyHSD(x.aov, ordered=T) > plot(TukeyHSD(x.aov, ordered=T) > par(mfrow=c(2,2)) > plot(x.aov) A B C 12 ANOVA > summary(x.aov) Df Sum Sq Mean Sq F value Pr(>F) toper 3 129.800 43.267 7.9754 0.0004139 *** tmaq 1 19.600 19.600 3.6129 0.0663727 . toper:tmaq 3 5.400 1.800 0.3318 0.8023881 Residuals 32 173.600 5.425 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > TukeyHSD(x.aov, ordered=T) Tukey multiple comparisons of means 95% family-wise confidence level factor levels have been ordered Fit: aov(formula = nartigos ~ toper + tmaq + toper:tmaq) $toper diff lwr upr p adj 3-2 0.8 -2.0221614 3.622161 0.8682166 1-2 2.5 -0.3221614 5.322161 0.0974246 4-2 4.7 1.8778386 7.522161 0.0004533 1-3 1.7 -1.1221614 4.522161 0.3756566 4-3 3.9 1.0778386 6.722161 0.0037944 4-1 2.2 -0.6221614 5.022161 0.1709897 $tmaq diff lwr upr p adj 1-2 1.4 -0.1002951 2.900295 0.0663727 D Bom Trabalho!
Compartilhar