Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 1 1. Disserte sucintamente sobre a Inferência Estatística: a) Quais são suas principais vantagens e desvantagens? b) Quais são os cuidados que devem ser tomados para sua aplicação? c) Qual é o propósito de estimadores? Use exemplos relacionados à Economia para ilustrar suas ideias. 2. Um Economista estuda a economia de dada localidade. Trata-se de uma economia fundamentada na agricultura familiar. Como o número de famílias na região é demasiadamente grande, o economista resolve selecionar aleatoriamente algumas delas e estudar a sua renda média. Quantas famílias devem ser selecionadas, de forma que, com probabilidade (nível de confiança) de 99%, a diferença entre a renda média familiar na amostra e na população seja inferior a R$50,00? Assuma como dado que o desvio-padrão da rena familiar da localidade é σ = R$ 200,00. Justifique suas abordagens e interprete seus resultados. 3. O Economista do quesito anterior, junto com profissionais do solo, estuda as condições climáticas da região, com o objetivo de introduzir novas culturas para o plantio. Sabe-se que a variabilidade da quantidade de milímetros de chuva em regiões semelhantes à de estudo pode ser representada por um desvio-padrão de 8 ml. Uma amostra aleatória de 36 registros históricos sobre a precipitação de chuva na localidade de interesse resultou em uma média de 40 ml. (a) Determine um intervalo de confiança para a quantidade média de milímetros de chuva por precipitação na região, sob um nível de confiança de 95%. (b) Sabe-se que as culturas a serem introduzidas na região são bastante sensíveis a precipitações cujo volume de água excede 43 ml; você vislumbra problemas de adaptação destas espécies na região sob estudo? Justifique suas abordagens e interprete seus resultados. 4. Com o objetivo de avaliar a qualidade de um novo sistema de transmissão de dados, torna-se necessário verificar a proporção de bits transmitidos com erro. Considere que seja tolerável um erro amostral máximo de 2% para a estimativa da proporção de bits errados transmitidos pelo sistema. (a) Quantos bits você selecionaria para compor a amostra? (b) Qual é a probabilidade de que a proporção de bits errados na sua amostra não satisfaça ao erro máximo pré-fixado? (c) Quais suposições embasam suas análises? 5. Na avaliação de dois sistemas computacionais, A e B, foram selecionadas 400 cargas de trabalho (tarefas). O sistema A foi melhor que o B em 60% dos casos. Diante destas informações, pede-se: (a) Construa intervalos de confiança para a proporção de vezes em que o sistema A é melhor que o sistema B usando níveis de confiança de 95% e 99% (b) Os intervalos apresentaram comprimentos diferentes? Como você interpretaria esta diferença? (c) Quais suposições embasam suas análises? 6. Em uma indústria de cerveja, a quantidade de cerveja inserida em latas tem se comportado como uma variável aleatória com média 350 ml e desvio-padrão 3 ml. Após alguns problemas com a linha de produção, suspeita-se que houve alteração na média. Uma amostra envolvendo 20 latas acusou média de 346 ml. Pergunta-se: (a) Em palavras, quais hipóteses estão sendo confrontadas? (b) Quais são os parâmetros utilizados para abordar o problema? Quais são os respectivos estimadores associados? (c) Como as hipóteses confrontadas podem ser matematicamente descritas a partir dos parâmetros utilizados? (d) Qual é a sua regra de decisão? O que você decidiria? (e) Quais suposições embasam suas análises? 7. De acordo com o gerente de uma loja, sua filial fatura em média 20 mil reais em dias comuns do ano. Tendo como parâmetro de variabilidade do faturamento diário um desvio-padrão de 5 mil reais, o dono da rede resolve acompanhar o rendimento da loja, devido a suspeita de irregularidades. Aleatoriamente, o dono sorteia 30 dias comuns do Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 2 ano e obtém um faturamento médio diário de 22 mil reais para a referida filial. (a) Quais tipos de erro o dono da rede pode cometer ao decidir sobre a conduta do gerente? (b) Como decisor, justifique o valor que você atribuiria à probabilidade de concluir equivocadamente que o gerente comete irregularidades. (c) Como decisor, você concluiria que há irregularidades? (d) Quais suposições embasam suas análises? 8. Defende-se que determinada dieta reduz a resistência de cavalos. Sabe-se que, em média, um cavalo é capaz de percorrer até 12 km sem apresentar sinais de fadiga, sob um desvio-padrão de 3 km. Uma amostra aleatória com 16 cavalos submetidos à tal dieta resultou em uma resistência média de 10.5 km. (a) Em palavras, quais hipóteses estão sendo confrontadas? (b) Quais são os parâmetros utilizados para abordar o problema? Quais são os respectivos estimadores associados? (c) Como as hipóteses confrontadas podem ser matematicamente descritas a partir dos parâmetros utilizados? (d) Qual é a sua regra de decisão? O que você decidiria? (e) Quais suposições embasam suas análises? 9. A previsão de uma equipe técnica para a temperatura média em dado dia é baseada em uma amostra envolvendo dias semelhantes. Considerando um desvio-padrão populacional de 4ºC para a temperatura ao longo dos dias, divulga-se que a temperatura média estará em torno de 28ºC, com um erro de 2ºC para mais ou para menos. Divulga- se ainda que a probabilidade desta margem de erro não ser respeitada é de 1%. (a) Qual tamanho amostral teria embasado esta estimativa? (b) Quais suposições embasam suas análises? Para cada um dos problemas de decisão abaixo (10, 11 e 12), pergunta-se a) Em palavras, quais hipóteses estão sendo confrontadas? b) Qual é (são) o(s) parâmetro(s) utilizado(s) para abordar o problema? Qual é(são) o(s) respectivo(s) estimador(es) associado(s)? c) Como as hipóteses confrontadas podem ser matematicamente descritas a partir do(s) parâmetro(s) utilizado(s)? d) O que você concluiria a um nível de significância de 10%? E sob um nível de significância de 1%? Quais são as respectivas regras de decisão? e) Quais suposições embasam suas análises? 10. Estudos indicam que, em média, o ganho de peso de frangos de corte de uma região é de 500 g/semana. Uma equipe de médicos veterinários estuda se um tipo de confinamento alternativo ao tradicional reduz o ganho semanal de peso dos frangos. Para tanto, os pesquisadores elaboraram um experimento aleatório submetendo 25 frangos da região ao novo confinamento e medindo o seu ganho de peso semanal. Da amostra, o ganho de peso apresentou uma média e desvio-padrão de, respectivamente, 480 g e 50 g. 11. Os nematódeos gastrintestinais são um parasitismo que prejudicam sensivelmente a caprinovinocultura. O método Famacha® foi criado com a promessa de facilitar o diagnóstico deste problema em pequenos ruminantes, podendo ser aplicado, inclusive, por operários do campo. Estudos quanto à sua aplicação indicam que a proporção de erros de diagnóstico deste método é de 15%. O conselho regional de medicina veterinária (CRMV) acredita que cursos de extensão no campo, direcionados ao uso do método, podem reduzir esta porcentagem de erro. Após oferecer tais cursos, o CRMV selecionou aleatoriamente 64 casos nos quais os operários cursistas atuaram no diagnóstico da doença. Da amostra, observou-se 13% de erros de diagnóstico. 12. Defende-se que determinada dieta aumenta o tempo de sobrevida de pessoas com dado câncer. Em média, o tempo de sobrevidade pessoas acometidas por tal doença é Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 3 tradicionalmente de 2 anos. Uma amostra aleatória com 30 pacientes submetidos à dieta resultou em um tempo de sobrevida médio de 2.1 anos. Da mesma amostra, obteve-se um desvio-padrão de 6 meses para o tempo de sobrevida dos pacientes. 13. A tabela abaixo exibe o nº de falhas em 100 demandas a cada um de 20 servidores semelhantes, projetados e mantidos pela mesma equipe de profissionais. A tabela envolve um total de 23 falhas. Se um 21º servidor semelhante aos que compõem a amostra for posto em operação: (a) Qual é o intervalo de 96% de confiança para a probabilidade (p) de que ele falhe quando demandado? (b) Qual deveria ser o tamanho amostral adotado caso se desejasse garantir, com uma probabilidade de 96%, que a proporção amostral de falhas não se distanciará de p em mais que 2%? (c) Se o tamanho amostral adotado no experimento (n=100.20) foi definido de maneira que a proporção amostral de falhas não se distancie de p em mais que 1.5%, para mais ou para menos, qual é a probabilidade de que tal margem de erro esteja sendo satisfeita? (d) Quais suposições embasam as análises feitas de (a) a (c)? Servidor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 nº de falhas em 100 demandas 0 0 0 0 0 1 1 1 1 1 1 1 1 1 2 2 2 2 3 3 14. Uma empresa E argumenta junto a um potencial cliente C que seu sistema servidor, denominado N, é menos susceptível à falha que aquele atualmente usado por C, diga-se o sistema A. Devido ao tempo com o qual C opera a partir de A, sabe-se que, em média, A passa cerca de 11 horas sem falhar. Para decidir entre substituir ou não A por N, C resolve experimentar N até que este falhe por 10 vezes, compondo uma amostra de tempos até a falha que resultou em estimativas para a média e variância do tempo até a falha de N de, respectivamente, 15.3 horas e 16 (horas)2. Pergunta-se: (a) Em palavras, quais hipóteses estão sendo confrontadas? (b) Quais são os possíveis erros de decisão envolvidos no problema e quais as consequências de cada um deles? (c) Qual foi o parâmetro de desempenho adotado no problema para comparar os sistemas e como as hipóteses confrontadas podem ser matematicamente descritas a partir dele? (d) O que você decidiria a um nível de significância de 0.5%? (e) Quais suposições embasam suas análises? 15. Para cada uma das afirmações a seguir, diga se ela está correta e justifique sua resposta: (a) Na inferência estatística, um parâmetro é uma função matemática que tem como argumentos variáveis aleatórias. (b) Um estimador é função de uma amostra já sorteada. (c) Uma estimativa é função de uma amostra aleatória a ser sorteada. 16. Um pesquisador deseja inferir sobre o tempo médio (em horas) demandado por sua equipe para implementar módulos básicos de programas educacionais infantis (µ). Para tanto, ele resolve medir o tempo médio consumido por sua equipe para implementar uma amostra de tais módulos. De estudos anteriores, infere-se que a variabilidade acerca do tempo consumido para implementação destes módulos pode ser expressa por um desvio-padrão (populacional) de 4 horas. (a) Quantos módulos o pesquisador deve convidar sua equipe a implementar para que, com probabilidade de 91%, o tempo médio amostral demandado não se distancie do populacional em mais que 2.5 horas? (b) Se o pesquisador convida sua equipe a implementar 5 módulos e, dessa amostra, obtém uma estimativa para µ de 14 horas, com uma margem de erro de 2.5 horas para mais ou para menos, qual é a probabilidade de que tal margem esteja sendo violada pela estimativa? (c) Quais suposições embasam as análises feitas em (a) e (b)? Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 4 17. Um pesquisador deseja inferir sobre a probabilidade de falha de um sistema servidor quando demandado. Para tanto, ele resolve contar o nº de falhas cometidas pelo servidor diante de uma sequência de demandas. (a) Quantas demandas o pesquisador deve realizar ao servidor para que, com probabilidade de 96%, a proporção amostral de falhas do servidor não se distancie da populacional em mais que 3.5%? (b) Se o pesquisador resolve adotar uma amostra de 10 demandas ao servidor e, dessa amostra, observa 4 falhas, qual é o intervalo de 99.9% de confiança para a probabilidade de falha do servidor quando demandado? Você diria que tal intervalo é pouco informativo? Por quê? (c) Quais suposições embasam as análises feitas em (a) e (b)? 18. O gênero e a renda familiar de cada um dos alunos de uma disciplina são dados a seguir. Trata-se de uma população de tamanho (N=)10. (a) (2.0 pt) Recorra a sua calculadora para montar uma amostra aleatória estratificada por gênero envolvendo (n=)4 alunos. Para cada estrato, recorra a uma amostragem aleatória simples. (b) (2.0 pt) A partir da amostra, construa um intervalo de confiança para a renda familiar média na população a um nível de confiança de 93%. 19. Um administrador de operações deseja inferir sobre a qualidade do seu sistema de produção em um dado dia. Tal qualidade é expressa através da proporção de itens defeituosos (não-conformes) fabricados neste dia. Devido ao alto custo de se verificar a conformidade de todos os itens fabricados neste dia, o administrador recorreu a uma amostra aleatória simples envolvendo 5 itens. Para tanto, ele gerou os seguintes números aleatórios: 0.002, 0.903, 0.882, 0.464, 0.757. A real condição de todos os itens fabricados neste dia (de fato desconhecida pelo administrador) é exibida no quadro abaixo. Pergunta-se: (a) Qual é a população sob estudo? (b) Qual é o parâmetro populacional de interesse? (c) A partir de uma análise descritiva da amostra, qual seria mais provavelmente a condição de um 6º item selecionado da população? Sob que nível de incerteza tal inferência se baseia? (d) Quais suposições embasam suas inferências? Item 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Condição* 0 0 0 0 0 0 1 1 0 0 0 1 1 1 0 0 1 0 0 0 Item 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Condição* 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 1 Item 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Condição* 1 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 *Condição: 0 - "Iten conforme"; 1-"Iten não-conforme" 20. Um administrador de operações deseja inferir sobre a qualidade do seu sistema de produção em um dado dia. Tal qualidade é expressa através da proporção de itens defeituosos (não-conformes) fabricados neste dia. Devido ao alto custo de se verificar a conformidade de todos os itens fabricados neste dia, o administrador recorreu a uma amostra aleatória sistemática. Para tanto, ele gerou o seguinte número aleatório: 0.802. A real condição de todos os itens fabricados neste dia (de fato desconhecida pelo administrador) é exibida no quadro abaixo. Pergunta-se: (a) Qual é a população sob estudo? (b) Qual é o parâmetro populacional de interesse? (c) Sem estimativas prévias Aluno 1 2 3 4 5 6 7 8 9 10 Gênero F M M M M F M M F M Renda (em unidades de R$1000,00) 3 4,5 3,5 4 2 5,5 7 3,5 8 3 Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 5 para o parâmetro, qual deve ser o tamanho amostral (n) para que, com probabilidade de 60%,a diferença entre o verdadeiro valor do parâmetro e o do seu estimador não ultrapasse 9%? (d) Considerando a amostragem sistemática e o valor aleatório gerado (0.802), qual é a amostra de itens correspondente a este tamanho amostral (caso o mesmo item já tenha sido sorteado, escolha o item seguinte)? (e) Baseando-se na amostra obtida no quesito anterior, construa um intervalo, com nível de confiança de 93%, para o parâmetro sob estudo. (f) Quais suposições embasam suas análises? Item 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Condição* 0 0 0 0 0 0 1 1 0 0 0 1 1 1 0 0 1 0 0 0 Item 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Condição* 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 1 Item 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Condição* 1 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 *Condição: 0 - "Iten conforme"; 1-"Iten não-conforme" 21. Em uma indústria de cerveja, deseja-se inferir sobre o volume inserido em latas, em ml. Uma amostra envolvendo 20 latas acusou volume médio de 346 ml e desvio-padrão de tais volumes de 3 ml. Pergunta-se: (a) Qual é o intervalo de 99% de confiança para a quantidade média, em ml, de cerveja inserida em uma lata? (b) Qual é a probabilidade de que tal estimativa intervalar esteja equivocada ao inferir sobre o verdadeiro valor do volume médio inserido nas latas? (c) Quais suposições embasam suas análises? 22. Um administrador de operações deseja inferir sobre a qualidade do seu sistema de produção em um dado dia. Tal qualidade é expressa através da proporção de itens defeituosos (não-conformes) fabricados neste dia. O administrador sabe que 50% dos itens são fabricados pela manhã e 50% a tarde. Devido ao alto custo de se verificar a conformidade de todos os itens fabricados neste dia, o administrador decide recorrer a uma amostra aleatória estratificada proporcional, a partir do turno em que o item foi fabricado. A real condição de todos os itens fabricados neste dia (de fato desconhecida pelo administrador) é exibida no quadro abaixo, além do seu turno de fabricação. Pergunta-se: (a) Qual é a população sob estudo? (b) Qual é o parâmetro populacional de interesse? (c) Se o administrador resolve adotar um tamanho amostral de 10 itens e uma margem de erro de 10%, sob qual nível de confiança ele estaria inferindo sobre o parâmetro? (d) Apresente uma amostra aleatória estratificada proporcional de tamanho 10, a partir de números aleatórios gerados em sua calculadora. (e) Baseando-se na amostra obtida no quesito anterior, construa um intervalo, com nível de confiança de 83%, para o parâmetro sob estudo. Item 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Condição* 0 0 0 0 0 0 1 1 0 0 0 1 1 1 0 0 1 0 0 0 Turno** 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Item 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Condição* 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 1 Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 6 Turno** 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 Item 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Condição* 1 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 Turno** 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 *Condição: 0 - "Iten conforme"; 1-"Iten não-conforme" **Turno: 0 - "Manhã"; 1-"Tarde" 23. A variabilidade acerca do tempo de vida de lâmpadas é dada por um desvio-padrão de 1000 horas. (a) Qual deve ser o tamanho amostral para que a diferença entre o tempo médio de vida das lâmpadas e o seu estimador não ultrapasse 50 horas, com probabilidade de 90%? (b) Se adota-se um tamanho amostral de 100 lâmpadas, qual é a probabilidade de que a margem de erro de 50 horas seja satisfeita? (c) Qual é a estimativa intervalar para o tempo médio de vida das lâmpadas sob um nível de confiança de 95%, dado que o tempo médio de vida de uma amostra com 100 lâmpadas é de 4000h? Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 7 GABARITO 1) De acordo com os assuntos dados em sala de aula, o aluno poderia basear sua linha de raciocínio no problema de se concluir sobre características de uma população a partir de uma amostra. Assim, sobre a Inferência Estatística, 1.a) Vantagens: Permite que se conclua cientificamente sobre parâmetros populacionais a partir de estudos sobre amostras; mesmo diante do fato de que os valores de tais parâmetros podem nunca ser certamente conhecidos. Desvantagens: Não há como concluir certamente sobre os parâmetros populacionais a partir de estudos sobre a amostra. Haverá sempre uma fonte de incerteza atrelada a cada informação provinda da amostra. Isto pode ser verificado desde o cálculo do tamanho da amostra até o de intervalos de confiança e testes de hipóteses, por exemplo. 1.b) Cuidados: As conclusões baseadas na amostra selecionada da população podem não ser adequadas; principalmente devido à não-representatividade da amostra. Assim, cuidados tais como (i) o correto dimensionamento do tamanho amostral (que requer especial atenção para a quantificação da medida de variabilidade, tal como a variância) e (ii) a probabilidade não nula de que cada elemento da população possa compor a amostra (explicitando o esforço para garantir aleatoriedade na composição da amostra) tornam-se passos importantes. 1.c) Propósito de estimadores: Inferir sobre parâmetros populacionais a partir de amostras aleatórias. Exemplos da economia: O problema de inferir sobre a renda familiar, sobre a altura, sobre o desempenho escolar, ou mesmo sobre a quantidade de leite produzida em dada localidade, podem ser usados para ilustrar as dificuldades de se recorrer a toda a uma população de indivíduos sob análise, o que possibilita (ou requer) o uso da Inferência Estatística. █ 2) Sejam µ a renda média familiar de toda a população da localidade e X a renda média familiar de uma amostra a ser aleatoriamente sorteada da localidade. Seja σ2 a variância da renda familiar da localidade, representando a variabilidade de renda entre as famílias. Do enunciado, deseja-se um tamanho amostral (n) que leve à seguinte igualdade: ( )50 99%P X μ− ≤ = . Veja que ( ) ( ) ( ) 5050 X P X P Var X Var X μμ ⎛ ⎞−⎜ ⎟− ≤ = ≤⎜ ⎟⎜ ⎟⎝ ⎠ , onde ( )Var X equivale à variância da média amostral, ( )Var X = σ2/n = 2002/n. Supondo, a princípio devido ao Teorema do Limite Central, que o tamanho amostral a ser adotado é grande o suficiente, a média amostral segue uma distribuição Normal, com média desconhecida e variância 2002/n (as rendas familiares são supostas independentes entre si e têm variância σ2=2002), concluímos que Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 8 ( ) ~ (0,1) X Z Normal Var X μ− = . Isto é, Z segue uma distribuição normal com média 0 e variância 1. Logo, ( ) ( ) 50 50 50 50 99% 200 200 200 X P P Z n P n Z n Var X Var X μ⎛ ⎞− ⎛ ⎞ ⎛ ⎞⎜ ⎟≤ = ≤ = − ≤ ≤ =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠ ⎝ ⎠⎜ ⎟⎝ ⎠ . Como a Normal associada a Z é simétrica em torno da média (que assume o valor 0 neste caso), temos que 50 200 n é o valor da variável Z tal que 50 0.5% 200 P Z n⎛ ⎞> =⎜ ⎟⎝ ⎠ = 0.005. Das tabelas da Normal-padrão, vemos que 50 200 n = 2.58. Assim, 22002.58 106 50 n ⎛ ⎞= ⋅ ≈⎜ ⎟⎝ ⎠ famílias. Logo, aquantidade mínima de famílias a pesquisar, de maneira a garantir, com 99% de confiança, que a renda média na amostra não se distanciará da renda média na população em mais que R$50.00, é 106; considerando que todos os cuidados quanto à representatividade da amostra sejam tomados. █ 3) Sejam µ a a quantidade média de milímetros de chuva por precipitação na região e X a quantidade média de milímetros de chuva por precipitação de uma amostra a ser aleatoriamente sorteada da região. Seja σ2 a variância da quantidade de milímetros de chuva, representando a sua variabilidade ao longo das precipitações. 3.a) Para calcularmos o intervalo de confiança para μ, podemos recorrer a 2 95%P Z zα ⎛ ⎞≤ =⎜ ⎟⎝ ⎠ , onde ( ) ~ (0,1) X Z Normal Var X μ− = e ( )Var X = σ2/n = 82/36. Para tanto, consideramos o Teorema do Limite Central para X e supomos que as precipitações são independentes entre si, com variância σ2= 82. Como 2 95%P Z zα ⎛ ⎞≤ =⎜ ⎟⎝ ⎠ , temos da Normal-padrão, que 2 zα é o valor para o qual 2 2.5%P Z zα ⎛ ⎞> =⎜ ⎟⎝ ⎠ =0.025, já que a Z tem média 0 (trata-se de uma Normal simétrica em torno do 0). Assim, das tabelas da Normal-padrão, 2 zα =1.96. Seguindo, temos que ( )2 2 2 2 95% XP Z z P z P X z X z n nVar X α α α α μ σ σμ ⎛ ⎞⎛ ⎞ ⎛ ⎞−⎜ ⎟≤ = ≤ = − ⋅ ≤ ≤ + ⋅ =⎜ ⎟ ⎜ ⎟⎜ ⎟⎝ ⎠ ⎝ ⎠⎜ ⎟⎝ ⎠ . Vemos, desta forma, que para uma dada estimativa x da média amostral, podemos Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 9 construir o intervalo de confiança para μ , dados σ e n: 1.96 1.96x x n n σ σμ⎡ ⎤− ⋅ ≤ ≤ + ⋅⎢ ⎥⎣ ⎦ . Tal intervalo envolverá μ com probabilidade de 95%. Como temos n=36 precipitações, σ = 8 ml e x =40 ml, o intervalo de confiança resultante será 8 840 1.96 40 1.96 6 6 μ⎡ ⎤− ⋅ ≤ ≤ + ⋅⎢ ⎥⎣ ⎦ ou [ ]37.39 42.61μ≤ ≤ . Logo, baseando-se nas informações disponíveis, temos que a quantidade média de milímetros de chuva por precipitação na região assumiria valores entre 37.39 e 42.61, a um nível de confiança de 95%. 3.b) Desta abordagem, pode-se concluir também que como a probabilidade de a quantidade média de milímetros de chuva por precipitação na região ultrapassar 42.61 é de 2.5 %, não se vislumbra motivos para evitar o plantio, de acordo com a tolerância máxima das culturas (43 ml). █ 4) Para esta questão, enfatiza-se a inferência sobre a proporção (p) de bits errados transmitidos pelo novo sistema de transmissão de dados. 4.a) Quer-se estimar p de maneira racional. Para tanto, deseja-se definir um tamanho amostral (n) para o qual a probabilidade de o estimador de p ( pˆ ) divergir de p em, no máximo, ε = 2% seja igual a um nível de confiança definido pelo decisor (1 – α). Matematicamente, trata-se de: Onde z1-α/2 é o valor da normal-padrão que acumula até ele uma área equivalente a 1 - α/2. Como a variância é desconhecida, pode-se definí-la como a maior possível: p(1-p) ≤ 1/4→ 2 2/1 2 zn ⎟⎠ ⎞⎜⎝ ⎛ ε⋅= α− . A tabela abaixo exibe o tamanho amostral para o estudo de p à medida que α varia. α z1-α/2 n 0.200 1.282 1026 0.150 1.440 1295 0.100 1.645 1691 0.050 1.960 2401 0.025 2.241 3140 0.010 2.576 4147 ( ) 2 2/1 2/1 )p1(pzn n/)p1(p z 2 1 n/)p1(p ZP n/)p1(p ZP n/)p1(pn/)p1(p pp P1ppP ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ ε −⋅=⇒− ε=⇒α−=⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ − ε≤⇒ ⇒⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ − ε≤= =⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ − ε≤− −=α−=ε≤− α− α− )) Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 10 Logo, caso adote-se um nível de confiança de 99%, por exemplo, deve-se selecionar aleatoriamente 4147 bits. 4.b) De fato, o nível de confiança, de acordo com as igualdades acima, reflete a probabilidade de que o erro máximo ε seja respeitado pela estimativa obtida a partir de n bits selecionados aleatoriamente. Assim, a probabilidade de que tal restrição seja violada equivalerá a α. Logo, para um nível de confiança de 99%, que conduziria à seleção aleatória de 4147 bits, a probabilidade de que o erro máximo ε=2% seja ultrapassado é de α = 1 -99% = 1%. 4.c) Para esta questão a principal suposição que se faz é a de que o estimador pˆ segue uma distribuição Normal para o tamanho amostral adotado (considerando-se o Teorema do Limite Central, que assegura que pˆ se distribuirá normalmente para um tamanho amostral razoavelmente grande). Supõe-se ainda que o erro do sistema na transmissão de um bit é independente do desempenho do sistema na transmissão de um outro bit qualquer e que a probabilidade de que um bit qualquer seja transmitido com erro equivalha a p. Assim, pode- se supor que pˆ ~ Normal(média=p, variância=p·(1-p)/n), tal como adotado nas igualdades acima. Por fim, considera-se a maior variabilidade possível sobre pˆ , já que a variância de pˆ é desconhecida e função da quantidade em estudo (p). █ 5) Para esta questão, enfatiza-se a inferência sobre a proporção (p) de vezes em que o sistema computacional A é melhor que o B. De uma amostra aleatória de n=400 tarefas, observou-se a estimativa para p de obspˆ = 0.6. 5.a) Pede-se intervalos de 1 - α (95% e 99%) de confiança para p: A exemplo da questão anterior, como a variância é desconhecida, pode-se defini-la como a maior possível: σ2 = p(1-p) ≤ 1/4. A partir dos dados observados na amostra (n=400 e obspˆ = 0.6), tem-se como estimativa intervalar para p ⎥⎦ ⎤⎢⎣ ⎡ ⋅+⋅−=⎥⎦ ⎤⎢⎣ ⎡ ⋅+⋅− α−α−α−α− 2/12/12/1obs2/1obs z40 16.0,z 40 16.0z n2 1pˆ,z n2 1pˆ Como para α = 5% tem-se z97.5% = 1.96 e para α = 1% z99.5% = 2.576, obtêm-se os seguintes intervalos para p: IC(95%, p) = [0.551; 0.649] e IC(99%, p) = [0.536; 0.664]. Assim, tem-se que a probabilidade de que os intervalos IC(95%, p) e IC(99%, p) envolvam, de fato, p é de, respectivamente, 95% e 99%. 5.b) Os comprimentos dos intervalos são realmente diferentes. O do IC(95%, p) é menor que o do IC(99%, p). De fato, à medida que o nível de confiança é aumentado, aumenta-se também o comprimento do intervalo de confiança, uma vez fixado o n. Isto pode ser visto a ( ) ⎥⎦ ⎤⎢⎣ ⎡ ⋅σ+⋅σ−=⇒⎟⎠ ⎞⎜⎝ ⎛ ⋅σ+≤≤⋅σ−= ⇒⎟⎠ ⎞⎜⎝ ⎛ ⋅σ+≤≤⋅σ−= =⎟⎠ ⎞⎜⎝ ⎛ ⋅σ≤−=⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ ≤σ −=α−=≤ α−α−α−α− α−α− α−α−α− 2/12/12/12/1 2/12/1 2/12/12/1 z n pˆ ,z n pˆB] ,A[z n pˆpz n pˆP z n ppˆz n pP z n ppˆPz n/ ppˆ P1zZP Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 11 partir das igualdades apresentadas acima. As implicações práticas são que o decisor não pode ser extremamente exigente a partir do seu nível de confiança, uma vez que isto conduziria o intervalo de confiança a ser não informativo. Para o caso da proporção, p, por exemplo, um nível de confiança muito elevado (próximo a 100%) conduziria ao intervalo [0, 1] para p, o que não tem qualquer utilidade uma vez que p sempre pertencerá a tal intervalo. 5.c) Para esta questão a principal suposição que se faz é a de que o estimador pˆ segue uma distribuição Normal para o tamanho amostral adotado (considerando-se o Teorema do Limite Central, que assegura que pˆ se distribuirá normalmente para um tamanho amostral razoavelmente grande). Supõe-se ainda que A ser melhor que B em uma tarefa independe de A ser melhor que B em uma outrotarefa qualquer e que a probabilidade de que isto ocorra é sempre p. Assim, pode-se supor que pˆ ~ Normal(média=p, variância=p·(1-p)/n), tal como adotado nas igualdades acima. Por fim, considera-se a maior variabilidade possível sobre pˆ , já que a variância de pˆ é desconhecida e função da quantidade em estudo (p). █ 6) Para esta questão, destacam-se as incertezas sobre a variável X≡ "Quantidade de cerveja inserida em uma lata". Tem-se que as incertezas quanto à quantidade de cerveja inserida em uma lata (X) podem ser modeladas por uma distribuição de probabilidade com média de 350 ml e um desvio-padrão de 3 ml. De uma amostra aleatória envolvendo 20 latas, observou-se uma média de obsx = 346 ml. 6.a) Em palavras, a questão central é se, devido a alguns problemas com a linha de produção, houve alteração (ou não) na quantidade média de cerveja inserida nas latas. 6.b) O principal parâmetro de desempenho adotado para avaliar uma eventual perda de controle do sistema é a quantidade média de cerveja inserida nas latas: μ = E(X). Um parâmetro secundário, mas também importante para solução do problema, é a variância (ou desvio-padrão) associado a X: σ2 = V(X) = (3 ml)2. O respectivo estimador necessário a estudar μ é a média amostral baseada em 20 latas sorteadas aleatoriamente ⎟⎟ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎜⎜ ⎝ ⎛ = ∑ = 20 X X 20 1i i . 6.c) Matematicamente, tem-se as duas hipóteses a confrontar: H0: μ = 350 ml versus H1: μ ≠ 350 ml 6.d) Como estuda-se a alteração na média (μ), considera-se que tal alteração pode ser para mais ou para mais. Naturalmente pode-se obter uma média amostral diferente de 350 ml simplesmente devido ao acaso; assim como uma amostra de lançamentos de uma moeda honesta pode apresentar como proporção amostral de caras algo diferente de 1/2. A questão fundamental passa a ser, então, até que ponto uma variabilidade da média amostral em torno de μ = 350 ml seria simplesmente devido ao acaso, conduzindo à não-rejeição de H0. Neste sentido, a partir de a abordagem clássica de testes de hipóteses, pode-se determinar dois valores críticos, v1 e v2, onde caso ]v,v[x 21obs ∈ , conclui-se que a variação de obsx em Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 12 torno de μ=350 ml se dá simplesmente devido ao acaso e que não há evidências para se rejeitar H0. Por outro lado, caso ]v,v[x 21obs ∉ , decide-se que a variação de obsx em torno de μ=350 ml não se dá simplesmente devido ao acaso e que há evidências de que H0 é falsa. Neste último caso, a probabilidade de se estar equivocadamente rejeitando H0 é dada por α (o chamado nível de significância do teste). Assim, de maneira a obter os valores críticos [v1, v2], recorre-se a α; isto é: ( ) ( )[ ]( ) ( ) ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ =μσ μ−>σ μ−+⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ =μσ μ−<σ μ− ==μ>+=μ< ==μ>∪<==α 350 n/ v n/ XP350 n/ v n/ XP 350|vXP350|vXP 350|vXvXP verdade)é H|H rej(P 21 21 2100 onde Z= n/ X σ μ− segue uma distribuição Normal-padrão (com médio=0 e variância=1). Considerando que ( ) ( ) 2 350|vXP350|vXP 21 α==μ>==μ< , tem-se graficamente: Logo, n/ v1 σ μ− equivale ao valor da normal-padrão que acumula até ele uma área de α/2; isto é, n/ v1 σ μ− =zα/2. Pelo mesmo raciocínio, n/ v2 σ μ− =z1-α/2, onde μ = 350, σ = 3 e n= 20. Vale notar que, como a Normal apresenta uma distribuição simétrica em torno da sua média (e como E(Z) = 0), zα/2= - z1-α/2. Assim, v1 = 671.0z350 2/1 ⋅− α− e v2 = 671.0z350 2/1 ⋅+ α− . A tabela abaixo exibe os valores críticos v1 e v2 para diferentes níveis de significância do teste. α z1-α/2 v1 v2 0.2 1.282 349.140 350.860 0.15 1.440 349.034 350.966 0.1 1.645 348.897 351.103 0.05 1.960 348.685 351.315 0.025 2.241 348.496 351.504 0.01 2.576 348.272 351.728 Rej. H0 Não rej. H0 z 0 α/2 Rej. H0 α/2 n/ 1v σ μ− n/ 2v σ μ− Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 13 Logo, para um nível de significância de 5%, por exemplo, os valores críticos seriam v1 = 348.685 e v2 = 351.315. Neste caso, como a regra de decisão é de rejeitar H0 caso ]v,v[x 21obs ∉ e como obsx =346 ml, decide-se por rejeitar H0: μ = 350 ml. Assim, rejeita-se a hipótese de que a quantidade média de cerveja inserida nas latas seja de 350 ml, sob uma probabilidade de estar tomando a decisão errada de 5%; isto é, conclui-se que a linha de produção está fora realmente dos padrões estabelecidos. 6.e) Para esta questão a principal suposição que se faz é a de que o estimador X segue uma distribuição Normal para o tamanho amostral adotado (de 20 latas), considerando-se o Teorema do Limite Central, que assegura que X se distribuirá normalmente para um tamanho amostral razoavelmente grande. Supõe-se ainda que a quantidade de cerveja inserida em uma lata (Xi) independe da inserida em uma outra qualquer (Xj) e que a variabilidade destas quantidades é constante (σ=3). Assim, pode-se supor que X ~ Normal(média=μ, variância=σ2/n). █ 7) Em palavras, a questão central é se o faturamento médio da loja (em R$) equivale à quantia defendida pelo gerente (R$ 20 000.00) ou se ele estaria sendo desonesto com o dono da loja (fazendo uso de um caixa-2, por exemplo). Sob esta perspectiva, o dono decide estudar as incertezas quanto ao faturamento médio diário da loja. Considerando Xi≡ "Faturamento da loja em um dia comum i qualquer", o dono estuda as incertezas sobre o faturamente médio da amostra aleatória 30 X X 30 1i i∑ == . Da amostra aleatória envolvendo n=30 dias comuns do ano, ele obtém um faturamento médio diário de obsx = R$ 22 000.00. A questão é: obsx é evidência suficiente para que se conclua sobre a desonestidade do gerente? 7.a) Os dois tipos de erro que o dono da loja pode vir a cometer são: Erro tipo I - concluir equivocadamente que o gerente é desonesto (comete irregularidades); Erro tipo II - concluir equivocadamente que o gerente não é desonesto; 7.b) Como decisor eu optaria por um valor razoavelmente pequeno para a probabilidade de cometer o erro do tipo I (concluir equivocadamente que o gerente comete irregularidades); algo em torno de 1%, uma vez que considero que os danos desta decisão seriam muito graves e talvez irreversíveis para a vida profissional e também pessoal do gerente. 7.c) O parâmetro adotado para avaliar a conduta do gerente é o faturamento médio da loja em dias comuns: μ. Matematicamente, tem-se as duas hipóteses a confrontar: H0: μ = R$ 20 000.00 versus H1: μ > R$ 20 000.00. 7.d) Note-se que a hipótese nula (H0) é aquela defendida pelo gerente e a alternativa (H1) representa eventuais desvios de dinheiro do caixa da loja. Naturalmente pode-se obter um faturamento médio diário amostral maior que R$ 20 000.00 simplesmente devido ao acaso. A questão fundamental passa a ser, então, até que ponto uma variabilidade da média amostral em relação a μ = R$ 20 000.00 seria simplesmente devido ao acaso, conduzindo à não-rejeição de H0. Neste sentido, recorrendo à abordagem clássica de testes de hipóteses, Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 14 deve-se determinar um valor crítico, v, onde caso obsx ≤ v, conclui-se que a variação de obsxem torno de μ= R$ 20 000.00 se dá simplesmente devido ao acaso e que não há evidências para se rejeitar H0. Por outro lado, caso obsx >v, decide-se que a variação de obsx em torno de μ= R$ 20 000.00 não se dá simplesmente devido ao acaso e que há evidências de que H0 é falsa. Neste último caso, a probabilidade de se estar equivocadamente rejeitando H0 (ocorrer o erro do tipo I) é dada por α (o chamado nível de significância do teste). Assim, de maneira a obter o valor crítico v, recorre-se a α; isto é: ( ) ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ =μσ μ−>σ μ−==μ>==α 20000 n/ v n/ XP20000|vXP verdade)é H|H rej(P 00 , onde Z= n/ X σ μ− segue uma distribuição Normal-padrão (com médio=0 e variância=1). Para que tal "normalidade" ocorra, mostra-se necessário considerar que o tamanho amostral de 30 dias é suficiente para supor, pelo teorema do limite central (TLC), que a média amostral siga uma distribuição Normal; isto é, )n/,20000(N~X X σ=σ=μ , onde σ é dado no enunciado (R$ 5 000). Assim, tem-se graficamente da Normal-padrão: Logo, n/ v σ μ− equivale ao valor da normal-padrão que acumula após ele uma área de α; isto é, n/ v σ μ− =z1-α, onde μ = 20000, σ = 5000 (do enunciado) e n= 30. Assim, v = 20000 + 30 5000z1 ⋅α− . A tabela abaixo exibe o valor crítico v para diferentes níveis de significância do teste e a decisão a tomar. α z1-α v Decisão 0.2 0.84 20768.29 Rej. H0 0.15 1.04 20946.13 Rej. H0 0.1 1.28 21169.89 Rej. H0 0.05 1.65 21501.54 Rej. H0 0.025 1.96 21789.19 Rej. H0 0.01 2.33 22123.66 Não rej. H0 Não rej. H0 z 0 α Rej. H0 n/ v σ μ− Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 15 Logo, para um nível de significância de 5%, por exemplo, o valor crítico seria v = R$ 21 501.54. Neste caso, como a regra de decisão é de rejeitar H0 caso vx obs > e como obsx =R$ 22 000.00, decide-se por rejeitar H0: μ = R$ 20 000.00. Assim, rejeita-se a hipótese de que o faturamento médio diário da loja é de R$ 20 000.00, sob uma probabilidade de estar tomando a decisão errada de 5%; isto é, conclui-se que o gerente está cometendo irregularidades. Já a α=1%, conclui-se que a variação da média amostral ( obsx ) em relação à média defendida em H0 se dá apenas devido ao acaso, não havendo razões para acusar o gerente de estar cometendo irregularidades (isto é, rejeitar H0). 7.e) Para esta questão a principal suposição que se faz é a de que o estimador X segue uma distribuição Normal para o tamanho amostral adotado (de 30 dias comuns), considerando o Teorema do Limite Central, que assegura que X se distribuirá normalmente para o tamanho amostral razoavelmente grande. Supõe-se ainda que o faturamento da loja em um dia comum (Xi) independe do de outro dia qualquer (Xj) e que a variabilidade destes faturamentos é constante (σ=R$ 5 000.00). Assim, pode-se supor que X ~ Normal(média=μ, variância=σ2/n). █ 8.a) Em palavras, as hipóteses que estão sendo confrontadas são se (H0:) determinada dieta não reduz a resistência de cavalos ou se (H1:) tal dieta reduz a resistência de cavalos. 8. b) Do enunciado, conclui-se que o parâmetro de desempenho adotado para o estudo da resistência dos cavalos submetidos à dieta é μ ≡"a média da distância percorrida (em km) pelos cavalos submetidos a tal dieta". Este parâmetro é comparado com a média da distância percorrida (em km) pelos cavalos submetidos a quaisquer tipos de dieta (μ0=12 km). Como seria impossível obter o real valor de μ (para tanto seria necessário fazer uso de todas as oportunidades independentes a partir das quais cavalos fossem submetidos à dieta e então se medisse sua quilometragem percorrida até apresentarem sinais de fadiga), recorre- se a um estimador. O estimador adotado para inferir sobre μ foi a média amostral da quilometragem percorrida por (n=) 16 cavalos sorteados aleatoriamente da população e submetidos à dieta em estudo (X ). 8. c) Matematicamente, as hipóteses a confrontar são H0: μ= μ0=12 km versus H1: μ < 12 km (=μ0) 8. d) Seguindo a abordagem clássica para testes de hipóteses, calcula-se o valor crítico (vc) que separa as regiões de rejeição e não-rejeição da hipótese nula (H0), compondo uma regra de decisão. Tal regra diz que caso a média calculada a partir da amostra observada ( obsx ) seja menor que vc, rejeita-se H0 em favor de H1. Caso contrário, se obsx não for menor que vc, então conclui-se que não há razões para rejeitar H0. Graficamente, tem-se algo tal como abaixo: Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 16 vc Região de rejeição de H0 Região favorável a H0 x µ0vc Região de rejeição de H0 Região favorável a H0 x µ0vc Região de rejeição de H0 Região favorável a H0 x µ0 Matematicamente, obtém-se vc a partir da probabilidade de se rejeitar H0 equivocadamente (também denominado nível de significância), representada por α: ( ) ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ μ=μσ μ−<σ μ−=μ=μ<==α 0 X Xc X X 0c v |v(P X PXPverdade) é H|H rej 00 . Note-se da última igualdade acima que se recorreu a uma normalização da variável X . Ressalte-se que a média de X é μ=μX e este último equivale a μ0 se H0 for verdadeira. Ressalte-se ainda que o desvio-padrão de X é dado por nX σ=σ , onde σ é o desvio-padrão das quilometragens percorridas pelos animais submetidos à dieta sob estudo. Considera-se, a partir do enunciado, que σ= 3 km. Por outro lado, n é o tamanho da amostra adotado para o processo de inferência sobre μ. Assim, como a transformação X XZ σ μ−= X é uma variável tal que Z~N(0, 1), a constante n v 0c σ μ− é o valor da distribuição normal-padrão (com média 0 e variância 1) que acumula até ele uma área (probabilidade) de α. Isto é, α=σ μ− z n v 0c . Isolando o valor crítico obtemos n zv 0c σ⋅+μ= α . Do enunciado, temos que n=16 cavalos, σ=3 km e que μ0=12 km. Do enunciado temos ainda obsx = 10.5. A tabela abaixo exibe, para diversos valores de α, o respectivo valor crítico e a decisão associada (se obsx <vc rejeita-se H0; caso contrário, não rejeita-se H0). Veja que para um nível de significância igual ou maior que 2.5%, o decisor concluiria que há evidências suficientes que o levem a rejeitar a hipótese nula. Ou seja, se α ≥ 2.5%, conclui- se que a dieta reduz a resistência dos cavalos (veja que a probabilidade de se estar rejeitando equivocadamente H0 seria de α). Já para α=0.5%, concluir-se-ia que a dieta não reduz a resistência dos cavalos (o conhecimento sobre a probabilidade de se estar decidindo equivocadamente neste caso envolveria mais sofisticações). α zα vc Decisão 0.2 -0.842 11.37 Rej. H0 0.15 -1.036 11.22 Rej. H0 0.1 -1.282 11.04 Rej. H0 0.05 -1.645 10.77 Rej. H0 0.025 -1.960 10.53 Rej. H0 0.005 -2.576 10.07 Não rej. H0 Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 17 Deste problema, ilustra-se a sensibilidade da regra de decisão ao valor atribuído a α. Quanto mais avesso ao risco de rejeitar H0 equivocadamente, menor a chance de o decisor rejeitar H0 (em consequência, maior será a probabilidade de cometer um segundo tipo de erro: não rejeitar H0 equivocadamente). 8. e) A principal suposição é a de que a média amostral (para um n=16) se distribui normalmente,com média μ e desvio-padrão nX σ=σ , de acordo com o Teorema do Limite Central. Tal suposição se baseia, por sua vez, na de que a amostra de quilometragens percorridas (X1, X2, ..., X16) é aleatória e que tais quilometragens são independentes entre si. Desta forma, supõe-se que a quilometragem percorrida por um animal não altera nossas incertezas sobre a de outro. Isto seria facilmente violado, por exemplo, caso dois cavalos pertencentes ao mesmo proprietário, com mesma genealogia e expostos ao mesmo tipo de manejo fossem sorteados para compor a amostra. █ 9. a) Para esta questão busca-se estimar a temperatura média de dado dia do ano (µ) a partir de uma margem de erro de ε= 2ºC (para mais ou para menos) e de um desvio-padrão de σ=4º C. Considera-se ainda que, com probabilidade de α=1%, a temperatura média da amostra de dias sorteados aleatoriamente ( X ) se distanciará da temperatura média populacional (envolvendo todos os dias semelhantes àquele sob estudo) em mais do que ε. Assim, a probabilidade de que ε não seja violada é de 99%. Em termos matemáticos, considerando X≡ a temperatura média de uma amostra de dias semelhantes sorteados e μ≡ a temperatura média do dia em questão, ( ) . 2 4zn n/4 2z 2 01.0 n/4 2ZP n/4 2ZP n/ 2 n/ X P99.02XP 2 005.0 005.0 ⎟⎠ ⎞⎜⎝ ⎛ ⋅=⇒−=⇒=⎟⎠ ⎞⎜⎝ ⎛ −≤ ⇒⎟⎠ ⎞⎜⎝ ⎛ ≤=⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ σ≤σ μ−==≤μ− Vale ressaltar que das igualdades acima, a segunda conduz a uma padronização de X . Tal padronização, denotada por Z, segue uma distribuição Normal-padrão caso X siga a normal. Vale destacar que, de acordo com o Teorema do Limite Central, X seguirá a distribuição normal caso sua respectiva amostra seja suficientemente grande. Por sua vez, da penúltima igualdade acima, vê-se que o valor da normal-padrão que acumula até ele uma área (probabilidade) de 0.5% é n/4 2z 005.0 −= . Tal valor, a partir da tabela da normal-padrão, é -2.57 (ou -2.58). Logo, da última igualdade, obtém-se 2642.26 2 457.2n 2 ≈=⎟⎠ ⎞⎜⎝ ⎛ ⋅−= dias. Assim, a partir de uma amostra aleatória de cerca de 26 dias, foram satisfeitas tanto a restrição ε=2ºC quanto α=1%; isto é, caso adote-se uma amostra aleatória de 26 dias, garante-se, com uma probabilidade de 99%, que a distância entre X e µ não ultrapassará os 2ºC. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 18 9. b) As suposições necessárias para analisar o tamanho amostral (letra a) são: i) n=26 é um tamanho suficientemente grande para que a média amostral siga uma distribuição normal, a partir do Teorema do Limite Central. ii) As temperaturas em dias distintos são independentes entre si, de tal forma que a temperatura em um dia não altera nossas incertezas acerca da temperatura em um outro dia. Ressalte-se que esta suposição não é tão realista, uma vez que sabemos que a temperatura obedece sazonalidades, por exemplo, das estações do ano. Assim, diante da temperatura de hoje nossas incertezas sobre a de amanhã seriam, a princípio, reduzidas. De qualquer forma, a suposição de independência mostrou-se necessária devido à alternativa de abordagem disponível. iii) A amostra foi sorteada aleatoriamente; isto é, sem qualquer controle da parte do analista (aquele que faz as análises estatísticas). █ 10. a) Confrontam-se duas hipóteses: H0: O confinamento alternativo não altera o ganho de peso dos animais, em relação ao procedimento tradicional; H1: O confinamento alternativo promove uma redução no ganho de peso dos animais, em relação ao procedimento tradicional. 10. b) Do enunciado, conclui-se que o parâmetro para o estudo do ganho de peso via confinamento alternativo é a média do ganho de peso semanal sob tal alternativa de manejo (μ). Este parâmetro é comparado com o ganho de peso dos animais submetidos aos métodos tradicionais (μ0=500 g/semana). O estimador adotado para inferir sobre μ foi a média amostral do ganho de peso semanal (X ) a partir de 25 frangos selecionados aleatoriamente e submetidos ao tipo alternativo de confinamento. Outro parâmetro também necessário reflete a variabilidade da resposta dos frangos ao tratamento sob estudo, o desvio-padrão populacional do peso dos frangos sob o novo tratamento (σ). Como σ é desconhecido, recorre-se a seu estimador, o desvio-padrão amostral (S). 10. c) Matematicamente, as hipóteses a confrontar são H0: μ= μ0=500 g/semana versus H0: μ < 500 g/semana 10. d) Seguindo a abordagem clássica de testes de hipóteses, calcula-se o valor crítico (vc) que separa as regiões de rejeição e não-rejeição da hipótese nula (H0), compondo uma regra de decisão. Tal regra diz que caso a estimativa de X , a média calculada a partir da amostra observada ( obsx ), seja menor que vc, rejeita-se H0 em favor de H1. Caso contrário, se obsx não for menor que vc, então conclui-se que não há razões para rejeitar H0. Graficamente, tem-se algo tal como abaixo: Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 19 vc Região de rejeição de H0 Região favorável a H0 x µ0vc Região de rejeição de H0 Região favorável a H0 x µ0vc Região de rejeição de H0 Região favorável a H0 x µ0 Matematicamente, obtém-se vc a partir da probabilidade de se rejeitar H0 equivocadamente (também denominado nível de significância), representado por α: ( ) ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ μ=μσ μ−<σ μ−=μ=μ<==α 0 X Xc X X 0c v |v(P X PXPverdade) é H|H rej 00 . Note-se da última igualdade acima que se recorreu a uma normalização da variável X . Ressalte-se que a média de X é μ=μX e este último equivale a μ0, de acordo com H0. Ressalte-se ainda que o desvio-padrão de X é dado por nX σ=σ , onde σ é o desvio-padrão dos ganhos de peso dos animais submetidos ao confinamento alternativo e n é o tamanho da amostra adotado para o estudo. Como o σ foi estimado a partir do devio-padrão da amostra (S), tem-se que t= n S X μ− segue uma distribuição t-Student com (n-1) graus de liberdade. Assim, n S v 0c μ− é o valor da t-Student com (n-1) graus de liberdade que acumula até ele uma área (probabilidade) de α. De posse da estimativa para S proveniente da amostra, s=50g, tem-se que n s v 0c μ− =t(α, n-1). Isolando o valor crítico obtemos nstv )1n,(0c ⋅+μ= −α . Assim, do enunciado, temos que n=25, s=50 e que μ0=500. Como para α=10% e α=1% temos t(10%, 24)=-1.318 e t(1%, 24)=-2.492 , os respectivos valores críticos são vc(10%)=486.82 g e vc(1%)=475.08. Como obsx =480 g < vc(10%) então, rejeitamos a hipótese nula para α=10%; isto é, sob uma probabilidade de estar decidindo equivocadamente de 10%, concluímos que o tipo alternativo de confinamento reduz o ganho de peso médio dos frangos. Por outro lado, assumindo α=1% decide-se por não rejeitar H0, já que obsx > vc(1%). Logo, sob um nível de significância de 1%, decide-se que o tipo alternativo de confinamento não reduz o ganho de peso médio dos frangos. Deste problema, ilustra-se a sensibilidade da regra de decisão ao valor atribuído a α. Quanto mais avesso ao risco de rejeitar H0 equivocadamente, menor a chance de o decisor rejeitar H0. 10. e) A principal suposição é a de que, devido ao uso da t-Student, os ganhos de peso seguem uma distribuição normal. Assim, a média amostral se distribui normalmente, com Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – InferênciaIndutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 20 média μ. Supõe-se ainda que e desvio-padrão nX σ=σ . Tal suposição se baseia, por sua vez, na de que a amostra de ganhos de peso (X1, X2, ..., X25) é aleatória e que tais ganhos de peso são independentes entre si. Desta forma, supõe-se que o ganho de peso de um animal não altera nossas incertezas sobre o de outro. Isto seria facilmente violado, por exemplo, caso dois frangos sorteados se alimentassem a partir de um mesmo recipiente (do qual não se verifique qualquer resto de comida), indicando que eventualmente um animal teria se alimentado em detrimento do outro, relacionando o ganho de peso de ambos. █ 11.a) Confrontam-se duas hipóteses: H0: A promoção do curso de extensão elaborado não altera a proporção de erros de diagnóstico a partir do Famacha®; H1: A promoção do curso de extensão elaborado reduz a proporção de erros de diagnóstico a partir do Famacha®. 11. b) Do enunciado, conclui-se que o parâmetro para o estudo da qualidade do curso é a proporção de pessoas por ele certificadas que erram no diagnóstico do problema a partir do Famacha® (denotada por p). Este parâmetro é comparado com a proporção de pessoas que erram o diagnóstico da doença a partir da preparação tradicionalmente adotada para uso do Famacha® (p0=15%). O estimador adotado para inferir sobre p foi a proporção amostral de erros de diagnóstico via Famacha® considerando o novo curso ( pˆ ) a partir de uma amostra aleatória de 64 casos nos quais os tratadores cursistas atuaram no diagnóstico da doença. 11. c) Matematicamente, as hipóteses a confrontar são H0: p= p0=15% versus H0: p < 15% 11. d) Seguindo, calcula-se o valor crítico (vc) que separa as regiões de rejeição e não- rejeição da hipótese nula (H0), compondo uma regra de decisão. Tal regra diz que caso a proporção calculada a partir da amostra observada ( obsp ) ) seja menor que vc, rejeita-se H0 em favor de H1. Caso contrário, se obsp) não for menor que vc, então conclui-se que não há razões para rejeitar H0. Graficamente, tem-se algo tal como abaixo: vc Região de rejeição de H0 Região favorável a H0 pˆ p0vc Região de rejeição de H0 Região favorável a H0 pˆ p0vc Região de rejeição de H0 Região favorável a H0 pˆ p0 Matematicamente, obtém-se vc a partir da probabilidade de se rejeitar H0 equivocadamente (também denominado nível de significância), representado por α: ( ) ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ =σ μ−<σ μ−==<==α 0 ˆ ˆc ˆ ˆ 0c pp vˆ pp|vˆ(P p p p p 00 p PpPverdade) é H|H rej . Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 21 Note-se da última igualdade acima que se recorreu a uma normalização da variável pˆ . Ressalte-se que a média de pˆ é pp =μ ) e este último equivale a p0, de acordo com H0. Ressalte-se ainda que o desvio-padrão de pˆ é dado por np σ=σ ) , onde σ2=p(1-p) é o desvio- padrão da variável que representa o sucesso ou fracasso no diagnóstico em cada uma das oportunidades sorteadas para compor a amostra e n é o tamanho da amostra (nº de oportunidades) adotado para estudar a qualidade do curso. Considerando que pˆ ~normal ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −=σ=μ n )p1(p,p pp )) , então p pp ˆ ˆˆ σ μ− segue uma distribuição normal com média 0 e variância unitária. Assim, p p ˆ ˆcv σ μ− é o valor da normal-padrão que acumula até ele uma área (probabilidade) de α. Isto é, p p ˆ ˆcv σ μ− =zα. Isolando o valor crítico obtemos n )p1(pzpv 000c −⋅+= α . Do enunciado, temos que n=64 e que p0=15%. Como para α=10% e α=1% temos z10%=-1.28 (ou -1.29) e z1%=-2.33. Os respectivos valores críticos são vc(10%)=0.093 e vc(1%)=0.046. Como obsp ) =13% > vc(10%) e obsp) > vc(1%), então tanto para α=10% quanto para α=1% decide-se por não rejeitar H0. Logo, sob um nível de significância de 10% ou 1%, decide-se que o curso não se mostra mais eficaz do que os ditos tradicionais. Deste problema, conclui-se que a rejeição de H0 se daria apenas para valores mais elevados de α. Em outros termos, apenas para uma probabilidade mais elevada de se rejeitar H0 equivocadamente. 11. e) A principal suposição é a de que a proporção amostral se distribui normalmente, com média p e desvio-padrão n )p1(p p −=σ ) . Tal suposição se baseia, por sua vez, na de que a amostra de oportunidades nas quais a qualidade do curso pode ser avaliada a partir dos erros/acertos de diagnóstico dos cursistas (X1, X2, ..., X64) é aleatória e que tais eventos (acertos/erros) são independentes entre si. Desta forma, o acerto/erro de um cursista não influenciaria nossas incertezas sobre o acerto/erro de outro. Isto seria facilmente violado, por exemplo, caso os cursistas tivessem facilidade de colar nas avaliações. █ 12.a) Em palavras, as hipóteses que estão sendo confrontadas são se (H0:) determinada dieta não altera o tempo de sobrevivência de pessoas com dado câncer ou se (H1:) tal dieta aumenta o tempo de sobrevivência destas pessoas. 12.b) Do enunciado, conclui-se que o principal parâmetro adotado para o estudo da qualidade da dieta é μ ≡" O tempo médio de sobrevivência de pessoas acometidas pelo câncer e submetidas à dieta". Este parâmetro é comparado com o tempo médio de sobrevivência de pessoas acometidas pelo câncer e submetidas a dietas tradicionais (μ0 = 2 anos). Como seria impossível obter o real valor de μ (para tanto seria necessário submeter todas as pessoas com o dado câncer à dieta e então se medir o seu tempo de sobrevida), recorre-se ao estimador X ≡ “tempo médio de sobrevivência de uma amostra aleatória de pessoas acometidas pelo câncer e submetidas à dieta”. Outro importante parâmetro para o estudo reflete a variabilidade do tempo de sobrevivência de pessoas acometidas pelo câncer Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 22 e submetidas à dieta, medida pelo desvio-padrão de tais tempos, σ. Como σ é desconhecido, recorre-se a seu estimador S≡”desvio-padrão do tempo de sobrevivência de uma amostra aleatória de pessoas acometidas pelo câncer e submetidas à dieta”. O estimador adotado para inferir sobre μ foi a média amostral do tempo de sobrevida de (n=30) pessoas com a doença e tratadas de acordo com a dieta (X ), o qual promoveu uma estimativa para μ após estudada a amostra de ( obsx )= 2.1 anos. Sobre X , sabe-se que sob algumas suposições ele seguirá uma distribuição normal com média μ e variância σ2/n, onde σ2 representa a variância do tempo de vida das pessoas com o dado câncer e submetidas à dieta. Logo, σ2 pode ser destacado como mais um parâmetro importante para o estudo. Contudo, como o valor de σ2 é desconhecido, decidiu-se por recorrer ao seu estimador a variância amostral 1 )( 1 2 2 − − = ∑ = n XX S n i i , do qual obteve-se uma estimativa a partir da amostra delineada, s2=(0.5 ano)2. 12. c) Matematicamente, as hipóteses a confrontar são H0: μ=(μ0=)2 anos versus H1: μ > (μ0=)2 anos 12.d) Seguindo, sabe-se que é possível que o estimador X apresente um valor maior que μ0 simplesmente devido ao acaso, o que não deveria conduzir à rejeição de H0. O que se faz importante, seguindo um método alternativo de testes de hipóteses, é calcular a probabilidade de que, supondo H0 ser verdadeira (isto é, que μ=2), ocorra algo ao menos tão estranho quanto o que de fato se observou (isto é, obsx =2.1). Casoesta probabilidade, denominada de nível de significância dos dados, p*, for pequena a ponto de que o evento "ao menos tão estranho" (X > obsx |μ=2) possa ser considerado como raro, então haverá razões para desacreditar de H0. Graficamente, a região associada à probabilidade p* é hachurada na figura abaixo. Sobre a classificação entre eventos raros e não-raros, recorre-se, em testes de hipóteses, ao chamado nível de significância do teste: α = P(Rejeitar H0 | H0 é verdadeira); de tal forma que α representa a tolerância máxima do decisor a eventos "estranhos" de maneira que se p* ≥ α ainda é possível argumentar que a distância entre o que afirma H0 e o que se observou se dá devido ao acaso. Caso contrário, se p* < α, o decisor conclui que a distância entre o que H0 afirma e o que se observou não foi apenas devido ao acaso e que, assim, H0 deve estar equivocada. Esta configura-se como a regra de decisão geral de testes de hipóteses, mais informativa do que a regra de decisão baseada na abordagem clássica (não é mais necessário construir uma regra de decisão para cada valor de α, pois ele é, aqui, comparado diretamente com p*). H0:μ=μ0 x vc p* obsx Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 23 Matematicamente, obtém-se p* a partir da suposição de que ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ == n NX XX σ σ,μμ~ : ( ) ⎟⎟ ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜⎜ ⎜ ⎝ ⎛ =−>=⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ =−>−==>= 000 μμσ μ Pμμ σ μ σ μX Pμμ|XP* X Xobs X X Xobs X X Xobs n x Z x xp . Note-se da última igualdade acima que se recorreu a uma normalização da variável X . Ressalte-se que a média de X é μ=μX e este último equivale a μ0 se H0 for verdadeira. Ressalte-se ainda que o desvio-padrão de X é dado por nX σ=σ , onde σ é o desvio-padrão dos tempos de sobrevida dos doentes submetidos à dieta sob estudo. Considera-se, a partir do enunciado, que σ é desconhecido e estimado a partir do desvio-padrão amostral, S, cuja estimativa proveniente da amostra é s=0.5 ano. Por outro lado, n (=30) é o tamanho da amostra adotado para o processo de inferência sobre μ e σ. Seguindo, vale destacar que enquanto a transformação n Z X σ μX −= é uma variável tal que Z~N(0, 1), a transformação nS t Xn μX 1 −=− é uma variável tal que tn-1~t-Student com (n-1) graus de liberdade. Esta segunda transformação é util principalmente pelo fato de que o maior nível de incerteza imposto pelo desconhecimento do valor de σ leva a resolução a considerar uma distribuição com maior dispersão que a normal-padrão. De fato, a t-Student tenderá a apresentar um comportamento cada vez mais parecido com o da normal-padrão à medida que o tamanho amostral cresça, conduzindo s a convergir para σ. Para tamanhos amostrais menores, a t-Student tenderá a ter uma dispersão maior. Assim, recorre-se à transformação: ( ) ( )095.1P 30 5.0 21.2P μ P μμX Pμμ|XP* 2929 0 1 00 0 >=⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ −>= ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ −>= ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ −>−==>= − tt n s x t n s x n s xp obsn obs obs Para o adequado uso da tabela da t-Student disponibilizada, tem-se que p*= P(t29 > 1.095) = 1- P(t29 ≤ 1.095). Como, da tabela, 0.75=P(t29 ≤ 0.683) < P(t29 ≤ 1.095) < P(t29 ≤ 1.311) = 0.9, conclui-se que 10% < p* < 25%. De fato, recorrendo a algum software (como o Excel ou o R), obtém-se que p*=0.1412. Assim, recorrendo apenas à tabela (isto é, desconsiderando por um momento que p*=0.1412) para qualquer nível de significância (α) menor ou igual a 10%, decide-se por não rejeitar H0. Vale salientar que como α trata-se da probabilidade de ocorrência de uma decisão equivocada, comumente seu valor será pequeno. Na prática, adota-se α=5% ou α=1%, por exemplo. De qualquer forma, para qualquer α ≤ 10%, conclui-se que a dieta não eleva o tempo médio de sobrevida dos pacientes. 12. e) A principal suposição, devido ao uso da t-Student, é a de que os tempos de sobrevida seguem uma distribuição normal. Assim, a média amostral (para um n=30) se distribui Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 24 normalmente, com média μ. Supõe-se ainda que e desvio-padrão nX σ=σ . Tal suposição se baseia, por sua vez, na de que a amostra de tempos de sobrevida (X1, X2, ..., X30) é aleatória e que tais tempos são independentes entre si, isto é, que o tempo de sobrevida de um paciente não interfere no de outro. Desta forma, supõe-se que tempo de sobrevida de uma pessoa não altera nossas incertezas sobre o de outra. Isto seria facilmente violado, por exemplo, caso a amostra envolve-se irmãos ou mesmo casais de pessoas (pessoas com mesma genealogia ou expostos às mesmas condições do cotidiano). █ 13) Esta questão destina-se à inferência sobre a probabilidade (p) de que um dado servidor falhe quando demandado. Para tanto gerou-se uma amostra envolvendo n=100.20=2000 demandas a servidores semelhantes, das quais observaram-se 23 falhas. Assim, obteve-se como estimativa para p a proporção de falhas da amostra obtida obspˆ = 23/2000 = 0.0115. Vale ressaltar que obspˆ trata-se apenas de uma instância do estimador para p n X Pˆ n 1i i∑ == , onde ⎩⎨ ⎧= contrário. caso 0, falhar;servidor respectivo o realizada,ser a demanda iª na se ,1 Xi Note-se que Xi trata-se de uma variável aleatória pois reflete o sucesso ou fracasso do servidor quando vier a ser demandado. Tal variável pode ainda ser entendida como Binomial, onde Xi≡”nº de falhas do servidor em 1 demanda”. Nesse sentido, Xi- ~Binomial(n=1, p). Dessa forma, E(Xi)=1.p=p e V(Xi)= σ2= 1.p(1-p) = p(1-p). 13.a) Pede-se o intervalo de 1 - α (96%) de confiança para p: Note-se que, como o próprio p é desconhecido, a variância, que é função de p, também o é. Para contornar essa situação, pode-se adotar o maior valor possível para σ2: σ2 = p(1-p) ≤ 1/4. Essa abordagem é conservadora, já que considera o pior cenário para inferir sobre p. A partir do enunciado, tem-se o tamanho amostral de n=2000 demandas e a estimativa para p observada na amostra obspˆ = 0.0115. Por sua vez, z1-α/2 é o quantil 1-α/2 da distribuição normal-padrão (é o valor que acumula até ele uma área de 1-α/2 da normal com média 0 e variância 1). Como 1-α = 0.96 → α = 0.04 → z1-α/2=z0.98 ≈ 2.05. Assim, tem-se como estimativa intervalar para p ⎥⎦ ⎤⎢⎣ ⎡ ⋅⋅+⋅⋅−=⎥⎦ ⎤⎢⎣ ⎡ ⋅+⋅− −− 05.220002 10.0115 ;05.2 20002 10.0115z n2 1pˆ ;z n2 1pˆ 2/1obs2/1obs αα . Logo, obtêm-se o seguinte intervalo para p: IC(96%, p) = [-0.0114; 0.0344]. Como tal intervalo direciona-se para a probabilidade de falha do servidor quando demandado, ( ) ⎥ ⎦ ⎤ ⎢⎣ ⎡ ⋅ σ+⋅σ−=⇒⎟⎠ ⎞⎜ ⎝ ⎛ ⋅σ+ ≤ ≤ ⋅σ− = ⇒⎟⎠ ⎞⎜ ⎝ ⎛ ⋅σ+ ≤ ≤ ⋅σ− = =⎟⎠ ⎞⎜⎝ ⎛ ⋅σ≤−=⎟⎟⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ≤σ −= α − = ≤ α − α−α−α − α−α − α−α−α− 2 / 1 2/12/12 / 1 2/12 / 1 2/12/12/1 z n pˆ ,zn pˆB] ,A[zn p ˆ p z n p ˆ P z n p p ˆ z n p P z n ppˆPz n/ pp ˆ P 1 z Z P Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 25 parâmetro que assume valores entre 0% e 100% (um dos axiomas da probabilidade, de Kolmogorov), sua parte negativa pode ser descartada,levando a IC(96%, p) = [0; 0.0344]. Assim, tem-se que a probabilidade de que o parâmetro p pertença ao intervalo IC(96%, p) = [0; 0.0344] é de 96%. Em outros termos, pode-se afirmar que, quando demandado, o servidor falhará com uma probabilidade de, no máximo, 3.44% e tal afirmação tem uma chance de 96% de estar correta. 13.b) Quer-se estimar p de maneira racional. Para tanto, deseja-se definir um tamanho amostral (n) para o qual a probabilidade de o estimador de p ( Pˆ ) divergir de p em, no máximo, ε = 0.02 seja de (1 – α) = 0.96. Matematicamente, trata-se de: ( ) . 2 z)p1(pzn n/)p1(p z 2 1 n/)p1(p ZP n/)p1(p ZP n/)p1(pn/)p1(p pPˆ P1pPˆP 2 2/1 2 2/1 2/1 ⎟⎠ ⎞⎜⎝ ⎛ ⋅≤⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −⋅=⇒−= ⇒−=⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −≤⇒⎟ ⎟ ⎠ ⎞ ⎜⎜⎝ ⎛ −≤= =⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ −≤− −=−=≤− −− − εε ε αεε εαε αα α Onde Z~Normal(média=0, variância=1) e z1-α/2 é o quantil 1 - α/2 de Z (valor da normal- padrão que acumula até ele uma área equivalente a 1 - α/2). A última desigualdade na álgebra acima decorre do fato de que p(1-p) ≤ ¼ e que, assim, ¼ representa o caso de maior variabilidade possível para a variável sob estudo (aqui a variável dicotômica Xi envolvendo o sucesso ou fracasso do sistema quando demandado). Diz-se assim que 2 2/1 2 zn ⎟⎠ ⎞⎜⎝ ⎛ ⋅= − ε α fornece um tamanho amostral conservador para o problema de inferência sobre p. Do enunciado, tem-se que ε = 0.02 e 1-α = 0.96 → α = 0.04, conduzindo a z1-α/2= z0.98. De uma tabela da normal-padrão tem-se que z0.98=2.05 e que, assim, n=(2.05/(2.0.02))2 = 2626.56. Como n trata-se de uma quantidade inteira, arredonda-se o resultado para o inteiro mais próximo e adota-se n=2627 como sendo o tamanho amostral que levará a estimativa de p a não se distanciar dele em mais que 2%, com probabilidade de 96%. 13.c) Neste caso, adotou-se n=2000 e ε=0.015. Note-se que aqui a incógnita já não é o tamanho amostral (n), mas sim (1-α)≡ “a probabilidade de a margem de erro estipulada (ε) ser respeitada”. Note-se da formulação do tamanho amostral que tal probabilidade pode ser obtida ao se isolar o quantil z1-α/2: ( ) .3416.12000015.02n2z1pPˆP 2/1 =⋅⋅==→−=≤− − εαε α Como a tabela da normal- padrão disponível para a resolução do quesito envolve apenas duas decimais para z1-α/2, considera-se z1-α/2 ≈ 1.34. Note-se da tabela que 1.34 acumula até ele uma probabilidade de 0.9099; isto é, P(Z ≤ z1-α/2)=0.9099, onde Z~Normal(média=0, variância=1). Graficamente trata-se da área hachurada na figura abaixo. Perceba-se assim que P(Z ≤ z1-α/2)=0.9099 = 1 – α/2 → α = 2.(1-0.9099) =0.1802. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 26 Logo, se o pesquisador envolve uma amostra de 2000 demandas e considera uma margem de erro de 1.5%, a probabilidade de tal margem ser respeitada a partir da estimativa para p de obspˆ = 0.0115 (com 1.5% para mais ou para menos) é de 1-0.1802 = 0.8198. Tal tipo de abordagem é importante quando o responsável pela experimentação tem em mãos uma amostra cujo tamanho foi definido negligenciando-se α. 13.d) Para esta questão a principal suposição que se faz é a de que o estimador Pˆ segue uma distribuição Normal para o tamanho amostral adotado, de acordo com o Teorema do Limite Central. Supõe-se ainda que o desempenho de cada servidor em uma demanda independe do seu desempenho em outra demanda qualquer e que a probabilidade de que ele falhe em cada demanda é sempre p. Supõe-se ainda que os servidores operam de maneira independente. Assim, pode-se supor que Pˆ ~ Normal(média=p, variância=p·(1-p)/n), tal como adotado nas igualdades acima. Supõe-se, por sua vez, que buscou-se com a amostra de demandas envolvida em cada quesito a representatividade da população sob estudo. Neste sentido, as demandas podem ter sido geradas a partir de um conjunto de operações que representam bem a variabilidade das funções que os servidores devem executar quando postos em operação. Por fim, considera-se a maior variabilidade possível sobre Pˆ , já que a variância de Pˆ é desconhecida e função da quantidade em estudo (p). █ 14) Para esta questão, devido ao interesse do cliente C, estuda-se a qualidade de um novo sistema servidor, N, em relação a um sistema já conhecido, A, a partir do seu tempo operacional até a falha, em horas. Para tanto, seja Xi≡”O tempo entre a (i-1)ª e a iª falha de N quando posto em operação por C”, onde X0=0. Sejam ainda µN≡”tempo médio entre falhas consecutivas de N” e µA≡”tempo médio entre falhas consecutivas de A”. Seja, por fim, σN≡”desvio-padrão do tempo entre falhas consecutivas de N”. Do enunciado, tem-se que µA=11 horas. Por sua vez, C adota um tamanho amostral de n=10 tempos entre falhas de N para decidir entre adquiri-lo ou não. Dessa amostra obtêm-se estimativas para µN e σN de, respectivamente, obsx =15.3 horas e horas. 4horas 16s 2N == 14.a) Em palavras, a questão central é se N é ou não melhor que A. Em outro termos, confronta-se a hipótese de que o novo sistema é melhor que o atual contra a hipótese de que o novo sistema não é melhor. Pode-se, então, destacar as hipóteses: H0≡ N não é melhor que A versus H1≡ N é melhor que A z 0 z1-α/2=1.34 1-α/2= 0.9099 Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Inferência Indutiva, Amostragem, Tamanho Amostral, Intervalo de Confiança, Teste de Hipóteses 27 14.b) Do problema de decisão resultante do confronto entre as hipótese H0 e H1 apresentadas em (a), podem-se destacar dois tipos de erro: Erro Tipo I: Rejeitar equivocadamente H0; Erro Tipo II: Não rejeitar equivocadamente H0. Em outros termos, como o cliente C tomará sua decisão sobre N ser ou não melhor que A baseando-se em uma amostra, ele poderá se equivocar em defender qualquer um de ambos: que N é melhor que A (Erro Tipo I) ou que N não é melhor que A (Erro Tipo II). Pode-se visualizar ao menos uma conseqüência caso um desses erros se concretize, refletindo sua gravidade. Sobre o Erro do Tipo I, poderia ocorrer de C adquirir N, passar a usá-lo em detrimento a A, investir dinheiro e tempo na adaptação do seu negócio a N e, ao final de tudo isso, descobrir que todo o esforço despendido em aderir a N foi em vão. Por outro lado, em relação ao Erro Tipo II, poderia ocorrer de C descartar N e manter seu negócio a partir de A, perdendo a oportunidade de tornar-se mais produtivo e competitivo junto ao mercado; tal situação chegaria a ameaçar o negócio de C caso N caísse nas mãos de um concorrente, por exemplo. Em suma, a gravidade da ocorrência de cada um dos erros pode ser considerada elevada. 14.c) O parâmetro de desempenho adotado para estudar a qualidade do novo sistema foi o tempo médio entre falhas de N (µN). Tal parâmetro seria então comparado com o tempo médio entre falhas de A (µA). Destaque-se nesse sentido que o valor de μA é, de acordo com o enunciado, conhecido (μA = 11 horas), enquanto que C deve fazer inferência sobre μN. A partir desses parâmetros, tem-se matematicamente o problema de decisão que confronta as duas hipóteses H0: μN = μA = 11 horas versus H1: μN > μA, isto é, H1: μN > 11 horas. Vale ressaltar que as hipóteses descritas em termos matemáticos representam aquelas expressas em palavras no quesito (a); isto é, μN = μA expressa, da maneira mais imparcial possível, que “N não é melhor que A” (no melhor dos casos seria igual) e, por outro lado, μN > μA traduz a hipótese de que “N é melhor que A”. Perceba-se que a comparação de qualidade entre os servidores
Compartilhar