Prévia do material em texto
Estatística Aplicada II – Professora Sandra Peres – 2018/1 Turma N1 – Engenharia de Produção – Universidade Salgado de Oliveira DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADE Vamos descrever algumas distribuições de probabilidade de uma variável aleatória contínua (v.a.c.) que pode assumir todos os valores em um intervalo. Medidas de altura, temperatura, peso, produção de leite, pressão arterial, etc., são todas deste tipo. Entre elas, a distribuição Normal, a Distribuição Uniforme e a Distribuição Exponencial. Distribuição Normal As distribuições Normais (ou distribuições Gaussianas) ocupam, por várias razões, posição proeminente tanto na estatística teórica como na aplicada. Uma delas é que, com bastante frequência, elas representam, com boa aproximação, as distribuições de frequência observadas de muitos fenômenos naturais e físicos. Outra razão é que as distribuições normais servem como aproximação de probabilidades binomiais, quando n é grande. Todavia, o motivo mais importante da proeminência da distribuição normal é que as distribuições tanto das médias como das proporções em grandes amostras tendem a ser distribuídas normalmente, o que tem relevante implicação na amostragem. As curvas normais apresentam algumas características bastante especiais em termos de sua forma, de como se especificam e de como são utilizadas para obtenção de probabilidades. O gráfico de uma distribuição normal se assemelha muito a um sino. É suave, unimodal, e simétrico em relação à sua média. Menos óbvio é o fato de que a curva se prolonga indefinidamente em qualquer das direções, a partir da média. Tende cada vez mais para o eixo horizontal à medida que aumenta a distância a contar da média, mas nunca chega a tocar o eixo. Outra característica importante é que uma distribuição normal fica completamente especificada por dois parâmetros: sua média e seu desvio padrão. Em outras palavras, existe uma única distribuição normal para cada combinação de uma média e um desvio padrão. Diferentes combinações de média e desvio padrão originam curvas normais distintas. Como médias e desvios padrões são medidos em escala contínua, segue-se que o número de distribuições normais é ilimitado. A área total sob a curva normal representa 100% da probabilidade associada à variável. Além disso, como a curva é simétrica em relação à sua média, a probabilidade de observar um valor inferior à média é 50%, como o é também a probabilidade de observar um valor acima da média. A probabilidade de predizer exatamente um valor é 0, pois a escala de mensuração é contínua. Logo, a probabilidade de observar um valor exatamente igual à média é zero. A probabilidade de uma variável aleatória distribuída normalmente tomar um valor entre dois pontos quaisquer é igual à área sob a curva normal compreendida entre aqueles dois pontos. É essencial reconhecer que uma distribuição normal é uma distribuição teórica. Para mensurações físicas grupadas numa distribuição de frequência, é uma distribuição ideal; nenhum conjunto de valores efetivos se adaptará exatamente a ela. Assim é que, por exemplo, os valores reais não variam entre e + , e as limitações do instrumental de mensuração eliminam efetivamente outros valores potenciais. Não obstante, tais deficiências são amplamente contrabalançadas pela facilidade de utilização da distribuição normal na obtenção de probabilidades, e pelo fato de que a referida distribuição ainda constitui uma boa aproximação de dados reais. Assim, quando se diz que uma variável aleatória (física) é distribuída normalmente, a afirmação deve ser interpretada como uma implicação de que a distribuição de frequência de seus resultados possíveis pode ser satisfatoriamente bem aproximada pela distribuição normal de probabilidades. Logo a curva normal é um modelo. Definição: Uma v.a. X tem distribuição normal com parâmetros e 2, - < < e 0 < 2 < , se sua f.d.p. é dada por: 22 2/)x(e 2 1)x(f , - < x < onde: = 3,14159...; e = 2,71828 ... A função densidade de probabilidade, f(x), a qual descreve a distribuição de probabilidade para uma v.a. aleatória contínua, têm as propriedades: (a) a área total sob a curva é igual a 1; (b) P(a X b) = área sob a curva entre os pontos a e b; (c) f(x) 0 (não negativa) (d) P(X = xi ) = 0 Propriedades a) Os parâmetros e 2 representam, respectivamente, a média e a variância da distribuição, isto é, E(X) = e Var(X) = 2. A demonstração requer manipulações de integral e não será apresentada aqui. Outras propriedades, enumeradas a seguir, podem ser facilmente observadas de seu gráfico: b) f(x) 0 quando x c) e + são pontos de inflexão de f(x) d) x= é o ponto de máximo de f(x) e o valor máximo é 2 1 e) f(x) é simétrica ao redor de x=, isto é, f( + x) = f( - x), para todo - < x < f) média = moda = mediana Os intervalos , 2 e 3, têm, respectivamente, as probabilidades de 0, 683, 0,954 e 0,997. Se X tem distribuição normal, com média e variância 2, denota-se por: X : N (, 2) Interpretando os parâmetros Duas distribuições normais com diferentes médias, mas com o mesmo desvio padrão (). Três distribuições normais com médias iguais, mas com diferentes desvios padrões (). Decrescendo , aumenta a altura máxima 2/1( ) e a concentração de probabilidade em torno de . Exemplo 1. Considere dois grupos de frangos de corte criados em uma granja no sul de Minas Gerais, comparáveis em todos os aspectos, exceto pela linhagem. O gráfico ilustra o ganho de peso dessas populações e permite afirmar que: ( ) a média aritmética e a variância da Linhagem I são superiores às da Linhagem II. ( ) a média aritmética da Linhagem I é superior à da II e as variâncias são iguais. ( ) as médias aritméticas são iguais e a variância da Linhagem I é superior à da II. ( ) as médias aritméticas são iguais e a variância da Linhagem I é inferior à da II. ( ) a média aritmética e a variância da Linhagem I são inferiores às da Linhagem II. 0 0 10 Fr eq üê nc ia Ganho de Peso (kg) Linhagem I Linhagem II Distribuição Normal Padronizada A distribuição normal constitui, na realidade, uma “família” infinitamente grande de distribuições – uma para cada combinação possível de média e desvio padrão. Consequentemente, seria inútil procurar elaborar tabelas que atendessem a todas as necessidades. Além disso a expressão da distribuição normal não é conveniente para tal objetivo, em vista de sua complexidade. Há, entretanto, uma alternativa bastante simples que contorna o problema: tomando a média como ponto de referência (origem) e o desvio padrão como medida de afastamento a contar daquele ponto (unidade de medida) determinamos uma nova escala que é comumente conhecida como escala z. Algebricamente, temos: xz onde: z : número de desvios padrões a contar da média x : valor arbitrário da variável aleatória : a média da distribuição norma : o desvio padrão da distribuição normal Note-se que z tem sinal negativo para valores de x inferiores à média e sinal positivo para valores superiores à média. As áreas sob a curva de qualquer distribuição normal podem ser achadas utilizando-se uma tabela normal padronizada, após fazer a conversão da escala original para a escala em termos de desvios padrões. A tabela dá a área sob a curva (isto é, a probabilidade de um valor cair naquele intervalo) entre a média 0 e valoresescolhidos de z, isto é, P(0<Z<z). Temos, então, que se X é uma variável aleatória com distribuição normal de média e desvio padrão , podemos escrever P( < X < x) = P(0 < Z < z) onde Z uma variável aleatória tal que xz A curva normal padrão, f(z), é também simétrica em torno de z e as áreas sob a curva nos intervalos de 1 a +1 ( ), 2 a +2 ( 2) e 3 a +3 ( 3), são também iguais a, respectivamente, 68,3%, 95,4% e 99,7% da área total, que é 1. A vantagem de se usar a variável Z é que as áreas, ou as probabilidades, associadas à distribuição normal padronizada são tabeladas. Assim, a transformação XZ é fundamental para o cálculo de probabilidades relativas a uma distribuição normal qualquer. A figura ao lado ilustra a área/probabilidade fornecida pela tabela, ou seja, P(0 Z zc). Se zc = 1,73 Observe: I. P(0 Z 1,73) = 0,4582 é o valor obtido na tabela das Áreas de uma Distribuição Normal Padrão II. devido à simetria da curva P(-1,73 Z 0 ) = P(0 Z 1,73) = 0,4582 III. P(Z 1,73) = P(Z 0) – P(0 Z 1,73) = 0,5 – 0,4582 = 0,0418 IV. P(Z < -1,73) = P(Z > 1,73) = 0,0418 V. P(Z 1,73) = P(Z -1,73) = P(0 Z 1,73) + P(Z < 0) = 0,4582 + 0,5 = 0,9582 VI. P(0,47 Z 1,73) = P(0 Z 1,73) - P(0 Z 0,47) = 0,4582 – 0,1808 = 0,2774 Aplicação Suponha que X : N(, 2) e queiramos determinar P(a < X < b), tal como representado na figura a seguir: Por exemplo, tomando a = 2 e b = 5 e supondo que X : N(3, 16), calculemos P(2 X 5). Para usar a Tabela em conexão com uma variável aleatória X, tendo distribuição normal, deve-se efetuar a mudança de escala XZ . Assim, no exemplo, P(2 X 5) = P( 2 X 5 ) = P( 4 32 Z 4 35 ) = P(-1/4 Z 1/2) Pela tabela N(0,1): P(-0,25 Z 0,5) = P(-0,25 Z 0) + P(0 < Z 0,5) P(-0,25 Z 0,5) = 0,0987 + 0,1915 = 0,2902 ou seja, P(2 x 5) = 0,2902. Exemplo. Sabendo-se que os pesos à desmama (X) de 10.000 bezerros de um rebanho são distribuídos normalmente, com média (µ) 170 kg e desvio padrão () 5 kg, (a) qual é o número esperado de bezerros com peso superior a 165 kg?; e (b) que peso (x) deve atingir um bezerro para que ele supere 80% dos pesos à desmama desse rebanho? Solução: (a) P(X > 165) = )1( 5 170165 ZPXP P(Z > -1) = P(-1< Z 0) + P(Z > 0) = 0,3413 + 0,5 = 0,8413 Portanto, o número esperado é 10.000 x 0,8413 8.413 bezerros. (b) Neste caso, usa-se a tabela normal ao contrário. Como P(X 170) + P(170 < X x) = 0,80 0,5 + P(170 < X x) = 0,80 P(170 < X x) = 0,30 e P(X ≥ x) = 0,20 P(170 < X x) = 5 1700 xXP = 30,0P 5 170xZ0 e P(X ≥ x) = 0,5 - 20,0 5 1700 xZP Olhando agora a área 0,30 no corpo da tabela, verifica-se que o valor correspondente de z (na aproximação mais próxima) é: zc = 84,0 5 170 x . Logo, x = 174,2kg Áreas de uma Distribuição Normal Padrão Tabela N(0,1) Cada casa na tabela dá a proporção sob a curva inteira entre z = 0 e um valor positivo de z. As áreas para os valores negativos de z são obtidas por simetria. z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0.4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 Aproximação Normal à Binomial Se X tem distribuição binomial B(n, p), onde n é grande e p não é muito próximo de 0 ou 1, a distribuição da variável padronizada )p1(np npXZ é aproximadamente N(0,1). Tendo em vista que uma distribuição discreta (binomial) é aproximada por uma contínua (normal), a melhor aproximação é obtida calculando: P(a X b) )p1(np np)5,0b(Z )p1(np np)5,0a(P O valor 0,5 é chamado “correção de continuidade”. Exemplo: Supondo que X : B(15, 0,4) P(7 X 10) = 381,0)6,0(4,0 15 1510 7 x x x x P(7 X 10) 9,1 610 9,1 67 ZP 281,020194,048257,0105,2526,0 ZP Usando correção de continuidade: 9,1 65,10 9,1 65,6)107( ZPXP 389,010194,049111,0)368,2263,0( ZP Para justificar a correção de continuidade, basta atentar para a Figura: Fig.: Histograma da distribuição binomial B(15, 0,4) e a curva normal aproximada. A distribuição normal pode ser recomendada para aproximar probabilidades binomiais, mesmo para n tão pequeno quanto 15, contanto que p seja próximo de 1/2. Quando p é muito pequeno e n é grande, a distribuição de Poisson é mais apropriada. Como uma norma prática, n pode ser assumido como “suficientemente” grande para se usar a distribuição normal, quando np(1p) 3, sendo que a aproximação melhora com o crescimento de n. A aproximação da distribuição binomial pela normal é boa quando np(1p) ≥ 3. EXERCÍCIOS 1. Faça Z uma variável com distribuição normal padronizada e encontre (use a tabela): a) P(0<Z<1,44) b) P(-0,85<Z<0) c) P(-1,48<Z<2,05) d) P(0,72<Z<1,89)e) P(Z>-2,03) f) P(Z>1,08) g) P(Z<-0,66) h) P(Z<0,60) i) P(Z>-0,66) j) P(Z<0,5) 2. Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio padrão 10. Determine a probabilidade de um indivíduo submetido ao teste ter nota: a) maior que 120; b) maior que 80; c) entre 85 e 115; d) maior que 100. 3. Os pesos de 600 estudantes são normalmente distribuídos com média 65,3 kg e desvio padrão 5,5 kg. Determine o número de estudantes que pesam: a) entre 60 e 70 kg; b) mais que 63,2 kg; c) menos que 68 kg. 4. A duração de um certo componente eletrônico tem média de 850 dias e desvio padrão de 45 dias. Sabendo que a duração é normalmente distribuída, calcule a probabilidade desse componente durar: a) entre 700 e 1.000 dias; b) mais de 800 dias; c) menos de 750 dias; d) exatamente 1000 dias. 5. Com relação ao exercício anterior, qual deve ser o número de dias necessários para que tenhamos de repor no máximo 5% dos componentes. 6. Suponha que as notas de uma prova sejam normalmente distribuídas com média 73 e desvio padrão 15. Sabemos que 15% dos alunos mais adiantados recebem a nota A e 12% dos mais atrasados recebem a nota F. Encontre o mínimo para receber A e o mínimo para passar, não receber F. 7. Uma fábrica de pneumáticos fez um teste para medir o desgaste de seus pneus e verificou que ele obedecia a uma distribuição normal, de média 48.000 km e desvio padrão 2.000 km. Calcular a probabilidade de um pneu escolhido ao acaso: a) dure mais que 46.000 km; b) dure entre 45.000 e 50.000 km. 8. Os salários semanais dos operários industriais são distribuídos normalmente em torno de uma média de $ 1800,00 com desvio padrão de $ 250,00. a) Encontre a probabilidade de um operário ter salário semanal situado entre $ 1500,00 e $ 1700,00. b) Dentro de que desvios de ambos os lados da média cairão 96% dos salários? 9. Em uma distribuição normal, 28% dos elementos são superiores a 34 e 12% inferiores a 19. Encontrar a média e a variância da distribuição. 10. Suponha que o diâmetro médio dos parafusos produzidos por uma fábrica é de 0,25 polegadas, e o desvio padrão 0,02 polegadas. Um parafuso é considerado defeituoso se seu diâmetro é maior que 0,28 polegadas ou menor que 0,20 polegadas. Encontre a porcentagem de parafusos defeituosos. 11. Suponha que a duração de vida de dois equipamentos E1 e E 2 tenham respectivamente distribuições: N(45,9) e N(40,36). Se o equipamento tiver que ser usado por um período de 45 horas, qual deles deve ser preferido? 12. Certa máquina de empacotar determinado produto oferece variações de peso com desvio padrão de 20 g. a) Em quanto deve ser regulado o peso médio do pacote para que apenas 10% tenham menos que 400 g? b) Calcule a probabilidade de um pacote sair com mais de 450 g. 13. Uma entrevista entre residentes de uma certa cidade do Brasil mostrou que 20% preferem aparelho telefônico de cor cinza sobre as outras cores disponíveis. Qual a probabilidade que entre 170 e 185 (inclusive) dos próximos 1000 telefones instalados na cidade sejam cinza? (utilize a aproximação pela normal) 14. Os registros mostram que 80% dos clientes de um restaurante pagam com cartão de crédito. Use a aproximação normal da distribuição binomial para encontrar a probabilidade de que pelo menos 170 entre 200 clientes do restaurante paguem com cartão de crédito. 15. Estudos mostram que 22% de todos os pacientes que tomam um certo antibiótico ficam com dor de cabeça. Use a aproximação normal da distribuição binomial para encontrar a probabilidade de que entre 50 pacientes tomando este antibiótico a) pelo menos 10 vão ficar com dor de cabeça. b) no máximo 15 vão ficar com dor de cabeça. 16. Escolhe-se uma amostra de 200 adultos de um bairro para investigar a proporção dos que apoiam determinado projeto de lei. Se 35% da população total são favoráveis, qual a probabilidade do número de pessoas favoráveis na amostra: a) ser no máximo 15. b) estar entre 60 e 80. c) ser no máximo 85.