Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 MATERIAL DE APOIO À ATIVIDADE ACADÊMICA: CONTROLE ESTATÍSTICO DA QUALIDADE 100602 Elaborado por: Profa Patrícia Sorgatto Kuyven São Leopoldo, agosto de 2011. Fundamentos de Probabilidade e Estatística 2 1. ESTATÍSTICA DESCRITIVA 1.1 TABELAS E GRÁFICOS DE DISTRIBUIÇÃO DE FREQÜÊNCIAS Uma vez coletados os dados de um estudo não é conveniente apresentá-los para análise sob a forma de simples apuração de dados. Muitas vezes o conjunto de valores é extenso e desorganizado, fazendo com que se perca a visão global do fenômeno analisado. Deste modo, deve-se apresentar os dados originais de uma forma mais simples e compacta, ou seja, através de gráficos e tabelas. É muito comum, num relatório, apresentarmos, primeiramente, cada uma das variáveis do estudo separadamente. ! Quando uma variável é tabulada, é feita a contagem de cada resultado desta variável, possibilitando a construção de uma tabela. Esta tabela é comumente chamada de distribuição de freqüências. Distribuições de freqüência: Tipo de freqüência: Símbolo Freqüência Absoluta Simples fi Freqüência Relativa Simples fri Freqüência Absoluta Acumulada Fi Freqüência Relativa Acumulada Fri Exemplo: Em 1993, a Secretaria de Política de Informática do Ministério da Ciência e Tecnologia, no âmbito do Programa Brasileiro da Qualidade e Produtividade em Software – PBQP Software, iniciou pesquisa bienal para acompanhamento e divulgação a respeito da evolução da qualidade nas empresas de software, objetivando direcionar as ações dos agentes responsáveis pela formulação e execução da política de software no Brasil. A pesquisa é amostral, aplicada sobre população alvo constituída pelas empresas desenvolvedoras de software pacote para comercialização – packaged software, software sob encomenda para terceiros – custom software, software para Internet – Internet software, software embarcado – bundled, embedded software e, ainda, empresas distribuidoras ou editoras de software de terceiros. Estas tabelas e gráficos apresentam resultados da quinta edição da referida pesquisa – "Qualidade e Produtividade no Setor de Software Brasileiro - 2001", cujo trabalho de campo estendeu-se de setembro de 2001 a abril de 2002. A amostra efetiva da Pesquisa 2001 foi de 446 empresas. Dentre várias questões, foi verificado em que regiões do Brasil estão atuando tais empresas. Foi obtida a seguinte distribuição: 3 Região de atuação da empresa – 2001 Região Brasileira freqüência absoluta simples (fi) Norte 3 Nordeste 80 Sudeste 190 Sul 141 Centro-oeste 32 TOTAL: 446 Também é comum apresentarmos os resultados em percentuais: Região de atuação da empresa – 2001 Região Brasileira freqüência relativa simples (fri) % Norte 0,67 Nordeste 17,94 Sudeste 42,60 Sul 31,61 Centro-oeste 7,17 TOTAL: 100,00 Esta tabela também poderia ser representada a partir de um gráfico de barras verticais: Região de atuação da empresa – 2001 0,67% 17,94% 42,60% 31,61% 7,17% 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 Norte Nordeste Sudeste Sul Centro- oeste Quando uma variável é qualitativa nominal, só faz sentido as freqüências simples. Já para as variáveis quantitativas e qualitativas ordinais, podemos obter freqüências acumuladas. 4 Dentre os softwares desenvolvidos, foi observado um custo final maior do que o orçamento – 2001 Quantidade de software com custo maior que orçamento fi fri Fi Fri 0 184 41,26 184 41,26 1 126 28,25 310 69,51 2 98 21,97 408 91,48 3 28 6,28 436 97,76 4 4 0,90 440 98,65 5 4 0,90 444 99,55 6 1 0,22 445 99,78 7 1 0,22 446 100,00 TOTAL: 446 100,00 - - ! Quando desejamos conhecer a distribuição de freqüências de uma variável quantitativa que possui ocorrências de valores muito diferentes (o que é bastante comum de ocorrer), torna-se necessário apresentarmos os dados na forma de distribuição de freqüências de dados agrupados em classes. Tempo (em anos) de atividade da empresa em 2001 Tempo de atividade (anos) fi fri Fi Fri 0 ---| 3 58 13,00 58 13,00 3 ---| 6 95 21,30 153 34,30 6 ---| 9 88 19,73 241 54,04 9 ---| 12 72 16,14 313 70,18 12 ---| 15 65 14,57 378 84,75 15 ---| 18 33 7,40 411 92,15 18 ---| 21 21 4,71 432 96,86 21 ---| 24 14 3,14 446 100,00 TOTAL: 446 100,00 - - Podemos utilizar outros gráficos para representar as distribuições de freqüência. A seguir, apresentamos um exemplo de um gráfico de setores, o qual destaca-se por representar bem variáveis qualitativas com poucas categorias de resposta: 5 Norte 1% Nordeste 18% Sudeste 42% Sul 32% Centro- oeste 7% Já as variáveis quantitativas contínuas e as discretas (quando trabalhadas em classes) costumam ser representadas por um histograma: Tempo (em anos) de atividade da empresa em 2001 0 10 20 30 40 50 60 70 80 90 100 Tempo de atividade da empresa (anos) fi ! Existe um tipo de gráfico utilizado especificamente para representar uma possível relação entre duas variáveis quantitativas: o gráfico de dispersão. Por exemplo, foi verificado num conjunto de 30 softwares desenvolvidos, qual a taxa de linhas de código/dia do projeto e a taxa de erro/página. Taxa de produtividade exigida X Taxa de erro 0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 Taxa de produtividade exigida (linhas de cód./dia/progamador) Ta xa d e er ro s/ pá gi na Região de atuação das empresa – 2001: 0 3 6 9 12 15 18 21 24 6 1.2 MEDIDAS DESCRITIVAS 1.2.1 MEDIDAS DE TENDÊNCIA CENTRAL Através das medidas de tendência central pode-se verificar qual a tendência dos dados observados ao se agruparem em torno dos valores centrais. Há várias medidas de tendência central. Entre elas, citamos a média aritmética, a mediana, a moda, etc. Cada uma dessas medidas apresenta vantagens e desvantagens, e a escolha depende dos objetivos e do tipo de variável envolvida. A seguir veremos como é feito o cálculo dessas medidas. . Média aritmética: A média aritmética, ou simplesmente média, de um conjunto de n valores x1, ..., xn é definida como: n x n xx X n i i n ∑ == ++ = 11 ... Exemplo: a média aritmética do conjunto 7,5 7,9 8,1 8,2 8,7 é 08,8 5 7,82,81,89,75,7 = ++++ =X Na Estatística, é usual utilizar as letras gregas para representar parâmetros populacionais e as letras comuns para representar parâmetros amostrais. A média de uma população é representada pela letra grega µ, enquanto na amostra é representada por x . Propriedades da média aritmética: 1ª: A soma algébrica dos desvios (diferença entre cada valor e a média) é nula. 2ª: Somando-se (ou subtraindo-se) uma constante (c) a todos os valores de uma variável, a média do conjunto fica aumentada ( ou diminuída) dessa constante. 3ª: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (c), a média do conjunto fica multiplicada ( ou dividida) por essa constante. Mediana: Dado um conjunto de valores em ordem crescente, a mediana é definida como: Se n é impar, o valor central; ! += 2 1nXMe Se n é par, a média simples dos dois valores centrais. ! x 2 1 22 + + = nn XX Me 7 Exemplo 1: na amostra 25 26 26 28 30 a mediana é Me = 26 Exemplo 2: na amostra 71 73 74 75 77 79 a mediana é ( ) ( ) 5,74 2 7574 222 43 1 2 6 2 61 22 = + = + = + = + = + + XX XXXX Me nn Notas: - Em uma série, a mediana, a média e a moda não têm, necessariamente, o mesmo valor. - A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma da diferenças marcantes entre mediana e média ( que se deixa influenciar, e muito, pelos valores extremos). Vejamos: Em{ 5, 7, 10, 13, 15 } a média = 10 e a mediana = 10 Em { 5, 7, 10, 13, 65 } a média = 20 e a mediana = 10 Isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores extremos, ao passo que a mediana permanece a mesma. . Moda: A moda é o valor que ocorre com maior freqüência, ou seja, é o valor mais comum. A moda pode ser dupla ou pode não existir. Exemplo 1: na amostra 23 25 25 26 26 26 27 29 a moda é 26 Exemplo 2: na amostra 71 73 73 75 76 77 77 79 81 a moda é 73 e 77. Neste caso dizemos que a distribuição dos dados é bimodal. Obs.: A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando a medida de posição deva ser o valor mais típico da distribuição. Já a média aritmética é a medida de posição que possui a maior estabilidade. Exercício: Calcule a média, a mediana e a moda do número de chamadas para resolver problemas do software após 1 ano de uso pelos clientes de uma empresa desenvolvedora. Número de chamadas para resolver problemas do software após 1 ano de uso Número de clientes 0 50 1 65 2 22 3 10 4 3 Total 150 8 1.2.2 Medidas de Dispersão Dispersão é a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central ( média ou mediana ) tomado como ponto de comparação. A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z: X = { 70, 70, 70, 70, 70 } Y = { 68, 69, 70 ,71 ,72 } Z = { 5, 15, 50, 120, 160 } Observamos então que os três conjuntos apresentam a mesma média aritmética =350/5 = 70. Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa. AMPLITUDE TOTAL: A amplitude total é a única medida de dispersão que não tem na média o ponto de referência. Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o menor valor observado: AT = X máximo - X mínimo. Com intervalos de classe a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários. Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia, no controle de qualidade ou como uma medida de cálculo rápido sem muita exatidão. DESVIO PADRÃO: É a medida de dispersão mais comumente empregada, pois leva em consideração a totalidade dos valores da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como: a raiz quadrada da média aritmética dos quadrados dos desvios e é representada por σσσσ, quando se refere a população e por S quando se refere a uma amostra. 9 Desvio padrão populacional: N X N i i∑ = − = 1 2)( µ σ Desvio padrão amostral: 1n )XX( S n 1i 2 i − ∑ − = = Exemplo: Calcular o desvio padrão da amostra representada por 68 , 69 , 70 , 71 , 72. Xi X (Xi - X ) (Xi - X )2 68 70 - 2 4 69 70 - 1 1 70 70 0 0 71 70 1 1 72 70 2 4 ----- ----- Σ 10 Sabemos que n = 5, então: 58,15,2 15 10 1 )( 1 2 == − = − − = ∑ = n XX S n i i . O desvio padrão tem algumas propriedades, dentre as quais destacamos: 1ª: Somando-se (ou subtraindo-se) uma constante a todos os valores de uma variável, o desvio padrão não se altera. 2ª: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado ( ou dividido) por essa constante. VARIÂNCIA: É o desvio padrão elevado ao quadrado e é simbolizado por 2σ , quando se refere a população e por S2 quando se refere a amostra. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras. COEFICIENTE DE VARIAÇÃO DE PEARSON: Na estatística descritiva o desvio padrão por si só tem limitações. Pois, um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. 10 Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada de CVP: Coeficiente de Variação de Pearson (é a razão entre o desvio padrão e a média referente a dados de uma mesma série). A fórmula do CVP para amostras é : 100. X SCPV = 11 EXERCÍCIOS CAPÍTULO 1 1. Indique, para cada uma das situações descritas abaixo, se deveria ser realizada inferência estatística (marque 1) na análise dos dados, ou se seria utilizada estatística descritiva (marque 2): a. ( ) Uma empresa que oferece planos de saúde no Rio Grande do Sul pretendia conhecer o perfil dos clientes das três maiores empresas concorrentes no Estado. Para isto, realizou um estudo com uma amostra de clientes de cada uma destas empresas concorrentes e depois apresentou os resultados obtidos referindo-se a todos os clientes de cada uma das respectivas empresas. b. ( ) A fim de ter um conhecimento mais amplo sobre as necessidades dos consumidores de planos de saúde, uma empresa deste ramo realizou uma pesquisa de mercado com 300 pessoas que circulavam em pontos de fluxo de Porto Alegre. Os resultados foram apresentados sendo considerados válidos para aquelas pessoas que participaram da pesquisa. c. ( ) Uma escola pretendia conhecer a opinião dos pais dos seus alunos sobre a qualidade do ensino na escola. Foi realizada uma pesquisa em que todos os pais foram entrevistados e deram sua opinião. Na apresentação dos resultados foi mencionado que os resultados eram válidos para todos os pais que participaram. 2. Classifique as variáveis descritas abaixo: a) Idade (em anos completos) b) Grau de instrução dos clientes de uma loja de supermercado c) Marca dos refrigerantes vendidos numa loja de supermercado d) Quantidade de garrafas de refrigerantes vendidos numa loja de supermercado num dia e) Quantidade de garrafas de refrigerantes levados por cada cliente em suas compras f) Tempo que os clientes de uma loja de supermercado levam para realizar suas compras 3. A fim de conhecer os hábitos de compra relacionados a refrigerantes (embalagem de 2 litros), foi anotada, para uma amostra de 50 compras, a quantidade de garrafas de refrigerantes levadas: 12 Quantidade de refrigerantes (garrafas) Quantidade de compras 0 10 1 5 2 7 3 9 4 9 5 5 6 3 10 2 50 Responda: a) Qual a quantidade média de garrafas de refrigerantes levadas por compra? b) Qual a quantidade mediana de garrafas de refrigerantes levadas pelos clientes em suas compras? c) Qual a moda da quantidade de garrafas de refrigerantes levadas pelos clientes em suas compras? d) Qual amplitude total da quantidade de garrafas de refrigerantes levadas pelos clientes em suas compras? e) Qual o desvio padrão da quantidade de garrafas de refrigerantes levadaspelos clientes em suas compras? f) Qual a variância da quantidade de garrafas de refrigerantes levadas pelos clientes em suas compras? g) Qual o coeficiente de variação de Pearson da quantidade de garrafas de refrigerantes levadas por pelos clientes em suas compras? 4. Numa amostra de 10 clientes de uma loja de supermercado, foi verificado o tempo que levaram para fazer suas compras: 15 20 21 25 20 25 35 35 20 22 Responda: a) Qual o tempo médio para realização das compras na loja?____________ b) Qual a mediana do tempo para realização das compras na loja?____________ c) Qual a moda do tempo para realização das compras na loja?____________ d) Qual o desvio padrão do tempo para realização das compras na loja?____________ 5. Qual das variáveis, quantidade de garrafas compradas pelos clientes (ex.3), ou tempo para execução das compras (ex.4), apresentou maior dispersão (variabilidade)? Justifique sua resposta mostrando o que foi calculado para comparar a dispersão das duas variáveis. 13 6. Pretende-se conhecer o tempo médio (em minutos) e o respectivo desvio padrão das conexões dos usuários de um servidor. Para isto, utilizou-se uma amostra de 10 conexões onde foram observados os seguintes tempos: 100 120 15 35 210 61 90 90 230 179 Média: _____________ Desvio padrão:_______________ 7. A tabela abaixo apresenta o número de erros de uma amostra de 33 algoritmos: 21 8 18 22 22 29 14 18 21 25 25 15 18 22 8 21 21 22 23 21 22 15 18 23 23 22 23 21 30 15 15 18 21 a) Calcule o número médio de erros por algoritmo; b) Calcule o número mediano de erros por algoritmo; c) Calcule a moda do número de erros dos algoritmos; d) Calcule o desvio padrão do número de erros dos algoritmos; e) Calcule a variância do número de erros dos algoritmos; f) Calcule o coeficiente de variação do número de erros dos algoritmos; 8. Uma amostra de 50 potes de iogurte que deveriam conter peso de 200g foram avaliados e verificou-se os seguintes pesos: 191,9 196,0 198,3 199,7 201,8 193,8 196,2 198,5 200,0 201,8 194,1 196,4 198,6 200,2 201,9 194,9 196,8 198,8 201,0 202,2 195,0 196,8 199,0 201,1 203,0 195,3 197,2 199,0 201,2 203,1 195,5 197,4 199,1 201,2 203,1 195,8 197,8 199,2 201,3 204,2 195,9 197,9 199,3 201,5 204,3 195,9 198,0 199,5 201,8 207,7 a) Qual o peso médio dos potes? b) Quala a mediana? c) Quala a moda? d) Qual a amplitude total? e) Qual o desvio padrão? f) Qual a variância? g) Qual o coeficiente de variação? h) Obtenha uma tabela de distribuição de freqüências em classes e o respectivo histograma. 14 RESPOSTAS: 1) a) 1 b) 2 c)2 2) a) quant. discreta b) qualit. ordinal c) qualit. nominal d) quant. discreta e) quant. discreta f) quant. contínua 3) a) 2,9 b) 3 c)0 d) 10 e) 2,35 f) 5,52 g) 81,02% 4) a) 23,8 b) 21,5 c) 20 d) 6,55 5) variável exercício 3 tem maior dispersão 6) Média = 113 minutos e desvio padrão = 72,36 minutos 7) a) 20 b)21 c)21 d)4,82 e) 23,19 f) 24,08% 8) pesos (X) fi média: 199,0 190 --| 192 1 mediana 199,0 192 --| 194 1 Moda 201,8 194 --| 196 9 amplit. 15,8 196 --| 198 9 desvio 3,158726 198 --| 200 12 var 9,977551 200 --| 202 11 cvp 1,5873 202 --| 204 4 204 --| 206 2 206 --| 208 1 Total: 50 15 2. PROBABILIDADE BÁSICA 2.1 Conceitos básicos O cálculo das probabilidades pertence ao campo da Matemática, entretanto a maioria dos fenômenos de que trata a Estatística são de natureza aleatória ou probabilística. O conhecimento dos aspectos fundamentais do cálculo das probabilidades é uma necessidade essencial para o estudo da Inferência Estatística. 2.1.1 Experimento Aleatório São fenômenos que, mesmo repetido várias vezes, sob condições semelhantes, apresentam resultados imprevisíveis. Por exemplo, ao jogar um dado comum (seis faces com valores de 1 a 6) poderemos ter qualquer uma das seis faces como resultado e, a cada jogada, pode sair qualquer um dos seis resultados possíveis. Ao selecionarmos de forma aleatória (acidental) cliente de um supermercado para fazer parte de uma amostra num estudo sobre consumo de cigarro, ele pode ser ou não um fumante, ele pode ter 20, 30 ou qualquer outra idade. Selecionar pessoas e verificar o hábito de fumar e a idade também são exemplos de experimentos aleatórios. 2.1.2 Espaço Amostral É o conjunto universo ou o conjunto de resultados possíveis de um experimento aleatório (representado pela letra grega ômega: Ω). Um espaço amostral será considerado finito quando for formado por uma quantidade definida de elementos. Quando o espaço amostral de um experimento for formada por uma quantidade infinita de elementos, ele será chamado de infinito. No mundo dos negócios, os espaços amostrais infinitos estão comumente associados a demanda. ESPAÇOS AMOSTRAIS FINITOS: • No experimento aleatório "lançamento de um dado" temos o espaço amostral Ω ={1, 2, 3, 4, 5, 6}; • No experimento aleatório "verificar se um aluno sorteado é fumante" temos o espaço amostral : Ω ={sim, não}; • No experimento aleatório “verificar, dentre 10 alunos sorteados, quantos são fumantes” temos o espaço amostral: Ω ={0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}. ESPAÇOS AMOSTRAIS INFINITOS: • No experimento aleatório que verifica a “quantidade de acessos a um site” durante 24 horas, temos um espaço amostral que inicia em zero e não há como determinar o valor máximo que se pode verificar no experimento, Ω ={0,1, 2, 3, ..., ∞+ }; • No experimento aleatório "altura de pessoas de uma população" temos um espaço amostral em que não conseguimos determinar (a menos que se saiba a altura de cada indivíduo desta população, o que não seria provável) nem o valor inicial e nem o valor final, então, assumimos qualquer valor acima de zero até mais infinito: Ω = (0; ∞+ ); EXEMPLO EXEMPLO 16 2.1.3 Evento É qualquer subconjunto do espaço amostral de um experimento aleatório. Quando este subconjunto é composto por apenas um elemento, dizemos que o evento é elementar. Utilizamos os eventos para indicar os resultados do espaço amostral que temos interesse em calcular a probabilidade. Os eventos costumam ser representados por letras maiúsculas do alfabeto latino (A, B, C...). Se, no experimento aleatório que consiste no "lançamento de um dado" temos o espaço amostral Ω ={1, 2, 3, 4, 5, 6} e quisermos calcular a probabilidade de ocorrer face par na jogada de um dado, os resultados correspondentes a esta exigência serão denominados de “evento” e denotados por uma letra maiúscula: teremos o evento A = {2,4,6} e P(A) = P(2,4,6). 2.1.4 Conceito de probabilidade As probabilidades são valores entre 0 e 1. E a soma das probabilidades de todos os eventos elementares possíveis do experimento deve ser igual a 1. Existem duas definições básicas de probabilidade: a primeira definição do conceito de probabilidade é a lei de Laplace. Este é o conceito clássico de probabilidade e nos diz que a probabilidade de determinado evento ocorrer é o resultado da divisão entre o número de casos favoráveis pelo número de casos possíveis. possíveiscasosdenúmero favoráveiscasosdenúmeroAP =)( Decorrente deste conceito, podemos dizer que no experimento aleatório que consiste na jogada de um dado, a probabilidade de ocorrer face par será 50%, pois: 5,0 6 3)( === possíveiscasosdenúmero favoráveiscasosdenúmeroAP , onde A é o evento par. No entanto, essa lei está restrita a um conjunto específico de casos: ela se aplica apenas quando todos os eventos elementares de um experimento são equiprováveis (todos têm a mesma chance de acontecer). A Lei de Laplace não responde a determinadas questões, como saber, por exemplo, qual a probabilidade de uma pessoa de uma determinada população faleça numa idade entre 50 e 60 anos. Para casos desse tipo, pode ser utilizada outra lei: a lei dos grandes números (leide Bernouilli). Esta lei, também conhecida como definição frequentista de probabilidade, afirma que se um experimento aleatório for realizado inúmeras vezes, a freqüência relativa de um determinado evento se aproxima de um valor denominado probabilidade de sucesso. Pela definição frequentista, dado que uma pessoa de uma determinada população tenha falecido, a probabilidade que sua idade esteja entre 50 e 60 anos será dada de forma aproximada pelo quociente entre o número de pessoas que faleceram nesta faixa etária e o número total de pessoas que faleceram. 2.1.5 Propriedades Básicas de Probabilidade: A teoria elementar de probabilidade está associada a um conjunto de definições e axiomas que neste material estão resumidos e esquematizados num conjunto de propriedades básicas: 17 (i) Toda probabilidade é dada por um valor entre zero e um, onde zero quer dizer que o evento é impossível de ocorrer e 1 quer dizer garantido que vai ocorrer. 1]A[P0 ≤≤ (ii) Se um evento compreende todo o espaço amostral, sua probabilidade é 1; se um evento não está contido no espaço amostral, sua probabilidade é zero. 1][ =ΩP e 0][P =φ (iii) A probabilidade de um evento A mais a probabilidade de seu complementar (tudo que está contido no espaço amostral e ao mesmo tempo não faz parte de A será sempre igual a um. É o mesmo que dizer que a probabilidade de um evento A pode ser calculada fazendo “1 – P( A )”, ou seja, um menos a probabilidade de A não ocorrer. Esta propriedade é útil em situações em que a probabilidade de A é mais fácil de ser obtida do que a probabilidade de A. P(A) + P( A ) = 1 (iv) A probabilidade da união de dois eventos é igual a soma da probabilidade do evento A mais a probabilidade do evento B – a probabilidade da interseção entre os dois (se não existir interseção, este item é igual a zero). Esta propriedade é útil quando interessa calcular a probabilidade de que pelo menos um entre dois eventos ocorra. Em linguagem informal, podemos dizer que utilizamos esta propriedade quando serve pelo menos um dos eventos A ou B ocorrer. P(A∪B) = P(A) + P(B) - P(A∩B) Em particular, quando os eventos forem disjuntos (nunca ocorrerem ao mesmo tempo), a probabilidade da união entre dois ou mais eventos é sempre a soma da probabilidade de cada um deles: P(A∪B∪...) = P(A) + P(B) + ... (v) A probabilidade da interseção entre dois eventos é igual a multiplicação do evento A pelo evento B, se os dois eventos forem independentes; se o evento B depender do evento A, a probabilidade do evento B deve ser obtida considerando a ocorrência do evento A (isto é representado por P(B|A)). Em linguagem informal, podemos dizer que utilizamos esta propriedade quando tanto o evento A como B devem ocorrer. P(A∩B) = P(A) x P(B), se A e B forem independentes, ou P(A∩B) = P(A) x P(B|A), se B depender de A. Dois eventos serão considerados independentes, quando a ocorrência de um não alterar a probabilidade de ocorrência do outro e, vice versa. 1. Numa equipe de marketing composta por 5 profissionais, sendo 2 mulheres e três homens, um dos cinco profissionais será sorteado e receberá uma bolsa de estudos para um curso específico em Londres. Qual a probabilidade de ser sorteada uma profissional mulher? RESOLUÇÃO: sendo evento A = profissional mulher 4,0 5 2)( === possíveiscasosdenúmero favoráveiscasosdenúmeroAP Resposta: A probabilidade de ser sorteada uma profissional mulher é 0,4, ou, 40%. EXEMPLOS 18 2. A cada 10 paradas de um sistema computacional, 7 são causadas por erros de programa. Se for investigada uma parada desse sistema ao acaso, qual a probabilidade dela não ser causada por erros de programa? RESOLUÇÃO: sendo evento A = parada onde a causa não é erro do sistema 3,0 10 3)( === possíveiscasosdenúmero favoráveiscasosdenúmeroAP Resposta: A probabilidade da parada não ser causada por erros de programa é 0,3, ou, 30%. 3. O número de pessoas numa fila pode ser “zero” com probabilidade 0,1, pode ser “um” com probabilidade 0,35, pode ser “dois” com probabilidade 0,4 e pode ser “três” com probabilidade 0,12. Qual a probabilidade de haver mais de três pessoas nesta fila? RESOLUÇÃO: Este problema tem sua solução usando a propriedade do complementar: P(A) + P( A ) = 1, sendo evento A = mais de três pessoas na fila e evento A = de 0 a 3 pessoas na fila. Então, pela propriedade da união de eventos disjuntos: P( A ) = P (ter 0 ou 1 ou 2 ou 3 pessoas na fila) = P(A ∪ B ∪ C ∪ D) = 0,1 + 0,35 + 0,4 + 0,12 = 0,97 Se P(A) + P( A ) = 1 ! P(A) = 1 - P( A ) = 1 – 0,97 = 0,03 Resposta: A probabilidade de haver mais de três pessoas nesta fila é 0,03, ou, 3%. 4. Ao jogar um dado duas vezes consecutivas, qual a probabilidade de ocorrer a seqüência 6,6? RESOLUÇÃO: Este problema tem sua solução usando a propriedade da interseção de dois eventos independentes: P(A∩B) = P(A) x P(B) Sendo, evento A = ocorrer face 6 na 1ª jogada e evento B = ocorrer face 6 na 2ª jogada: P(ocorrer face 6 na 1ª jogada ∩ ocorrer face 6 na 2ª jogada) = P(ocorrer face 6 na 1ª jogada) x P(ocorrer face 6 na 2ª jogada) = 0278,0 36 1 6 1 6 1 ==x Resposta: A probabilidade de ocorrer a seqüência 6,6é 0,0278, ou, 2,78%. 5. Para um determinado trajeto, a probabilidade de uma carga chegar atrasada é 0,08. Considere três entregas (independentes uma da outra) que fazem este trajeto e calcule a probabilidade de que exatamente nenhuma delas chegue atrasada. RESOLUÇÃO: Este problema tem sua solução usando a propriedade da interseção de três eventos independentes: P(A∩B∩C) = P(A) x P(B) x P(C) Sendo, evento A = entrega chegar atrasada, onde P(A)=0,08 e B = entrega chegar no prazo, onde P(B) =1-P(A) = 1-0,08=0,92: P(entrega 1 chegar no prazo ∩ entrega 2 chegar no prazo ∩ entrega 3 chegar no prazo) = P(entrega 1 chegar no prazo) x P(entrega 2 chegar no prazo) x P(entrega 3 chegar no prazo) = 7787,092,092,092,0 =xx Resposta: A probabilidade de nenhuma das três chegar atrasada é 0,7787, ou, 77,87%. 6. Para um determinado trajeto, a probabilidade de uma carga chegar atrasada é 0,08. Considere três entregas (independentes uma da outra) que fazem este trajeto e calcule a probabilidade de que exatamente uma delas chegue atrasada. RESOLUÇÃO: Este problema tem sua solução usando conjuntamente a propriedade da interseção de três eventos independentes e da união da diferentes combinações de entregas. Sendo, evento A = entrega chegar atrasada, onde P(A)=0,08 e B = entrega chegar no prazo, onde P(B) =1-P(A) = 1-0,08=0,92: P(entrega 1 chegar atrasada ∩ entrega 2 chegar no prazo ∩ entrega 3 chegar no prazo 19 ∪ entrega 1 chegar no prazo ∩ entrega 2 chegar atrasada ∩ entrega 3 chegar no prazo ∪ entrega 1 chegar no prazo ∩ entrega 2 chegar no prazo ∩ entrega 3 chegar atrasada) = 2031,0082,092,092,092,008,092,092,092,008,0 =++ xxxxxx Resposta: A probabilidade de uma das três chegar atrasada é 0,2031, ou, 20,31%. 7. Considere uma urna com 20 bolas pretas e 10 brancas. Se forem sorteadas duas bolas, sem reposição, qual a probabilidade de ambas serem brancas? RESOLUÇÃO: Este problema tem sua solução usando a propriedade da interseção de dois eventos dependentes. P(Branca no 1º sorteio ∩ Branca no 2º ) = P(Branca no 1º sort.) x P( Branca 2º sort. | Branca no 1º sort.) = 1034,0 29 9 30 10 =x Resposta: A probabilidade de ambas serem brancas é 0,1034, ou, 10,34%. 8. Considere uma urna com 20 bolas pretas e 10 brancas. Se forem sorteadas duas bolas, sem reposição, qual a probabilidade de exatamente uma ser branca? RESOLUÇÃO: Este problema tem sua solução usando conjuntamente a propriedade da interseção de dois eventos dependentes e da união da diferentes combinações de bolinhas. P(B no 1º sort .∩ P no 2º sort. ∪ P no 1º sort .∩ B no 2º sort.) = P(B no 1º sort.) x P( P 2º sort. | B no 1º sort.) + P(P no 1º sort.) x P( B 2º sort. | P no 1º sort.) = 4598,0 29 10 3020 29 20 30 10 =+ xx Resposta: A probabilidade de exatamente uma ser branca é 0,4598, ou, 45,98%. 9. Considere uma empresa com um sistema de comunicação que está disponível a todos 230 funcionários. Destes 230 funcionários, 92 são usuários permanentes do sistema, enquanto os outros são usuários casuais. Se forem sorteados dois funcionários, sem reposição, qual a probabilidade de um deles ser usuário permanente e outro ocasional? RESOLUÇÃO: Este problema tem sua solução usando conjuntamente a propriedade da interseção de dois eventos dependentes e da união da diferentes combinações de funcionários. Sendo, evento A = usuário permanente e B = usuário ocasional: P(A no 1º sorteio ∩ B 2º sorteio ∪ B no 1º sorteio ∩ A no 2º sorteio) = P(A no 1º sort.) x P( B 2º sort. | A no 1º sort.) + P( B no 1º sort. x P( A 2º sort. | B no 1º sort.) = 4821,0 229 92 230 138 229 138 230 92 =+ xx Resposta: A probabilidade de um deles ser usuário permanente e outro ocasional é 0,4821, ou, 48,21%. 10. Considere um sistema que, para funcionar, precisa passar do estado E para o estado S. Isto ocorre passando por componentes que funcionam cada um com probabilidade 0,95 e que são independentes um do outro. Calcule a probabilidade de funcionamento do sistema nos casos a seguir: a) E S RESOLUÇÃO: Este problema tem sua solução usando a propriedade da interseção de dois eventos independentes, pois podemos dizer que, para o sistema funcionar, é necessário que o componente A esteja bom e que o componente B esteja bom. P(Abom ∩ Bbom) = P(Abom) x P(Bbom) = 9025,095,095,0 =x Resposta: A probabilidade do sistema funcionar é 0,9025, ou, 90,25%. b) E S A B A B 20 RESOLUÇÃO 1: Este problema pode ter sua solução usando a propriedade da união de dois eventos pois, podemos dizer que, para o sistema funcionar, basta que pelo menos um dos componentes A ou B esteja bom. P(Abom ∪ Bbom) = P(Abom) + P(Bbom) - P(Abom ∩ Bbom) = 9975,09025,095,095,0 =−+ RESOLUÇÃO 2: Este problema também pode ter sua solução usando a propriedade do complementar pois, podemos dizer que, para o sistema não funcionar, os componentes A e B têm que falhar. P(A) + P( A ) = 1, sendo evento A = sistema ok e evento A = sistema ñok. Então, P( A ) = P (sistema ñok) = P(Afalhar ∩ Bfalhar) = 0025,005,005,0 =x Se P(A) + P( A ) = 1 ! P(A) = 1 - P( A ) = 1 – 0,0025 = 0,9975 Resposta: A probabilidade do sistema funcionar é 0,9975, ou, 99,75%. c) E S RESOLUÇÃO: Este problema pode ter sua solução usando a propriedade do complementar pois, podemos dizer que, para o sistema não funcionar, os componentes A, B e C têm que falhar. P(A) + P( A ) = 1, sendo evento A = sistema ok e evento A = sistema ñok. Então, P( A ) = P (sistema ñok) = P(Afalhar ∩ Bfalhar ∩ Cfalhar) = 0001,005,005,005,0 =xx Se P(A) + P( A ) = 1 ! P(A) = 1 - P( A ) = 1 – 0,0001 = 0,9999 Resposta: A probabilidade do sistema funcionar é 0,9999, ou, 99,99%. d) E S RESOLUÇÃO: Este problema pode ter sua solução considerando que numa primeira etapa, para o sistema funcionar, basta que pelo menos um dos componentes A ou B esteja bom e depois, numa segunda etapa, o componente C tem que estar bom. P((Abom ∪ Bbom) ∩ Cbom) = 9476,095,09975,0 =x Resposta: A probabilidade do sistema funcionar é 0,9476, ou, 94,76%. 2.1.6 Valor esperado de uma variável Sempre que uma variável com número finito de eventos no espaço amostral tiver probabilidade conhecida de ocorrer (para cada um dos eventos possíveis), é possível obter o que denominamos de esperança matemática, ou, valor esperado da variável. A esperança matemática (valor esperado) de uma variável X é dado por ∑ == )(.)( ii xXPxXE . O valor esperado de uma variável representa uma estimativa de sua média para situações em que o respectivo experimento possa ser repetido infinitas vezes (ou pelo menos uma grande quantidade de vezes). Um gerente quer estimar a demanda média diária de um produto. Ele tem conhecimento que a demanda diária obedece as seguintes probabilidades: X: demenda P(X) 0 0,5 1 0,4 2 0,09 3 0,01 Total: 1 A B C B A C EXEMPLO S 21 Estas probabilidades indicam que a tendência média da demanda fica em torno de 0 ou 1 produto por dia. Se for calculado o valor esperado de X, podemos ter uma estimativa mais precisa desta média: 61,001,0309,024,015,00)(.)( =+++===∑ xxxxxXPxXE ii Então, é esperado que, em média, seja vendida 0,61 unidade do produto por dia (ou seja, espera-se vender 61 unidades a cada 100 dias). 2.1.7 Probabilidade no processo de seleção de amostras Um dos principais interesses da estatística é poder obter estimativas da população, a partir de uma amostra, que sejam confiáveis. Medir a confiabilidade de uma estimativa está associado ao cálculo da probabilidade de uma estimativa acertar o valor que está procurando estimar. Esta seção apresenta uma simulação que mostra como uma amostra aleatória (acidental) pode ou não obter uma boa estimativa da população. 2.1.7.1 Simulação Considere uma população composta por 100 empresas, sendo 30 delas endividadas. Supondo que esta informação fosse desconhecida, poderíamos querer obter uma amostra que trouxesse uma estimativa do percentual de empresas que está endividada. A presente simulação tem por objetivo mostrar a probabilidade de uma amostra ter uma estimativa razoavelmente próxima do verdadeiro valor (que é de 30%), onde consideraremos aceitável um erro de estimativa de até 10% para mais ou para menos. Se for aceitável errar em até 10% para mais ou para menos, quer dizer que para uma amostra de tamanho n=10, seria aceitável aparecer 2,3 ou 4 empresas endividadas, pois, neste caso, teríamos estimativas iguais a 20%, 30% ou 40% (ou seja, com erro máximo de 10% para mais ou para menos). A partir destas constatações, podemos calcular a probabilidade de, ao sortear 10 empresas (com reposição) da tal população, saírem exatamente 2, ou 3, ou 4 que estejam endividadas: Considere A:empresa sem dívidas e B:empresa endividada. P(2 serem endividadas) = P( B∩B∩A∩A∩A∩A∩A∩A∩A∩A ∪ B∩A∩B∩A∩A∩A∩A∩A∩A∩A ∪ B∩A∩A∩B∩A∩A∩A∩A∩A∩A ∪ B∩A∩A∩A∩B∩A∩A∩A∩A∩A ∪ ... ∪ ∪ A∩A∩A∩A∩A∩A∩A∩A∩B∩B = 0,3 x 0,3 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 + 0,3 x 0,7 x 0,3 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 + ...+ + 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,3 x 0,3 = 0,2335 P(3 serem endividadas) = P( B∩B∩B∩A∩A∩A∩A∩A∩A∩A ∪ B∩B∩B∩A∩A∩A∩A∩A∩A∩A ∪ B∩B∩A∩B∩A∩A∩A∩A∩A∩A ∪ B∩B∩A∩A∩B∩A∩A∩A∩A∩A ∪ ... ∪ 22 ∪ A∩A∩A∩A∩A∩A∩A∩B∩B∩B = 0,3 x 0,3 x 0,3 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 + 0,3 x 0,3 x 0,7 x 0,3 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 + ...+ + 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,3 x 0,3 x 0,3 = 0,2668 P(4 serem endividadas) = P( B∩B∩B∩B∩A∩A∩A∩A∩A∩A ∪ B∩B∩B∩A∩B∩A∩A∩A∩A∩A ∪ B∩B∩B∩A∩A∩B∩A∩A∩A∩A ∪ B∩B∩B∩A∩A∩A∩B∩A∩A∩A ∪ ... ∪ ∪ A∩A∩A∩A∩A∩A∩B∩B∩B∩B = 0,3 x 0,3 x 0,3 x 0,3 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 + 0,3 x 0,3 x 0,3 x 0,7 x 0,3 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 + ...+ + 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,7 x 0,3 x 0,3 x 0,3 x 0,3 = 0,2001 P( 2 OU 3 OU 4 ) = 0,2335 + 0,2668 + 0,2001 = 0,7004 Ou seja, se uma amostra aleatória de tamanho n=10 for retirada desta população, haverá uma confiabilidade de 70,04% de que a estimativa obtida terá um erro de no máximo 10% para mais ou para menos em relação ao verdadeiro valor da população. O quadro 8.1 mostra a simulação (para a mesma população) com tamanhos de amostra diferentes. São calculados os níveis de confiabilidade, mantendo sempre um erro máximo de estimativa de 10% para mais ou para menos. O que se percebe é que, aumentando o tamanho da amostra, aumenta também o nível de confiança daestimativa. No entanto, deve ser notado que se a amostra for de tamanho n=10, a confiabilidade fica em torno de 70% e, se a amostra for de tamanho n=50, a confiabilidade fica em torno de 91%. Ou seja, apesar do tamanho da amostra ter aumentado 5 vezes nesta comparação (de 10 para 50), o nível de confiança aumentou 1,3 vezes (de 70% para 91%). Isto mostra que muitas vezes, um aumento no tamanho da amostra, não vai trazer benefício suficiente para justificar o custo desta decisão. Quadro 8.1 – Resultado da confiabilidade para diferentes tamanhos de amostra Tamanho da amostra (n) Quantidade de empresas que mantém o erro máximo de 10% para mais ou para menos CONFIABILIDADE 10 2 a 4 70,04% 15 3 a 6 74,20% 20 4 a 8 77,96% 30 6 a 12 83,89% 50 10 a 20 91,20% 23 2.1.8 PROBABILIDADE CONDICIONAL E EVENTOS INDEPENDENTES Definição 2: Dados dois eventos A e B, a probabilidade condicional de B dado A é o número obtido por: )A(P )BA(P)A/B(P ∩∩∩∩==== Obs.: este número está definido somente quando P(A) > 0. A equação acima também pode ser escrita como: P(A ∩∩∩∩ B) = P(A) . P(B/A) Proposição 5: Seja A tal que P(A) > 0. Então: a) 0)A/(P ====φφφφ , 1)A/(P ====ΩΩΩΩ , 1)A/B(P0 ≤≤≤≤≤≤≤≤ ; b) P((B ∪ C)/A) = P(B/A) + P(C/A), se B ∩ C = φφφφ Proposição 6: (Teorema do Produto) Se P(A1 ∩ A2 ∩ ... ∩ An) ≠≠≠≠ 0, então P(A1 ∩ A2 ∩ ... ∩ An) = P(A1) . P(A2 / A1 ) . P(A3 / (A1 ∩ A2))...P(An / A1 ∩ A2 ∩ ... ∩ An-1) Proposição 7: (Teorema da Probabilidade Total) Se B é um evento contido numa união de eventos disjuntos A1, A2 , ..., An e P(A1 ) >0, P(A2) > 0, ..., P(An) > 0, então P(B) = P(A1) . P(B / A1 ) + P(A2) . P(B / A2 ) + ... + P(An) . P(B / An ) Proposição 8: (Teorema de Bayes) Nas condições da proposição anterior, se P(B) > 0, então, para i, i=1, 2, ..., n, P(Ai/B) )/().(...)/().()/().( )/().( 2211 nn ii ABPAPABPAPABPAP ABPAP +++ = Exemplo 1: Três sistemas são utilizados em paralelo para manter o funcionamento de um equipamento. O sistema A tem probabilidade de falha 0,02, e os sistemas B e C têm respectivamente probabilidades de falha de 0,03 e 0,05. Se um dos três sistemas estiver com falha, o equipamento acenderá uma luz avisando sobre o problema (considere que as falhas dos sistemas não ocorrem simultaneamente). Responda: 24 a) Sabendo que o equipamento está acusando problema, qual a probabilidade de que o sistema A esteja apresentando falha: Pelo Teorema de Bayes: P(Af/E. tem problema) )/_.().()/_.().()/_.().( )/_.().( ffffff ff CproblematemEPCPBproblematemEPBPAproblematemEPAP AproblematemEPAP ++ = )_.()_.()_.( )_.( problematemECPproblematemEBPproblematemEAP problematemEAP fff f ∩+∩+∩ ∩ = 2,0 10 2 532 2 100 5. 3 1 100 3. 3 1 100 2. 3 1 100 2. 3 1 == ++ = ++ = ou seja, R: 20% b) Sabendo que o equipamento está acusando problema, qual a probabilidade de que o sistema B esteja apresentando falha: Pelo Teorema de Bayes: P(Bf/E. tem problema) )/_.().()/_.().()/_.().( )/_.().( ffffff ff CproblematemEPCPBproblematemEPBPAproblematemEPAP BproblematemEPBP ++ = )_.()_.()_.( )_.( problematemECPproblematemEBPproblematemEAP problematemEBP fff f ∩+∩+∩ ∩ = 3,0 10 3 532 3 100 5. 3 1 100 3. 3 1 100 2. 3 1 100 3. 3 1 == ++ = ++ = ou seja, R: 30% c) Sabendo que o equipamento está acusando problema, qual a probabilidade de que o sistema C esteja apresentando falha: Pelo Teorema de Bayes: P(Cf/E. tem problema) )/_.().()/_.().()/_.().( )/_.().( ffffff ff CproblematemEPCPBproblematemEPBPAproblematemEPAP CproblematemEPCP ++ = )_.()_.()_.( )_.( problematemECPproblematemEBPproblematemEAP problematemECP fff f ∩+∩+∩ ∩ = 5,0 10 5 532 5 100 5. 3 1 100 3. 3 1 100 2. 3 1 100 5. 3 1 == ++ = ++ = ou seja, R: 50% 25 Exemplo2. Consideremos dois dados: um deles equilibrado e outro viciado com P(1) = ½, P(2) = P(3) = P(4) = P(5) = P(6) = 1/10. Escolhe-se um dos dados ao acaso e se efetuam dois lançamentos, obtendo-se dois uns. Qual a probabilidade condicional de que o dado escolhido tenha sido o viciado? Pelo Teorema de Bayes: P(viciado/saiu 1,1) )/1,1().()/1,1().( )/1,1().( normalsaiuPnormalPviciadosaiuPviciadoP viciadosaiuPviciadoP + = )1,1()1,1( )1,1( saiunormalPsaiuviciadoP saiuviciadoP ∩+∩ ∩ = 9,0 10 9 19 9 72 1 72 9 72 9 6 1. 6 1. 2 1 2 1. 2 1. 2 1 2 1. 2 1. 2 1 == + = + = + = ou seja, R: 90% Definição 3: Dois eventos A e B são chamados independentes se P(A ∩ B) = P(A).P(B) Isto equivale a dizer que a probabilidade condicional de B dado A é igual a probabilidade de B, ou seja, P(B/A) = P(B). (Para P(A)>0) Em outra palavras, dizemos que um evento B é independente de A, quando a ocorrência de A não altera a probabilidade de ocorrência de B. 26 EXERCÍCIOS CAPÍTULO 2 1. Uma urna contém 5 bolas brancas, 4 bolas amarelas e 3 bolas verdes. Serão retiradas, com reposição, duas bolas. Qual a probabilidade de: a) As duas serem brancas. b) A primeira ser branca e a segunda amarela. c) Uma ser branca e outra amarela, independente da ordem de retirada. d) Ambas serem da mesma cor. e) Ser uma de cada cor. 2. Uma urna contém 5 bolas brancas, 4 bolas amarelas e 3 bolas verdes. Serão retiradas, sem reposição, duas bolas. Qual a probabilidade de: a) Uma ser branca e outra amarela, independente da ordem de retirada. b) Ambas serem da mesma cor. 3. Uma urna contém 5 bolas brancas, 4 bolas amarelas e 3 bolas verdes. Serão retiradas, sem reposição, três bolas. Qual a probabilidade de: a) Duas serem brancas e outra amarela, independente da ordem de retirada. b) Ambas serem da mesma cor. 4. Uma urna contém 70 bolas brancas e 30 bolas verdes. Serão retiradas, com reposição, 10 bolas. Qual a probabilidade de: a. Todas serem brancas. b. Todas serem verdes. c. Exatamente uma delas ser verde. d. Pelo menos uma ser verde. 5. Uma página web contém, em geral, referência (links) a outras páginas. Suponha que um usuário, ao acessar uma página, clique em qualquer uma das referências com probabilidade p=0,15. Com probabilidade (1-p) nosso usuário desiste de clicar em uma das referências e acessa diretamente uma outra página (digitando uma nova URL, por exemplo). Responda: a) Dado que um usuário está acessando uma determinada página, calcule a probabilidade do usuário solicitar exatamente 3 páginas clicando em referências e depois acessar diretamente outra página. b) Generalize a probabilidade anterior para K páginas. Ou seja, qual será a probabilidade do usuário solicitar K páginas clicando em referências e depois acessar diretamente outra página. 6. Considere os sistemas abaixo e seus componentes (cada componente tem probabilidade de funcionamento independente um do outro de 0,90). Responda para cada sistema, qual sua probabilidade de passar do estado A para o estado B. 27 a) b) c) d) e) f) g) 7. Uma companhia produz circuitos integrados em três fábricas, I, II e III. A fábrica I produz 40% dos circuitos, enquanto a II e a III produzem 30% cada uma. As probabilidades de que um circuito integrado produzido por estas fábricas não funcione são 0,01, 0,04 e 0,03 respectivamente. Escolhido um circuito da produção conjunta das três fábricas ao acaso, verificou-se que ele não funciona. Qual a probabilidade condicional dele ter sido produzido pela fábrica A? A B A B A B A B A B A B A B 28 8. O suporte de um sistema de informática específico observou que numa empresa que adquiriu o sistema há dois meses há 3 usuários: A, B e C. Dentre as solicitações de suporte desta empresa, 45% são feitas pelo usuário A, 20% pelo usuário B e o restante pelo usuário C. Para cada solicitação de suporte é verificado se há um problema ou dúvida em relação ao sistema, ou se ocorreu um problema ou dúvida decorrente da falta de conhecimentosbásicos em informática dos usuários. Pelos registros, o usuário A tem 60% de suas solicitações devidas a falta de conhecimentos básicos em informática; o usuário B tem 10% pelo mesmo motivo; e, o usuário C tem 35 %. a) Qual a probabilidade de uma nova solicitação ser do usuário B e ser decorrente de problema ou dúvida em relação ao sistema? b) Sabendo que uma nova solicitação correu devido a falta de conhecimentos básicos em informática, qual a probabilidade condicional de que tenha sido do usuário B? RESPOSTAS: 1. a) 0,1736 b) 0,1389 c) 0,2778 d) 0,3472 e) 0,6528 2. a) 0,3030 b) 0,2879 3. a) 0,1818 b) 0,0682 4. a) 0,0282 b) 0,000005904 c) 0,1211 d) 0,9718 5. a) 0,0029 b) 0,15k.0,85 6. a) 0,81 b) 0,729 c) 0,99 d) 0,999 e) 0,891 f) 0,8829 g)0,980019 7. 0,16 8. a) 0,18 b) 0,0485 29 3. DISTRIBUIÇÕES DE PROBABILIDADE 3.1 VARIÁVEIS ALEATÓRIAS DISCRETAS Uma variável aleatória é considerada discreta se puder assumir um número finito de valores, ou ainda, se assumir uma seqüência infinita tal como 0, 1, 2,... Exemplo 1: Considere um experimento onde se verifica o número de carros que passam por um posto de pedágio n decorrer de uma hora. Os possíveis valores de X vêm da seqüência 0, 1, 2, e assim por diante. X é uma variável aleatória discreta que assume um dos valores nesta seqüência infinita. A distribuição de probabilidade para uma variável aleatória discreta descreve como as probabilidades estão distribuídas sobre os valores da variável. Para uma variável aleatória discreta X, a distribuição de probabilidades é definida por uma função de probabilidade, denotada por f(x). 3.2 DISTRIBUIÇÕES DE PROBABILIDADE DE VARIÁVEIS ALEATÓRIAS DISCRETAS Como já foi descrito anteriormente, para uma variável aleatória discreta X, a distribuição de probabilidades é definida por uma função de probabilidade, denotada por f(x). Algumas situações específicas se repetem com freqüência em aplicações e, por isso, têm sua função de probabilidade escrita na forma de uma equação matemática. A seguir temos o detalhamento das distribuições discretas mais importantes. 3.2.1 Distribuição Binomial A distribuição binomial é adequada para descrever situações em que os resultados de uma variável aleatória podem ser agrupados em apenas duas classes ou categorias. As categorias devem ser mutuamente excludentes, de forma que não haja dúvidas na classificação do resultado da variável nas categorias e, coletivamente exaustivas, de forma que não seja possível nenhum outro resultado diferente das categorias. Por exemplo, um produto manufaturado pode ser classificado como perfeito ou defeituoso, a resposta de um questionário pode ser verdadeira ou falsa, as chamadas telefônicas podem ser locais ou interurbanas. Mesmo as variáveis contínuas podem ser divididas em duas categorias, como, por exemplo, a velocidade de um automóvel pode ser classificada como dentro ou fora do limite legal. Geralmente, denomina-se as duas categorias como sucesso ou falha. Como as duas categorias são mutuamente excludentes e coletivamente exaustivas: 30 1)()( =+ falhaPsucessoP Conseqüentemente, sabendo-se que, por exemplo, a probabilidade de sucesso é P(sucesso) = 0,6, a probabilidade de falha é P(falha) = 1 - 0,6 = 0,4. A distribuição binomial será útil sempre que quisermos conhecer a probabilidade de um evento ocorrer x vezes em n provas. Por exemplo, a probabilidade de obter 45 retornos a 400 questionários distribuídos em um estudo; a probabilidade de que dentre 20 entregas, 18 cheguem dentro do prazo estabelecido (considerando que todas as entregas fazem o mesmo percurso e sob as mesmas condições); a probabilidade de ocorrerem 15 caras em 35 jogadas consecutivas de uma moeda; a probabilidade de 5 em 100 peças de um lote apresentarem defeito. Condições de aplicação do modelo binomial a) são feitas n repetições do experimento, onde n é uma constante; b) há apenas dois resultados possíveis em cada repetição, denominados sucesso e falha; c) a probabilidade p de um sucesso e (1-p) de falha permanece constante em todas as repetições; d) as repetições são independentes, ou seja, o resultado de uma repetição não é influenciado pela ocorrência ou não dos outros resultados. Seja um processo composto de uma seqüência de n observações independentes com probabilidade de sucesso constante igual a p, a distribuição do número de sucessos seguirá o modelo Binomial: xnx pp x n xP −− = )1()( , para x = 0, 1, 2, ...,ou n. Obs: )!(! ! xnx n x n − = , representa o número de combinações de n objetos tomados x de cada vez. Os parâmetros da distribuição Binomial são n e p. A média e a variância são calculadas como: npXE == ][µ e )1(2 p np −=σ A distribuição Binomial é usada com freqüência no controle de qualidade de produtos e serviços. É o modelo apropriado quando a amostragem é feita sobre uma população infinita ou muito grande. Nas aplicações de controle da qualidade, x em geral representa o número de problemas/defeitos observados em uma amostra de n serviços/produtos. Por exemplo, as entregas realizadas para uma empresa que têm sempre o mesmo destino e as mesmas condições gerais têm ocorrido dentro do prazo em 86% dos pedidos. Se são prometidas 20 entregas deste tipo, qual a probabilidade de que exatamente 15 ocorram no prazo indicado? E qual deve ser a quantidade de entregas no prazo mais provável de ocorrer? 31 Neste caso, p= 0,86 e n = 20, a probabilidade de obter x entregas no prazo é calculada usando xnx pp x n xP −− = )1()( , para x=15: 0868,0)86,01(86,0 15 20 )15( 515 =− =P Então a probabilidade de ocorrer 15 entregas no prazo dentre 20 é de 0,0868, ou seja, tem 8,68% de chance disto ocorrer. Já a quantidade de entregas no prazo mais provável de ocorrer será dada por npXE == ][µ = 20 x 0,86 = 17,2 entregas, ou seja espera-se que dentre 20 entregas, 17 ocorram no prazo. Exercícios: 1) Qual a probabilidade de que todas as 20 entregas do exemplo anterior ocorram no prazo? 2) Sabe-se, por um histórico, que 13 % dos computadores comprados de um fabricante apresentam defeito no primeiro ano de uso. Determine as probabilidades de que, dentre 12 computadores comprados num determinado dia, no máximo 2 apresentem defeito no primeiro ano de uso. 3.2.2 Distribuição Poisson A distribuição de Poisson é adequada para descrever situações onde existe uma probabilidade de ocorrência em um campo ou intervalo contínuo, geralmente tempo ou área. Por exemplo, o número de acidentes por mês, o número de defeitos por metro quadrado, número de sanduíches pedidos por hora, número de clientes atendidos por hora, etc. A variável aleatória envolvida é discreta (número de ocorrências), no entanto, a unidade de medida é contínua (tempo, área). Além disso, as falhas não são contáveis, pois não é possível contar o número de acidentes que poderiam ocorrer, e nem mesmo o número de defeitos que não ocorreram. A distribuição de Poisson fica completamente caracterizada por um único parâmetro λ que representa a taxa média de ocorrência por unidade de medida. Condições para a aplicação do modelo de Poisson: No excel: =DISTRBINOM(x;n;p;FALSO) ou seja: =DISTRBINOM(15;20;0,86;FALSO) 32 a) número de ocorrências durante qualquer intervalo depende somente da extensão do intervalo; b) as ocorrências ocorrem independentemente, ou seja, um excesso ou falta de ocorrências em algum intervalo não exerce efeito sobre o número de ocorrências em outro intervalo; c) a possibilidade de duas ou mais ocorrências acontecerem em um pequeno intervalo é muito pequena quando comparada à de uma única ocorrência. A equação para calcular a probabilidade de x ocorrências é dada por: ! )( x exP xλλ−= x = 0, 1,.... A média e a variância da distribuição de Poisson são: λµ = e λσ =ˆ . Como um exemplo, suponha que o número de óbitos semanais na emergência de um hospital siga uma distribuição de Poisson com λ = 3. Então, a probabilidade que uma semana apresente: a) exatamente três 4 óbitos será: ! )( x exP xλλ− = onde x= 4 e λ = 3, então: 1680,0 24 81.0497870,0 !4 3)4( 43 === −eP b) mais de três óbitos será: Exercícios: 1) Se uma loja recebe, em média, 2 cheques sem cobertura por dia, qual é a probabilidade de receber quatro cheques sem cobertura em um dia qualquer? E qual a probabilidade de receber quatro ou mais cheques sem cobertura em um dia qualquer? 2) A demanda média de quantidade de uma determinada peça num estoque é 5 por dia (seguindo uma distribuição de Poisson). Qual a probabilidade de que num certo dia, esta demanda seja de 8 peças? No excel: =1-POISSON(x;média;VERDADEIRO) ou seja: =1-POISSON(4;3;VERDADEIRO) { } 3528,06472,01]224042,0224042,0149361,0049787,0[1 !3 2 !2 2 !1 2 !0 2[131 33231303 =−=+++− =+++−=≤− −−−− eeeeXP 33 3.3 VARIÁVEIS ALEATÓRIAS CONTÍNUAS Uma diferença fundamental separa as variáveis aleatórias discretas e as contínuas em termos do cálculo das probabilidades. Para as discretas, a função de probabilidade f(x) indica a probabilidade de que a variável assuma um valor particular. As variáveis aleatórias contínuas podem ser analisadas pela função densidade de probabilidade f(x), porém, esta função não indica exatamente a probabilidade daquele valor ocorrer, mas representa uma linha num gráfico, onde a área sob ela e entre dois pontos especificados de X, representa a probabilidade do respectivo intervalo de valores de X. Uma das implicações da definição de probabilidades para as variáveis aleatórias contínuas é que a probabilidade de qualquer valor particular da variável aleatória é zero, pois a área sob o gráfico de f(x) em qualquer ponto particular é zero. Desta forma, será especialmente importante conhecermos F(x), a função massa de probabilidade ou função de distribuição acumulada. 3.4 DISTRIBUIÇÕES DE PROBABILIDADE DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS Para uma variável aleatória contínua X, a distribuição de probabilidades é definida por uma função densidade, denotada por f(x) e também, a respectiva função acumulada F(x). Algumas situações específicas se repetem com freqüência em aplicações e, por isso, têm sua função escrita na forma de uma equação matemática. A seguir temos o detalhamento das distribuições contínuas mais importantes. 3.4.1 Distribuição Uniforme Diz-se que uma variável aleatória é uniformemente distribuída em bxa ≤≤ , se sua função de densidade é ≤≤ −= contráriocaso0 bxa )ab( 1 )x(f Assim, se quisermos conhecer a função de distribuição acumulada, temos: ≥ <≤ < − − = bx bxa ax 1 )ab( )ax( 0 )x(F 34 A esperança e o desvio-padrão da distribuição Uniforme são calculados usando: )( 2 1 )( baXE +== µ e 2)( 12 1 ab −=σ Exemplo: considere X o tempo de vôo de um aeroplano viajando entre a origem A e o destino B. Suponha que o tempo de vôo pode ser qualquer valor no intervalo de 120 até 140 minutos. Assumindo que os dados de vôos reais mostram que a probabilidade de um tempo total de vôo desta rota ocorrer no intervalo de um minuto é a mesma para qualquer intervalo de 1 minuto de 120 até 140 minutos. Com todos intervalos de 1 minuto dentre do especificado sendo igualmente prováveis, dizemos que a variável aleatória X tem distribuição Uniforme com a=120 e b=140. assim temos: Função densidade: ≤≤= contráriocaso xxf 0 140120 20 1 )( Função acumulada: ≥ <≤ < − = 140 140120 120 1 20 )120( 0 )( x x x xxF Se quisermos conhecer a probabilidade de um vôo desta rota ter tempo total entre 120 e 130 minutos, utilizamos a F(x) com x=130: 5,0 20 10 20 )120130( 20 )120()130( ==−=−= xF Se quisermos conhecer a probabilidade de um vôo desta rota ter tempo total entre 125 e 130 minutos, utilizamos a F(30) – F(125): 5,0 20 10 20 )120130( 20 )120()130( ==−=−= xF 25,0 20 50 20 )120125( 20 )120()125( ==−=−= xF 25,025,05,0)125()130( =−=− FF Exercícios: 1) A altura que atinge um determinado tipo de planta que cresce sob determinadas condições, segue uma distribuição uniforme variando entre 73,0718cm e 86,9282cm. Qual a probabilidade de uma planta deste tipo obter uma altura de até 75cm? 2) A altura que atinge um determinado tipo de planta que cresce sob determinadas condições, segue uma distribuição uniforme com média 80 cm e desvio padrão 4cm. Qual a probabilidade de uma planta deste tipo obter uma altura de até 75cm? 35 3.4.2 Distribuição Exponencial Na distribuição de Poisson, a variável aleatória é definida como o número de ocorrências em determinado período, sendo a média das ocorrências no período definida como λ. Na Distribuição Exponencial, a variável aleatória é definida como o tempo entre duas ocorrências, sendo o tempo médio entre ocorrências igual a 1/λ. Por exemplo, se a média de atendimentos no caixa bancário é de λ = 6 atendimentos por minuto, então o tempo médio entre atendimentos é 1/λ = 1/6 de minuto ou 10 segundos. Se os questionamentos de probabilidade se referirem ao tempo entre as ocorrências, utilizamos o modelo exponencial. Se considerarmos a distribuição de Poisson como o modelo para o número de ocorrências de um evento no intervalo de [0, t] teremos: ! )()( x texP xt λλ− = e nesse caso pode ser demonstrado que a distribuição dos intervalos entre ocorrências irá seguir o modelo Exponencial com parâmetro λ. O modelo da distribuição Exponencial é dada por: 0;)( ≥= − t etf tλλ , onde λ > 0 é uma constante. A média e o desvio-padrão da distribuição Exponencial são calculados usando: λ µ 1 = e λ σ 1 = . A distribuição Exponencial acumulada ( a qual é utilizada para o cálculo das probabilidades) vem dada por: 0 1}{)( t0 ≥−==≤= −−∫ tedxetTPtF t x λλλ A distribuição Exponencial é largamente utilizada no campo da confiabilidade, como um modelo para a distribuição dos tempos até a falha de componentes. Nessas aplicações, o parâmetro λ representa a taxa de falha para o componente em uma unidade de tempo, e 1/λ é o tempo médio até a falha. Por exemplo, suponha que uma máquina falhe em média uma vez a cada dois anos (então a taxa anual é de λ=1/2=0,5 por ano). Calcule a probabilidade da máquina falhar durante o próximo ano. 0,39350,6065-11}1{)( 0,5x1 ==−=≤= −eTPtF A probabilidade de falhar no próximo ano é de 0,3935 e de não falhar no próximo ano é de 1-0,393=0,607. Ou seja, se forem vendidos 100 máquinas, 39,35% devem falhar no período de um ano. Exercícios: No excel: =DISTEXPON(x; λ;VERDADEIRO) ou seja: =DISTEXPON(1;0,5;VERDADEIRO) 36 1) Os tempos até a falha de um componente de uma máquina seguem o modelo Exponencial, com uma taxa de falha λ = 0,1 falhas/dia. a) Indique qual a probabilidade de um componente deste tipo falhar em até 3 dias. b) Indique qual a probabilidade de um componente deste tipo passar 5 dias sem falha. 2) O setor de manutenção dos caminhões de uma empresa verificou que precisa substituir 1 pneu a cada 3 dias úteis. Qual a taxa/dia de substituição? Qual a probabilidade de haver necessidade de substituição em dois dias? 3.4.5 Distribuição Normal A distribuição Normal é a mais importante das distribuições estatísticas, tanto na teoria como na prática. Uma das razões, é que a distribuição Normal representa a distribuição de freqüência de muitos fenômenos naturais. Outra razão é que a distribuição Normal serve como aproximação da distribuição Binomial, quando n é grande. No entanto, o motivo mais importante é que as médias e as proporções de grandes amostras segue a distribuiçãoNormal, como será visto no teorema do Limite Central. A distribuição de freqüência do modelo Normal apresenta forma de sino, é unimodal, simétrica em relação à sua média e tende assintoticamente a zero à medida que os valores se afastam da média. Ou seja, teoricamente os valores da variável aleatória podem variar de ∞+∞− a . Em termos de probabilidade de ocorrência, a área sob toda a curva normal soma 100%. A probabilidade de uma observação proveniente de uma variável aleatória normal assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos. Figura 1. Percentuais da distribuição normal 37 Uma conseqüência importante do fato de uma distribuição Normal ser completamente caracterizada por sua média e desvio-padrão é que a área sob a curva entre um ponto qualquer e a média é função somente do número de desvios-padrões que o ponto está distante da média. Dessa forma, o cálculo de probabilidades (área sob a curva) pode ser realizado através de uma distribuição Normal padronizada, onde o parâmetro é a variável reduzida Z, que representa o número de desvios-padrões distantes da média. A distribuição Normal pode ser representada por uma equação matemática dada por: 2 2 1 2 1)( −− Π = σ µ σ x exf A distribuição Normal acumulada é obtida calculando a probabilidade de X ser menor que um dado valor xo: ∫ ∞−==≤ ox oo dxxfxFxXP )()()( Essa integral não pode ser resolvida em forma fechada, mas a solução está apresentada em tabelas da distribuição Normal padronizada onde se entra com a variável reduzida Z (número de desvios-padrões distantes da média) e encontra-se F(Z) ou vice-versa. { } Tabelado )( ⇒= −≤=≤ ZFxZPxXP σ µ Exemplo1: O tempo para entrega de uma carga fazendo um determinado trajeto segue uma distribuição normal com média 35 minutos e desvio padrão 3 minutos? Qual a probabilidade de uma carga levar entre 35 e 40 minutos para ser entregue? P ( 35 < X < 40) = ? Com o auxílio de uma distribuição normal reduzida, isto é, uma distribuição normal de média= 0 e desvio padrão= 1. Resolveremos o problema através da variável z, onde σ µ− = Xz Temos, então, que se X é uma variável aleatória com distribuição normal de média µ e desvio padrão σ , podemos escrever: P( µ < X < x ) = P (0 < Z < z), para (x > µ ). Ou pelo excel: =DIST.NORM(x;média;desvio padrão;VERDADEIRO) 38 No nosso problema queremos calcular P(35 < X < 40). Para obter esta probabilidade, precisamos, em primeiro lugar, calcular o valor de z que corresponde a x = 40, então teremos z = 1,67. !!!! Utilização da Tabela Z Procuremos, agora, na tabela Z o valor de z = 1,67: Na primeira coluna procuramos o valor até uma casa decimal = 1,6. Em seguida, procuramos, na primeira linha, a coluna com o valor 7, que corresponde ao último algarismo do número 1,67. Na interseção da linha e coluna correspondentes encontramos o valor 0,4525, o que nos permite escrever: P (0 < Z < 1,67 ) = 0,4525 ou 45,25 % Exemplo2: Um procedimento industrial apresenta um custo financeiro toda vez que é executado. Observou-se que atualmente este custo segue uma distribuição normal com média R$26,00 e desvio padrão R$2,05. Quanto por cento desses procedimentos terão custo acima de R$30,00? { } { } { } 0256,04744,05,095,105,095,130 =−=≤≤−=≥=≥ zPzPXP Pelo excel: =1-DIST.NORM(30;26;2,05;VERDADEIRO) = 0,0255 = 2,55% Exemplo3: O diâmetro do eixo principal de um disco rígido segue uma distribuição Normal com média 25,08 in e desvio-padrão 0,05 in. Se as especificações para esse eixo são 25,00 ± 0,15 in, determine o percentual de unidades produzidas em conformidades com as especificações. { } { } { } { } 9192,0 4192,05,04,1z0P6,4z0P4,1z6,4P15,25x85,24P = +=≤≤+≤≤=≤≤−=≤≤ Pelo Excel: =DIST.NORM(25,15;25,08;0,05;VERDADEIRO)- DIST.NORM(24,85;25,08;0,05VERDADEIRO) =0,9192 ou seja, 91,92% dentro das especificações e 8,08% fora das especificações. 39 EXERCÍCIOS CAPÍTULO 3 1) Um sistema é composto por 2 componentes em paralelo, onde cada componente tem confiabilidade 0,98, e são independentes um do outro. Considere X, a quantidade de componentes do sistema em funcionamento num determinado instante e responda: a) Como fica a distribuição de probabilidades de X? b) Qual o valor esperado de X? Interprete no contexto do problema. c) Qual o desvio padrão de X? 2) Uma transportadora afirma que consegue fazer uma entrega dentro de um prazo determinado em 90% dos casos. Verificando uma amostra de 20 entregas deste tipo, qual deverá ser a probabilidade de no máximo uma ter atraso? 3) Um fornecedor de peças afirma em contrato que a probabilidade de ocorrer peça fabricada com defeito é 0,01. Se um pedido de 200 peças chegar com 5 defeituosas, você suspeitaria da afirmação do fornecedor? Justifique sua resposta calculando a probabilidade de, em caso da afirmação do fornecedor ser verdadeira, ocorrer mais de 4 peças com defeito num lote de 200. 4) Em uma indústria automotiva, defeitos superficiais de pintura ocorrem a uma taxa de 0,15 defeitos/unidade. Encontre a probabilidade que uma unidade escolhida ao acaso apresente 1 ou mais defeitos superficiais. 5) O setor financeiro de uma loja de departamentos está tentando controlar o número de erros cometido na emissão das notas fiscais. Suponha que esses erros sigam o modelo de Poisson com média λ = 0,03. Qual a probabilidade de uma nota selecionada ao acaso conter 1 ou mais erros? 6) Os tempos até a falha de um dispositivo eletrônico seguem o modelo Exponencial, com uma taxa de falha λ= 0,012 falhas/hora. Indique qual a probabilidade de um dispositivo escolhido ao acaso sobreviver a 50 horas? E a 100 horas? 7) O tempo decorrido entre um pedido de compra de um certo insumo e a sua entrega para um produtor de cigarros tem distribuição normal com média 25 horas e desvio padrão 2 horas. Calcule: a) a probabilidade de um pedido deste insumo levar entre 23 e 29 horas para ser entregue. b) A probabilidade de um pedido deste insumo levar mais de 30 horas para ser entregue. c) A probabilidade de um pedido deste insumo levar mais de 32 horas para ser entregue. 8) A resistência à tração de isoladores cerâmicos apresenta distribuição Normal com média 95 Kg e desvio-padrão 4 Kg. Se são produzidas 10.000 unidades desses isoladores, quantos 40 apresentarão resistência inferior a 85 Kg? E quantos apresentarão resistência superior a 90 Kg? 9) O tempo até a venda de um certo modelo de eletrodoméstico, que é regularmente abastecido em um supermercado, segue uma distribuição Exponencial, com parâmetros λ = 0,4 aparelhos/dia. Indique a probabilidade de um aparelho indicado ao acaso ser vendido logo no primeiro dia. 10) Num lote que tem 2% de defeituosos, foram retiradas 40 peças, que será rejeitado se forem encontradas duas ou mais peças defeituosas. Qual a probabilidade de rejeitar o lote? 11) Os registros de uma pequena companhia indicam que 40% das faturas por ela emitidas são pagas após o vencimento. De 14 faturas expedidas, determine a probabilidade de 5 serem pagas após o vencimento? 12) Uma amostra de 3 m de cabo foi retirada de uma bobina. Este tipo de cabo, segundo o fornecedor, tem em média uma falha por m. Qual a probabilidade de não encontrar falha na amostra? 13) O tempo necessário, em uma oficina, para o conserto de transmissão para certo carro é normalmente distribuído com média 45 min e desvio-padrão 8 min. O mecânico planeja começar o conserto do carro 10 min após o cliente deixá-lo na oficina, comunicando que o carro estará pronto em 1 h. Qual a probabilidade de que o cliente tenha que esperar chegando uma hora depois de deixar o carro para o conserto? 14) Uma fábrica de pneus fez um teste para medir o desgaste de pneus e verificou que ele seguia o comportamentode uma curva normal com média 48.000 km e desvio-padrão de 2.000 km. Calcule a probabilidade de um pneu escolhido ao acaso: a) dure mais que 47.000 km? b) dure entre 45.000 e 51.000 km? c) até que quilometragem duram 90% dos pneus menos resistentes? 15) Numa frota de caminhões, cada veículo apresenta consumo médio de combustível (para um trecho padrão) segundo uma distribuição normal com média de 100ml por km e desvio padrão 5ml. Qual o percentual de veículos que apresenta consumo acima de 112ml por km? 16) O tempo de vida de um aparelho vendido por uma empresa tem distribuição normal com média de 3 anos e desvio padrão de 0,8 anos. a) Se esta empresa der garantia de 2 anos, qual o percentual de aparelhos que serão devolvidos para conserto dentro da garantia? b) Qual deve ser o tempo de garantia para que o percentual de aparelhos devolvidos para conserto dentro da garantia seja de no máximo 2%? 41 Respostas: 1. a) 0, 1 e 2 com probabilidades 0,0004; 0,0392; 0,9604 respectivamente b) E(X)=1,96 c) DP(X)=0,1980 2. R: 0,3917 3. R: 0,0517. Tem 5,17% de chance de ter 5 ou mais com defeito se o fornecedor estiver falando a verdade. 4. R: 0,1393 5. R: 0,0296 6. a) R: 0,5488 b) R: 0,3012 7. d) R: 0,8185 e) R: 0,0062 f) R: 0,0002 8. a) R: 62 b) R: 8944 9. R: 0,3297 10. R: 0,1905 11. R: 0,2066 12. R: 0,0498 13. R: 0,2643 14. a) R: 0,6915 b) R: 0,8664 c) R: 50560 km 15. R: 0,82% 16. a) R: 10,56% b) R: 1,36 anos 42 4. ESTIMAÇÃO A inferência estatística tem por objetivo fazer generalizações sobre uma população com base em dados de uma amostra. Dois problemas básicos neste processo são: " A estimação de parâmetros da população; " Teste de hipóteses sobre parâmetros. Exemplo: Quando queremos estimar a média (parâmetro) de uma variável X, a qual temos acesso apenas a uma amostra aleatória, usamos a estatística média amostral como estimador desse parâmetro da população. O valor obtido pelo cálculo da média amostral é chamado de estimativa de µ. Estimativas por Intervalo de Confiança As estimativas pontuais não nos permitem julgar qual a possível magnitude do erro que podemos estar cometendo. Por isso, surge a idéia de construir intervalos de confiança, que são baseados na distribuição amostral do estimador pontual respectivo. 4.1 INTERVALOS DE CONFIANÇA PARA MÉDIAS a) Casos em que o desvio padrão σ da população é conhecido. Como vimos anteriormente, a distribuição amostral das médias é dado por uma Normal com média µ e desvio padrão nx σσ = , para todos os casos onde n>30; ou ainda, se a variável X tiver distribuição Normal na população da qual foi retirada a amostra de qualquer tamanho. Portanto, os limites de confiança para a média da população, nestes casos, são dados por n .zxˆ )2/( σ µ α±= EXEMPLO 1: O tempo de vida de um modelo de um determinado aparelho tem desvio padrão 9000 horas. Um estudo com uma amostra aleatória de 36 aparelhos deste tipo apresentou vida média de 27250 horas. Qual a estimativa para o tempo médio de vida deste tipo de aparelho com 95% de confiança? 294027250 36 9000.96,127250.ˆ ±=±=±= n zx σµ Então: µ̂ :(24310 ; 30190) Conclusão: Com 95% de confiança, o tempo médio de vida deste tipo de aparelho está entre 24310 h e 30190. b) Casos em que o desvio padrão da população não é conhecido. 43 Na realidade, em geral, não conhecemos o desvio padrão da população, de modo que, para obter os limites de confiança, utilizamos o estimador S, ou seja, o desvio padrão da amostra. Neste caso podemos utilizar: n S.txˆ )2/;1n( αµ −±= EXEMPLO 2: Um engenheiro civil está avaliando a resistência à compressão de um tipo de concreto. Uma amostra aleatória de 12 corpos de prova teve resistência média 3250 psi e desvio padrão 982 psi. Estime a resistência média a ser atribuída para este tipo de concreto, com 95% de confiança. 94,6233250 12 982.201,23250.ˆ ±=±=±= n Stxµ Então: µ̂ :(2626,06 ; 3873,94) Conclusão: Com 95% de confiança, a resistência média à compressão a ser atribuída para este tipo de concreto está entre 2626,06 e 3873,94psi. 4.2 INTERVALO DE CONFIANÇA PARA PROPORÇÕES Como vimos anteriormente, a distribuição amostral das proporções é aproximadamente uma Normal com média µ= p e desvio padrão n )p1(p x − =σ . Portanto, os limites de confiança para a proporção da população são dados por: n ppzp )1(.ˆ 2/ − ±= απ , onde p é a proporção de sucessos na amostra. EXEMPLO 3: Um estudo com uma amostra de 250 compradores de um modelo de automóvel, indicou que apenas 72 deles não se importam com o esforço para levantar a tampa do capô, o restante considera muito desagradável. Estime, com 90% de confiança, a proporção de compradores que considera desagradável o tal esforço. P = 178/250 = 0,712 0471,0712,0 250 288,0.712,0.645,1712,0)1(.ˆ ±=±=−±= n ppzpπ Então: π̂ :(0,6649 ; 0,7591) ou π̂ :(66,49% ; 75,91%) Conclusão: Com 90% de confiança, a proporção populacional de compradores que considera desagradável o esforço para abrir o capô está entre 0,6649 e 0,7591. 4.3 DIMENSIONAMENTO AMOSTRAL O tamanho mínimo amostral é obtido a partir da análise estatística que se pretende realizar, posteriormente, com os dados do experimento. Tanto nos testes de hipóteses como no cálculo de 44 intervalos de confiança, está envolvida uma medida do erro de amostragem, que é o erro padrão. Ora, este envolve o tamanho amostral (n), sendo, portanto, um ponto de partida natural para a determinação de n, como será visto a seguir. O número de fórmulas para obter n acompanha a multiplicidade de tratamentos estatísticos possíveis. Será apresentado a seguir o raciocínio que acompanha o cálculo de n para estimar a média de uma população. Os demais raciocínios seguem o mesmo padrão e serão dadas apenas as fórmulas correspondentes a alguns dos principais modelos de análise estatística. 4.3.1 Cálculo de n para estimar uma média (µµµµ): 2. = e zn σ O número n é o tamanho amostral mínimo a ser utilizado pelo pesquisador e depende da informação a respeito do desvio padrão populacional da variável a ser estimada. Além disso, é necessário estabelecer uma diferença máxima (ou erro máximo de estimativa ! e ) aceita entre a média verdadeira e aquela obtida na amostra ( xˆ −µ ). Por último, deve-se obter da tabela o valor de z para substituir na fórmula. Este valor depende do nível de confiança. Se não houver conhecimento do desvio padrão populacional, é preciso ter uma estimativa da variabilidade da característica em estudo, que pode ser obtida de uma amostra piloto ou da literatura. Neste caso, estaremos usando uma estimativa provisória de S para calcular n. Existe uma fórmula alternativa em que se for utilizado S, deve ser utilizado um valor tabela do t no lugar de z. EXEMPLO 4: Um engenheiro civil quer avaliar a resistência à compressão de um tipo de concreto que apresenta desvio padrão populacional de 950 psi. Qual o tamanho mínimo da amostra para que a estimativa da resistência média a ser atribuída para este tipo de concreto tenha erro máximo de 300 psi, com 95% de confiança? 4.3.2 Cálculo de n para estimar proporções (p): Para estimar a proporção p de uma variável dicotômica temos: 2 2 )( )1.(. e ppz n − = Obs: é necessário imaginar uma estimativa provisória da proporção p. quando não se tem a menor idéia desta proporção, utiliza-se p=0,5, que é a pior situação. 45 EXEMPLO 5: Pretende-se estimar a proporção de um tipo de peça plástica que sai da produção com peso inadequado, ou seja, abaixo de 250g. É necessário que a estimativa de proporção de peças com peso inadequado tenha 95% de confiança e erro máximo de 4%. Determine o tamanho mínimo da amostra. 4.3.3 Correção de n para populações pequenas: Quando se calcula o tamanho mínimo de amostra pelas fórmulas apresentadas acima, estamos considerando
Compartilhar