Baixe o app para aproveitar ainda mais
Prévia do material em texto
Série Monográfica Qualidade Estatística Industrial José Luis Duarte Ribeiro & Carla ten Caten Editores Universidade Federal do Rio Grande do Sul Escola de Engenharia Programa de Pós Graduação em Engenharia de Produção Porto Alegre, RS 2000 Estatística Industrial José Luis Duarte Ribeiro & Carla ten Caten, editores 2000 by José Luis Duarte Ribeiro & Carla ten Caten Direitos em língua portuguesa para o Brasil adquiridos por Universidade Federal do Rio Grande do Sul Escola de Engenharia Programa de Pós Graduação em Engenharia de Produção Praça Argentina, 9 sala 404 90040-020 Porto Alegre – RS – Brasil Tel. 55 51 316 3490 / 316 3948 / 316 3491 Fax: 55 51 316 4007 e-mail: ppgep@vortex.ufrgs.br Projeto Gráfico Lia Buarque de Macedo Guimarães Editoração Eletrônica Andréia Fabiane Nahra Leal Fabiane Ely Ilustração da Capa Arcângelo Ianelli, Natureza-morta 1960 óleo s/ tela 70 X 83 cm IPHAN, Museu Nacional de Belas Artes Estatística Industrial Introdução .......................................................................................................................... 1 Variabilidade ................................................................................................................................................... 1 Métodos estatísticos ....................................................................................................................................... 2 Coleta de dados .............................................................................................................................................. 3 Funções .......................................................................................................................................................... 5 Gráficos ........................................................................................................................................................... 5 Exercícios........................................................................................................................................................ 6 Distribuições de freqüência ............................................................................................ 10 Intervalos de classe ...................................................................................................................................... 10 Regras gerais para elaborar uma distribuição de freqüência ....................................................................... 11 Histogramas e polígono de freqüência ......................................................................................................... 11 Distribuição de freqüências relativas ............................................................................................................ 12 Distribuição de freqüências acumuladas ...................................................................................................... 12 Curvas de freqüência suavizadas ................................................................................................................. 13 Tipos de distribuições de probabilidade (frequência relativa) ...................................................................... 13 Medidas de tendência central e variabilidade ............................................................... 16 Medidas de tendência central ....................................................................................................................... 16 Medidas de variabilidade .............................................................................................................................. 20 Exercícios...................................................................................................................................................... 22 Probabilidade ................................................................................................................... 24 Campo amostral e eventos ........................................................................................................................... 24 Operações com conjuntos ............................................................................................................................ 24 Definição de probabilidade ........................................................................................................................... 25 Soma de probabilidades ............................................................................................................................... 25 Exemplo 1: .................................................................................................................................................... 26 Exemplo 2: .................................................................................................................................................... 27 Produto de probabilidades ............................................................................................................................ 27 Eventos independentes ................................................................................................................................ 28 Probabilidade total ........................................................................................................................................ 29 Teorema de Bayes ........................................................................................................................................ 30 Distribuições de probabilidade ...................................................................................... 34 Distribuições discretas mais importantes ..................................................................................................... 35 Distribuições contínuas mais importantes .................................................................................................... 38 Estimativa de parâmetros ............................................................................................... 53 Estimativas pontuais ..................................................................................................................................... 53 Estimativas por intervalo de confiança ......................................................................................................... 54 Intervalo de confiança para a média, variância conhecida ........................................................................... 55 Erro de estimação ......................................................................................................................................... 57 Intervalo de confiança para a média, variância desconhecida ..................................................................... 58 Intervalo de confiança para a diferença entre duas médias, variância conhecida ....................................... 60 Intervalo de confiança para a diferença entre duas médias, variância desconhecida ................................. 61 Intervalo de confiança para a diferença entre observações ......................................................................... 62 Intervalo de confiança para a variância ........................................................................................................ 63 Intervalo de confiança para o quociente entre duas variâncias ................................................................... 65 Intervalo de confiança para o parâmetro da Binomial .................................................................................. 67Testes de hipótese .......................................................................................................... 71 Comentários iniciais ...................................................................................................................................... 71 Comparação de médias, variância conhecida .............................................................................................. 72 Comparação de médias, variância desconhecida ........................................................................................ 74 Comparação de pares de observações ....................................................................................................... 77 Comparação de variâncias .......................................................................................................................... 78 Comparação dos parâmetros da Binomial ................................................................................................... 80 Comparação de vários grupos: a análise de variância.................................................85 Comentários iniciais ..................................................................................................................................... 85 One-way ANOVA ......................................................................................................................................... 85 Regressão linear simples .............................................................................................103 Comentários iniciais ................................................................................................................................... 103 Correlação .................................................................................................................................................. 103 Teste de hipótese para o coeficiente de correlação .................................................................................. 106 Regressão linear simples ........................................................................................................................... 107 Relação entre o coeficiente de correlação e a regressão ......................................................................... 108 Variância dos estimadores ......................................................................................................................... 109 Intervalos de confiança e testes de hipótese ............................................................................................. 109 Previsão de valores de Y .......................................................................................................................... 111 Análise da validade do modelo .................................................................................................................. 112 Intervalo de variação para X ...................................................................................................................... 114 A análise de variância e a regressão ......................................................................................................... 114 Dados atípicos............................................................................................................................................ 116 Regressão não-linear simples .................................................................................................................... 116 Regressão linear múltipla ............................................................................................120 O modelo da regressão linear múltipla ...................................................................................................... 120 Notação matricial ....................................................................................................................................... 121 Estimativa dos coeficientes ........................................................................................................................ 121 Matriz de variâncias e covariâncias ........................................................................................................... 126 Testes de hipótese ..................................................................................................................................... 127 Coeficientes de determinação para o modelo de regressão múltipla ........................................................ 129 Previsão de valores de Y .......................................................................................................................... 130 Análise das suposições do modelo de regressão...................................................................................... 131 Regressão polinomial ................................................................................................................................. 131 1Introdução José Luis Duarte Ribeiro Carla ten Caten VARIABILIDADE Apesar de nossa formação ser basicamente determinística, ensinando que 1 + 1 é igual a 2 e 15 +5 é igual a 20, vivemos em um mundo onde tudo varia. Por exemplo, alguém que tem o hábito de preparar um churrasco no fim de semana pode ter comprado dois quilos de carne inúmeras vezes, mas ele nunca recebeu exatamente 2,00 Kg. Da mesma forma, o seu trajeto para o trabalho pode incluir um trecho de 15 min., feito de automóvel, mais um trecho de 5 min., feito a pé, mas você nunca fez todo o trajeto em exatamente 20:00 min. Similarmente, os processos produtivos dependem de vários parâmetros (pressão, temperatura, velocidade, etc.); esses parâmetros deveriam ser mantidos em certos níveis, mas eles irão apresentar variabilidade. Conseqüentemente, os produtos resultantes de processos de manufatura, ou de processos de prestação de serviço, também irão apresentar variabilidade. Um eixo usinado terá um diâmetro final de aproximadamente 50,0 mm. Em um restaurante, você será servido em aproximadamente 20 min. A variabilidade está sempre presente em qualquer processo onde ocorre a produção de bens ou serviços, independentemente de quão bem ele seja projetado e operado. Se compararmos duas peças quaisquer, produzidas pelo mesmo processo, suas medidas jamais serão exatamente idênticas. As medidas feitas em um lote, podem estar todas dentro das especificações, mas mesmo assim a variabilidade estará presente. As fontes de variabilidade podem agir de forma diferente sobre o processo. Conforme a fonte de variabilidade, o resultado pode ser: (i) pequenas diferenças peça-a-peça, em função da habilidade do operador ou diferenças de matéria-prima, (ii) alteração gradual no processo, em função do desgaste de ferramentas ou mudança na temperatura do dia, e (iii) alteração brusca no processo, devido a alguma mudança de procedimento, ou queda de corrente, ou troca de setup, etc. As fontes de variabilidade interferem nos processos de produção de bens ou serviços, fazendo com que os produtos finais não sejam exatamente idênticos. Isso pode conduzir a produtos defeituosos, ou seja, produtos cujas características não satisfazem a uma determinada especificação. 2 1. Introdução José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Figura 1 - Processo de fabricação Processo de fabricaçãoProcesso de fabricação (bens ou serviços) (bens ou serviços) Fontes de variabilidadeFontes de variabilidade SaídaSaídaEntradaEntrada VariaçãoVariação A redução de variabilidade no processo gera itens cujas características estão mais próximas de um valor alvo. Isso reduz o número de produtos percebidos como defeituosos e, por conseguinte, os custos da má qualidade. Redução de variabilidadeRedução de variabilidade Resultados mais próximos dos valores alvosResultados mais próximosdos valores alvos Redução de produtos defeituososRedução de produtos defeituosos Redução dos custos da má qualidadeRedução dos custos da má qualidade A redução da variabilidade depende do conhecimento e análise da variabilidade presente no processo, para que as fontes de variabilidade possam ser identificadas, analisadas e bloqueadas. MÉTODOS ESTATÍSTICOS Todos os processos apresentam problemas e, por conseguinte, oportunidades de melhoria. Algumas vezes os problemas são simples de identificar e resolver. No entanto, outras vezes podem ser muito difíceis. Quando o problema é difícil, a coleta sistemática de dados e a subseqüente análise estatística podem revelar a solução. Assim, todo o gerente, administrador e engenheiro deveria ter o domínio dos métodos estatísticos. Esses métodos contribuem em diferentes aspectos: � redução do tempo da coleta dos dados; � redução do custo da coleta dos dados; � melhor organização e consolidação dos dados; � maior agilidade no processamento dos dados; � máxima informação é extraída dos dados; � maior precisão (confiança) na análise; � melhor apresentação dos resultados. Todos esses aspectos asseguram um suporte mais qualificado à tomada Estatística Industrial 3 1. Introdução de decisão gerencial e auxiliam a reduzir: � tempo de ciclo das melhorias contínuas; � tempo de desenvolvimento do produto; � tempo de validação de projetos; � tempo de otimização de processos. As equipes que reúnem conhecimentos técnicos sobre o problema em estudo e domínio dos métodos estatísticos têm seu potencial largamente ampliado. Definição de estatística A disciplina estatística engloba um conjunto de métodos científicos para a coleta, organização, resumo, análise e apresentação de dados, bem como a obtenção de conclusões válidas, que dêem suporte à tomada de decisões baseadas em tais análises. Em sentido mais restrito, o termo estatística é usado para designar um resultado extraído dos dados, como, por exemplo, a média ou desvio padrão. COLETA DE DADOS Os dados são a base para a tomada de decisões confiáveis durante a análise de um problema; os dados são úteis quando eles geram algum tipo de ação. Por isso, é importante ter bem claro quais são os objetivos da coleta de dados. Em unidades de produção de bens ou serviços, os principais objetivos podem ser: � desenvolvimento de novos produtos; � inspeção; � monitoramento dos processos; � melhoria nos processos. A coleta de dados pode se basear em dados históricos ou em experimentos planejados. Dados históricos são dados que já estão disponíveis na empresa e, por isso, podem ser obtidos sem interferência no processo. Um experimento planejado envolve mudanças propositais realizadas nos fatores do processo (causas), de modo que se possa avaliar as possíveis alterações sofridas pelas características de qualidade (efeitos), como também as razões destas alterações. População e amostra Ao coletar os dados referentes às características de um grupo de objetos ou indivíduos, como por exemplo número de parafusos defeituosos produzidos em uma fábrica, é muitas vezes impraticável observar todo o grupo. Em vez de examinar o grupo inteiro, denominado população, examinamos uma pequena parte, chamada amostra. Uma população pode ser finita ou infinita. Por exemplo, a população constituída de todos os parafusos produzidos por uma fábrica em um mês é finita. Enquanto que a população constituída de todos os resultados (cara ou coroa) em sucessivos lances de uma moeda é infinita. Se a amostra é representativa da população, os resultados da amostra podem ser usados para inferir sobre a população. Essa parte é chamada 4 1. Introdução José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS de Inferência Estatística e será a ênfase deste texto. Há uma outra parte da Estatística que procura somente descrever e analisar um certo grupo, sem tirar conclusões ou inferências a respeito de um grupo maior. É a chamada Estatística Descritiva Figura 2 - População x amostra DADOS População AmostraQuantos ? INFERÊNCIA Para que as inferências sejam válidas e suficientemente precisas, é importante que seja feita uma boa amostragem. As possíveis causas de erros nas inferências, muitas vezes têm origem em problemas de amostragem, por exemplo: � falta da determinação correta da população; � falta de aleatoriedade na escolhas das unidades da população, gerando uma amostra que não é representativa da população; � erro no dimensionamento do tamanho da amostra, gerando uma amostra insuficiente para lidar com a variação aleatória presente no processo em estudo. Tipos de dados Uma variável é representada por um símbolo como X, Y, H, Z, e pode assumir qualquer valor de um conjunto de valores. O conjunto de valores possíveis é chamado de domínio da variável. Se a variável só pode assumir um valor, é chamada de constante. Se uma variável pode assumir qualquer valor entre dois limites quaisquer, é chamada de Variável Contínua. Do contrário, é chamada de Variável Discreta. Exemplo 1: O diâmetro de uma peça torneada pode ser 2,50 ou 2,533 ou 2,5389, dependendo da precisão da medida; é uma variável contínua. Exemplo 2: O número de unidades defeituosas em lotes de 100 unidades é uma variável discreta (0, 1, 2, etc.). Algarismos significativos No caso de variáveis contínuas, um valor 2,51 indica que o verdadeiro valor está compreendido entre 2,505 e 2,515. Os algarismos corretos, não contando os zeros necessários para a localização da vírgula, chamam-se Algarismos Significativos. 1,668 apresentado como 1,67 tem 3 A. S. Estatística Industrial 5 1. Introdução 0,001803 apresentado como 0,0018 tem 2 A. S. 0,001803 apresentado como 0,00180 tem 3 A. S. 453,807 apresentado como 453,807 tem 6 A. S. 453,807 apresentado como 454 tem 3 A. S. A noção de algarismos significativos não se aplica para o caso de variáveis discretas (que teriam uma infinidade de algarismos significativos). FUNÇÕES Se a cada valor que a variável X pode assumir, corresponder um ou mais valores da variável Y, diz-se que Y é uma função de X e a notação é: Y = F(X) A variável X chama-se variável independente, e a variável Y chama-se variável dependente. Exemplo: A força de tração (T) em um tirante depende do peso (W) colocado em sua extremidade. T = F(W) Exemplo: A resistência (H) de uma liga metálica depende da temperatura (T) do tratamento térmico. H=F(T) GRÁFICOS Muitos tipos de gráficos são utilizados na Estatística. Eles complementam a análise numérica e auxiliam nas comparações e na observação de tendências. Entre os vários tipos de gráficos, cita-se: gráficos de barras, gráficos circulares, gráficos de dispersão, histogramas, curvas de regressão, séries temporais, etc. Figura 3 - Exemplos de gráficos utilizados na Estatística. Gráfico de Barras Gráfico Circular Produção do modelo S.M. 93 0 500 1000 1500 2000 J F M A M J MESES Vendas durante o ano de 1994 XYZ 40% A 20% B 30% C 7% D 3% XYZ A B C D Gráfico de Dispersão Curva de Regressão 6 1. Introdução José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS 0 4 8 12 16 20 0 1 2 3 4 5 6 ESPAÇAMENTO R 0 4 8 12 16 2 4 6 8 10 12 14 16 18 TEMPO DE TRAT. TÉRMICO DUREZA EXERCÍCIOS Exercício 1.1. Identifique se as seguintes variáveis são contínuas ou discretas: (1) número de livros em uma biblioteca; (2) número de unidades defeituosas em um lote de produção; (3) tempo de processamento de uma peça usinada; (4) resistência deuma fibra sintética; (5) número de defeitos de solda em uma carroceria; (6) volume de um refrigerante. Exercício 1.2. Indique um exemplo de variável contínua e um exemplo de variável discreta com as quais você lida no seu dia a dia. Informe também o domínio dessas variáveis, ou seja, seu intervalo de variação possível. Exercício 1.3. Arredonde os valores a seguir, apresentando-os com 2 e com 3 algarismos significativos. X1 = 0,8078 X2 = 52,35 X3 = 6927 Exercício 1.4. Em relação ao exercício anterior, considere que os valores originais são exatos e calcule o erro cometido em cada arredondamento efetuado. Exercício 1.5. Os dados a seguir representam a capacidade em litros dos porta-malas dos carros populares produzidos no Brasil em 1996. Plote esses dados usando um gráfico de barras. Corsa: 240 l Uno: 224 l Hobby: 325 l Gol: 146 l Exercício 1.6. Os dados a seguir representam os cinco automóveis mais vendidos no Brasil no ano de 1996. Plote esses dados em um gráfico circular. Marca Volume Gol 235.000 Estatística Industrial 7 1. Introdução Uno 225.000 Corsa 110.000 Tipo 107.000 Escort 97.000 Total 774.000 Exercício 1.7. Os dados a seguir apresentam a evolução do número de cursos de mestrado e doutorado na UFRGS nos últimos 30 anos. Plote esses gráficos como uma série temporal. Ano 1967 1972 1977 1982 1987 1992 1993 1994 Cursos de Mestrado 9 22 28 33 39 47 48 50 Cursos de Doutorado 3 3 5 5 12 25 26 27 Exercício 1.8. Os dados a seguir foram coletados em um processo de produção de fibras sintéticas. Plote um gráfico de dispersão (X e Y) e conclua a respeito. X: Espaçamento entre rolos 5,1 5,5 4,8 1,2 1,8 4,2 3,5 1,0 Y: Resistência 11,8 12,8 13,0 13,0 13,5 14,3 14,4 14,6 X: Espaçamento entre rolos 4,7 2,2 1,6 2,8 2,3 4,0 3,3 2,3 Y: Resistência 15,0 15,2 15,6 16,0 17,0 17,1 17,8 18,1 Exercício 1.9. A empresa JKL fez um levantamento das vendas, obtendo as seguintes informações: Modelo \ UF RS SP RJ AB3 532 633 587 XP9 459 501 492 ZC4 146 152 149 KW1 721 930 773 Construa um gráfico de barras. Exercício 1.10. Construa o gráfico de dispersão para as notas de certa turma em matemática Mat 3 5 3 2 7 9 4 8 6 5 Est 6 5 5 6 10 8 7 8 7 9 Exercício 1.11. Na operação 3 foram verificados os defeitos encontrados na montagem da bomba hidráulica . Construa o gráfico de barras e analise. Tipo de defeito Freqüência 8 1. Introdução José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Compressor 7 Selo 2 Junta 12 Mangueira 6 Vedação 30 outros 3 2 Distribuições de freqüência José Luis Duarte Ribeiro Carla ten Caten Na análise de conjuntos de dados é costume dividi-los em classes ou categorias e verificar o número de indivíduos pertencentes a cada classe, ou seja, a freqüência da classe. Os dados a seguir apresentam um conjunto de 50 observações da principal característica dimensional de um tipo de peça usinada (dados em ordem crescente). 12,58 12,97 13,45 13,53 13,59 13,61 13,62 13,78 13,97 14,21 14,47 14,51 14,53 14,58 14,65 14,78 14,83 14,97 15,06 15,13 15,17 15,23 15,29 15,37 15,40 15,45 15,51 15,62 15,67 15,73 15,83 15,98 16,01 16,11 16,17 16,23 16,35 16,43 16,49 16,52 16,67 16,83 16,97 17,05 17,13 17,22 17,3 17,48 17,8 18,47 A Tabela 1 apresenta uma tabela de freqüência de 50 observações de uma característica dimensional. Tabela 1 - Tabela de freqüência absoluta Intervalos de classe da característica dimensional Freqüência absoluta 12,50 a 13,50 3 13,51 a 14,50 8 14,51 a 15,50 15 15,51 a 16,50 13 16,51 a 17,50 9 17,51 a 18,50 2 A tabela de freqüência apresenta dados agrupados. Nesse caso, os detalhes originais dos dados são perdidos, mas a vantagem está em observar aspectos globais do problema. INTERVALOS DE CLASSE Os limites tais como 12,50 a 13,50 são chamados de intervalos de classe. O número menor (12,50), é o limite inferior da classe; e o maior (13,50) é o limite superior da classe. Em alguns casos, pode-se usar intervalos abertos, do tipo 13,50 ou menor; 17,50 ou maior. Amplitude do intervalo de classe Quando todos os intervalos de classe têm a mesma amplitude, essa é calculada fazendo-se a diferença entre dois limites inferiores ou dois limites superiores sucessivos. Caso contrário, teremos uma amplitude variável. Para o exemplo, a amplitude é 13,50-12,50 = 14,50-13,50=1 Estatística Industrial 11 2. Distribuições de freqüência Ponto médio de uma classe É obtido somando-se o limite inferior ao superior e dividindo por dois. Assim, o ponto médio do intervalo 12,50 a 13,50 é (12,50+13,50)/2 = 13,00 REGRAS GERAIS PARA ELABORAR UMA DISTRIBUIÇÃO DE FREQÜÊNCIA a) Determina-se o maior e menor valor do conjunto de dados; Para o exemplo, Mín = 12,58 e Máx = 18,47 b) Define-se o limite inferior da primeira classe (LI), que deve ser igual ou ligeiramente inferior ao menor valor das observações; Para o exemplo, LI = 12,50 c) Define-se o limite superior da última classe (LS), que deve ser igual ou ligeiramente superior ao maior valor das observações; Para o exemplo, LS = 18,50 d) Define-se o número de classes (K), que pode ser calculado usando K n= e deve estar compreendido entre 5 a 20; Para o exemplo, 750 ≅=K , mas por praticidade, foi escolhido K = 6 e) Conhecido o número de classes define-se a amplitude de cada classe: a = (LS - LI) / K; Para o exemplo, 1 6 )50,1250,18()( = − = − = K LILS a f) Conhecida a amplitude das classes, define-se os limites inferior e superior para cada classe. Por exemplo, para a 1a classe: lim. inf. = LI; lim. sup. = LI+ a; Para o exemplo, lim inf = 12,50 e lim sup = 12,50 + 1 = 13,50 g) Calcula-se a freqüência de cada classe, ou seja, o número de observações pertencentes a cada classe, e completa-se a tabela de freqüência; Para o exemplo, o número de observações pertencentes ao intervalo 12,50 a 13,50 é 3. HISTOGRAMAS E POLÍGONO DE FREQÜÊNCIA Histogramas e polígonos de freqüência são representações gráficas da tabela de freqüências. Um histograma consiste de um conjunto de retângulos que têm: a) a base sobre um eixo horizontal com centro no ponto médio e largura igual a amplitude do intervalo de classes; b) a área proporcional às freqüências das classes. 12 2. Distribuições de freqüência José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Figura 4 - Histograma e polígono de freqüências absolutas para o exemplo anterior 0 4 8 12 16 12 13 14 15 16 17 18 19 0 4 8 12 16 12 13 14 15 16 17 18 19 Se todos os intervalos tiverem a mesma amplitude, as alturas dos retângulos serão proporcionais às freqüências das classes, e então costuma-se tomar as alturas numericamente iguais a essas freqüências. Um polígono é um gráfico obtido ligando-se os pontos médios dos topos dos retângulos de um histograma. DISTRIBUIÇÃO DE FREQÜÊNCIAS RELATIVAS A freqüência relativa de uma classe é calculada dividindo-se a freqüência dessa classe pelo total de todas as classes e é, geralmente, expressa em percentagem. Eq 1: 100 . x s classesfreq. toda lassefreq. da c relativaFreq ∑ = Por exemplo, a freqüência relativa da 1a classe da Eq 1 é : Eq 2: %6100 50 3100 . === ∑ xx s classesfreq. toda lassefreq. da c relativaFreq Se as freqüências da Tabela 2 forem substituídas pelasfreqüências relativas, teremos uma tabela de freqüências relativas e então pode ser plotado um histograma de freqüências relativas ou um polígono de freqüências relativas. Tabela 2 - Distribuição de freqüência relativa Intervalos de classe da característica dimensional Freqüência absoluta Freqüência relativa 12,50 a 13,50 3 6% 13,51 a 14,50 8 16% 14,51 a 15,50 15 30% 15,51 a 16,50 13 26% 16,51 a 17,50 9 18% 17,51 a 18,50 2 4% Figura 5 - Histograma e polígono de freqüência relativa para o exemplo anterior 0% 8% 16% 24% 32% 12 13 14 15 16 17 18 19 0% 8% 16% 24% 32% 12 13 14 15 16 17 18 19 DISTRIBUIÇÃO DE A freqüência total de todos os valores inferiores ao limite superior de uma Estatística Industrial 13 2. Distribuições de freqüência FREQÜÊNCIAS ACUMULADAS dada classe é denominada freqüência acumulada para aquele intervalo. Por exemplo, a freqüência acumulada até e inclusive o intervalo 13,51 a 14,50 é 3 + 8 = 11, o que significa que 11 das 50 peças cerâmicas apresentam característica dimensional inferior a 14,50. Uma tabela que apresente essas freqüências é chamada de tabela de freqüência acumulada. Um gráfico que apresente a freqüência acumulada é denominado de polígono de freqüência acumulada. Tabela 3 - Distribuição de freqüência acumulada Intervalos de classe da caract. dimensional Freqüência absoluta Freqüência relativa Freqüência acumulada absoluta Freqüência acumulada relativa abaixo de 12,50 0 0% 0 0% 12,50 a 13,50 3 6% 3 6% 13,51 a 14,50 8 16% 11 22% 14,51 a 15,50 15 30% 26 52% 15,51 a 16,50 13 26% 39 78% 16,51 a 17,50 9 18% 48 96% 17,51 a 18,50 2 4% 50 100% Dividindo-se a freqüência acumulada pelo total das observações, tem-se a tabela de freqüências acumuladas relativas e o correspondente polígono de freqüências acumuladas relativas. Figura 6 - Polígono de freqüências acumulada absolutas e relativas 0 10 20 30 40 50 12,5 13,5 14,5 15,5 16,5 17,5 18,5 0% 20% 40% 60% 80% 100% 12,5 13,5 14,5 15,5 16,5 17,5 18,5 CURVAS DE FREQÜÊNCIA SUAVIZADAS O polígono de freqüência e o polígono de freqüência acumulado pode ser suavizado. Isso ajuda a filtrar o ruído presente em qualquer conjunto de dados. O polígono de freqüência suavizado é a distribuição de freqüência ou distribuição de probabilidade de uma característica. A análise das distribuições de probabilidade indica o comportamento de uma característica que seria observado no caso de uma amostra muito grande ou infinita. TIPOS DE DISTRIBUIÇÕES DE PROBABILIDADE (FREQÜÊNCIA RELATIVA) A Figura 7 apresenta diversos tipos de distribuições de probabilidade. 14 2. Distribuições de freqüência José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Figura 7 - Tipos de distribuições de freqüência. Simétrica Forma de Sino Assimétrica à Direita Assimetria Positiva Assimétrica à Esquerda Assimetria Negativa �� � EMBED PBrush ��� Uniforme Exponencial 5,1 5,3 5,3 5,6 5,8 5,9 6,0 6,1 6,2 6,2 6,3 6,3 6,3 6,4 6,4 6,4 6,5 6,5 6,6 6,7 6,7 6,8 6,8 6,9 6,9 7,0 7,1 7,1 7,2 7,2 7,3 7,4 7,5 7,5 7,6 7,6 7,6 7,7 7,7 7,8 7,8 7,9 7,9 8,0 8,0 8,1 8,2 8,3 8,3 8,4 8,5 8,5 8,6 8,7 8,8 8,8 8,9 9,0 9,1 9,2 9,4 9,4 9,5 9,5 9,6 9,8 9,9 10,0 10,2 10,2 10,4 10,6 10,8 10,9 11,2 11,5 11,8 12,3 12,7 14,9 Exercício 2.2. Suavize o gráfico de freqüências acumuladas obtido no exercício anterior, e então estime o percentual das operações onde o tempo deverá ultrapassar 10 minutos. Exercício 2.3. Os dados a seguir representam a espessura (em mm) de uma peça mecânica. Organize esses dados em uma tabela de freqüências relativas e depois plote o histograma de freqüências relativas, o polígono de freqüências relativas e o gráfico de freqüências relativas acumuladas. 20,4 22,3 23,1 23,5 23,8 24,1 24,3 24,3 24,6 24,8 24,9 25,0 25,1 25,3 25,3 25,4 25,6 25,7 25,8 26,0 26,0 26,1 26,2 26,2 26,3 26,5 26,6 26,7 26,8 26,9 27,1 27,1 27,3 27,5 27,7 27,9 28,0 28,3 28,7 29,6 Exercício 2.4. Suavize o gráfico de freqüências acumuladas obtido no exercício anterior, e então estime o percentual de peças que deve apresentar uma espessura inferior a 24 mm. Exercício 2.5. Tendo em vista os polígonos de freqüência obtidos nos exercícios 2.1. e 2.3. você diria que as populações do tempo e da espessura apresentam distribuição de probabilidade simétrica ou assimétrica? Exercício 2.6. Plote os histogramas correspondentes às tabelas de freqüência a seguir e indique o tipo de curva de freqüência em cada caso. X1: Característica dimensional de uma peça; X2: Tempo de uso (horas/semana) de um produto; Estatística Industrial 15 2. Distribuições de freqüência X3: Tempo até a falha de um produto. X1 Freq. X2 Freq. X3 Freq. 25,52 a 25,53 6 0 a 4 1 0 a 100 20 25,53 a 25,54 14 4 a 8 2 100 a 200 16 25,54 a 25,55 20 8 a 12 9 200 a 300 11 25,55 a 25,56 18 12 a 16 24 300 a 400 7 25,56 a 25,57 15 16 a 20 48 400 a 500 4 25,57 a 25,58 7 20 a 24 6 500 a 600 2 3 Medidas de tendência central e variabilidade José Luis Duarte Ribeiro Carla ten Caten MEDIDAS DE TENDÊNCIA CENTRAL Há várias medidas de tendência central. Entre elas citamos a média aritmética, a mediana, a média harmônica, etc. Cada uma dessas medidas apresenta vantagens e desvantagens, e a escolha depende dos objetivos desejados. A seguir veremos como é feito o cálculo dessas medidas. Média aritmética A média aritmética, ou simplesmente média, de um conjunto de n valores x1, ..., xn é definida como: Eq 3: ∑ = = ++ = n i i n x nn xxX 1 1 1... Exemplo: a média aritmética do conjunto 7,5 7,9 8,1 8,2 8,7 é Eq 4: 08,8 5 7,82,81,89,75,7 = ++++ =X Na Estatística, é usual utilizar as letras gregas para representar parâmetros populacionais e as letras comuns para representar estimativas amostrais. A média de uma amostra é representada por X e a média da população é representada pela letra grega µ. Média aritmética para dados agrupados Quando a informação disponível é o ponto médio do intervalo i (Xi) e a freqüência do intervalo i (fi), a média é calculada como: Eq 5: ∑ ∑ = = ++ ++ = K i i K ii K KK f Xf ff XfXf X 1 1=i 1 11 .... .... Para os dados da Tabela 2.1. resulta: Eq 6: 46,15 50 )18(2)17(9)16(13)15(15)14(8)13(3 = +++++ =X Média aritmética ponderada Algumas vezes associa-se a cada observação um peso Wi, onde esse peso representa a importância atribuída a cada observação. Nesse caso a Estatística Industrial 17 3. Medidas de tendência central e probabilidade média ponderada é calculada como: Eq 7: ∑ ∑ = = ++ ++ = n 1=i i n 1 1 11 w x .... .... i ii n nn w ww xwxwX Por exemplo, um exame de seleção pode ser composto de três provas onde as duas primeiras tem peso 1 e a terceira tem peso 2. Um candidato com notas 70 75 e 90 terá média final: Eq 8: 25,81 4 )90(2)75(1)70(1 = ++ =X Mediana Dado um conjunto de valores em ordem crescente, a mediana é definida como: Se n é impar, o valor central; Se n é par, a média simples dos dois valores centrais. Exemplo 1: na amostra 25 26 26 28 30 a mediana é 26~ =x Exemplo 2: na amostra 71 73 74 75 77 79 a mediana é 5,74 2 )7574( ~ = + =x Moda A moda é o valor que ocorre com maior freqüência, ou seja, é o valormais comum. A moda pode ser múltipla ou pode não existir. Exemplo 1: na amostra 23 25 25 26 26 26 27 29 a moda é 26. Exemplo 2: na amostra 71 73 73 75 76 77 77 79 81 a moda é 73 e 77 Relações empíricas entre média, moda e mediana Para distribuições simétricas a média, a mediana e a moda coincidem aproximadamente. Para distribuições assimétricas observa-se a relação que aparece na Figura 8. Figura 8 : Distribuições assimétricas Exemplo: Para as amostras a seguir a relação entre média e mediana é C B 18 3. Medidas de tendência central e probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS A Distribuição simétrica 10 12 14 16 18 14~ 14 === xx B Distribuição assimétrica à direita 10 12 14 16 23 14~ 15 =>= xx C Distribuição assimétrica à esquerda 05 12 14 16 18 14~ 13 =<= xx Média geométrica É a raiz de ordem n do produto dos valores da amostra: Eq 9: n nXXG ....X21= Exemplo: a média geométrica de 12 14 16 é: Eq 10: 90,131614123 =××=G Média harmônica É a recíproca da média aritmética das recíprocas das observações: Eq 11: ∑∑ == ii X n Xn H 111 1 Exemplo: a média harmônica de 12 14 16 é: Eq 12: 81,13 16 1 14 1 12 1 3 = ++ =H Relação entre média aritmética, geométrica e harmônica: A média geométrica e a média harmônica são menores, ou no máximo igual, à média aritmética (ver Eq 13). A igualdade só ocorre no caso em que todos os valores da amostra são idênticos. Quanto maior a variabilidade, maior será a diferença entre as médias harmônica e geométrica e a média aritmética. Eq 13: XGH ≤≤ Exemplo: para a amostra 12 14 16 tem-se: Eq 14: H = 13,81 < G = 13,90 < 00,14=X Quartis Se um conjunto de dados é organizado em ordem crescente, o valor central, que divide o conjunto em duas partes iguais, é a mediana. Valores que dividem o conjunto em quatro partes iguais são representados por Q1, Q2, Q3, e denominam-se primeiro, segundo e terceiro quartis, respectivamente. O segundo quartil é a mediana. O primeiro e o terceiro quartil são calculados usando-se o seguinte procedimento: (1) partindo de uma amostra de tamanho n, colocar os valores em ordem crescente e identificar a ordem i (1, 2, 3, …, n) e o percentil p(i) = (i- 0,5)/n associado a cada valor. Estatística Industrial 19 3. Medidas de tendência central e probabilidade (2) identificar os valores associados aos percentis imediatamente acima e abaixo de 0,25; esses valores são chamados respectivamente de x(inf), associado ao percentil p(inf), e x(sup), associado ao percentil p(sup). (3) e então calcular o primeiro quartil usando: Eq 15: (inf)(sup) (sup)(inf)]25,0[(inf)]25,0(sup)[ 1 pp xpxpQ − ×−+×− = (4) similarmente, para o terceiro quartil, identifica-se os valores associados aos percentis imediatamente acima e abaixo de 0,75; esses valores são chamados respectivamente de x(inf), associado ao percentil p(inf), e x(sup), associado ao percentil p(sup). E então calcula-se o terceiro quartil usando: Eq 16: (inf)(sup) (sup)(inf)]75,0[(inf)]75,0(sup)[ 3 pp xpxpQ − ×−+×− = Exemplo: Para a amostra a seguir calcular o primeiro e terceiro quartis: 13,3 13,5 17,2 13,8 12,3 12,7 13,0 14,5 14,9 15,8 13,1 13,3 14,1 (1) valores em ordem crescente e cálculo de p(i): x(i) i p(i) = (i-0,5)/n 12,3 1 0,038 12,7 2 0,115 13,0 3 0,192 13,1 4 0,269 13,3 5 0,346 13,3 6 0,423 13,5 7 0,500 13,8 8 0,577 14,1 9 0,654 14,5 10 0,731 14,9 11 0,808 15,8 12 0,885 17,2 13 0,962 (2) valores imediatamente acima e abaixo de 0,25: x(inf) = 13,0 e x(sup) = 13,1 associados com p(inf) = 0,192 e p(sup) = 0,269 (3) primeiro quartil: Eq 17: 08,13 192,0269,0 1,13]192,025,0[)0,13(]25,0269,0[ 1 = − ×−+×− =Q (4) valores imediatamente acima e abaixo de 0,75: x(inf) = 14,5 e x(sup) = 14,9 associados com p(inf) = 0,731 e p(sup) = 0,808, resultando para o terceiro quartil: Eq 18: 60,14 731,0808,0 9,14]731,075,0[)5,14(]75,0808,0[ 3 = − ×−+×− =Q 20 3. Medidas de tendência central e probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS MEDIDAS DE VARIABILIDADE Invariavelmente as observações individuais irão apresentar alguma dispersão em torno do valor médio. Isso é chamado de variabilidade ou dispersão dos dados. Há muitas medidas de variabilidade, como por exemplo, a amplitude total, o desvio padrão ou a distância inter- quartílica. Essas medidas serão detalhadas na seqüência. Amplitude total A amplitude total é definida como a diferença entre o maior e o menor valor das observações. Por exemplo, para a amostra: 8,5 8,7 8,9 10,1 10,5 10,7 11,5 11,9 A amplitude é: R = 11,9 - 8,5 = 3,4 A amplitude é fácil de calcular e fornece uma idéia da magnitude da faixa de variação dos dados. A amplitude não informa a respeito da dispersão dos valores que se encontram entre os dois extremos. Quando n < 10, a amplitude pode resultar em uma medida de variação bastante satisfatória. Desvio-padrão Para uma amostra de n observações, x1, ..., xn , o desvio- -padrão S é definido como: Eq 19: ( ) 1 ]/)[( 1 = 222 i − − = − − ∑ ∑∑ n nxx n xx S ii A vantagem do desvio-padrão é que se trata de uma medida de variabilidade que leva em conta toda a informação contida na amostra. A desvantagem é que seu cálculo é mais trabalhoso. Para amostras pequenas (n < 30) usa-se n - 1 no denominador da equação anterior. Quando a amostra é grande (n > 30) ou quando trata- se da população usa-se n no denominador. O desvio-padrão de uma população é representado pela letra grega σ. Exemplo: para a amostra 10 12 14 16 18 A média é 14=x e o desvio-padrão é calculado como: Eq 20: 16,3 1 2)1418(2)1416(2)1414(2)1412(2)1410( = − −+−+−+−+− = n S Variância A variância S2 é definida como o quadrado do desvio-padrão, ou seja, 9,98. Eq 21: ( ) 1 ]/)[( 1 = 222 i2 − − = − − ∑ ∑∑ n nxx n xx S ii A variância de uma população é representada pela letra grega σ2 . Amplitude inter-quartílica É definida como a amplitude do intervalo entre o primeiro e o terceiro Estatística Industrial 21 3. Medidas de tendência central e probabilidade quartis, ou seja: Eq 22: 13 QQQ −= Ás vezes também é usada a semi-amplitude inter-quartílica, que é a metade da anterior. A amplitude inter-quartílica é uma medida de variabilidade bastante robusta, que é pouco afetada pela presença de dados atípicos. A amplitude inter-quartílica guarda a seguinte relação aproximada com o desvio-padrão: Eq 23: Q = (4/3) x desvio-padrão Coeficiente de variação É definido como o quociente entre o desvio-padrão e a média e, em geral, é expresso em percentual, conforme a equação a seguir. Eq 24: X SCV ×= 100 O coeficiente de variação é uma medida adimensional, útil para comparar resultados de amostras cujas unidades podem ser diferentes. Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média é próxima de zero. Exemplo: Dois processos, medindo itens diferentes, obtiveram os seguintes resultados: Folha de aço: Média=2,49 mm Desvio-padrão=0,12 mm Chapa de madeira: Média=3,75 cm Desvio Padrão=0,15 cm Qual dos dois processos é relativamente mais preciso? CV1 = 0,12 / 2,49 x 100 = 4,8% CV2 = 0,15 / 3,75 x 100 = 4,0% O segundo processo é relativamente mais preciso. Variável reduzida ou padronizada A variável S XXZ −= é denominadade variável reduzida ou padronizada. Ela mede a magnitude do desvio em relação à média, em unidades do desvio-padrão. Z = 1,5 significa uma observação desviada 1,5 desvios padrão para cima da média. A variável reduzida é muito útil para comparar distribuições e detectar dados atípicos. Os dados são considerados atípicos quando o módulo de Z é maior que 2,5 ou 3. Exemplo 1: Um engenheiro está analisando as espessuras de peças fabricadas em duas máquinas de corte. O operador mediu uma peça da máquina A com espessura de 90 mm e outra peça da máquina B com espessura de 100 mm. O engenheiro deve considerar esses dados coletados reais ou 22 3. Medidas de tendência central e probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS atípicos? A máquina A possui média 51 mm e desvio-padrão 12 mm. 25,3 12 5190 = − =Z Como |Z| > 3 o dado pode ser considerado atípico A máquina B possui média 72 mm e desvio-padrão 16 mm. 75,1 16 72100 = − =Z Como |Z| < 3 o dado não pode ser considerado atípico Exemplo 2: SSuuppoonnddoo qquuee 5511 ffoossssee aa mmééddiiaa eemm uummaa pprroovvaa ddee iinnggllêêss,, oonnddee oo ddeessvviioo ppaaddrrããoo éé 1122,, ppaarraa uumm ccaannddiiddaattoo qquuee oobbttiivveessssee 9900 aacceerrttooss tteemm--ssee:: 25,3 12 5190 = − = − = S XXZ Conclui-se que na prova de inglês este ccaannddiiddaattoo está 3,25 desvios- padrão acima da média. EXERCÍCIOS Exercício3.1. Para os dados do exercício 2.1, calcule a média aritmética e a mediana e verifique que a relação média > mediana, é válida para distribuições assimétricas à direita. Exercício 3.2. Ainda em relação aos dados do exercício 2.1, calcule a média aritmética usando a fórmula para dados agrupados e a tabela de freqüência que você construiu. Exercício 3.3. Para os dados do exercício 2.3., calcule a média e a mediana e verifique a relação média ≅ mediana para distribuições simétricas. Exercício 3.4. A partir dos dados do exercício 2.6., use a fórmula para o cálculo da média de dados agrupados e calcule a média para: X1: Característica dimensional de uma peça; X2: Tempo de uso (horas/semana) de um produto; X3: Tempo até a falha de um produto. Exercício 3.5. As amostras a seguir representam valores de tempos de fabricação de uma peça produzidas por três máquinas diferentes. Para cada máquina, calcule a amplitude total, o desvio padrão e a amplitude inter-quartílica. Após, conclua a respeito de diferenças de variabilidade entre tempos dessas máquinas. M A 20,2 24,7 25,7 21,7 19,2 22,3 23,0 23,1 21,3 26,8 20,7 23,6 25,4 24,6 22,5 M B 21,3 22,7 22,5 23,8 20,4 23,3 23,7 23,4 25,5 22,4 23,1 21,7 24,3 24,7 22,2 M C 22,1 24,4 24,0 21,5 23,2 22,0 25,4 27,8 23,5 23,0 20,6 23,6 22,5 22,8 21,4 Estatística Industrial 23 3. Medidas de tendência central e probabilidade Exercício 3.6. Calcule o valor da variável reduzida Z para os pontos extremos das amostras que aparecem no exercício anterior. Após indique se há evidência de dados atípicos em alguma dessas amostras (obs: para n=15, um valor de Z > 2,5 já seria evidência de dado atípico). Exercício 3.7. Caso haja indícios de dados atípicos, elimine esse resultado e refaça os cálculos da amplitude total, desvio padrão e amplitude inter-quartílica para a amostra correspondente. Se necessário, revise as conclusões do exercício 3.5. Exercício 3.8. Para a amostra a seguir (Tempos de uso em horas/semana de um produto), calcule a média, o desvio padrão e o coeficiente de variação. Calcule também os valores de Z para cada observação. Analise os valores de Z e indique se a amostra vem de uma população com distribuição simétrica, assimétrica à direita ou assimétrica à esquerda. 4,5 7,0 9,0 11 13 14 16 16 17 18 18 20 21 22 22 23 24 24 24 24 25 25 26 26 26 27 28 28 29 30 Exercício 3.9. Idem ao anterior, Tempos de uso (horas/semana) de um produto concorrente 0,2 0,2 0,3 0,4 0,6 0,6 0,8 1,0 1,0 1,2 1,2 1,3 1,4 1,5 1,5 1,7 1,8 2,0 2,2 2,5 2,5 2,7 3,3 3,5 3,8 4,3 5,1 12,0 12, 15,0 4 Probabilidade José Luis Duarte Ribeiro Carla ten Caten A Teoria das Probabilidades estuda os fenômenos aleatórios. Fenômeno Aleatório: são os fenômenos cujo resultado não pode ser previsto exatamente. Se o fenômeno se repetir, sob condições similares, o resultado não será sempre o mesmo. Experimento Aleatório: Qualquer fenômeno aleatório que possa ser executado pelo homem. CAMPO AMOSTRAL E EVENTOS Os resultados de um experimento aleatório podem ser representados em um espaço amostral ao qual chamaremos de S. O espaço S pode ser uni ou k-dimensional, discreto ou contínuo, finito ou infinito. A figura a seguir apresenta um espaço bidimensional onde aparecem os eventos A e B. Figura 9 - Campo amostral. Como pode ser visto, os eventos A e B estão completamente contidos em S e apresentam intersecção, ou seja, a sua ocorrência simultânea é possível. ESPAÇO AMOSTRAL E EVENTOS: Evento: É um conjunto de resultados possíveis do experimento. É um subconjunto de S. Exemplo: Em uma linha de produção, peças são fabricadas em série. Conte o nº de peças defeituosas em cada 200 peças produzidas. S = {0, 1, 2, ..., 200}; Eventos: A: ocorrer 10 peças defeituosas. A = {10}; B: ocorrer entre 10 e 15 peças defeituosas. B = {10, 11, 12, 13, 14, 15}; OPERAÇÕES COM CONJUNTOS Usando o símbolo ∪ para união e o símbolo ∩ para intersecção, Estatística Industrial 25 4. Probabilidade podemos definir os eventos C e D: Eq 25: C = A ∪ B representa o conjunto de valores que pertence a A ou B ou a ambos, enquanto que: Eq 26 D = A ∩ B representa o conjunto de valores que pertencem simultaneamente a A e B. Usaremos a letra φ para representar o conjunto vazio, e uma barra sobre a letra, por exemplo A , para representar o complemento de A, isto é, o conjunto de pontos que não pertence a A. DEFINIÇÃO DE PROBABILIDADE Um experimento será chamado aleatório se puder ser repetido um grande número de vezes sob condições similares e se o resultado de uma observação não pode ser exatamente previsto. Uma variável será chamada aleatória se descreve os resultados de um experimento aleatório. Para um evento E em S, podemos definir a existência de uma função P tal que P represente a probabilidade que x pertença a E. Isto é: Eq 27 E)(xPr P(E) ∈= Essa função P deve satisfazer algumas propriedades: 1) 0 P 1≤ ≤ 2) Se E1 e E2 são tais que E1 ∩ E2 = 0, tem-se que P(E1 ∪ E2) = P(E1) + P(E2) 3) A probabilidade de x pertencer a qualquer ponto do espaço amostral S deve ser igual a 1: P(S)=1 Essas propriedades são importantes para derivar várias regras de cálculo de probabilidades. Para determinar a probabilidade de um evento, usaremos o ponto de vista das freqüências relativas: Eq 28 P(E) = m(E) / m(S) onde m(E) e m(S) representam as medidas de E e S. SOMA DE PROBABILIDADES Dois eventos são ditos mutuamente exclusivos se a sua intersecção é nula. Para eventos mutuamente exclusivos, a soma das probabilidades é dada pela generalização da propriedade 2. Eq 29 P(E1 ∪ E2. ∪....∪ Ek) = Σ P(Ei) Se os eventos E1 e E2 não são mutuamente exclusivos, mas são independentes, pode-se demonstrar que: 26 4. Probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Eq 30 P(E1 ∪ E2) = P(E1) + P(E2) - P(E1 ∩ E2) Para o caso de três eventos, a generalização anterior é: Eq 31 P(E1∪ E2 ∪ E3) = P(E1) + P(E2) + P(E3) - [P(E1 ∩ E2) + P(E1 ∩ E3) + P(E2 ∩ E3)] + P(E1 ∩ E2 ∩ E3) Figura 10 - Intersecção de três eventos. EXEMPLO 1: Um digestor químico é alimentado por material que vem de dois tanques independentes. O material do tanque 1 pode ser uma concentração de ácido que varia uniformemente entre 4 e 8, enquanto que o material do tanque 2 pode apresentar uma concentração de base entre 5 e 10 (ver Figura 11). Sejam os seguintes eventos: A: material do tanque 1 com concentração superior a 6 B: material do tanque 2 com concentração inferior a 6 Calcule a P(A), P( A ), P(B), P( B ), P(A ∪ B), P(A ∩ B) Figura 11- Exemplo do digestor químico. Solução: Usando o ponto de vista das freqüências relativas, tem-se: P(A) = m(A) / m(S) P(A) = 10 / 20 = 0,5 Estatística Industrial 27 4. Probabilidade P( A ) = 1 - P(A) = 0,5 P(B) = 4 / 20 = 0,20 P( B ) = 1 - P(B) = 0,80 P(A ∩∩∩∩ B) = 2/20 = 0,10 P(A ∪∪∪∪ B) = P(A) + P(B) - P(A ∩∩∩∩ B) = 0,50 + 0,20 - 0,10 = 0,60 EXEMPLO 2: Considerando os dados do exemplo anterior, e sabendo que o processo apresenta problemas quando a concentração de ácido supera a concentração de base, calcule a probabilidade disso acontecer. Solução: P(E1) = m(E1) / m(S) P(E1) = 20/2 33× = 0,225 Figura 12- Exemplo do digestor químico. PRODUTO DE PROBABILIDADES A probabilidade de um evento A foi definida como a medida do conjunto A dividida pela medida de S. Poderíamos, então, escrever P(A/S) para indicar de forma explícita que a probabilidade de A está referida a todo o espaço amostral S. Assim: Eq 32: P(A) = P(A/S) = m(A) / m(S) Algumas vezes, no entanto, estaremos interessados em calcular a probabilidade de um evento E1 referida a um sub-espaço de S, por exemplo, ao espaço definido por E2: Eq 33: P(E1/E2) = m (E1 ∩ E2) / m(E2) Dividindo-se numerador e denominador por m(S): Eq 34: P(E1/E2) = [m (E1 ∩ E2) / m(S)] / [m(E2) / m(S)] Eq 35: P(E1/E2) = P(E1 ∩ E2) / P(E2) 28 4. Probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Essa expressão define a probabilidade de E1 dado E2 ou referida a E2. A partir dessa expressão, obtém-se: Eq 36: P(E1 ∩ E2) = P(E1/E2) . P(E2) Da mesma forma, poderíamos escrever: Eq 37: P(E2/E1) = P(E1 ∩ E2) / P(E1) e então obter: Eq 38: P(E1 ∩ E2) = P(E2/E1) . P(E1) As equações 36 e 38 são análogas e definem a probabilidade do produto, ou seja, da ocorrência simultânea de E1 e E2. Para três eventos tem-se: Eq 39: P(E1 ∩ E2 ∩ E3)= P(E1) . P(E2/E1) . P(E3/E1 ∩ E2) ou expressões equivalentes usando P(E2) ou P(E3). Exemplo 3: Para o exemplo do digestor químico calcule a probabilidade da concentração de ácido superar a concentração de base quando sabe-se que a concentração de ácido é superior a 6,0. Solução: O que se pede é a P(E1) dado A. Essa probabilidade é: 0,40 10/20 4/20 m(A)/m(S) A)/m(S)m(E/A)P(E 11 == ∩ = EVENTOS INDEPENDENTES Dois eventos, E1 e E2 são ditos independentes se: Eq 40: P(E1/E2) = P(E1) nesse caso, Eq 41: P(E1 ∩ E2) = P(E1) . P(E2) Para k eventos independentes, tem-se: Eq 42: P(E1 ∩ .... ∩ Ek) = Σ P(Ei) Exemplo 4: Um construtor se submete a licitação para duas obras independentes, A e B. Baseado na experiência, os engenheiros estimam que a probabilidade de ganhar a obra A é 0,25; e a probabilidade de ganhar a obra B é 0,33. Pede-se: a) Estimar a probabilidade de ganhar ao menos uma das duas obras: P(A ∪ B) = P(A) + P(B) - P(A∩B) = 0,25 + 0,33 - (0,25 . 0,33) = 0,5 b) Estimar a probabilidade de ganhar a obra A, sabendo-se que o construtor irá ganhar ao menos uma obra: Estatística Industrial 29 4. Probabilidade 50,0 50,0 25,0 B)P(A B))(AP(A =B)P(A/A == ∪ ∪∩ ∪ Note que P(A ∩ (A ∪ B)) é obviamente o mesmo que A, já que A está completamente contido em (A ∪ B). c) Se o construtor submete-se a outra licitação para uma obra C, com probabilidade de ganhar igual a 0,25, qual a probabilidade de ganhar ao menos uma obra? P(A ∪ B ∪ C) = 0,25 + 0,33 + 0,25 - (0,25 . 0,33 + 0,25 . 0,25 + + 0,33 . 0,25) + (0,25 . 0,33 . 0,25)= 0,625 Note que para o caso de eventos independentes vale também: P(A∪B∪C) = 1 - )CBAP( ∩∩ = 1 - (0,75 . 0,67 . 0,75) = 0,625 PROBABILIDADE TOTAL Seja que no campo amostral S exista um evento B que consiste de k componentes mutuamente exclusivos: Eq 43: B = B1 ∪ B2 ∪ ... ∪Bk; Bi ∩ Bj = 0 Figura 13 - Probabilidade total. E seja que no campo do evento B exista um outro evento A que pode ou não ocorrer simultaneamente com todos os componentes de B. Nesse caso, podemos escrever: Eq 44: A = (A ∩ B1) ∪ (A ∩ B2) ∪ ..... ∪ (A ∩ Bk) Isso quer dizer que o evento A está descrito em forma total pelos componentes B1....Bk do evento B, os quais são mutuamente exclusivos. Então: Eq 45: P(A) = P(A ∩ B1) +....+ P(A ∩ Bk) Eq 46: P(A) = P(B1) . P(A/B1) +....+ P(Bk) . P(A/Bk) Eq 47: P(A) = Σ P(Bi) . P(A/Bi) Exemplo 5: Na construção de um edifício usa-se 1000 Kg de material por dia; desse total, 600 Kg são adquiridos do fornecedor B1 e 400 Kg do fornecedor B2. 30 4. Probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Assim B = B1 ∪ B2, onde B é a provisão de 1000 Kg/dia O material pode ser defeituoso e por experiência prévia sabe-se que B1 e B2 têm as probabilidades de 0,03 e 0,01, respectivamente, de serem defeituosos. Chamando A o evento material defeituoso tem-se: A = (A ∩ B1) ∪ (A ∩ B2) Isto é, se o material é defeituoso, pode vir de B1 ou B2. Então A pode ser calculado a partir de: P(B1) = 0,6; P(B2) = 0,4 P(A/B1) = 0,03; P(A/B2) = 0,01 P(A) = P(B1) . P(A/B1) + P(B2) . P(A/B2) P(A) = (0,6) . (0,03) + (0,4) . (0,01) = 0,018 + 0,004 = 0,022 Assim a probabilidade total de que o material seja defeituoso, vindo de B1 ou B2, é igual a 0,022. TEOREMA DE BAYES O Teorema de Bayes permite calcular a probabilidade posterior de um evento jB , P(Bj/A), baseada em nova informação referente ao evento A e conhecendo-se a probabilidade anterior jB , P(Bj). Usando o conceito de probabilidade condicional, tem-se: Eq 48: P(Bj/A) = P(Bj ∩ A) / P(A) Como A está descrito em termos de B1,.....,Bk, tem-se o Teorema de Bayes: Eq 49: P(Bj/A) = P(Bj ∩ A) / Σ P(Bj) . P(A/Bj) Eq 50: P(Bj/A) = P(Bj) . P(A/Bj) / [ Σ P(Bj) . P(A/Bj)] Nota-se que o Teorema de Bayes determina a probabilidade posterior de um evento jB , em função de um evento A e da probabilidade anterior de jB . Exemplo 6: Uma seção de pavimento de concreto é aceita se sua espessura for superior a 7,5 cm. A experiência prévia indica que 90% das seções construídas são aceitas. A medição da espessura é feita usando um aparelho ultra-sônico, cuja confiabilidade é de 80%, ou seja, há uma probabilidade de 80% que a conclusão baseada neste aparelho seja correta. Pede-se: a) Qual a probabilidade que a seção esteja bem construída e seja aceita na inspeção? Estatística Industrial 31 4. Probabilidade Solução: Seja A: seção bem construída, isto é, e > 7,5 cm. P(A) = ? Seja B: O aparelho indica que a seção está bem construída, ou seja, indica que e > 7,5 cm. P(B)=0,90 Ainda, P(A/B) = 0,80 Assim, o que se pede é a P(A ∩ B): P(A ∩ B) = P(B) . P(A/B) = (0,90) . (0,80) = 0,72 b) A probabilidade que a seção não esteja bem construída e seja aceita: 0,1820)(0,90).(0,/B)AP(B).P(B)AP( ===∩ c) A probabilidade que a seção seja aceita quando se sabeque a seção está bem construída. Essa probabilidade pode ser estimada usando o Teorema de Bayes. O que se pede é a P(B/A). Como somente podemos dizer que a seção está bem construída baseado nas medições temos: A)B(A)(BA ∩∪∩= Assim, )B P(A/. )BP( P(A/B). P(B)P(A) += P(A) = (0,90) . (0,80) + (0,10) . (0,20) = 0,74 0,973 0,74 (0,80) . (0,90) P(A) P(A/B). P(B)P(B/A) === Como se vê, a probabilidade anterior P(B) = 0,90 é agora modificada para P(B/A) = 0,973 depois de se saber o evento: a seção está bem construída. Exercícios Exercício 4.1. Dois eventos são ditos mutuamente exclusivos se eles não tem elementos em comum, ou seja, se eles não podem ocorrer simultaneamente. E um grupo de eventos é dito coletivamente exaustivo se eles esgotam todos os resultados possíveis para o experimento em questão. Dê um exemplo de eventos mutuamente exclusivos e coletivamente exaustivo. Exercício 4.2. Qual a probabilidade de um candidato ao vestibular acertar o dia da semana em que nasceu Pedro Alvarez Cabral? Que suposição você fez para calcular essa probabilidade? Exercício 4.3. Seja P(A) = 0,30 e P(B) = 0,80 e P(A∩B) = 0,15. Pede-se: a) A e B são mutuamente exclusivos? 32 4. Probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS b) Determine P(B) c) Determine P(A∪B) Exercício 4.4. Sejam A e B mutuamente exclusivos, P(A) = 0,52 e P(B) = 0,27. Pede- se: a) A e B são coletivamente exaustivos? b) Determine P(A∪B) c) Determine P(A∩B) Exercício 4.5. As falhas de diferentes equipamentos são independentes uma das outras. Se há três equipamentos e as suas respectivas probabilidades de falha em um determinado dia são 1%, 2% e 5%, indique: a) a probabilidade de todos os equipamentos falharem em um mesmo dia b) de nenhum falhar Exercício 4.6. Uma fábrica de azulejos tem um processo de inspeção em 3 etapas. A probabilidade de um lote defeituoso passar sem ser detectado em uma dessas etapas é de aproximadamente 25%. Com base nessa informação, calcule a probabilidade de um lote defeituoso passar sem ser detectado por todas as 3 etapas. Exercício 4.7. Há 99% de probabilidade de uma máquina fabricar uma peça sem defeitos. Supondo que a fabricação de peças sucessivas constitua eventos independentes, calcule as seguintes probabilidades: a) de duas peças em seqüência serem defeituosas b) de dez peças em seqüência sem defeitos Exercício 4.8. Três máquinas A, B e C fabricam matrizes para a estamparia. O histórico dessas máquinas revela que elas produzem respectivamente 1%, 2% e 3% de defeituosos. Um inspetor examina uma matriz e verifica que ela está perfeita. Sabendo que cada máquina é responsável por 1/3 da produção total, calcule a probabilidade de ela ser produzida por cada uma das máquinas. Exercício 4.9. Repita o exercício 8 para o caso em que o inspetor tivesse examinado a matriz e verificado que ela era defeituosa. Exercício 4.10. Repita o exercício 8 para o caso em que as máquinas A, B e C fossem responsáveis, respectivamente, pelos seguintes percentuais da produção total: 20%, 40% e 40%. Exercício 4.11. Uma cidade tem 30 mil habitantes e três jornais X, Y, Z. Uma pesquisa de opinião revela que: 12 mil lêem X, 8 mil Y, 7 mil X e Y, 6 mil Z, 4.500 lêem X e Z, mil Y e Z e 500 lêem X,Y e Z. Qual a probabilidade de que um habitante leia: a) pelo menos um jornal Estatística Industrial 33 4. Probabilidade b) só um jornal c) ler o jornal X sabendo que ele lê o jornal Z Exercício 4.12. Uma empresa exploradora de petróleo perfura um poço quando acha que há pelo menos 25% de chance de encontrar petróleo. Ela perfura 4 poços, aos quais são atribuídas probabilidades de 0,3 ; 0,4 ; 0,7 e 0,8. a) Determine a probabilidade de nenhum poço produzir petróleo, com base nas estimativas da empresa. b) Determine a probabilidade de os quatro poços produzirem petróleo. c) Qual a probabilidade de só os poços com probabilidades 0,3 e 0,7 produzirem petróleo? Exercício 4.13. Os arquivos da polícia revelam que, das vítimas de acidente automobilístico que utilizam cinto de segurança, apenas 10% sofrem ferimentos graves, enquanto que a incidência é de 50% entre as vítimas que não utilizam cinto de segurança. Estima-se que em 60% a porcentagem dos motoristas que usam o cinto. A polícia acaba de ser chamada para investigar um acidente em que houve um indivíduo gravemente ferido. Calcule a probabilidade de ele estar usando o cinto no momento do acidente. A pessoa que dirigia o outro carro não sofreu ferimentos graves. Calcule a probabilidade dela estar usando o cinto no momento do acidente. 5 Distribuições de probabilidade José Luis Duarte Ribeiro Carla ten Caten Conforme visto anteriormente, o histograma é usado para apresentar dados amostrais extraídos de uma população. Por exemplo, os 50 valores de uma característica dimensional apresentados anteriormente representam uma amostra de um processo industrial. O uso de métodos estatísticos permite que se analise essa amostra e se tire algumas conclusões sobre o processo de manufatura. Uma distribuição de probabilidade é um modelo matemático que relaciona um certo valor da variável em estudo com a sua probabilidade de ocorrência. Há dois tipos de distribuição de probabilidade: 1.Distribuições Contínuas: Quando a variável que está sendo medida é expressa em uma escala contínua, como no caso de uma característica dimensional. 2. Distribuições Discretas: Quando a variável que está sendo medida só pode assumir certos valores, como, por exemplo os valores inteiros 0, 1, 2, etc. Figura 14 - Distribuição de probabilidade discreta e contínua. No caso de distribuições discretas, a probabilidade que a variável X assuma um valor específico xo é dados por: Eq 51: P{X = xo} = P(xo) No caso de variáveis contínuas, as probabilidades são especificadas em termos de intervalos, pois a probabilidade associada a um número específico é zero. Eq 52: { } ∫=≤≤ ba dx )x(fbxaP Estatística Industrial 6-35 Erro! Resultado não válido para índice. DISTRIBUIÇÕES DISCRETAS MAIS IMPORTANTES Distribuição Binomial A distribuição binomial é adequada para descrever situações em que os resultados de uma variável aleatória podem ser agrupados em apenas duas classes ou categorias. As categorias devem ser mutuamente excludentes, de forma que não haja dúvidas na classificação do resultado da variável nas categorias e coletivamente exaustivas, de forma que não seja possível nenhum outro resultado diferente das categorias. Por exemplo, um produto manufaturado pode ser classificado como perfeito ou defeituoso, a resposta de um questionário pode ser verdadeira ou falsa, as chamadas telefônicas podem ser locais ou interurbanas. Mesmo as variáveis contínuas podem ser divididas em duas categorias, como, por exemplo, a velocidade de um automóvel pode ser classificada como dentro ou fora do limite legal. Geralmente, denomina-se as duas categorias como sucesso ou falha. Como as duas categorias são mutuamente excludentes e coletivamente exaustivas: 1)()( =+ falhaPsucessoP Consequentemente, sabendo-se que, por exemplo, a probabilidade de sucesso é P(sucesso) = 0,6, a probabilidade de falha é P(falha) = 1 - 0,6 = 0,4. Condições de aplicação do modelo binomial a) são feitas n repetições do experimento, onde n é uma constante; b) há apenas dois resultados possíveis em cada repetição, denominados sucesso e falha c) a probabilidade p de um sucesso e (1-p) de falha permanece constante em todas as repetições; d) as repetições são independentes, ou seja, o resultado de uma repetição não é influenciado por outrosresultados. Seja um processo composto de uma seqüência de n observações independentes com probabilidade de sucesso constante igual a p, a distribuição do número de sucessos seguirá o modelo Binomial: Eq 53: ( ) xnxn x )p(p)x(P −−= 1 x = 0, 1, ...., n. onde ( )n x representa o número de combinações de n objetos 36 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS tomados x de cada vez, calculado como: Eq 54: ( ) )!(! ! xnx nn x −= Os parâmetros da distribuição Binomial são n e p. A média e a variância são calculadas como: Eq 55: np=µ Eq 56: )1(2 p np −=σ A distribuição Binomial é usada com freqüência no controle de qualidade. É o modelo apropriado quando a amostragem é feita sobre uma população infinita ou muito grande. Nas aplicações de controle da qualidade, x em geral representa o número de defeituosos observados em uma amostra de n itens. Por exemplo, se p = 0,10 e n = 15, a probabilidade de obter x itens não conformes é calculada usando a equação da binomial. Para x=1: Eq 57: ( ) 15)!115(!1 !1511 =−=5 Eq 58: ( ) 3402301001510011001 1151151 ,, x ,),( x, x )P( =×=−= − Figura 15 - Distribuição Binomial com p = 0,10 e n = 15 Outra estatística de interesse para o controle de qualidade é a fração de defeituosos de uma amostra: Eq 59: n xp =ˆ Eq 60: n pp p )1(2 ˆ − =σ Distribuição de Poisson A distribuição de Poisson é adequada para descrever situações onde existe uma probabilidade de ocorrência em um campo ou intervalo contínuo, geralmente tempo ou área. Por exemplo, o número de acidentes por mês, o número de defeitos por metro Estatística Industrial 6-37 Erro! Resultado não válido para índice. quadrado, número de clientes atendidos por hora, etc. Nota-se que a variável aleatória é discreta (número de ocorrência), no entanto, a unidade de medida é contínua (tempo, área). Além disso, as falhas não são contáveis, pois não é possível contar o número de acidentes que não ocorreram, nem tampouco o número de defeitos que não ocorreram. A distribuição de Poisson fica completamente caracterizada por um único parâmetro λ que representa a taxa média de ocorrência por unidade de medida. Condições para a aplicação do modelo de Poisson: a) número de ocorrências durante qualquer intervalo depende somente da extensão do intervalo; b) as ocorrências ocorrem independentemente, ou seja, um excesso ou falta de ocorrências em algum intervalo não exerce efeito sobre o número de ocorrências em outro intervalo; c) a possibilidade de duas ou mais ocorrências acontecerem em um pequeno intervalo é muito pequena quando comparada à de uma única ocorrência. A equação para calcular a probabilidade de x ocorrências é dada por: Eq 61: ! )( x e xP xλλ− = x = 0, 1,.... A média e a variância da distribuição de Poisson são: Eq 62: λµ = Eq 63: λσ =ˆ A aplicação típica da distribuição de Poisson no controle da qualidade é como um modelo para o número de defeitos (não conformidades) que ocorre por unidade de produto (por m2, por volume ou por tempo, etc.). Como um exemplo, suponha que o número de defeitos de pintura siga uma distribuição de Poisson com λ = 2. Então, a probabilidade que uma peça apresente mais de 4 defeitos de pintura virá dada por: Eq 64: { } ∑ = − −=≤− 4 0 2 ! 2141 x x x eXP Eq 65: { } %5,5055,0945,0141 ==−=≤− XP 38 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Figura 16 - Distribuição de Poisson com λ = 2. x P(x) 0 0,135 1 0,270 2 0,270 3 0,180 4 0,090 5 0,036 6 0,012 A distribuição de Poisson é uma forma limite da distribuição Binomial, quando 0→∞→ p e n , mas mantendo o quociente λ=np DISTRIBUIÇÕES CONTÍNUAS MAIS IMPORTANTES Distribuição Exponencial Na distribuição de Poisson, a variável aleatória é definida como o número de ocorrências em determinado período, sendo a média das ocorrências no período definida como λ. Na Distribuição Exponencial a variável aleatória é definida como o tempo entre duas ocorrências, sendo a média de tempo entre ocorrências de 1/λ. Por exemplo, se a média de atendimentos no caixa bancário é de λ = 6 atendimentos por minuto, então o tempo médio entre atendimentos é 1/λ = 1/6 de minuto ou 10 segundos. Condição de aplicação do modelo exponencial: a) o número de ocorrências deve seguir uma distribuição de Poisson. Se considerarmos a distribuição de Poisson como o modelo para o número de ocorrências de um evento no intervalo de [0, t] teremos: Eq 66: ! )()( x te xP xt λλ− = E nesse caso pode ser demonstrado que a distribuição dos intervalos entre ocorrências irá seguir o modelo Exponencial com parâmetro λ. O modelo da distribuição Exponencial é o seguinte: Eq 67: 0;)( ≥= − t etf tλλ Estatística Industrial 6-39 Erro! Resultado não válido para índice. onde λ > 0 é uma constante. Figura 17 - Distribuição Exponencial. A média e o desvio-padrão da distribuição Exponencial são calculados usando: Eq 68: λµ 1 = Eq 69: λσ 1 = A distribuição Exponencial acumulada vem dada por: Eq 70: 0 1}{)( t0 ≥−==≤= −− ∫ tedxetTPtF t x λλλ A distribuição Exponencial é largamente utilizada no campo da confiabilidade, como um modelo para a distribuição dos tempos até a falha de componentes eletrônicos. Nessas aplicações o parâmetro λ representa a taxa de falha para o componente, e 1/λ é o tempo médio até a falha. Por exemplo, suponha que uma máquina falhe em média uma vez a cada dois anos λ=1/2=0,5. Calcule a probabilidade da máquina falhar durante o próximo ano. Eq 71: 0,3930,607-11}1{)( 0,5x1 ==−=≤= −eTPtF A probabilidade de falhar no próximo ano é de 0,393 e de não falhar no próximo ano é de 1-0,393=0,607. Ou seja, se forem vendidos 100 máquinas 39,3% irão falhar no período de um ano. Conhecendo-se os tempos até a falha de um produto é possível definir os períodos de garantia. Distribuição de Weibull O modelo da distribuição de Weibull é: 40 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Eq 72: − − − = − γγ θθθ γ Lx e Lx xf 1 )( Eq 73: − −−= γ θ Lx exF 1)( onde: γ: parâmetro de forma θ: parâmetro de escala L: parâmetro de localização A média e a variância da distribuição de Weibull vêm dadas por: Eq 74: +Γ+= γ θµ 11 L Eq 75: +Γ− +Γ= 2 22 1121 γγ θσ A distribuição de Weibull é muito flexível e pode assumir uma variedade de formas. Ela tem sido usada extensivamente para modelar tempos de processo ou tempos até a falha de componentes elétricos, componentes mecânicos, elementos estruturais e sistemas complexos. Distribuição Normal A distribuição Normal é a mais importante das distribuições estatísticas, tanto na teoria como na prática. Uma das razões, é que a distribuição Normal representa a distribuição de freqüência de muitos fenômenos naturais. Outra razão é que a distribuição Normal serve como aproximação da distribuição Binomial, quando n é grande. No entanto, o motivo mais importante é que as médias e as proporções de
Compartilhar