Prévia do material em texto
Metodologia da Manutenção Estatística e Probabilidade na Manutenção Prof. Heldemarcio Leite Ferreira Objetivo Geral: Proporcionar uma visão probabilística adequada, necessária ao profissional de manutenção, para o entendimento e tratamento dos eventos aleatórios que caracterizam as ocorrências em ativos físicos dos sistemas de produção. Objetivos Específicos: - Desenvolver a noção da incerteza associada à Manutenção. - Aplicar os recursos da estatística descritiva na análise exploratória de dados. - Aplicar os recursos da Inferência estatística na obtenção de parâmetros de uma população a partir dos dados amostrais. - Conhecer os princípios da teoria das probabilidades para aplicação a eventos estocásticos Programa – Conteúdo programático: 1. Introdução 2. Mensuração, 2.1 Escalas e tipos de variáveis 3. Estatística descritiva 3.1 Amostras e Populações 3.2 Medidas de tendência central 3.3 Medidas de dispersão 4. Regressão Linear 5. Cálculo das Probabilidades 6. Modelos Probabilísticos 6.1 Revisão de Estatística Descritiva 6.2 Principais distribuições aplicadas em Manutenção 7. Estatística Indutiva 7.1 Inferência e decisões estatísticas 7.2 Estimação e Teste de Hipótese . INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 2 1. Introdução Todas as vezes que se estudam fenômenos de observação, cumpre-se distinguir o próprio fenômeno e o modelo matemático (determinístico ou probabilístico) que melhor o explique. Os fenômenos estudados pela Estatística são fenômenos cujo resultado, mesmo em condições normais de experimentação variam de uma observação para outra, dificultando dessa maneira a previsão de um resultado futuro. Para a explicação desses fenômenos muito comuns na área de manutenção, designados por eventos aleatórios, adota-se um modelo matemático probabilístico. Nesse caso, o modelo utilizado será o cálculo das probabilidades. 1.a Origem da palavra Embora a palavra ESTATÍSTICA ainda não existisse, há indícios de que 3000 anos a.C. já se faziam censos na Babilônia, China e Egito. A própria Bíblia, em seu livro quarto do velho testamento (Números) começa com uma instrução a Moisés: Fazer um levantamento dos homens de Israel que estivessem aptos para guerrear. A palavra ESTATÍSTICA vem do grego “STATUS” (ESTADO, em latim). Sob essa palavra acumularam-se descrições e dados relativos ao Estado. A ESTATÍSTICA nas mãos dos estadistas constituiu-se em uma verdadeira ferramenta administrativa. Em 1085, Guilherme, O Conquistador, ordenou que se fizesse um levantamento estatístico da Inglaterra. Esse levantamento deveria incluir informações sobre terras, proprietários, empregados, animais e serviria de base para o cálculo de impostos. Tal levantamento originou um volume intitulado “Domesday Book”. A palavra ESTATÍSTICA foi cunhada pelo acadêmico alemão Gottfried Achenwall por volta da metade do século XVIII (o verbete “Statistics” apareceu na enciclopédia Britânica em 1797). 1.b Objetivo do estudo de Estatística Estuda-se Estatística para aplicar seus conceitos como auxílio nas tomadas de decisão diante de incertezas, justificando cientificamente as decisões. Os princípios estatísticos são utilizados em uma grande variedade de situações – no governo, nos negócios e na indústria, bem como no âmbito das ciências sociais, biológicas e físicas. A Estatística presta-se a aplicações operacionais e de pesquisas, sendo efetiva não só em experimentos de laboratório, mas também em estudos fora dele. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 3 A Estatística compreende o planejamento e a execução de pesquisas, a descrição e a análise dos resultados e a formulação de predições com base nesses resultados. Método Estatístico é um processo para se obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Os passos da metodologia estatística são os seguintes: • Definição cuidadosa do problema; • Formulação de um plano para a coleta de unidades de observação; • Coleta, resumo e apresentação das unidades de observação ou de seus valores numéricos; • Divulgação de relatórios com as conclusões, de tal modo que estas sejam facilmente entendidas por quem as for usar na tomada de decisões. Entre as características do método estatístico, citam-se: • É o único modo de lidar com uma grande quantidade de observações ou de valores; • Aplica-se somente a observações que sejam redutíveis a uma forma quantitativa; • É o mesmo tanto para as ciências humanas e sociais como para as ciências tecnológicas; • é objetivo; entretanto, os resultados são influenciados (embora não devessem) pela necessária interpretação subjetiva. 2. Mensuração A invenção dos números (símbolos capazes de expressar quantidades) permitiu que o homem deixasse de guardar as informações num lugar físico para guarda- las num lugar psicológico: a memória . Porém, as informações guardadas na memória humana podem ser perdidas por esquecimento. Com a escrita, o homem supera esse problema. O algarismo , que é a representação gráfica do número, possibilitou-lhe anotar as informações como garantia contra o esquecimento. Medir uma magnitude (grandeza) significa associar a essa magnitude um número real. Portanto, quando se mede uma grandeza, realizam-se, em cadeia as seguintes ações: • Definição do que vai ser medido ; • Definição de um critério para medição, isto é, de uma escala ; • Leitura ; • Interpretação . A medida é uma relação entre a magnitude e o critério. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 4 Embora número seja sempre número, as magnitudes diferem umas das outras quanto à classe a que pertencem, ou seja, a informação que fornecem, por exemplo: estatura, peso, velocidade, inteligência, maturidade, temperatura etc. O processo de mensuração depende do nível , isto é da classe a que pertence a magnitude (grandeza). Cada nível supõe certas características associadas às grandezas nele contidas. Assim, há características de 1º nível, 2º nível, 3º nível e 4º nível. A complexidade e a informação aumentam com o nível. 2.1 Escalas e tipos de variáveis Escalas ou Níveis de Mensuração 1º Nível – compreende o nível de mensuração mais baixo e rudimentar possível. A escala de medida desse nível chama-se Escala Nominal. A base, ou seja, o fundamento para a atribuição dos números é de natureza qualitativa , distintiva. Na escala nominal, as características classificam-se em várias categorias, nas quais um valor numérico associado não tem significado real. • Exemplo de escala nominal: A variável sexo tem as categorias masculino e feminino, as quais podem ser classificadas numericamente pela atribuição do número 1 para o sexo masculino e do 2 para o feminino. Esse exemplo mostra que no 1º nível não são possíveis operações aritméticas com os valores atribuídos às variáveis . O 1º nível presta-se a codificações e estas comportam, no máximo, contagens . Outros exemplos de magnitude (grandezas) de 1º nível: • Números de telefones; • Placas de automóveis; • Camisas de jogadores etc. 2º Nível – compreende um nível de mensuração um pouco mais elaborado que o anterior e corresponde ao que popularmente se designa por ordenação . A escala de medida desse nível chama-se Escala Ordinal. As grandezas de 2º nível podem ser avaliadas em termos de maior ou menor, embora a quantificação precisa seja impossível. Na escala ordinal, as características são ordenadas (de maneira crescente ou decrescente) em situações para as quais a posição associada é importante.• Exemplo de escala ordinal: As notas escolares resultantes de provas tradicionais produzem mensurações de 2º nível. Assim, se o aluno A obteve nota 8 e o aluno B, 4. É possível concluir que INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 5 o aluno A teve um aproveitamento maior que o aluno B, embora não seja possível afirmar que o primeiro saiba o dobro do segundo. A atribuição de notas pelo método tradicional é algo falacioso, que sofre influência das variações de humor, critério, fadiga etc. do avaliador (professor). Como a multiplicação é uma adição abreviada e a divisão, uma subtração abreviada, não sendo possíveis as operações de ( × ) ou ( ÷ ), não são também possíveis, no 2º nível, as de ( + ) e ( − ). 3º Nível – compreende um nível de mensuração em que surge, pela primeira vez, uma escala de medida propriamente dita. A escala de medida desse nível chama- se Escala Intervalar , caracterizada pela existência de: o Uma unidade de medida (arbitrária, porém fixa); o Um zero relativo, isto é, convencional. Na escala intervalar, as características tem atribuído a elas valores que permitem comparar não só a ordem, como também a variação numérica entre as mesmas. • Exemplo de escala intervalar: As escalas termométricas. O zero é convencional em todas, bem como a distância entre dois traços contíguos – os chamados graus. Assim, se um corpo A está a 40ºC e outro, B, a 10ºC, não tem sentido dizer que A é “quatro vezes mais quente” que B, pois uma vez mudando a escala de graus Celsius para graus Fahrenheit este resultado não se confirmaria. Utilizando-se a equação de conversão de escalas termométricas: 32+C 5 9 =F , onde C representa a temperatura medida em graus Celsius e F a temperatura medida convertida para graus Fahrenheit, chegamos aos seguintes valores convertidos: 40ºC⇒ 104ºF 10ºC⇒ 50ºF Com os quais concluímos imediatamente que a relação de quatro vezes não se confirma. No entanto, é interessante atentar para as diferenças de 3º Nível, para as quais todas as operações aritméticas são possíveis. É só observar a tabela a seguir: Corpos ºC Diferenças em ºC ºF Diferenças em ºF A 10 - 50 - B 20 10 68 18 C 40 20 104 36 D 100 60 212 108 INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 6 Concluímos que as relações entre as diferenças de temperatura nas escalas Celsius e fahrenheit se mantêm: ESCALA CELSIUS ESCALA FAHRENHEIT 60 = 3 X 20 108 = 3 X 36 4º Nível – compreende a chamada Escala Proporcional ou Racional . Essa escala é muito parecida com a de 3º Nível, exceto quanto à origem: o zero é absoluto, isto é, independente de escalas utilizadas. Na escala racional ou proporcional, as características são ordenadas e a variação entre elas pode ser comparada, havendo um zero natural para a escala de medição. 2.2 Tipos de Variáveis Nos subitens anteriores temos utilizado o termo variável sem que tenha havido uma apresentação formal deste vocábulo. Em Estatística, variável é uma atribuição de um número a cada característica da unidade de observação, ou seja, é uma função matemática definida na população. Quando uma característica ou variável é não-numérica, denomina-se variável qualitativa ou atributo . Exemplos: tipo de equipamento, origem, fabricante, faixa etária etc. Uma variável qualitativa é expressa em categorias. Quando os dados são qualitativos, o interesse reside, normalmente, na quantidade ou na proporção de cada categoria em relação à população. Quando pode ser expressa numericamente, a variável estudada denomina-se variável quantitativa . Exemplos: duração de uma bateria, quantidade de falhas observada, tempo de manutenção. Observe que o fato de uma variável ser expressa por números não significa que ela seja necessariamente quantitativa, porque a classificação da variável depende de como foi medida, e não do modo como se manifesta. As variáveis quantitativas podem ser discretas ou contínuas . As variáveis discretas podem assumir apenas determinados valores inteiros, e resultam de uma contagem. Exemplo: número de falhas observadas em período 3 INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 7 Por outro lado, variáveis contínuas são aquelas cujo conjunto de valores possíveis é um intervalo de números reais, resultado de uma medição em qualquer grau de precisão. Na prática, entretanto, os mecanismos de medição têm precisão limitada, tal que os dados coletados de variáveis contínuas são necessariamente discretos. Isto é, há somente um conjunto finito (mesmo que muito grande) de valores possíveis que realmente podem ser medidos (devido a limitações dos instrumentos de medida). Exemplo: tempo de reparo de um equipamento A seguir, apresenta-se um diagrama resumo: Exercícios 1. Na Engenharia de Avaliações, diversas características de uma unidade Industrial são consideradas para o cálculo do valor do empreendimento. a. Identifique o tipo de escala a ser utilizada para as seguintes características: área, localização (em relação às fontes dos insumos e aos centros de distribuição dos produtos acabados), produtividade, lucratividade e tempo de existência no mercado. b. Explique como quantificar a existência ou ausência de tecnologia inovadora. 2. Identifique os tipos de escalas utilizadas para cada uma das seguintes características das unidades de observação, retiradas de uma tabela do Guia do Usuário do aplicativo Microsoft Excel: mês, tipo de produto, vendedor, região, país, unidades vendidas e total de vendas. 3. Explique por que não faz sentido o método convencional para cálculo das médias aritméticas em avaliações escolares. VARIÁVEIS QUALITATIVAS (são atributos) QUANTITATIVAS (são numéricas) DISCRETAS (são valores inteiros obtidos por contagem) CONTÍNUAS (São valores reais obtidos por medição) INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 8 3. Estatística Descritiva 3.1 Amostras e Populações À Estatística não interessa concluir a respeito de unidades individuais de observação, mas sim de grupos, conjuntos ou agregados, porque seu objetivo é o estudo da chamada população a qual pode ser finita ou infinita. O conceito de população consiste na totalidade de unidades de observação (usualmente pessoas, objetos ou eventos) a partir das quais se deseja tomar uma decisão. Portanto, em uma população o principal interesse reside sobre qual a variável estudada. População finita é aquela em que o número de unidades de observação pode ser contado e é limitado. Exemplo: total de equipamentos de disjunção instalados em um sistema elétrico de um concessionário de energia elétrica. Uma população infinita corresponde àquela em que a quantidade de unidades de observação é ilimitada, ou a sua composição é tal que as unidades da população não podem ser contadas. Exemplo: conjunto de medidas de comprimento um determinado componente de um equipamento, uma vez que não há limite para o número de vezes em que se pode medir essa dimensão. O número de unidades de observação de uma população denomina-se tamanho e, no caso finito, é designado pela letra N. Ademais, realiza-se uma pesquisa estatística em uma população, observando-se todas as suas unidades e uma ou mais características passíveis de estudo; também se identifica a área de abrangência, aquela que fisicamente, limita as unidades de observação que se deseja estudar.Ao se descrever uma população estatística, deve-se diferenciar unidades de observação das características dessa população. Uma unidade de observação é um objeto (ou grupo de objetos) do qual são se coletam dados , e que se pode ter muitas características, embora o interesse costumeiramente recai sobre apenas uma ou poucas dessas características, cujos valores se anotam (variáveis qualitativas ou quantitativas) e cujos princípios estatísticos se aplicam. Exemplo: em uma população de motores de indução, uma unidade de observação é o motor de indução, o qual apresenta muitas características, entre as quais a potência o número de pólos, o grau de proteção, a tensão nominal etc. Todavia examinar uma população inteira nem sempre é viável; na maioria das vezes, há escassez de tempo e de recursos (humanos e/ou financeiros, por INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 9 exemplo) ou impraticabilidade do censo. Além disso, as populações, geralmente, encontram-se em constante mudança e, por essa razão, nunca as observações refletirão, de maneira completamente precisa ou perene, as condições reais e atuais de todas as unidades de observação. Nesses casos, o estudo estatístico inicia-se com a coleta de parte da população, denominada amostra , constituída por n (n<N) unidades de observação e que deve ter as mesmas características da população. Essa coleta recebe o nome de amostragem, que envolve pelo menos dois passos: o Escolha das unidades; o Registro das observações. O tamanho da amostra a ser coletada da população é aquele que minimiza os custos de amostragem, podendo ser até de tamanho 1. A amostra constitui uma redução da população a dimensões menores, sem perda das características essenciais. Composição da Amostra Há diferentes maneiras pelas quais as amostras podem ser selecionadas, cada qual com vantagens e desvantagens, e um dos problemas associado à amostragem é a definição do tamanho da amostra a ser retirada da população. Quanto à composição da amostra, basicamente existem dois métodos a serem escolhidos: probabilístico e não probabilístico ou intencional. Nosso estudo será direcionado aos métodos probabilísticos por tratar-se do método que garante cientificamente a aplicação das técnicas estatísticas de inferências. Métodos Probabilísticos O método de amostragem probabilística exige que cada elemento da população possua determinada probabilidade (chance) de ser selecionado. Normalmente possuem a mesma probabilidade. Assim se N for o tamanho da população, a probabilidade de cada elemento será 1/N. Somente com base em amostragens probabilísticas é que se podem realizar inferências ou induções sobre a população a partir do conhecimento da amostra. Três tipos de amostragens principais compõem as amostras, segundo o método probabilístico: Amostragem Aleatória Simples, Amostragem Sistemática e Amostragem Estratificada. O processo de retirada de uma amostra de uma população na qual cada unidade tem a mesma chance (oportunidade) de ser retirada denomina-se amostragem aleatória simples; a amostra assim obtida é chamada de amostra aleatória. Uma amostragem é sistemática quando a retirada das unidades de observação é feita periodicamente, sendo o intervalo de seleção calculado, para uma população INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 10 finita, por meio da divisão do tamanho da população pelo tamanho da amostra a ser selecionada. Trata-se de uma variação da amostragem aleatória simples, conveniente quando a população está ordenada, segundo algum critério, como fichas em um fichário. Calcula-se o intervalo de amostragem (seleção) N/n aproximando-o para o inteiro mais próximo: a. Utilizando-se a tábua de números aleatórios*, sorteia-se um número x entre 1 e a, formando-se a amostra dos elementos correspondentes aos números x; x+a; x+2a; ... Às vezes, a população é heterogênea e a amostragem aleatória simples não refletiria essa heterogeneidade. Nesses casos, utiliza-se uma amostragem denominada estratificada, obtida pela separação das unidades da população em grupos distintos (chamados estratos); em seguida, seleciona-se uma amostra aleatória a partir de cada estrato. A amostra completa compõe-se da agregação das amostras de cada estrato e, geralmente, a proporcionalidade do tamanho de cada estrato na população é mantida na amostra. Logo, para uma amostra ser considerada adequada deve ser representativa , ou seja, deve conter em proporção tudo o que a população possui qualitativa e quantitativamente . E tem que ser imparcial , isto é, todas as unidades de observação da população devem ter igual oportunidade de fazer parte da amostra. Para assegurar a representatividade e a imparcialidade é preciso atender aos seguintes procedimentos: Requisito Procedimento Representatividade Análise da população para verificar se seus elementos distribuem-se homogeneamente ou se formam grupos com características peculiares. Sendo esse o caso, deve- se respeitar as proporções com que esses grupos integram a população. Imparcialidade Sorteio (mediante a utilização de uma máquina geradora de números aleatórios ou de uma tábua de números aleatórios)* das unidades de observação que farão parte da amostra. * É comum o uso da expressão tabela de números aleatórios, porém o mais correto seria dizer tabela de dígitos pseudo-aleatórios, porque eles são gerados a partir de uma expressão matemática e de um conjunto inicial de dígitos (semente); se esse conjunto for gerado novamente, os dígitos subseqüentes poderão ser previstos e, então, a tabela não será mais aleatória. Como o conjunto de dígitos se assemelha a um número porque as tabelas publicadas inserem espaços entre grupos de dígitos para facilidade de leitura, induz-se, erradamente, a que se esteja lendo números, e não dígitos. A tábua a seguir representa um tipo. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 11 Adiante, após serem introduzidos os conceitos relativos às medidas de tendência central e de dispersão, será apresentado o procedimento para dimensionamento do tamanho da amostra. Coluna 1 2 3 4 5 6 7 8 9 10 1 9 8 9 6 9 9 0 9 6 3 2 3 5 6 1 7 4 1 3 2 6 3 4 0 6 1 6 9 6 1 5 9 4 6 5 6 3 1 6 8 6 7 2 5 2 4 9 7 9 1 0 3 9 6 6 7 6 1 2 7 5 6 9 4 8 7 8 2 1 3 4 7 4 6 3 0 8 6 9 5 6 5 6 0 9 0 7 Extraído da tabela H de Levin, Jack, ESTATÍSTICA APLICADA A CIÊNCIAS HUMANAS A partir dos valores obtidos na amostra, começa-se a descrevê-la para se poder pensar em caracterizar a população como um todo, generalizando para a população o dado proveniente da amostra. As atividades exploratórias das informações obtidas caracterizam a chamada estatística descritiva , a qual se ocupa da descrição, da organização e do resumo das observações obtidas para proporcionar discernimento entre o comportamento de uma população e o comportamento de uma amostra. Portanto, a estatística descritiva ou dedutiva é a parte da estatística que descreve os aspectos importantes de um conjunto de características observadas. Generalizar para a população aquilo que se observou na amostra caracteriza a inferência estatística . A palavra inferência é utilizada em Estatística com dois significados: • Conclusões tiradas a partir de valores ou evidências; • Processo utilizado para se chegar a essas conclusões. A inferência estatística é a parte da estatística que usa uma amostra para fazer generalizações a respeito de aspectos importantes da população. Como as informações provêm de um conjunto menor que a população, cometem- se erros ao se fazer uma inferência. Esseserros são quantificados por um valor numérico, denominado probabilidade , o qual, além de lidar com situações influenciadas por fatores não controlados pelo analista, proporciona um modelo racional para lidar com a variabilidade inerente à natureza, bem como com situações relacionadas com o acaso. O conhecimento das probabilidades associadas a uma situação fornece a base para o desenvolvimento de técnicas da Linha INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 12 tomada de decisão, explica o funcionamento dessas técnicas e indica de que modo as conclusões podem ser apresentadas e interpretadas corretamente. É importante destacar que a estatística descritiva e as probabilidades são ferramentas para a inferência estatística, a qual interpreta de duas maneiras os resultados obtidos a partir das amostras retiradas de uma população, cujo valor se desconhece, ou realizando um teste sobre essa característica, da qual se afirma ter um determinado valor. A Estatística pode ser entendida como sendo constituísda das três seguintes áreas: a estatística descritiva, o cálculo das probabilidades e a inferência estatística ou estatística indutiva. Uma visão sistêmica do que se estuda naquilo que se conhece por Estatística está representada nafigura abaixo: Visando uniformizar a nomenclatura, sempre que as relações forem calculadas com base em dados de uma amostra serão chamadas estatísticas; sempre que essas relações se referirem à população (de onde se originou a amostra) passarão a ser chamadas parâmetros . AMOSTRA POPULAÇÃO Estatística Descritiva Probabilidades Erro Inferência Estatística Visão sistêmica da Estatística INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 13 Exercício ------------------------------------------------------------------------------------------------------------ 1. Uma amostra de 8.548 componentes de um sistema foi examinada através de testes destrutivos. Dessa amostra, 683 foram danificados. a. Diga como esse resultado poderia ser apresentado de forma mais sucinta (resumida) e geral. b. Explique as possíveis razões pelas quais se optou pela retirada de uma amostra para a realização do referido experimento. c. Identifique se este é um exemplo de estatística descritiva ou de estatística inferencial. Análise Exploratória de Dados É a fase inicial do processo de estudo dos elementos coletados nas amostras. Nesta etapa de avaliação, utilizam-se técnicas que resumem e classificam o conjunto de dados coletados para que se obtenha as informações pertinentes que serão utilizadas na fase final do processo, a chamada inferência estatística, também conhecida como análise confirmatória de dados. A exploração ou avaliação analítica dos dados da amostra é um enfoque (ou filosofia) para a análise de dados que utiliza uma variedade de técnicas gráficas, com os seguintes objetivos: • ter o melhor discernimento possível sobre um conjunto de dados existentes em uma amostra; • descobrir estruturas básicas da organização da população; • identificar anomalias e dados dispersos; • desenvolver modelos matemáticos adequados para uso no cálculo das probabilidades e na inferência estatística. Uma vez coletados os dados de todas as variáveis envolvidas em determinado estudo, o passo seguinte é descobrir o que os dados têm a dizer a respeito do que está sendo investigado. Olhar uma extensa listagem de dados não permite qualquer conclusão, do ponto de vista prático; é preciso utilizar medidas, tabelas ou gráficos que resumam e mostrem o comportamento das variáveis, permitindo interpretações práticas. Em outras palavras, deve-se utilizar técnicas que mostrem as informações contidas nas variáveis. Informações são obtidas de dados que passaram por algum tipo de análise, de modo que se tornassem úteis para fins de uma tomada de decisão. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 14 A estatística descritiva tem por finalidade descrever as unidades de observação coletadas na amostra. Ela permite fazer comentários simples, da maneira mais informativa possível, usando métodos numéricos e métodos gráficos. A interpretação dos resultados, porém, não está incluída no foco da estatística descritiva – é função da inferência estatística (estatística indutiva). 3.2 Medidas de Posição ou de Tendência central Para melhor caracterizar um conjunto de valores de uma amostra, é preciso escolher um valor único que represente todos os outros valores dessa amostra. Poderiam ser escolhidas inúmeras medidas, mas existem algumas que sugerem uma concentração em torno delas. Essas medidas tendem a se localizar em um valor central dentro de um conjunto de dados. A média é um valor característico de um conjunto de dados. Há vários tipos de medidas ou estatísticas, cujos valores estão próximos do centro dentre elas serão discutidas: média aritmética, mediana e moda. Média Aritmética (dados isolados) n X = n 1=i i_ X ∑ A média aritmética é o valor que pode substituir todos os valores da variável, isto é, é o valor que a variável teria se ela fosse constante . Mediana (dados isolados) Após ordenar os dados em ordem crescente ou decrescente, indica-se a mediana por Md e o número de dados por n. Devem ser considerados dois casos: 1. n é impar ⇒ T = (n+1)/2 Nesse caso, a mediana é um valor obtido do próprio conjunto de dados. Média aritmética De um conjunto de Dados (valores) = Soma de todos os valores Quantidade de valores (dados) Mediana de um conjunto de dados (valores) = Valor (do próprio conjunto ou teórico) que tem antes e depois de si igual quantidade de dados. Onde T corresponde à ordem do termo que representa a mediana do conjunto de dados INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 15 Exemplo - Calcular a mediana de: 9, 26, 15, 2, 5, 50, 31, 44, 21. • Primeiro ordenam-se os valores. • Em seguida aplica-se a fórmula acima. Assim: T =( n+1)/2 = (9+1)/2= 10/2 = 5 (isto é, o 5º termo) Dados ordenados: 2, 5, 9, 15, 21, 26, 31, 44, 50 2. n é par ⇒ T1 = n/2 T2 = (n+2)/2 T = (T1+ T2)/2 A mediana é um valor teórico que não figura entre os dados originais. Exemplo - Calcular a mediana de: 9, 26, 15, 2, 5, 50, 31, 44 • Primeiro ordenam-se os valores. • Em seguida, aplicam-se as fórmulas acima. Assim: T1 = n/2 = 8/2 = 4 T2 = (n+2)/2 = (8+2)/2 = 10/2 = 5 Dados ordenados: 2, 5, 9, 15, 26, 31, 44, 50 Então: T = (T1+ T2)/2 ⇒ Md = (15+26)/2 = 20,5 Moda (dados isolados) Exemplo - Calcular a moda de: 8, 2, 18, 8, 10, 8, 12, 10, 6, 8, 12 Chamando a variável de X, as freqüências de ni e a moda de Mo, vem: Xi ni 2 1 6 1 8 4 10 2 12 2 18 1 Estas fórmulas indicam os dois termos centrais que devem ser usados no cálculo da ordem do termo correspondente à mediana Moda de um conjunto de dados (valores) = Valor do conjunto que aparece mais vezes, isto é, o valor ao qual esteja associada a freqüência absoluta mais alta. Md Mo Freqüência maior INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO16 As medidas de tendência central também podem ser calculadas relativamente a dados agrupados (em classes de freqüências). Aí, as fórmulas tornam-se um pouco mais complexas. Nesse caso, apresenta-se a terminologia empregada para o tratamento dos dados tabulados: Dados Brutos: É o conjunto de dados numéricos obtidos após a crítica dos valores coletados e que não estão numericamente organizados. Rol: É o arranjo dos dados brutos em ordem crescente ou decrescente. Amplitude total ou range (R): É a diferença entre o maior e o menor valor observados. Freqüência absoluta: É o número de vezes que o elemento aparece na amostra, ou o número de elementos pertencente a uma classe. Distribuição de freqüência: É o arranjo dos valores e suas respectivas freqüências, normalmente expresso de forma tabular em intervalos de classe. • Número de classes (k) Não há uma fórmula exata para o cálculo do número de classes. Em geral, adota- se: a. k = 5 para n ≤ 25 e k ≅ √n , para n > 25 (aproximada para o maior inteiro) b. Fórmula de Sturges k ≅ 1 + 3,22 log n (aproximada para o maior inteiro) Onde n é o tamanho da amostra • Amplitude das classes (h) h ≅ R ÷ k (aproximada para o maior inteiro) Média Aritmética (dados agrupados) Para o caso de dados tabulados, o cálculo da média aritmética segue uma das seguintes fórmulas abaixo apresentadas: ∑ ∑ n 1=i i n 1=i ii n nx =X _ Processo Longo h n nd +X=X ∑ ∑ n 1=i i n 1=i ii p _ Processo Breve INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 17 Na fórmula do processo longo, Xi representa o ponto médio de cada classe. Esse ponto médio é a semi-soma dos limites de cada classe (intervalo). Encontrados os Xi’s, o passo seguinte é obter ΣXini = (X1.n1) + (X2.n2) + (X3.n3) +.... Tomando como exemplo os tempos de manutenção em um determinado componente, conforme tabela abaixo: T (h) n i Xi Xi n i 140|145 3 142,5 427,50 145|150 5 147,5 737,50 150|155 2 152,5 305,00 155|160 7 157,5 1102,50 160|165 14 162,5 2275,00 165|170 6 167,5 1005,00 170|175 0 172,5 0,00 175|180 1 177,5 177,50 180|185 2 182,5 365,00 40 6395,00 Tabela 1. | = intervalo fechado à esquerda (ex.:140|145 =140≤ x <145) Então: Para que a média aritmética possa ser calculada pelo processo breve é preciso que os pontos médios formem uma progressão aritmética; Ou seja: h = L - l seja constante. Onde: L= limite superior do intervalo; l = limite inferior do intervalo e h= amplitude do intervalo. A fórmula do processo breve usa o ponto médio do intervalo ao qual corresponde a maior freqüência absoluta como um valor provisório de X (Xp). Se esse valor provisório (estimativa) estiver correto então: E Se, entretanto, X ≠Xp, a distorção será corrigida por ( ∑di .ni /∑ni).h, nesse caso, diferente de 0 (zero). Σn i Σ Xi n i h875,159= 40 0,395.6 =X⇒ n nX =X _ i ii _ ∑ ∑ 0=h. n nd ∑ ∑ i ii p __ X=X INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 18 Nessa fórmula aparece um símbolo - di - que representa uma variável discreta que começa em 0 e vai aumentando de 1 em 1 tanto para o lado positivo como para o negativo. O zero fica na altura do maior ni (maior freqüência). Na tabela, os valores negativos ficam do 0 para cima (↑) e os positivos, do 0 para baixo (↓). Assim: T (h) n i d i Xi n i 140|145 3 -4 -12 145|150 5 -3 -15 150|155 2 -2 -4 155|160 7 -1 -7 160|165 14 0 0 165|170 6 1 6 170|175 0 2 0 175|180 1 3 3 180|185 2 4 8 40 -21 Tabela 2. Entrando na fórmula: h875159=5 40 21 +5162=h n nd +X=X i ii p ,. )( )( ,. ∑ ∑ Que foi o mesmo valor obtido anteriormente. Mediana (dados agrupados) Ainda utilizando a mesma tabela, pode-se construir uma nova coluna: Ni. Nessa coluna escreve-se os ni’s acumulados no sentido descendente. T (h) n i Ni 140|145 3 3 145|150 5 8 150|155 2 10 155|160 7 17 160|165 14 31 165|170 6 37 170|175 0 37 175|180 1 38 180|185 2 40 40 Tabela 3. Σn i Σ d i n i - 38 +17 5ª c la ss e LMd Lugar da classe Mediana Este último valor será sempre ∑ni INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 19 Para encontrar o Lugar Mediano (LMd), isto é, a classe (intervalo) onde a mediana deverá situar-se, calcula-se o valor de: ∑ni/2 que, neste caso, vale 40/2 = 20. Percorrendo a coluna Ni no sentido descendente verifica-se que o elemento de ordem 20 situa-se na 5ª classe, ou seja, no intervalo 160|165. Daí, utiliza-se a seguinte fórmula: Onde: lMd = limite inferior da classe mediana NaMd = Ni anterior ao do LMd nMd = ni da própria classe mediana hMd = h da classe mediana Aplicando ao caso ilustrado: Md= 160 + [(20-17)/14].5 = 161,07h Moda (dados agrupados) Para o cálculo da moda de um conjunto de dados agrupados deve-se utilizar a seguinte fórmula, conhecida por fórmula de Czuber: Sendo: lMo = limite inferior da classe modal* naMo = ni anterior ao do intervalo de maior ni npMo = ni posterior ao do intervalo de maior ni hMo = intervalo da classe modal *classe modal= classe de maior freqüência absoluta (maior ni ) Aplicando ao caso sob estudo vem (ver tabela 3.): Mo = 160 + 7 - 14 . 5 ≅ 162,33h 7+6 -2(14) Fórmula alternativa: )()( )( pMoMoaMoMo aMoMo Mo nn+nn nn +l=Mo Md Md aMdi Md h n Nn 2 1 +l=Md ∑ . )( - - - Mo MopMoaMo MoaMo Mo h n2n+n nn +l=Mo . INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 20 Aplicando ao caso sob estudo vem (ver tabela 3.): Mo = 160 + 14 - 7 . 5 = 162,33h (14 – 7) + (14 – 6) Retomando os valores de X, Md e Mo verifica-se que: (X = 159,875h) < (Md= 161,07h) < (Mo= 162,33h) Como o próprio nome sugere, o valor da mediana deve estar em algum lugar entre a média e a moda. Uma distribuição de freqüência de dados, quanto à relação entre as medidas de tendência central, pode ser considerada de três tipos distintos de simetria: • Assimétrica negativa ⇒ X < Md < Mo • Assimétrica positiva ⇒ Mo < Md < X • Simétrica ⇒ Mo = Md = X Uma distribuição de freqüência de dados pode ter mais de uma moda. Sendo chamadas de multimodais. De acordo com o número de modas que apresentem podem ser denominadas bimodais, trimodais, etc. Moda (Processo de Pearson) Se uma distribuição de freqüência for unimodal e pouco assimétrica, a moda pode ser aproximada pela seguinte fórmula empírica devida a Pearson: Mo = 3Md – 2X Ou seja, a moda é aproximadamente a diferença entre o triplo da mediana e o dobro da Média. Esta fórmula dá uma boa aproximação quando a distribuição apresenta razoável simetria em relação à média. Conclusões • A média aritmética é a medida de tendência central mais usada em virtude de suas propriedades algébricas. • A média aritmética sofre influência de todos os dados. Por isso, o estatístico prefere, às vezes, trabalhar com a mediana – que não sofre a influência de valores extremos (muito altos ou muito baixos). • É preciso ter cuidado com a média aritmética. Ela requer uma interpretação cautelosa. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 21 Exercícios 1. Dado o rol de dados abaixo, referentes ao tempo entre falhas dos componentes de um sistema,agrupar os elementos em classes e obter as medidas de tendência central: 33 – 35 – 35 – 39 – 41 – 41 – 42 – 45 – 47 – 48 – 50 – 52 – 53 – 54 – 55 – 55 – 57 59 – 60 – 60 – 61 – 64 – 65 – 65 – 66 – 66 – 66 – 67 – 68 – 69 – 71 – 73 – 73 – 74 74 – 76 – 77 – 77 – 78 – 80 – 81 – 84 – 85 – 85 – 88 – 89 – 91 – 94 – 97. Observações sobre a Mediana para variáveis contínuas: 1. Calcula-se a ordem n/2. Como a variável é contínua não importa se n é par ou ímpar. 2. Identifica-se a classe que contém a mediana (classe Md). 3. Utiliza-se a fórmula: Md Md F ∑ hf 2 n +l=Md ).( lMd = limite inferior da classe Md n = tamanho da amostra ou número de elementos ∑f = soma das freqüências anteriores à classe Md h = amplitude da classe Md FMd = freqüência da classe Md Separatrizes Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: 0% 25% 50% 75% 100% Q1 Q2 Q3 Q1 = 1º quartil deixa 25% dos elementos Q2 = 2º quartil coincide com a mediana, deixa 50% dos elementos Q3 = 3º quartil deixa 75% dos elementos INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 22 A fórmula para obtenção do i-ésimo quartil é: ( ) h. F f4/in lQ 1 i Q Qi ∑ += onde: lQi = limite inferior da classe correspondente ao i-ésimo quartil i = indicador da ordem do quartil n = somatório das freqüências absolutas de todas as classes ∑f = soma das freqüências absolutas das classes anteriores à do i-ésimo quartil FQi = freqüência absoluta da classe correspondente ao i-ésimo quartil Exemplo: Dada a distribuição abaixo, determinar os quartis (Q1 e Q3) e a mediana. Classes Fi Fac 7| 17 6 6 17| 27 15 21 27| 37 20 41 37| 47 10 51 47| 57 5 56 ∑ 56 1º Passo: n = 56 Q1 = ? Md = ? Q3 = ? n/4 = 56/4 = 14º n/2 = 56/2 = 28º 3n/4 = 42º 2º Passo: Pela Fac identifica-se a classe Q1, classe Md e classe Q3. 3º Passo: Uso das Fórmulas Para Q1: lQ1 = 17, n = 56, ∑f = 6, h =10, FQ1= 15 Para Md: lMd = 27, n = 56, ∑f = 21, h =10, FMd = 20 Para Q3: lQ3 = 37, n = 56, ∑f = 41, h =10, FQ3= 10 Logo: 33,22 15 10).64/56( 17Q1 =+= 5,30 20 10).212/56( 27Md =+= 38 10 10).414/56.3( 37Q3 =+= Diante desses resultados, pode-se afirmar que, nesta distribuição, tem-se: INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 23 0% 25% 50% 75% 100% 7 22,33 30,5 38 57 Isto é: 22,33 deixa 25% dos elementos 30,5 deixa 50% dos elementos 38 deixa 75% dos elementos Percentis São as medidas que dividem a amostra em 100 partes iguais. Assim: 0% … 5% . 8% …… 21% ……………………………………………. 93% .… 100% P5 P8 P21 P93 O cálculo de um percentil é dado por: 1º Passo: Calcula-se in/100, em que i = 1, 2, 3, ..., 98, 99. 2º Passo: Pela Fac identifica-se a classe Pi. 3º Passo: Usa-se a fórmula Pi Pii F h).f100/in( lP ∑ += em que: lPi = limite da classe Pi , em que i = 1, 2, 3, ..., 99 n = tamanho da amostra ∑f = soma das freqüências anteriores à classe Pi h = amplitude da classe Pi FPi = freqüência da classe Pi Exemplo: Determinar o 72º Percentil da seguinte distribuição: Classes Fi Fac 4| 9 8 8 9| 14 12 20 14| 19 17 37 19| 24 3 40 ∑ 40 INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 24 Cálculo do P72 : 1º Passo: in/100 = 72.(40)/100 = 28,8º 2º Passo: Identifica-se a classe de P72 pela Fac . 3º Passo: Para P72 : l P72 = 14, ∑f = 20, n = 40, h= 5, FP72 = 17 89,16 17 5].20100/)40.(72[ 14P72 =+= Portanto, nesta distribuição, o valor 16,89 indica que 72% da distribuição estão abaixo dele e 28% acima. 3.3 Medidas de Dispersão ou de Variabilidade Se a natureza fosse estável e as mesmas causas produzissem sempre os mesmos efeitos é bem possível que o homem nunca tivesse desenvolvido a noção de variação . Assim como o homem sempre se preocupou em medir as coisas, também se preocupou com a criação de métodos matemáticos que lhe possibilitasse medir as variações ocorridas. Particularmente em manutenção, esta consciência da variabilidade deve permear a mente dos profissionais dadas as oscilações de comportamento (desempenho) que os ativos físicos apresentam ao longo de sua vida útil. Ao conjunto das medidas, isto é, das estatísticas, que medem oscilações de uma variável deu-se o nome de medidas de variabilidade . Embora existam várias medidas de variabilidade ou dispersão, serão discutidas as de uso mais freqüente. Amplitude Total (A t) É a diferença entre o maior e o menor valor dos dados observados. Na sua determinação podem ser consideradas as seguintes situações: • dados não tabulados: X = {1, 3, 5, 7, 9} At = 9 – 1 = 8 ∴ At = 8 • dados tabulados não agregados em classes (dados discretos) Xi fi 1 10 3 20 5 40 7 20 9 10 INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 25 At = 9 – 1 = 8 ∴ At = 8 • dados tabulados agregados em classes (dados contínuos) CLASSES fi 2| 4 10 4| 6 20 6| 8 40 8|10 20 10|12 10 Admitem-se duas soluções: 1ª) A diferença entre o limite superior da última classe e o limite inferior da 1ª classe. At = 12 – 2 = 10 ∴ At = 10 2ª) A diferença entre o ponto médio da última classse e o ponto médio da da 1ª classe. A t = 11 – 3 = 8 ∴ A t = 8 Desvio Médio Absoluto (DMA) É igual à média dos valores absolutos dos desvios calculados em relação à média do conjunto de valores: • dados não tabulados: X = {1, 3, 5, 7, 9}; x = 5 e n = 5 x i d i = x i - x |d i | 1 1 – 5 = -4 4 3 3 – 5 = - 2 2 5 5 – 5 = 0 0 7 7 – 5 = 2 2 9 9 – 5 = 4 4 total 12 Assim, o DMA = ∑|d i | / n = 12/5 = 2,4 ∴ DMA = 2,4 • dados tabulados não agregados em classes (dados discretos) x i fi d i = x i - x |d i | |d i |. fi 1 10 -4 4 40 3 20 -2 2 40 5 40 0 0 0 7 20 2 2 40 9 10 4 4 40 total 100 160 INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 26 Assim, o DMA = ∑|d i |. fi / ∑ fi = 160/100 = 1,6 ∴ DMA = 1,6 • dados tabulados agrupados em classes (dados contínuos) O cálculo a ser feito é análogo ao dos dados discretos, devendo-se iniciá-lo pela determinação dos pontos médios das classes, que representarão os valores de x i do conjunto de dados. Amplitude Semi-Interquartílica (desvio quartílico) É a metade da diferença entre o terceiro quartil ( Q3) e o primeiro quartil ( Q1): 2 QQ D 13 q = Desvio Padrão (S) É a medida de dispersão mais usada. É a média quadrática dos afastamentos (desvios) em relação à média aritmética. xxd:onde, n d S ii 2 i = ∑ = para dados agrupados xxd:onde, n f.d S ii i 2 i = ∑ = para dados tabulados Obs.: Cálculos aplicados sobre dados de uma amostra utilizam n-1 ao invés de n nas duas fórmulas. É o que se chama de “fator de correção de Bessel”. Propriedades do Desvio Padrão 1ª) Somando-se (ou subtraindo-se) a cada elemento de um conjunto de valores uma constante arbitrária, o desvio padrão não se altera. 2ª) Multiplicando-se (ou dividindo-se) cada elemento de um conjuntomde valores por um valor constante, arbitrário e diferente de zero, o desvio padrão fica multiplicado (ou dividido) por esta constante. Variância (S2) É igual ao quadrado do desvio padrão. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 27 n d S 2 i2∑ = para dados não tabulados n f.d S i 2 i2 ∑ = para dados tabulados Obs.: É válida a mesma observação feita no cálculo do desvio padrão, quanto ao uso do “fator de correção de Bessel”. Fórmula da Variância pelo Processo breve ]) ∑n n.∑d ( ∑n ∑ n.d .[h=S 2 n 1=i i i n 1=i i n 1=i i n 1=i i 2 i 22 Propriedades da Variância Observa-se que a 1ª propriedade é idêntica à do desvio padrão, quanto à soma (ou subtração). No entanto, a 2ª propriedade (multiplicação ou divisão) apresenta a seguinte modificação: “a variância fica multiplicada (ou dividida) pelo quadrado da constante”. Dispersão Relativa – Coeficiente de Variação Dentre as medidas de dispersão, o coeficiente de variação mais utilizado é o de Pearson (CVp), que é o quociente entre o desvio padrão e a média aritmética do conjunto de dados. x S CVp = Quanto menor o valor do coeficiente de Pearson, mais homogêneo será o conjunto de dados. Diz-se que a distribuição possui pequena variabilidade (dispersão) quando o coeficiente de variação for menor que 15%; média dispersão entre 15% e 30% e alta dispersão a partir de 30%. Em suma, as medidas de dispersão são medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média. Servem para medir a representatividade da média. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 28 Medidas de Assimetria Existem várias fórmulas para o cálculo do coeficiente de Assimetria, dentre elas são úteis: 1º Coeficiente de Pearson S Mox AS = 2º Coeficiente de Pearson 13 31 QQ Md2QQ AS + = Se: AS = 0 diz-se que a distribuição de dados é simétrica AS > 0 diz-se que a distribuição de dados é assimétrica positiva AS < 0 diz-se que a distribuição de dados é assimétrica negativa Pode-se utilizar qualquer uma das fórmulas para identificar o grau de assimetria. Medidas de Curtose Denomina-se curtose o grau de achatamento da distribuição. Uma distribuição com grau de achatamento médio (nem chata, nem delgada) chama-se mesocúrtica; uma distribuição delgada chama-se leptocúrtica; e uma distribuição achatada denomina-se platicúrtica. Para medir o grau de curtose utiliza-se o coeficiente: )PP.(2 QQ =K 1090 13 Em que: Q3 = 3º quartil Q1 = 1º quartil P90 = 90º percentil P10 = 10º percentil Se K = 0,263, diz-se que a curva correspondente à distribuição de freqüência é mesocúrtica. Se K > 0,263, diz-se que a curva correspondente à distribuição de freqüência é platicúrtica. Se K < 0,263, diz-se que a curva correspondente à distribuição de freqüência é leptocúrtica. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 29 Exercícios -------------------------------------------------------------------------------------------------------------- 1. Considere a distribuição de freqüências dos tempos de funcionamento de um item entre falhas. Tempo entre falhas TBF (h) Freqüência 100 190 10 200 290 20 300 390 40 400 490 20 500 590 10 Assinale V nas opções corretas e F nas incorretas a) O intervalo de classe modal é dado por [300,390] b) O tempo médio de auditoria é dado por 340,5 horas c) A mediana, a moda e a média da distribuição são coincidentes. d) A distribuição acima é assimétrica. e) Trinta por cento dos tempos entre falhas demoraram menos de 300 horas. 2. Uma empresa que possui cinco máquinas registrou em cada uma delas no último ano os seguintes números de intervenções: 20; 23; 25; 27 e 30, respectivamente. Obtenha as medidas de dispersão verificadas para esta amostra. 3. Doze máquinas de uma empresa foram selecionadas ao acaso; foram anotados os números de defeitos encontrados, na ordem de seleção, a saber: 3; 0; 5; 2; 3; 6; 4; 1; 3; 2; 4 e 3. Para a variável número de defeitos , resolvam a expressão: Média + Moda + Mediana + Variância + 1,5. 4. Regressão Linear Regressão é a estimação de uma variável (dependente) em função de uma ou mais variáveis (independentes). Sendo x uma variável independente (ex.: tempo de operação) e y uma variável dependente (ex.: número de falhas), pode-se determinar uma relação funcional entre as mesmas y = f(x) a partir de uma amostra de valores de x e y. Regressão Linear Simples È um modelo do tipo y = a + bx, sendo esta reta chamada reta de regressão em que a é o coeficiente de intercessão e b o coeficiente de inclinação da regressão. A palavra linear que compõe o nome da regressão indica que a disposição dos pontos permite interpolar-lhes uma reta; e a palavra simples indica que estão envolvidas apenas duas variáveis no processo. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 30 De modo que, dada uma nuvem de pontos de configuração aproximadamente retilínea, é sempre possível interpolar a esses pontos uma reta com o objetivo de produzir uma informação simplificada (lei). Ocorre que por dois pontos passa uma e somente uma reta; mas quando existem muitos pontos (como é o caso de uma nuvem), a questão torna-se mais complicada porque passam a existir inúmeras retas. De todas as retas possíveis, somente a de melhor ajustamento a todos os pontos é que deve ser escolhida. A escolha dessa reta obedece a um critério chamado método dos mínimos quadrados. Método dos Mínimos Quadrados O método dos mínimos quadrados é devido ao matemático e astrônomo francês Pierre Simon Laplace. Há autores que preferem creditar a Legendre a autoria do método. A figura a seguir ajuda na compreensão do método, mediante uma visão gráfica do procedimento, cuja finalidade é obter uma reta que melhor se ajuste ao conjunto de pontos, minimizando os módulos das diferenças ou distâncias entre esses pontos e aqueles da reta. y . . . y = a + bx . . . . . 4. x Assim, cada ponto do gráfico representado por seu par ordenado (x,y) é ajustado pela reta, cujas coordenadas associadas são (x,ŷ). Portanto, o método consiste em encontrar a reta que minimize o erro que é dado por: ( ) 2 1 ˆ∑ = −= n i yyξ Através do desenvolvimento da fórmula do erro total, chega-se às chamadas equações normais. Para obtenção dos parâmetros a e b deve-se resolver o seguinte sistema: ∑y = n.a + b.∑x ∑x.y = a.∑x + b.∑x2 No gráfico temos os pontos observados e a reta estimada. O método dos mínimos quadrados nos fornece as estimativas dos parâmetros a e b tal que ∑ (y - ŷ)2 seja mínima. Onde y representa o valor observado da variável e ŷ o valor ajustado pela reta. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 31 Onde os “n” dados x e y são observados e tabulados na forma: x y x1 y1 x2 y2 x3 y3 : : Xn Yn A solução do sistema de equações normais resulta nos seguintes valores para os parâmetros: ( ) ( )( ) ( ) ( )22. .. . ∑∑ ∑∑∑ ∑ ∑ − − = − = xxn yxxyn b n xby a Coeficiente de Correlação O termo correlação significa relação em dois sentidos (co+relação) e é usado em estatística para designar a força que mantém “unidos” dois conjuntos de valores. Em certas situações, como o cálculo do coeficiente de correlação é trabalhoso, convém fazer o gráfico antes de começar qualquer cálculo. Se os pontos do gráfico distribuírem-se de tal modo que lembrem uma linha reta, deve-se calcular o coeficiente, se os pontos estiverem dispersos de modo não-linear, não convém calcular o coeficiente. Em suma, só vale a pena gastar tempo com o cálculo do coeficiente de correlaçãose a disposição dos pontos no gráfico lembrar uma reta. Na construção do gráfico, a primeira coisa que devemos fazer é ordenar os valores de x, do menor para o maior (ordem crescente) e distribuir, ao longo do eixo das abscissas, os valores que compõem a tabela. Como os pares (x, y) são fixos, a ordenação de y será determinada pela ordenação de x. Em seguida, deve-se colocar os valores de y no eixo das ordenadas e mondar o gráfico, também chamado Diagrama de Dispersão. Um coeficiente de correlação para a regressão linear é dado pela estimativa r, obtido por: ( )[ ] ( )[ ] yx xy SS S yynxxn yxyxn r ... ... 2222 = −− − = ∑ ∑∑ ∑ ∑ ∑ ∑ n pares de dados x e y INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 32 Onde: Sx, Sy e Sxy representam os desvios padrões dos dados tabulados para as variáveis x, y e seu produto x.y. Através de uma mudança adequada de variáveis, pode-se simplificar a equação acima. Ou seja, fazendo: ( ) ( )22 '.' ''. : ' ' ∑∑ ∑= −= −= − − yx yx r resulta yyy xxx O coeficiente de correlação linear de Pearson pode ser calculado por uma fórmula alternativa que é: yx xy SSn yx r .. .∑= Para r = +1, significa que existe uma perfeita correlação direta entre y e x, isto é, se a variável independente x aumenta, a variável y aumenta em conseqüência. Se r > 0, existe correlação direta entre as variáveis. Se r = 0 não existe correlação entre as variáveis. Se r < 0, existe correlação inversa entre as variáveis. Para r= -1 existe perfeita correlação inversa. Ou seja, se a variável independente x aumenta, a variável y diminui em conseqüência. A análise de correlação fornece um número que resume o grau de relacionamento entre duas variáveis. Ela é útil em um trabalho exploratório, quando o analista procura determinar quais variáveis são potencialmente importantes e o interesse está no grau ou na força desse relacionamento. Por exemplo, quando uma variável aumenta de valor, de que maneira é influenciada a outra variável? Observação: Correlação não é o mesmo que causa-e-efeito. Duas variáveis podem estar altamente correlacionadas e, no entanto, não haver entre elas relação de causa-e-efeito. Porém, com o inverso! Se duas variáveis estiverem Onde, x e y são as médias aritméticas dos dados tabulados para as variáveis x e y. , -1 ≤ r ≤ +1 Correlação Positiva Quando as variáveis x e y variam no mesmo sentido . Isto é, se, aumentando x, y também aumenta (ou se diminuindo x, y também diminui), r > 0 Correlação Negativa Quando as variáveis x e y variam em sentidos contrários . Isto é, se, com o aumento de x, y diminui (ou se diminuindo x, y aumenta), r < 0 INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 33 amarradas por uma relação de causa-e-efeito, elas estarão obrigatoriamente correlacionadas. Os coeficientes de correlação recebem nomes especiais conforme estejam próximos ou distantes do zero. Ver tabela abaixo: Coeficiente de Correlação Tipo de Correlação r = -1 Correlação Negativa Perfeita -1< r < -0,8 Correlação Negativa Forte -0,8 ≤ r < -0,6 Correlação Negativa Média -0,6 ≤ r < -0,4 Correlação Negativa Fraca -0,4 ≤ r < 0 Correlação Negativa Muito Fraca r = 0 Correlação Linear Inexistente 0,4 ≥ r > 0 Correlação Positiva Muito Fraca 0,6 ≥ r > 0,4 Correlação Positiva Fraca 0,8 ≥ r > 0,6 Correlação Positiva Média 1> r > 0,8 Correlação Positiva Forte r = +1 Correlação Positiva Perfeita Obs: A natureza não produz correlações perfeitas (do tipo rxy = +1 ou rxy = -1). O estudo da correlação aqui abordado pressupõe que as duas variáveis, x e y, têm distribuição normal . Coeficiente de Determinação Em determinadas situações, o valor de r pode enganar. Na verdade, uma estatística mais significativa é r², denominado coeficiente de determinação, o qual fornece a porcentagem de variação da variável dependente que é devida estatisticamente à variação da variável independente. Outra maneira de apresentar o coeficiente de determinação é através da forma percentual a seguir: D = 100.r² (%) O intervalo de variação de r² é agora entre 0 e + 1 (ou +100%). O uso do coeficiente de determinação, em lugar do coeficiente de correlação, é, de certa forma, até recomendável pois, leva a valores mais conservadores (menores). O coeficiente de determinação r² pode ser calculado diretamente, sem necessidade de se ter primeiro o coeficiente de correlação. Esse cálculo pode se feito com o auxílio da fórmula seguinte: ( ) ( )∑ ∑ − − = 2 2 2 ˆ YY YY r Onde: ŷ = valor estimado pela equação de regressão y = média aritmética dos dados tabulados y = valor tabulado para a variável dependente INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 34 Exercício-Exemplo A tabela a seguir apresenta, na coluna referente à variável independente x, o número de intervenções corretivas realizadas por uma equipe de manutenção, enquanto a coluna y descreve os tempos totais efetivamente gastos na execução dessas manutenções. Pede-se determinar: a. a equação de regressão para os dados tabulados das variáveis x e y; b. os coeficientes de correlação e determinação; c. o número estimado de intervenções corretivas para 500 h. X (Nº de cor.) Y (horas) 2 3,5 3 5,7 5 9,9 8 16,3 10 19,3 12 25,7 14 28,2 15 32,6 Solução: Iniciemos a solução do problema obtendo os parâmetros a e b da equação de regressão: y = a + bx . Para esse cálculo, é necessário conhecermos os valores de ∑x, ∑y, ∑xy, ∑x² e ∑y² para o cálculo dos coeficientes, que serão obtidos pela extensão da tabela, conforme mostrado a seguir: X (Nº de cor.) Y (horas) X.Y X² Y² 2 3,5 7 4 12,25 3 5,7 17,1 9 32,49 5 9,9 49,5 25 98,01 8 16,3 130,4 64 265,69 10 19,3 193 100 372,49 12 25,7 308,4 144 660,49 14 28,2 394,8 196 795,24 15 32,6 489 225 1062,76 ∑x = 69 ∑y = 141,2 ∑x.y =1589,27 ∑x² = 767 ∑y² = 3299,42 INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 35 a) a equação de regressão: Y = a + bX Onde: ( ) ( )( ) ( ) ( )22. .. . ∑∑ ∑∑∑ ∑ ∑ − − = − = xxn yxxyn b n xby a b = 8. (1589,27) – (69).(141,2) = 2971,36 = 2,16 8.(767) – (69)2 1375 a = 141,2 – 2,16.69 = -0,985 8 Portanto, Y = -0,985 + 2,16X 5. Cálculo dos coeficientes de correlação e determinação: Coeficiente de correlação: ( )[ ] ( )[ ] yx xy SS S yynxxn yxyxn r ... ... 2222 = −− − = ∑ ∑∑ ∑ ∑ ∑ ∑ r = 8.( 1589,27) – (69).(141,2) = 2971,36 = 0,997 √8.(767) – (69)² √8.( 3299,42) – (141,2)² √1375.√6457,92 Coeficiente de determinação: r² = 0,994 Os resultados apontam para uma correlação linear quase perfeita entre os dados e 99% das variações de Y são devidas a variações em x. c) dado que ŷ = 500 h, o valor de x é obtido da equação de regressão 500 = - 0,985 + 2,16.x 2,16x = 500 – 0,985 x = 499,015 ≅ 231 2,16 Estima-se que em 500 horas a equipe de manutenção possa realizar 231 intervenções corretivas. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 36 6. Cálculo das Probabilidades Em virtude da natureza dos modelos e dados estatísticos, é natural que a Probabilidade seja a segunda ferramenta da teoria estatística (a Estatística Descritiva é a primeira). Devido ao fato de a probabilidade ser uma ferramenta importante nos métodos estatísticos teóricos e práticos, uma introduçãoao cálculo de probabilidades é, sempre, estudada antes da Inferência Estatística. Todas as vezes que se estudam fenômenos de observação, cumpre-se distinguir o próprio fenômeno e o modelo matemático (determinístico ou probabilístico) que melhor o explique. Os fenômenos estudados pela Estatística são fenômenos cujo resultado, mesmo em condições normais de experimentação variam de uma observação para outra, dificultando dessa maneira a previsão de um resultado futuro. Entretanto, a prática mostra que os resultados de uma seqüência razoavelmente longa de repetições do mesmo fenômeno apresentam uma regularidade no sentido de que a freqüência relativa com que determinado resultado aparece tende a se ma ter constante. Os fenômenos que apresentam essa regularidade estatística denominam-se fenômenos aleatórios. Para a explicação desses fenômenos, adota-se um modelo matemático probabilístico. Nesse caso, o modelo utilizado será o cálculo das probabilidades . O objetivo do cálculo das probabilidades é obter um valor numérico da possibilidade de ocorrência de determinado acontecimento para que seja facilitada a tomada de decisão relacionada a ele. A seguir, são apresentados alguns dos termos fundamentais do vocabulário estatístico utilizados no cálculo das probabilidades. Experimento aleatório Definição: experimento aleatório é aquele que pode gerar diferentes resultados, mesmo repetido sob as mesmas condições e em qualquer ocasião. Espaço Amostral Definição: Para cada experimento aleatório E, define-se Espaço Amostral S o conjunto de todos os possíveis resultados desse experimento. É também chamado de conjunto universo. Evento Definição: Evento é um conjunto de resultados do experimento. Em termos de conjuntos, é um subconjunto de S. Em particular, S e φ (conjunto vazio) são eventos, S é dito o evento certo e o φ o evento impossível. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 37 Tipos de Eventos: Evento Complementar São todos os resultados do espaço amostral que não fazem parte do evento de interesse. Assim: (simbologia usada) Evento: A Complemento: A ou A’ A ∩ A = φ e A ∪ A = S A é o evento que ocorre se A não ocorre. Eventos Mutuamente Exclusivos São eventos que não têm elemento comum ou, então, são aqueles em que a ocorrência de um deles exclui a ocorrência dos outros. Assim temos a simbologia: Se A e B são dois eventos disjuntos têm-se que: A ∩B = φ A ∩ B é o evento que ocorre se A e B ocorrem. A ∪ B é o evento que ocorre se A ocorre ou B ocorre ou ambos ocorrem. Eventos independentes São aqueles em que a ocorrência de um deles não fornece informação a respeito da ocorrência ou não de outro, ou seja, a ocorrência de um evento não tem influência na ocorrência do outro. Definição de Probabilidade Dado um experimento aleatório E e S o espaço amostral, probabilidade de um evento A – P(A) – é uma função definida em S que associa a cada evento um número real; satisfazendo os seguintes axiomas: I. 0 ≤ P(A) ≤ 1 II. P(S) = 1 III. Se A e B forem eventos mutuamente exclusivos, onde (A ∩ B = φ); Então P(A ∪ B) = P(A) + P(B). Os axiomas foram estabelecidos pelo matemático russo Andrei Nicolaievitch Kolmogorov. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 38 Os três axiomas não necessitam de prova; entretanto, se a teoria resultante é aplicada no mundo real, deve-se mostrar de algum modo que os axiomas são realistas, isto é, apresentam resultados razoáveis. Os axiomas não dizem como atribuir probabilidades aos vários resultados de um experimento; apenas restringem as maneiras pelas quais isto pode ser feito. Na prática, as probabilidades são atribuídas com base nas estimativas obtidas de experiências passadas, em um estudo cuidadoso a respeito do experimento ou em suposições de que os vários resultados mantêm a mesma probabilidade. Principais Teoremas 1. Se φ é o conjunto vazio, então P(φ) = 0 2. Se A é o complemento do evento A, então P( A ) = 1 – P(A) 3. Se A ⊂ B, então P(A) ≤ P(B) 4. Se A e B são dois eventos quaisquer, então: P(A ∪ B) = P(A) + P(B) – P(A ∩ B) A probabilidade é o número que resulta da divisão do número de casos favoráveis a um evento pelo número total de casos possíveis. P(A) = número de casos favoráveis número de casos possíveis Essa foi a primeira definição do conceito de probabilidade, conhecida como lei de Laplace. A probabilidade calculada com base num experimento chama-se probabilidade a posteriori ou probabilidade experimental . A probabilidade calculada a partir de dados teóricos, sem manipulação experimental, chama-se probabilidade a priori ou probabilidade matemática . Ao longo dos últimos três séculos, várias foram as teorias propostas: Experimentalista (Bernoulli), Clássica (Laplace), Freqüentista (Ellis, Veen e R. Von Mises) e Axiomática (Kolmogorov). Interpretação e determinação de probabilidades A teoria moderna define probabilidade como um número que satisfaz a uma série de postulados, mas não fornece indicação de como se obter esse número: apenas INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 39 estabelece as regras que devemos obedecer ao manipularmos as probabilidades obtidas. Em conseqüência, há duas grandes correntes a respeito do problema da determinação da probabilidade. A escola objetivista ou freqüencialista considera que a probabilidade só pode ser obtida por meio das freqüências relativas e, portanto, somente é aplicável a situações em que a experiência pode ser repetida várias vezes, sob mesmas condições. Fica, portanto excluída, para os freqüencialistas, uma grande classe de problemas em que não é possível falar em freqüência relativa. Por exemplo, para os freqüencialistas não há sentido em perguntar qual a probabilidade do homem ir a Marte nos próximos cinco anos. A escola subjetivista ou personalista considera a probabilidade como a medida da crença de uma pessoa racional, em uma dada proporção. Diferentes indivíduos racionais podem ter graus diferentes de crença, mesmo em face da mesma evidência e, portanto, as probabilidades pessoais para o mesmo acontecimento podem ser diferentes, porque as informações de que dispõem podem ser diferentes. Uma subjetivista aplica ao conceito de probabilidade a todos os problemas considerados pelo freqüencialista, e a muito mais, como a viagem a Marte, por exemplo. À medida que vamos tendo mais observações, podemos ir revendo a nossa avaliação da probabilidade de uma situação em face de novas informações. Assim é que, no caso de haver freqüências relativas disponíveis, baseadas em um número grande de observações semelhantes, a avaliação subjetiva tende a se igualar à avaliação freqüencialista. A definição clássica, quando admite que todos os casos possíveis são igualmente prováveis, pode ser afiliada, de certo modo, à corrente subjetivista. Ao afirmamos que encontrar qualquer número de guichês vazios é igualmente provável, estamos manifestando a nossa crença de que isso é verdade. Para um verdadeiro freqüencialista, deveríamos observar o resultado de milhares de observações para comprovar se isso é real. Por não haver concordância entre os conceitos clássico, freqüencial e subjetivo, a teoria das probabilidades teve que se basear em um conjunto de axiomas em que as probabilidades são associadas aos resultados com base no conhecimento da situação em estudo. Os axiomas asseguram que as probabilidades associadas a cada experimento podem ser interpretadas como freqüências relativas e que as associações são consistentes com a compreensão intuitivado relacionamento entre os resultados favoráveis e os resultados possíveis. Ademais, os axiomas facilitam os cálculos das probabilidades de ocorrência de alguns eventos a partir do conhecimento das probabilidades de outros eventos. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 40 Probabilidade Condicional Em muitas situações, a estimativa da probabilidade de um evento é atualizada com base em uma informação adicional, antes provável, mas agora certa, devendo o espaço amostral ser atualizado com base nessa nova informação. A definição de probabilidade condicional pode ser utilizada para fornecer uma expressão geral para a probabilidade de ocorrência simultânea de dois eventos. A probabilidade de ocorrência simultânea dos eventos A e B, P(A e B), é igual a: 1. probabilidade de A vezes a probabilidade de B, se A ocorreu primeiro, P(A e B) = P(A ∩ B) = P(A) x P(BA) P(BA) é a probabilidade de ocorrência do evento B dado que ocorreu o evento A 2. probabilidade de A vezes a probabilidade de B, se B ocorreu primeiro, P(A e B) = P(A ∩ B) = P(B) x P(AB) P(AB) é a probabilidade de ocorrência do evento A dado que ocorreu o evento B Se os eventos A e B forem independentes, P(AB) = P(A) e P(BA) = P(B); nesse caso, P(A e B) = P(A ∩ B) = P(A) x P(BA) = P(B) x P(AB) = P(A) x P(B) Esta é a propriedade multiplicativa das probabilidades. Pode-se deduzir de 1 e 2 que a probabilidade de A tendo ocorrido B é dada por: P(AB) = P(A ∩ B) P(B) E a probabilidade de B tendo ocorrido A é dada por: P(BA) = P(A ∩ B) , P(A) desde que P(A) e P(B) sejam diferentes de zero (o que é óbvio). Esta é a definição de probabilidade condicional. Se os eventos A e B forem independentes: P(BA) = P(A) x P(B) = P(B), conforme vimos. P(A) Por outro lado, a probabilidade de ocorrência de dois eventos, A e B, em que A ocorre ou B ocorre ou ambos ocorrem, é igual à soma da probabilidade de A com a probabilidade de B, menos a probabilidade da ocorrência de ambos. A probabilidade de ocorrência de ao menos um dos eventos A ou B, P(A ou B) é igual a: P(A ou B) = P(A ∪B) = P(A) + P(B) – P(A e B) = P(A) + P(B) – P(A ∩ B) = P(A) + P(B) – P(B) x P(AB) = P(A) + P(B) – P(A) x P(BA) INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 41 Se os eventos A e B forem independentes: P(A ou B) = P(A ∪B) = P(A) + P(B) – P(A) x P(B) Esta é a propriedade aditiva das probabilidades. Teorema de Bayes Sejam A1, A2, A3, ..., An n eventos mutuamente exclusivos, tais que A1∪A2∪A3....∪ An = S. Sejam P(Ai) as probabilidades conhecidas dos vários eventos, e B um evento qualquer de S tal que são conhecidas todas as probabilidades condicionais P(B/Ai). Então, para cada “i”, tem-se: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )nn2211 ii i A/BP.AP+...+A/BP.AP+A/BP.AP A/BP).A(P =B/AP O resultado acima é bastante importante, pois relaciona probabilidades a priori P(A i) com probabilidades a posteriori P(A i/B), probabilidade de Ai depois de ocorrer B. Exemplo : Três máquinas A, B e C produzem respectivamente 40%, 50% e 10% do total de peças de uma fábrica. As porcentagens de peças defeituosas nas respectivas máquinas são 3%, 5% e 2%. Uma peça é sorteada ao acaso e verifica-se que é defeituosa. Qual a probabilidade de que a peça tenha vindo da máquina B? Solução Dados: P(A)=0,4; P(B)=0,5 e P(C)=0,1; P(d/A)=3%; P(d/B)=5% e P(d/C)=2%. Deseja-se calcular P(B/d). Logo, usando a expressão do Teorema de Bayes: ( ) ( ) 64,0= 02,0x1,0+05,0x5,0+03,0x4,0 05,0x5,0 = )C/d(P).C(P+)B/d(P).B(P+A/dP).A(P )B/d(P).B(P =d/BP Ou seja, existe cerca de 64% de chance de que a peça defeituosa tenha sido produzida pela máquina B INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 42 6. Modelos Probabilísticos Nessa etapa, faz-se necessária uma rápida revisão de alguns aspectos abordados na estatística descritiva, conforme a seguir: 6.1 Revisão de Estatística Descritiva Estatística Descritiva é o nome dado ao conjunto de técnicas analíticas utilizado para resumir o conjunto de todos os dados coletados numa dada investigação a relativamente poucos números e gráficos. Ela envolve basicamente: • Distribuição de Freqüência: É o conjunto das freqüências relativas observadas para um dado fenômeno estudado, sendo a sua representação gráfica o Histograma (diagrama onde o eixo horizontal representa faixas de valores da variável aleatória e o eixo vertical representa a freqüência relativa). Por uma conseqüência da Lei dos Grandes Números, quanto maior o tamanho da amostra, mais a distribuição de freqüência tende para a distribuição de probabilidade. • Testes de Aderência: São procedimentos adotados para a identificação de uma distribuição de probabilidade, a partir de um conjunto de freqüências, usando a Lei dos Grandes Números. Essencialmente, calcula-se a chance da diferença entre uma distribuição de freqüência observada e aquela que seria de se esperar, a partir de uma dada distribuição de probabilidade (geralmente a Curva Normal). Uma distribuição de freqüência pode ser tida como pertencente a um dado tipo de distribuição se o teste de aderência mostrar uma probabilidade de mais de 5% da diferença entre as duas ser devida ao acaso. INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 43 Medidas da Tendência Central: São indicadores que permitem que se tenha uma primeira idéia, um resumo, de como se distribuem os dados de um experimento, informando o valor (ou faixa de valores) da variável aleatória que ocorre mais tipicamente. Ao todo, são os seguintes três parâmetros: Média: É a soma de todos os resultados dividida pelo número total de casos, podendo ser considerada como um resumo da distribuição como um todo. Moda: É o evento ou categoria de eventos que ocorreu com maior freqüência, indicando o valor ou categoria mais provável. Mediana: É o valor da variável aleatória a partir do qual metade dos casos se encontra acima dele e metade se encontra abaixo Medidas de Dispersão: São medidas da variação de um conjunto de dados em torno da média, ou seja, da maior ou menor variabilidade dos resultados obtidos. Elas permitem se identificar até que ponto os resultados se concentram ou não ao redor da tendência central de um conjunto de observações. Incluem a amplitude, o desvio médio, a variância, o desvio padrão, o erro padrão e o coeficiente de variação, cada um expressando diferentes formas de se quantificar a tendência que os resultados de um experimento aleatório tem de se concentrarem ou não em determinados valores (quanto maior a dispersão, menor a concentração e vice-versa). A idéia básica é a de se estabelecer uma descrição dos dados relativos a cada uma das variáveis, dados esses levantados através de uma amostra. Obs: Numa distribuição simétrica, verifica-se: Média = Moda = Mediana INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE PERNAMBUCO METODOLOGIA DA MANUTENÇÃO ESTATÍSTICA E PROBABILIDADE NA MANUTENÇÃO 44 A estatística descritiva tem tido suas aplicações bastante equivocadas na área de manutenção, pois a abordagem a ela associada geralmente é de natureza determinística e, como veremos mais adiante, os fenômenos observados em manutenção têm natureza aleatória, sendo melhor tratados através de uma abordagem probabilística. A seguir, iremos abordar alguns dos conceitos