Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade 2: Estatística Descritiva 2.1 Primeiras Palavras Coletados os dados, o próximo passo é analisá-los de modo a extrair informações relevantes. A habilidade de observar aspectos relevantes de um conjunto de dados coletados pode ter um peso significativo no desenvolvimento da carreira profissional. Identificar dados que se destacam do conjunto, fazer comparações (contrastar), indicar tendências e relações entre variáveis é o que se espera de uma boa análise. 2.2 Problematizando o tema Você certamente irá se deparar ao longo de sua carreira profissional com problemas que demandarão a análise de uma massa de dados. Novamente, a capacidade de análise é fundamental para identificar problemas, bem como suas causas e verificar o sucesso ou não das ações instrumentalizadas. Do ponto de vista industrial, podemos definir um problema de duas maneiras. A primeira definição identifica um problema como uma fuga do padrão, ou, dito de outra forma, é quando um produto ou processo repentinamente passa a não ter o desempenho passado (histórico). Pensando unicamente em processo, diz-se que esse saiu do controle. Nesse momento, cabe ao técnico identificar a causa e restabelecer o status quo, ou seja, voltar o processo ao padrão de desempenho anterior. Coletar dados e analisá-los para identificar causas que possam levar um processo à perda de desempenho são atividades do técnico e engenheiro de processo. Agora reflita sobre o seguinte: qualquer produto ou processo que esteja fora da especificação de engenharia é um problema. A questão é como identificar e prevenir esse problema. A capacidade analítica é decisiva para identificar e prevenir problemas de perda de padrão de desempenho. O segundo tipo de problema é o mais difícil de solucionar e nós podemos dizer que é o mais freqüente e importante na carreira do técnico e engenheiro. É a necessidade de melhorar o desempenho de um produto ou processo, ou seja, dito nos moldes da definição anterior, é mudar o padrão de desempenho. Novamente a capacidade analítica é decisiva e o uso de técnicas estatísticas é um recurso indispensável. É nesse contexto que serão apresentadas as principais técnicas gráficas e numéricas para análise de produtos e processos. Há situações práticas em que o técnico e engenheiro têm que tomar uma decisão ou fazer uma afirmação com base em uma amostra, o que pode ser enganoso. É necessário tomar cuidado com as afirmações em razão dos erros amostrais. Esse assunto será tratado nas próximas unidades. 2.3 Conceituação de probabilidade Nesta seção, aprenderemos a definir e calcular a probabilidade de ocorrência de um determinado evento. Há duas correntes para a definição de probabilidade: a teoria das freqüências e a teoria clássica. A teoria das freqüências, que é uma abordagem empírica, determina a probabilidade de ocorrência de um evento com base em uma experimentação. Para ilustrar, tome como exemplo o simples experimento de lançamento de um dado, e que se tenha como evento de interesse a ocorrência de um número par. Suponha que lancemos n vezes o dado e contemos a ocorrência de números pares, cuja notação dada por nós será f. A probabilidade de sair um número par, supondo n razoavelmente grande, por exemplo, n maior que 1000, será o número de ocorrência de números pares, f, dividido pelo total de lançamentos, n. Em termos matemáticos, a notação de probabilidade de sair um número par em n lançamentos será P(sair número par). A probabilidade de ocorrer um dado evento obtido a partir de n experimentos, com n sendo suficientemente grande, será um valor próximo da probabilidade verdadeira. Portanto a probabilidade de sair um número par no lançamento de um dado é: (1) Outro método para calcular a probabilidade é utilizar a teoria dos conjuntos. A probabilidade será então a divisão entre o número de possíveis ocorrências do evento de interesse sobre o total de eventos possíveis. Para o lançamento de um dado há seis eventos possíveis, sendo que em três deles são a ocorrência de números pares. O espaço amostral, denotado por Ω, será: . O subconjunto de Ω que é os números pares, que denotaremos por A, é: A probabilidade de ocorrência de A será: (2), Considere o seguinte exemplo: o lançamento de dois dados e tome como resultado a soma dos valores dos dois lançamentos. Isso feito, teríamos os seguintes possíveis resultados, mostrados na tabela 2.1. Como podemos observar, há trinta e seis possíveis resultados. A cada valor na tabela 2.1 é associado uma chance de ocorrer, que chamamos de probabilidade. Assim, a probabilidade da soma ser dois (sair 1 no primeiro e também no segundo lançamento) é uma ocorrência em 36 possíveis. Tabela 2.1: Soma de dois lançamentos de um dado. L1/L2 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 Se X é uma variável aleatória que corresponde a soma de dois lançamentos de um dado, a probabilidade de ocorrer um dado valor de X é mostrada na tabela 2.2. Tabela 2.2: Possíveis resultados da soma de dois lançamentos de dado. X Ocorrência dentre os possíveis eventos Probabilidade da ocorrência de X 2 1 1/36 3 2 2/36 4 3 3/36 5 4 4/36 6 5 5/36 7 6 6/36 8 5 5/36 9 4 4/36 10 3 3/36 11 2 2/36 12 1 1/36 Se X é uma variável aleatória que corresponde à soma de dois lançamentos de um dado, a probabilidade de ocorrer um dado valor de X é mostrada na tabela 2. É possível determinar a probabilidade de ocorrer outros eventos a partir dos dados da tabela 2.2. Por exemplo, para os eventos listados a seguir, teremos as seguintes probabilidades de ocorrência: B= P(X≥8) = C = P(X=10) Dos exemplos apresentados, tiramos os seguintes axiomas: Uma probabilidade é um valor entre zero e um, e a soma das probabilidades de todos os eventos possíveis de um espaço amostral é um. Definida a probabilidade, a próxima seção apresentará modos de representar gráfica e numericamente um conjunto de dados. Os conceitos e definições apresentadas nesta seção serão utilizados na representação gráfica de variáveis e na conceituação de distribuição de probabilidade, que será apresentada na unidade 4. Esta seção também será útil na compreensão das distribuições amostrais, base teórica na aplicação de testes de hipóteses, que estudaremos na unidade 6. 2.4 Representação gráfica de dados 2.4.1 Variáveis quantitativas Começaremos neste tópico com a análise de variáveis quantitativas contínuas. Para isso, analise os dois casos mostrados a seguir. 2.4.1.1 Quantitativa Contínua Caso 1: Após uma forte tempestade, diversos pardais foram levados ao laboratório da Universidade Brown, EUA. Cerca de metade dos pardais morreram após alguns dias. Oito medidas foram tomadas dos pardais, sendo cinco delas mostradas a seguir na tabela 2.3. O objetivo é verificar se há relação entre a estrutura física e a sobrevivência dos pardais. Foram tomadas as seguintes medidas dos pardais: X1 - comprimento total; X2 - extensão alar; X3 - comprimento do bico e cabeça; X4 - comprimento do úmero; X5 - comprimento da quilha do externo. Tabela 2.3: Dados dos pardais. Pássaro Grupo X1 X2 X3 X4 X5 1 Sobreviveram 156,00 245,00 31,60 18,50 20,50 2 Sobreviveram 154,00 240,00 30,40 17,90 19,60 3 Sobreviveram 153,00 240,00 31,00 18,40 20,60 4 Sobreviveram 153,00 236,00 30,90 17,70 20,20 5 Sobreviveram 155,00 243,00 31,50 18,60 20,30 6 Sobreviveram 163,00 247,00 32,00 19,00 20,90 7 Sobreviveram 157,00 238,00 30,90 18,40 20,20 8 Sobreviveram 155,00 239,00 32,80 18,60 21,20 9 Sobreviveram 164,00 248,00 32,70 19,10 21,10 10 Sobreviveram 158,00 238,00 31,00 18,8022,00 11 Sobreviveram 158,00 240,00 31,30 18,60 22,00 12 Sobreviveram 160,00 244,00 31,10 18,60 20,50 13 Sobreviveram 161,00 246,00 32,30 19,30 21,80 14 Sobreviveram 157,00 245,00 32,00 19,10 20,00 15 Sobreviveram 157,00 235,00 31,50 18,10 19,80 Tabela 2.3: Dados dos pardais (cont.) Pássaro Grupo X1 X2 X3 X4 X5 16 Sobreviveram 156,00 237,00 30,90 18,00 20,30 17 Sobreviveram 158,00 244,00 31,40 18,50 21,60 18 Sobreviveram 153,00 238,00 30,50 18,20 20,90 19 Sobreviveram 155,00 236,00 30,30 18,50 20,10 20 Sobreviveram 163,00 246,00 32,50 18,60 21,90 21 Sobreviveram 159,00 236,00 31,50 18,00 21,50 22 Morreram 155,00 240,00 31,40 18,00 20,70 23 Morreram 156,00 240,00 31,50 18,20 20,60 24 Morreram 160,00 242,00 32,60 18,80 21,70 25 Morreram 152,00 232,00 30,30 17,20 19,80 26 Morreram 160,00 250,00 31,70 18,80 22,50 27 Morreram 155,00 237,00 31,00 18,50 20,00 28 Morreram 157,00 245,00 32,20 19,50 21,40 29 Morreram 165,00 245,00 33,10 19,80 22,70 30 Morreram 153,00 231,00 30,10 17,30 19,80 31 Morreram 162,00 239,00 30,30 18,00 23,10 32 Morreram 162,00 243,00 31,60 18,80 21,30 33 Morreram 159,00 245,00 31,80 18,50 21,70 34 Morreram 159,00 247,00 30,90 18,10 19,00 35 Morreram 155,00 243,00 30,90 18,50 21,30 36 Morreram 162,00 252,00 31,90 19,10 22,20 37 Morreram 152,00 230,00 30,40 17,30 18,60 38 Morreram 159,00 242,00 30,80 18,20 20,50 39 Morreram 155,00 238,00 31,20 17,90 19,30 40 Morreram 163,00 249,00 33,40 19,50 22,80 41 Morreram 163,00 242,00 31,00 18,10 20,70 42 Morreram 156,00 237,00 31,70 18,20 20,30 43 Morreram 159,00 238,00 31,50 18,40 20,30 44 Morreram 161,00 245,00 32,10 19,10 20,80 45 Morreram 155,00 235,00 30,70 17,70 19,60 46 Morreram 162,00 247,00 31,90 19,10 20,40 47 Morreram 153,00 237,00 30,60 18,60 20,40 48 Morreram 162,00 245,00 32,50 18,50 21,10 49 Morreram 164,00 248,00 32,30 18,80 20,90 Observe que as escalas das variáveis são quantitativas contínuas (X1, X2, X3, X4 e X5), dadas em centímetros, e temos também uma variável de grupo, que é se o pardal sobreviveu ou morreu. O objetivo da investigação é saber se há diferenças físicas, medidas pelas variáveis, entre os pardais que sobreviveram e os que morreram. Uma maneira de respondermos a essa pergunta é comparar os dois grupos, analisando cada variável separadamente. Caso 2 A altura de uma haste de metal de 25 peças foi medida por duas vezes por uma mesmo analista utilizando dois instrumentos distintos: i) por um micrômetro de 0,01 mm de precisão, e ii) por um paquímetro de 0,02 mm de precisão. O micrômetro é um instrumento mais caro e mais sensível a poeira, bancadas e quedas. O paquímetro é um instrumento mais barato, e mais robusto. O estudo realizado tem o objetivo de avaliar a possibilidade de substituir o micrômetro pelo paquímetro. A tabela 2.4 mostra os resultados do estudo. Tabela 2.4: Dados do estudo de equipamentos de medição. Medida Micrômetro Paquímetro Medida Micrômetro Paquímetro 1 0,12 0,18 14 0,13 0,17 2 0,15 0,14 15 0,14 0,16 3 0,14 0,18 16 0,15 0,21 4 0,14 0,13 17 0,15 0,15 5 0,14 0,17 18 0,15 0,15 6 0,15 0,13 19 0,15 0,16 7 0,16 0,13 20 0,13 0,17 8 0,16 0,20 21 0,16 0,15 9 0,16 0,15 22 0,15 0,14 10 0,14 0,13 23 0,14 0,13 11 0,15 0,19 24 0,14 0,20 12 0,14 0,15 25 0,15 0,10 13 0,16 0,15 As variáveis são quantitativas contínuas e o objetivo é comparar os dois tipos de instrumento de medição. Se o paquímetro apresentar resultados próximos ao do micrômetro, este pode ser substituído. O procedimento de estudo foi selecionar uma peça e submetê-la a 25 medidas com micrômetro e 25 com paquímetro. Técnicas gráficas de análise Para os dois casos, iremos utilizar análises gráficas para tentar responder aos objetivos de cada caso. Iremos utilizar, em algumas análises, o Excel. Distribuição de freqüência e histograma Dado que as variáveis dos casos 1 e 2 têm escala quantitativa contínua, uma forma de analisá-las consiste em construir intervalos de classe e contar a freqüência de ocorrência dos dados. A tabela 5 mostra os dados da variável X4 (comprimento do úmero) extraídos da tabela 2.3 e organizados em classes de freqüência. Tabela 2.5: Freqüência da variável “comprimento do úmero”. Classes Freqüência (F) F Acumulada % % Acumulada 16,5 < x ≤ 17,0 0 0 0,0 0,0 17,0 < x ≤ 17,5 3 3 6,1 6,1 17,5 < x ≤ 18,0 8 11 16,3 22,4 18,0 < x ≤ 18,5 17 28 34,7 57,1 18,5 < x ≤ 19,0 12 40 24,5 81,6 19,0 < x ≤ 19,5 8 48 16,3 98,0 19,5 < x ≤ 20,0 1 49 2,0 100,0 Total 49 100,0 Os dados foram organizados em sete classes, coluna 1 da tabela 2.5. A classe 1 contém os pássaros que possuem medidas entre 16,6 a 17,0 cm. A classe 2 contém pardais com medidas entre 17,1 e 17,5 cm. Observe que, caso houvesse pardais com medidas de 17,0 cm, eles seriam contados na classe 1. Portanto, na classe 1 não foi identificado nenhum pardal; na classe dois, três pardais; na classe três, oito pardais; na classe quatro, dezessete pardais (maior freqüência); na classe cinco, doze pardais; na classe seis, oito; na classe sete, um pardal. A pergunta é: como definir a quantidade de classes? Podemos dizer que é arbitrário. Na prática, de 6 a 18 classes fornece uma representação razoável dos dados. Uma regra é tomar a raiz quadrado do tamanho da amostra para determinar a quantidade de classes, K. Para o exemplo, nós temos 49 dados ( que nos dá 7 classes. Para determinar a amplitude (R) dos quarenta e nove dados, tomamos o maior valor menos o menor valor dentre os quarenta e nove da amostra: (3) Para o exemplo, a amplitude total será: Dividindo (amplitude dividido pelo número de classes) teremos um intervalo de classe, , de 0,40. Na tabela 5, utilizou-se um intervalo de classe . Com os passos acima, aprendemos a construir uma tabela de freqüência. Esse procedimento pode ser repetido para as demais variáveis da tabela 2.3 e a da tabela 2.4. O passo seguinte é aprendermos a representar graficamente a tabela de freqüência por meio do que iremos denominar de Histograma. O histograma da tabela 2.5 é mostrado na figura 2.1, que foi feito utilizando o software Statistica, versão 9. O histograma é um gráfico de colunas, onde na abscissa (eixo x) estão as classes e na ordenada (eixo y), as freqüências. No histograma você tem que observar três aspectos relacionados aos dados da variável analisada: A dispersão dos dados, A posição central dos dados, e O formato da curva. Conforme indica a figura 2.1, o comprimento do úmero tem uma dispersão de 17,0 cm a 20,0 cm. A medida de posição central está na classe de 18,0 a 18,5 e o formato da curva se assemelha a um sino, que nós iremos chamar de curva normal. Histograma Comprimento do Úmero 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0 20,5 X4 0 2 4 6 8 10 12 14 16 18 N o o f o b s Figura 2.1: Histograma do comprimento do úmero dos 49 pardais. Comparação entre os grupos de pardais Temos cinco variáveis que descrevem as características dos pardais. A partir dessas cinco variáveis, poderemos tirar conclusões a respeito das possíveis diferenças entre os pardais que sobreviveram em relação aos que morreram. Se levássemos em conta na análise, simultaneamente, as cinco variáveis, nós estaríamos aplicando a análise multivariada. Neste momento, só iremos analisar uma das cinco variáveis, portanto, a análise será univariada. Aprendemos a construir tabelas de freqüência e histogramas e gráficos de barras (similar ao histograma, com a diferença das barras estarem separadas) para uma variável (estamos fazendo uma análise univariada). O próximo passo será analisarmos os dois casos com o objetivo de tentar responder às questões de interesse. Noprimeiro caso, é analisar se há diferença física entre os pardais sobreviventes e os que morreram. Vamos fazer a análise da variável X4 (comprimento do úmero), comparando os dois histogramas, para os que sobreviveram e para os que morreram. Poderemos fazer a mesma análise para cada uma das cinco variáveis. Observe na figura 2.2, que os pardais sobreviventes tiveram menor dispersão dos dados, de 17,5 a 19,5 cm. O grupo dos que morreram tiveram valores entre 17,0 a 20,0 cm. Essa é uma aparente diferença entre os dois grupos. Se você repetir a mesma análise, talvez possa confirmar essa conclusão: de que os sobreviventes têm variação menor nas medidas físicas que os que morreram. Histograma: Comprimento do Úmero X4 N o of o bs Grupo: Sobreviventes 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0 20,5 0 2 4 6 8 10 12 Grupo: Morreram 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0 20,5 Figura 2.2: Comparação entre os dois grupos de pardais. Comparação entre os dois tipos de calibre O caso 2 mostra os resultados de dois tipos de instrumentos de medição. O propósito do experimento é verificar se os dois instrumentos têm o mesmo desempenho. Para isso, construirmos o histograma das duas medidas para você analisá-los. Qual a sua interpretação dos resultados após analisar a figura 2.3? Histograma Medições F re qu ên ci a Grupo: Micrômetro 0,10 0,12 0,13 0,15 0,16 0,18 0,19 0,21 0 2 4 6 8 10 12 14 Grupo: Paquímetro 0,10 0,12 0,13 0,15 0,16 0,18 0,19 0,21 Figura 2.3: Comparação entre dois processos de medição. A figura 2.3 mostra nitidamente que o paquímetro produz maior dispersão das medidas quando comparado ao micrômetro. O micrômetro produziu medidas mais concentradas em relação à posição central dos dados, já o micrômetro gerou medidas mais dispersas, visto que o histograma é mais achatado. Percebe-se também que os dois instrumentos produzem resultados da medida de posição central diferentes, pois para o paquímetro a medida de posição central está na classe de 0,15 a 0,16 mm, e o micrômetro produziu uma medida de posição central na classe de 0,13 a 0,15 mm. A conclusão que chegamos é que o paquímetro não tem as mesmas propriedades em termos de resposta de medição em comparação ao micrômetro. Se desejarmos manter a precisão das medidas é melhor mantermos o micrômetro como instrumento de medição. 2.4.1.2 Quantitativa discreta Para aprendermos a utilizar gráficos na análise desse tipo de variável, vamos estudar o exemplo 4, mostrado na unidade 1. Exemplo 4: um processo de conformação a quente de coifas e gaxetas de borrachas utilizadas na proteção de dispositivos mecânicos, produz 80 artefatos a cada prensada, que tem um ciclo total de 10 minutos. Inspeções visuais são feitas pelo operador a cada hora (1 a cada 6 prensadas são inspecionadas 100%). O supervisor da linha de montagem reclama da variação do nível de qualidade das gaxetas e coifas. Foi solicitado ao supervisor da fabricação de artefatos de borrachas para manter o processo sob controle e reduzir a fração de peças defeituosas. Após três meses de produção, várias ações foram tomadas para reduzir as falhas de produção, o supervisor espera que o processo tenha melhorado. A tabela 2.6 mostra amostras tiradas ao longo dos últimos três meses, e a tabela 2.7 mostra os resultados após as ações tomadas. Foram retiradas vinte amostras antes da melhoria e vinte e cinco amostras depois da melhoria implantada. Tabela de freqüência, gráficos de barra e coluna Tabela 2.6: número de peças defeituosas para cada 80 peças amostradas antes do plano de ação. Fevereiro Amostra 1 Amostra 2 Amostra 3 Amostra 4 Amostra 5 Defeituosas 7 5 8 8 9 Março Amostra 6 Amostra 7 Amostra 8 Amostra 9 Amostra 10 Defeituosas 7 6 9 6 8 Abril Amostra 11 Amostra 12 Amostra 13 Amostra 14 Amostra 15 Defeituosas 2 10 6 6 7 Maio Amostra 16 Amostra 17 Amostra 18 Amostra 19 Amostra 20 Defeituosas 8 11 10 7 9 Tabela 2.7: Número de peças defeituosas para cada 80 peças amostradas após o plano de ação. Junho Amostra 1 Amostra 2 Amostra 3 Amostra 4 Amostra 5 Defeituosas 3 9 5 3 7 Julho Amostra 6 Amostra 7 Amostra 8 Amostra 9 Amostra 10 Defeituosas 5 4 3 6 4 Agosto Amostra 11 Amostra 12 Amostra 13 Amostra 14 Amostra 15 Defeituosas 5 6 8 8 6 Setembro Amostra 16 Amostra 17 Amostra 18 Amostra 19 Amostra 20 Defeituosas 6 4 1 7 6 Outubro Amostra 21 Amostra 22 Amostra 23 Amostra 24 Amostra 25 Defeituosas 5 6 4 1 6 A tabela 2.8, que mostra os resultados agrupando os dados das tabelas 2.6 e 2.7, é uma tabela de freqüência. Observe que a variável em análise é quantitativa discreta, pois o número de defeituosos na amostra de oitenta são números inteiros, de zero a oitenta. Na primeira coluna está a variável de análise, na segunda coluna, a freqüência ou ocorrência do valor da variável na amostra, na coluna três está a freqüência acumulada, na coluna quatro, a freqüência relativa, e na coluna 5, a freqüência relativa acumulada. Tabela 2.8: Freqüência do número de itens defeituosos das tabelas 2.6 e 2.7. Defeituosos Freqüência Acumulado Freqüência Relativa Acumulada 1 0 0 0 0,00 2 6 6 0,13 0,13 3 1 7 0,02 0,16 4 4 11 0,09 0,24 5 5 16 0,11 0,36 6 10 26 0,22 0,58 7 10 36 0,22 0,80 8 4 40 0,09 0,89 9 2 42 0,04 0,93 10 2 44 0,04 0,98 11 1 45 0,02 1,00 12 0 45 0 1,00 Observe que 80% das amostras analisadas (foram 45) tiveram, no máximo, 7 peças defeituosas e o número de peças defeituosas que mais ocorreu nas amostras foram 6 e 7. A figura 2.4 mostra um gráfico de barras referente aos dados da tabela 2.8. Essa é uma das opções de gráfico, você poderia fazer para os mesmos dados um gráfico de colunas (figura 2.5), que mostra a freqüência acumulada. Figura 2.4: Gráfico de barras referente aos dados da tabela 2.8. Figura 2.5: Freqüência relativa acumulada. Observe nas figuras 2.4 e 2.5 que as barras estão separadas, ao contrário do histograma, onde ficam juntas. É que os dados não são contínuos. Gráfico de linhas Um gráfico de linhas, mostrado na figura 2.6, compara o desempenho do processo, em termos de qualidade, antes e após a implantação das melhorias. Observe que as ações foram efetivas, ou seja, deram bons resultados. Figura 2.6: Gráfico de linhas comparando dois momentos distintos de um processo industrial. Para ampliarmos o entendimento do processo do exemplo 4, construímos a tabela 2.9, separando os dados antes e após a implantação da melhoria. Esses mesmos dados da tabela 2.9 estão na figura 2.7. Tabela 2.9: Freqüências de itens defeituosos e porcentagens acumuladas, antes e após a melhoria. X Freqüência Acumulada Antes Freqüência Acumulada Depois % Acumulada Antes % Acumulada Depois 2 2 4 10,0% 16,0% 3 2 5 10,0% 20,0% 4 3 8 15,0% 32,0% 5 4 12 20,0% 48,0% 6 8 18 40,0% 72,0% 7 13 23 65,0% 92,0% 8 16 24 80,0% 96,0% 9 18 24 90,0% 96,0% 10 19 25 95,0% 100,0% 11 20 25 100,0% 100,0% Figura 2.7: Gráfico de barras com a porcentagem acumulada antes e após as ações de melhoria. Observe pela figura 2.7 e a tabela 2.9 as melhorias alcançadas. Se tiver dificuldade em analisar o gráfico, verifique que antes das melhorias, 20% das amostras tinham mais de 8 peças defeituosas em cada lote de 80 unidades produzidas; após as melhorias, somente 4% dos lotes terão mais que 8 unidades defeituosas a cada 80 produzidas. Pelas análises, há forte evidência de que as ações tomadasforam bem sucedidas. 2.4.2 Variáveis qualitativas Nesta seção iremos trabalhar com dados qualitativos ordinal e nominal. Começaremos estudando as variáveis qualitativas ordinais, para isso tomaremos o exemplo 2 da unidade 1. 2.4.2.1 Ordinal Dados qualitativos ordinais, em geral, referem-se a estudos sobre julgamentos e opiniões, onde um grupo de indivíduos faz o julgamento sobre um produto, um serviço, o grau de concordância sobre afirmações relacionadas a determinados assuntos, dentre outros possíveis trabalhos. Nesses tipos de estudo, utilizam-se escalas que variam de 1 a 10, ou de 1 a 5, conhecidas como escalas de Likert. Caso 3: É o exemplo 2, que apresenta uma amostra da R.C.M.P. (Royal Canadian Mounted Police Officers), que foi questionada sobre assuntos relacionados ao estresses das suas atividades regulares. O propósito da pesquisa foi dimensionar o estresse. Além das informações pessoais, 18 variáveis foram incluídas na pesquisa relacionadas ao estresse. Tabela 10: Pesquisa sobre estresse. Q7 Q8 Q9 Q10 Q11 Q12 Q13 6 6 3 4 6 3 3 5 9 4 6 5 15 5 8 4 12 10 8 6 4 2 9 4 4 15 9 3 4 3 10 5 10 8 4 9 15 15 5 10 20 4 6 2 3 3 12 2 3 1 4 8 10 15 6 8 4 4 4 4 4 6 0 6 4 3 0 2 0 0 6 6 4 3 2 2 0 2 3 4 4 10 4 0 1 6 1 2 8 2 2 6 9 4 3 9 6 1 6 6 4 3 4 3 0 2 3 3 3 8 2 0 6 8 5 4 8 4 4 4 6 4 5 4 4 0 Analisaremos a opinião de dezoito policiais sobre as questões de 7 a 13. Essas questões estão descritas na unidade 1. Elas abordam os seguintes temas: 7. Aviso a parentes sobre óbitos ou ferimentos graves; 8. Tolerância a abuso verbal em público; 9. Insucessos na tentativa de resolver uma série de infrações; 10. Falta de ambulâncias e médicos; 11. Pobre apresentação do caso por um promotor (sentimento de tempo perdido); 12. Excessiva carga de trabalho; 13. Não estar junto da unidade de comando. As demais variáveis não serão analisadas para simplificar a explicação do uso de análise gráfica para esse tipo de variável. A tabela 2.10 mostra os resultados das opiniões dos dezoito policiais sobre as sete questões relacionadas ao estresse. Os mesmos resultados estão na figura 2.8. A escala utilizada foi de 1 a 20, sendo quando maior a nota, maior o estresse causado pela variável ao policial. Observe, na figura 2.8, que o nível de estresse entre os policiais variam bastante, por exemplo, os policiais de número 9, 10 e 11 têm menores níveis de estresse que o policial de número 6. O gráfico da figura 2.8 é um modo de se representar os dados, outra maneira de representar os mesmos dados, é ordenando- os do maior para o menor, tomando como base uma das variáveis. Figura 2.8: Níveis de estresse de dezoito policiais. Figura 2.9: Níveis de estresse classificados pela questão 11. Fizemos uma classificação pela questão 11 (Q11) dos dados de estresse do maior para o menor. Observe que a questão 11 é predominante para parte dos policiais, conforme ela reduz no seu valor, as demais tendem também a reduzir. 2.4.2.2 Nominal Nessa escala de medida não é possível ordenar as respostas em ordem de valor. Variáveis desse tipo são, por exemplo, sexo e estado civil. Caso 4 Retomemos o exemplo 4 da unidade 1. Para que o engenheiro melhore o desempenho do processo pela redução da quantidade de peças não conformes, ele precisa planejar um estudo. Para começar, é necessário registrar os tipos de não conformidade geradas pelo processo, em seguida, identificar aquela que mais ocorre para, depois, buscar as causas da não conformidade. O próximo passo é planejar ações que eliminem essas causas, programar as ações e verificar os resultados obtidos. A tabela 2.11 registra as causas que geraram não conformidades durante três meses de produção. Foram registrados os defeitos de amostras de vinte lotes de produção, cujos tamanhos são de oitenta peças. Esses lotes são direcionados à montagem, caso seja montado um produto com peça com problemas, a confiabilidade do produto é reduzida drasticamente. Lembre-se que esse estudo foi feito antes da melhoria. Pela análise da figura 2.10 e tabela 2.11, conclui-se que o foco das ações de melhoria é reduzir a incidência de problemas de rasgo das peças. A figura 2.10 é chamada de Pareto, nome do idealizador desse gráfico, que indica o problema prioritário. Se reduzir pela metade o problema “rasgo nas peças”, obter-se-ia uma redução de 26% das não conformidades do processo de fabricação. Tabela 2.11: Ocorrência de defeitos antes da melhoria. AMOSTRAS Defeitos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total 2 7 5 8 8 9 7 6 9 6 8 2 10 6 7 7 6 11 7 4 Rasgo 1 3 2 5 4 4 5 3 6 3 4 1 3 2 5 4 3 6 4 2 Furo 1 2 2 3 4 2 1 2 2 3 2 2 2 1 3 1 2 Dimensional 1 1 1 1 1 1 1 1 1 1 1 Incompleta 1 1 1 1 1 1 1 1 1 Torta 1 1 1 1 1 Outros 1 1 1 Figura 2.10: Análise de Pareto. 2.5 Análise numérica de dados O próximo passo nesta unidade é apresentar métodos de análise numérica de conjuntos de dados, para enriquecer nossa capacidade analítica. Trataremos de quatro tipos de análise ou medidas numéricas: Medidas de posição central, Medidas de dispersão, Medidas de forma, e Medidas de relacionamento entre duas variáveis. 2.5.1 Medidas de posição central As principais medidas de posição central são: Média, Mediana, e Moda • Média amostral: • Mediana amostral: Se n ímpar, a mediana estará na ordem: Se n par, a mediana estará entre os valores: e • Moda: é o valor que mais ocorre na amostra. A média aritmética é mais sensível a valores extremos que a mediana. Já a mediana divide os dados em duas partes, sendo que cada uma contém metade dos dados (50%). Tomemos como exemplo a variável X4 do estudo dos pardais. Para calcular a mediana temos que ordenar os dados, do menor para o maior, para, em seguida, ranquear os mesmos. A figura 2.11 mostra os dados já ranqueados da variável X4. Ordem X4 Ordem X4 1 17,20 25 18,50 2 17,30 26 18,50 3 17,30 27 18,50 4 17,70 28 18,50 5 17,70 29 18,60 6 17,90 30 18,60 7 17,90 31 18,60 8 18,00 32 18,60 9 18,00 33 18,60 10 18,00 34 18,60 11 18,00 35 18,80 12 18,10 36 18,80 13 18,10 37 18,80 14 18,10 38 18,80 15 18,20 39 18,80 16 18,20 40 19,00 17 18,20 41 19,10 18 18,20 42 19,10 19 18,40 43 19,10 20 18,40 44 19,10 21 18,40 45 19,10 22 18,50 46 19,30 23 18,50 47 19,50 24 18,50 48 19,50 49 19,80 Figura 2.11: Variável ranqueada. Como o tamanho da amostra é impar (n=49), a mediana estará na vigésima quinta posição. Assim, a mediana é de 18,50 cm. Para os mesmos dados, a média será: A moda será: Quando a moda, a mediana e a média são iguais, isso indica que a distribuição é simétrica. Para distribuições assimétricas, a mediana estará entre a moda e a média. Para o cálculo da média, mediana e moda de dados dispostos em uma tabela de freqüência, as fórmulas de cálculo são mostradas a seguir: k: classes da tabela de freqüência; f: é a freqüência absoluta ou ocorrência; : é a freqüência relativa que estima a probabilidade de ocorrência de um dado x. Li: limite inferior da classe que contém a mediana; Fa:freqüência acumulada até a classe da mediana; fmd: é a freqüência da classe que contém a mediana; h: é a amplitude das classes. Li: limite inferior da classe modal; d1:diferença entre a freqüência da classe modal e da classe anterior; d2:diferença entre a freqüência da classe modal e da classe posterior; h: é a amplitude das classes. 2.5.2 Medidas de dispersão Uma característica ou parâmetro importante na caracterização de uma população, tal como a média, são as medidas de dispersão. A primeira delas é o desvio padrão. A figura 2.12 ilustra o que é o desvio padrão. Ela analisa os dados da figura 2.11. Uma medida de dispersão poderia sera distância média de cada ponto em relação à média dos dados. Entretanto, o somatório da diferença de cada ponto em relação à média, como indica a figura 2.11, resultaria em zero. Uma maneira de contornar isso é elevar ao quadrado essas diferenças, somá-las, dividi-las pelo tamanho da amostra menos um (n-1), que denominamos de graus de liberdade. Este resultado chamaremos de variância. A raiz quadrada da variância nos fornece o desvio padrão na unidade de interesse. X4 17,2 x 17,3 xx 17,4 17,5 17,6 17,7 Xx 17,8 17,9 Xx 18 Xxxx 18,1 Xxx 18,2 Xxxx 18,3 18,4 Xxx 18,5 xxxxxxx 18,6 xxxxxx 18,7 18,8 Xxxxx 18,9 19 X 19,1 Xxxxx 19,2 Média amostral 19,3 C 19,4 19,5 Xx 19,6 19,7 19,8 x 19,9 Figura 2.11: Ilustração do conceito de dispersão. As fórmulas mostradas a seguir nos dão o modo de cálculo de duas medidas de dispersão amostral. • Desvio padrão amostral: • Variância amostral: Para o desvio padrão e variância populacional, a média amostral é substituída na fórmula pela média populacional, : . Onde N é o tamanho da população. A variância de dados dispostos em uma tabela de freqüência é calculada como segue: xi: valor médio da classe i; fi: freqüência ou ocorrência da classe i; n: tamanho da amostra. 2.5.3 Medidas de forma Para medidas de forma, usa-se a medida de assimetria, conhecida como Skewness, e a medida de achatamento, conhecida como Kurtosis. Essas medidas são coeficientes que indicam o grau de aderência dos dados à distribuição normal padrão (curva de sino), que está ilustrada na figura 2.12. • Coeficiente de assimetria (Skewness) • Coeficiente de achatamento (Kurtosis) Quando os dados seguem uma distribuição normal padrão, igual ao da figura 2.12, a curtose (Kurtosis) e a Skewness terão valores zero. Quando o valor da assimetria é positivo, isso indica assimetria para a direita, quando for negativa indica que a assimetria é para a esquerda. Quanto a curtose é negativa, indica uma distribuição pontiaguda, quando for achatada, a curtose será positiva. Figura 2.12: Distribuição supostamente normal da variável X4. Para a variável X4, a curtose é 0,137 e a assimetria é -0,0546. A figura 2.13 mostra duas distribuições simétricas com diferentes formatos, uma mais achatada e outra, pontiaguda. A figura 2.14 exemplifica uma distribuição assimétrica positiva, ou seja, que tem uma cauda a direita. Quanto maior a assimetria, mais positiva é a medida de Skewnness. Assimetria próxima de 0; segue uma distribuição normal. Figura 2.13: Comparação entre duas distribuições simétricas mas com graus diferentes de curtose. Histograma 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 Var1 0 1 2 3 4 5 6 7 8 9 10 N o of O bs er va tio ns Figura 2.14: Exemplo de uma distribuição assimétrica positiva. 2.6 Considerações finais Portanto, a partir das análises gráficas e com o apoio das análises numéricas, nós conseguiremos analisar a dispersão, a medida de posição central e a forma da distribuição de um conjunto de dados. Com isso em mãos, podemos extrair importantes informações sobre uma dada população e comparar diferentes populações com base nas estimativas de parâmetros populacionais. 2.7 Leitura complementar É fundamental que o aluno complemente seus conhecimentos consultando as referências indicadas. Outro ponto fundamental é utilizar o Excel para fazer análises gráficas e numéricas.
Compartilhar