Buscar

2 - Estatística Descritiva

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Unidade 2: Estatística Descritiva
2.1 Primeiras Palavras
Coletados os dados, o próximo passo é analisá-los de modo a extrair informações 
relevantes. A habilidade de observar aspectos relevantes de um conjunto de dados 
coletados pode ter um peso significativo no desenvolvimento da carreira profissional. 
Identificar dados que se destacam do conjunto, fazer comparações (contrastar), indicar 
tendências e relações entre variáveis é o que se espera de uma boa análise.
2.2 Problematizando o tema
Você certamente irá se deparar ao longo de sua carreira profissional com problemas 
que demandarão a análise de uma massa de dados. Novamente, a capacidade de 
análise é fundamental para identificar problemas, bem como suas causas e verificar o 
sucesso ou não das ações instrumentalizadas. 
Do ponto de vista industrial, podemos definir um problema de duas maneiras. A 
primeira definição identifica um problema como uma fuga do padrão, ou, dito de outra 
forma, é quando um produto ou processo repentinamente passa a não ter o 
desempenho passado (histórico). Pensando unicamente em processo, diz-se que 
esse saiu do controle. Nesse momento, cabe ao técnico identificar a causa e 
restabelecer o status quo, ou seja, voltar o processo ao padrão de desempenho 
anterior. Coletar dados e analisá-los para identificar causas que possam levar um 
processo à perda de desempenho são atividades do técnico e engenheiro de 
processo. Agora reflita sobre o seguinte: qualquer produto ou processo que esteja fora 
da especificação de engenharia é um problema. A questão é como identificar e 
prevenir esse problema. A capacidade analítica é decisiva para identificar e prevenir 
problemas de perda de padrão de desempenho. 
O segundo tipo de problema é o mais difícil de solucionar e nós podemos dizer que é o 
mais freqüente e importante na carreira do técnico e engenheiro. É a necessidade de 
melhorar o desempenho de um produto ou processo, ou seja, dito nos moldes da 
definição anterior, é mudar o padrão de desempenho. Novamente a capacidade 
analítica é decisiva e o uso de técnicas estatísticas é um recurso indispensável.
É nesse contexto que serão apresentadas as principais técnicas gráficas e numéricas 
para análise de produtos e processos. Há situações práticas em que o técnico e 
engenheiro têm que tomar uma decisão ou fazer uma afirmação com base em uma 
amostra, o que pode ser enganoso. É necessário tomar cuidado com as afirmações 
em razão dos erros amostrais. Esse assunto será tratado nas próximas unidades. 
2.3 Conceituação de probabilidade
Nesta seção, aprenderemos a definir e calcular a probabilidade de ocorrência de um 
determinado evento. Há duas correntes para a definição de probabilidade: a teoria das 
freqüências e a teoria clássica. A teoria das freqüências, que é uma abordagem 
empírica, determina a probabilidade de ocorrência de um evento com base em uma 
experimentação. Para ilustrar, tome como exemplo o simples experimento de 
lançamento de um dado, e que se tenha como evento de interesse a ocorrência de um 
número par. Suponha que lancemos n vezes o dado e contemos a ocorrência de 
números pares, cuja notação dada por nós será f. A probabilidade de sair um número 
par, supondo n razoavelmente grande, por exemplo, n maior que 1000, será o número 
de ocorrência de números pares, f, dividido pelo total de lançamentos, n. Em termos 
matemáticos, a notação de probabilidade de sair um número par em n lançamentos 
será P(sair número par). 
A probabilidade de ocorrer um dado evento obtido a partir de n experimentos, com n
sendo suficientemente grande, será um valor próximo da probabilidade verdadeira. 
Portanto a probabilidade de sair um número par no lançamento de um dado é:
 (1)
Outro método para calcular a probabilidade é utilizar a teoria dos conjuntos. A 
probabilidade será então a divisão entre o número de possíveis ocorrências do evento 
de interesse sobre o total de eventos possíveis. Para o lançamento de um dado há 
seis eventos possíveis, sendo que em três deles são a ocorrência de números pares. 
O espaço amostral, denotado por Ω, será:
.
O subconjunto de Ω que é os números pares, que denotaremos por A, é: 
A probabilidade de ocorrência de A será:
(2), 
 
Considere o seguinte exemplo: o lançamento de dois dados e tome como resultado a 
soma dos valores dos dois lançamentos. Isso feito, teríamos os seguintes possíveis 
resultados, mostrados na tabela 2.1. Como podemos observar, há trinta e seis 
possíveis resultados. A cada valor na tabela 2.1 é associado uma chance de ocorrer, 
que chamamos de probabilidade. Assim, a probabilidade da soma ser dois (sair 1 no 
primeiro e também no segundo lançamento) é uma ocorrência em 36 possíveis.
Tabela 2.1: Soma de dois lançamentos de um dado.
L1/L2 1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
Se X é uma variável aleatória que corresponde a soma de dois lançamentos de um 
dado, a probabilidade de ocorrer um dado valor de X é mostrada na tabela 2.2.
Tabela 2.2: Possíveis resultados da soma de dois lançamentos de dado.
X
Ocorrência dentre os 
possíveis eventos
Probabilidade da 
ocorrência de X
2 1 1/36
3 2 2/36
4 3 3/36
5 4 4/36
6 5 5/36
7 6 6/36
8 5 5/36
9 4 4/36
10 3 3/36
11 2 2/36
12 1 1/36
Se X é uma variável aleatória que corresponde à soma de dois lançamentos de um 
dado, a probabilidade de ocorrer um dado valor de X é mostrada na tabela 2. 
É possível determinar a probabilidade de ocorrer outros eventos a partir dos dados da 
tabela 2.2. Por exemplo, para os eventos listados a seguir, teremos as seguintes 
probabilidades de ocorrência:
 B=
P(X≥8) =
 C = 
P(X=10) 
Dos exemplos apresentados, tiramos os seguintes axiomas:
Uma probabilidade é um valor entre zero e um, e a soma das probabilidades de todos 
os eventos possíveis de um espaço amostral é um. 
Definida a probabilidade, a próxima seção apresentará modos de representar gráfica e 
numericamente um conjunto de dados. Os conceitos e definições apresentadas nesta 
seção serão utilizados na representação gráfica de variáveis e na conceituação de 
distribuição de probabilidade, que será apresentada na unidade 4. Esta seção também 
será útil na compreensão das distribuições amostrais, base teórica na aplicação de 
testes de hipóteses, que estudaremos na unidade 6.
2.4 Representação gráfica de dados
2.4.1 Variáveis quantitativas
Começaremos neste tópico com a análise de variáveis quantitativas contínuas. Para 
isso, analise os dois casos mostrados a seguir.
2.4.1.1 Quantitativa Contínua
Caso 1:
Após uma forte tempestade, diversos pardais foram levados ao laboratório da 
Universidade Brown, EUA. Cerca de metade dos pardais morreram após alguns dias.
Oito medidas foram tomadas dos pardais, sendo cinco delas mostradas a seguir na 
tabela 2.3. O objetivo é verificar se há relação entre a estrutura física e a sobrevivência 
dos pardais. Foram tomadas as seguintes medidas dos pardais: X1 - comprimento 
total; X2 - extensão alar; X3 - comprimento do bico e cabeça; X4 - comprimento do 
úmero; X5 - comprimento da quilha do externo.
Tabela 2.3: Dados dos pardais.
Pássaro Grupo X1 X2 X3 X4 X5
1 Sobreviveram 156,00 245,00 31,60 18,50 20,50
2 Sobreviveram 154,00 240,00 30,40 17,90 19,60
3 Sobreviveram 153,00 240,00 31,00 18,40 20,60
4 Sobreviveram 153,00 236,00 30,90 17,70 20,20
5 Sobreviveram 155,00 243,00 31,50 18,60 20,30
6 Sobreviveram 163,00 247,00 32,00 19,00 20,90
7 Sobreviveram 157,00 238,00 30,90 18,40 20,20
8 Sobreviveram 155,00 239,00 32,80 18,60 21,20
9 Sobreviveram 164,00 248,00 32,70 19,10 21,10
10 Sobreviveram 158,00 238,00 31,00 18,8022,00
11 Sobreviveram 158,00 240,00 31,30 18,60 22,00
12 Sobreviveram 160,00 244,00 31,10 18,60 20,50
13 Sobreviveram 161,00 246,00 32,30 19,30 21,80
14 Sobreviveram 157,00 245,00 32,00 19,10 20,00
15 Sobreviveram 157,00 235,00 31,50 18,10 19,80
Tabela 2.3: Dados dos pardais (cont.)
Pássaro Grupo X1 X2 X3 X4 X5
16 Sobreviveram 156,00 237,00 30,90 18,00 20,30
17 Sobreviveram 158,00 244,00 31,40 18,50 21,60
18 Sobreviveram 153,00 238,00 30,50 18,20 20,90
19 Sobreviveram 155,00 236,00 30,30 18,50 20,10
20 Sobreviveram 163,00 246,00 32,50 18,60 21,90
21 Sobreviveram 159,00 236,00 31,50 18,00 21,50
22 Morreram 155,00 240,00 31,40 18,00 20,70
23 Morreram 156,00 240,00 31,50 18,20 20,60
24 Morreram 160,00 242,00 32,60 18,80 21,70
25 Morreram 152,00 232,00 30,30 17,20 19,80
26 Morreram 160,00 250,00 31,70 18,80 22,50
27 Morreram 155,00 237,00 31,00 18,50 20,00
28 Morreram 157,00 245,00 32,20 19,50 21,40
29 Morreram 165,00 245,00 33,10 19,80 22,70
30 Morreram 153,00 231,00 30,10 17,30 19,80
31 Morreram 162,00 239,00 30,30 18,00 23,10
32 Morreram 162,00 243,00 31,60 18,80 21,30
33 Morreram 159,00 245,00 31,80 18,50 21,70
34 Morreram 159,00 247,00 30,90 18,10 19,00
35 Morreram 155,00 243,00 30,90 18,50 21,30
36 Morreram 162,00 252,00 31,90 19,10 22,20
37 Morreram 152,00 230,00 30,40 17,30 18,60
38 Morreram 159,00 242,00 30,80 18,20 20,50
39 Morreram 155,00 238,00 31,20 17,90 19,30
40 Morreram 163,00 249,00 33,40 19,50 22,80
41 Morreram 163,00 242,00 31,00 18,10 20,70
42 Morreram 156,00 237,00 31,70 18,20 20,30
43 Morreram 159,00 238,00 31,50 18,40 20,30
44 Morreram 161,00 245,00 32,10 19,10 20,80
45 Morreram 155,00 235,00 30,70 17,70 19,60
46 Morreram 162,00 247,00 31,90 19,10 20,40
47 Morreram 153,00 237,00 30,60 18,60 20,40
48 Morreram 162,00 245,00 32,50 18,50 21,10
49 Morreram 164,00 248,00 32,30 18,80 20,90
Observe que as escalas das variáveis são quantitativas contínuas (X1, X2, X3, X4 e 
X5), dadas em centímetros, e temos também uma variável de grupo, que é se o pardal 
sobreviveu ou morreu. O objetivo da investigação é saber se há diferenças físicas, 
medidas pelas variáveis, entre os pardais que sobreviveram e os que morreram. Uma 
maneira de respondermos a essa pergunta é comparar os dois grupos, analisando 
cada variável separadamente. 
Caso 2
A altura de uma haste de metal de 25 peças foi medida por duas vezes por uma 
mesmo analista utilizando dois instrumentos distintos: i) por um micrômetro de 0,01 
mm de precisão, e ii) por um paquímetro de 0,02 mm de precisão. O micrômetro é um 
instrumento mais caro e mais sensível a poeira, bancadas e quedas. O paquímetro é 
um instrumento mais barato, e mais robusto. O estudo realizado tem o objetivo de 
avaliar a possibilidade de substituir o micrômetro pelo paquímetro. A tabela 2.4 mostra 
os resultados do estudo. 
Tabela 2.4: Dados do estudo de equipamentos de medição.
Medida Micrômetro Paquímetro Medida Micrômetro Paquímetro
1 0,12 0,18 14 0,13 0,17
2 0,15 0,14 15 0,14 0,16
3 0,14 0,18 16 0,15 0,21
4 0,14 0,13 17 0,15 0,15
5 0,14 0,17 18 0,15 0,15
6 0,15 0,13 19 0,15 0,16
7 0,16 0,13 20 0,13 0,17
8 0,16 0,20 21 0,16 0,15
9 0,16 0,15 22 0,15 0,14
10 0,14 0,13 23 0,14 0,13
11 0,15 0,19 24 0,14 0,20
12 0,14 0,15 25 0,15 0,10
13 0,16 0,15
As variáveis são quantitativas contínuas e o objetivo é comparar os dois tipos de 
instrumento de medição. Se o paquímetro apresentar resultados próximos ao do 
micrômetro, este pode ser substituído. O procedimento de estudo foi selecionar uma 
peça e submetê-la a 25 medidas com micrômetro e 25 com paquímetro. 
Técnicas gráficas de análise
Para os dois casos, iremos utilizar análises gráficas para tentar responder aos 
objetivos de cada caso. Iremos utilizar, em algumas análises, o Excel. 
Distribuição de freqüência e histograma
Dado que as variáveis dos casos 1 e 2 têm escala quantitativa contínua, uma forma de 
analisá-las consiste em construir intervalos de classe e contar a freqüência de 
ocorrência dos dados. A tabela 5 mostra os dados da variável X4 (comprimento do 
úmero) extraídos da tabela 2.3 e organizados em classes de freqüência.
Tabela 2.5: Freqüência da variável “comprimento do úmero”.
Classes Freqüência (F) F Acumulada % % Acumulada
16,5 < x ≤ 17,0 0 0 0,0 0,0
17,0 < x ≤ 17,5 3 3 6,1 6,1
17,5 < x ≤ 18,0 8 11 16,3 22,4
18,0 < x ≤ 18,5 17 28 34,7 57,1
18,5 < x ≤ 19,0 12 40 24,5 81,6
19,0 < x ≤ 19,5 8 48 16,3 98,0
19,5 < x ≤ 20,0 1 49 2,0 100,0
Total 49 100,0
Os dados foram organizados em sete classes, coluna 1 da tabela 2.5. A classe 1 
contém os pássaros que possuem medidas entre 16,6 a 17,0 cm. A classe 2 contém 
pardais com medidas entre 17,1 e 17,5 cm. Observe que, caso houvesse pardais com 
medidas de 17,0 cm, eles seriam contados na classe 1. Portanto, na classe 1 não foi 
identificado nenhum pardal; na classe dois, três pardais; na classe três, oito pardais; 
na classe quatro, dezessete pardais (maior freqüência); na classe cinco, doze pardais; 
na classe seis, oito; na classe sete, um pardal. 
A pergunta é: como definir a quantidade de classes? Podemos dizer que é arbitrário. 
Na prática, de 6 a 18 classes fornece uma representação razoável dos dados. Uma 
regra é tomar a raiz quadrado do tamanho da amostra para determinar a quantidade 
de classes, K. Para o exemplo, nós temos 49 dados ( que nos dá 7 
classes. Para determinar a amplitude (R) dos quarenta e nove dados, tomamos o 
maior valor menos o menor valor dentre os quarenta e nove da amostra:
 (3)
Para o exemplo, a amplitude total será:
Dividindo (amplitude dividido pelo número de classes) teremos um intervalo de 
classe, , de 0,40. Na tabela 5, utilizou-se um intervalo de classe . 
Com os passos acima, aprendemos a construir uma tabela de freqüência. Esse 
procedimento pode ser repetido para as demais variáveis da tabela 2.3 e a da tabela 
2.4. O passo seguinte é aprendermos a representar graficamente a tabela de 
freqüência por meio do que iremos denominar de Histograma. 
O histograma da tabela 2.5 é mostrado na figura 2.1, que foi feito utilizando o software 
Statistica, versão 9. O histograma é um gráfico de colunas, onde na abscissa (eixo x) 
estão as classes e na ordenada (eixo y), as freqüências. 
No histograma você tem que observar três aspectos relacionados aos dados da 
variável analisada:
 A dispersão dos dados, 
 A posição central dos dados, e 
 O formato da curva.
Conforme indica a figura 2.1, o comprimento do úmero tem uma dispersão de 17,0 cm 
a 20,0 cm. A medida de posição central está na classe de 18,0 a 18,5 e o formato da 
curva se assemelha a um sino, que nós iremos chamar de curva normal.
Histograma Comprimento do Úmero
16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0 20,5
X4
0
2
4
6
8
10
12
14
16
18
N
o
 o
f o
b
s
Figura 2.1: Histograma do comprimento do úmero dos 49 pardais.
Comparação entre os grupos de pardais
Temos cinco variáveis que descrevem as características dos pardais. A partir dessas 
cinco variáveis, poderemos tirar conclusões a respeito das possíveis diferenças entre 
os pardais que sobreviveram em relação aos que morreram. Se levássemos em conta 
na análise, simultaneamente, as cinco variáveis, nós estaríamos aplicando a análise 
multivariada. Neste momento, só iremos analisar uma das cinco variáveis, portanto, a 
análise será univariada. 
Aprendemos a construir tabelas de freqüência e histogramas e gráficos de barras 
(similar ao histograma, com a diferença das barras estarem separadas) para uma 
variável (estamos fazendo uma análise univariada). O próximo passo será analisarmos 
os dois casos com o objetivo de tentar responder às questões de interesse. Noprimeiro caso, é analisar se há diferença física entre os pardais sobreviventes e os que 
morreram. Vamos fazer a análise da variável X4 (comprimento do úmero), 
comparando os dois histogramas, para os que sobreviveram e para os que morreram. 
Poderemos fazer a mesma análise para cada uma das cinco variáveis. 
Observe na figura 2.2, que os pardais sobreviventes tiveram menor dispersão dos 
dados, de 17,5 a 19,5 cm. O grupo dos que morreram tiveram valores entre 17,0 a 
20,0 cm. Essa é uma aparente diferença entre os dois grupos. Se você repetir a 
mesma análise, talvez possa confirmar essa conclusão: de que os sobreviventes têm 
variação menor nas medidas físicas que os que morreram.
Histograma: Comprimento do Úmero
X4
N
o 
of
 o
bs
Grupo: Sobreviventes
16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0 20,5
0
2
4
6
8
10
12
Grupo: Morreram
16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0 20,5
Figura 2.2: Comparação entre os dois grupos de pardais.
Comparação entre os dois tipos de calibre
O caso 2 mostra os resultados de dois tipos de instrumentos de medição. O propósito 
do experimento é verificar se os dois instrumentos têm o mesmo desempenho. Para 
isso, construirmos o histograma das duas medidas para você analisá-los. Qual a sua 
interpretação dos resultados após analisar a figura 2.3?
Histograma 
Medições
F
re
qu
ên
ci
a
Grupo: Micrômetro
0,10 0,12 0,13 0,15 0,16 0,18 0,19 0,21
0
2
4
6
8
10
12
14
Grupo: Paquímetro
0,10 0,12 0,13 0,15 0,16 0,18 0,19 0,21
Figura 2.3: Comparação entre dois processos de medição.
A figura 2.3 mostra nitidamente que o paquímetro produz maior dispersão das 
medidas quando comparado ao micrômetro. O micrômetro produziu medidas mais 
concentradas em relação à posição central dos dados, já o micrômetro gerou medidas 
mais dispersas, visto que o histograma é mais achatado. Percebe-se também que os 
dois instrumentos produzem resultados da medida de posição central diferentes, pois 
para o paquímetro a medida de posição central está na classe de 0,15 a 0,16 mm, e o 
micrômetro produziu uma medida de posição central na classe de 0,13 a 0,15 mm. 
A conclusão que chegamos é que o paquímetro não tem as mesmas propriedades em 
termos de resposta de medição em comparação ao micrômetro. Se desejarmos 
manter a precisão das medidas é melhor mantermos o micrômetro como instrumento 
de medição. 
2.4.1.2 Quantitativa discreta
Para aprendermos a utilizar gráficos na análise desse tipo de variável, vamos estudar 
o exemplo 4, mostrado na unidade 1. 
Exemplo 4: um processo de conformação a quente de coifas e gaxetas de borrachas 
utilizadas na proteção de dispositivos mecânicos, produz 80 artefatos a cada 
prensada, que tem um ciclo total de 10 minutos. Inspeções visuais são feitas pelo 
operador a cada hora (1 a cada 6 prensadas são inspecionadas 100%). O supervisor 
da linha de montagem reclama da variação do nível de qualidade das gaxetas e coifas. 
Foi solicitado ao supervisor da fabricação de artefatos de borrachas para manter o 
processo sob controle e reduzir a fração de peças defeituosas. 
Após três meses de produção, várias ações foram tomadas para reduzir as falhas de 
produção, o supervisor espera que o processo tenha melhorado. A tabela 2.6 mostra 
amostras tiradas ao longo dos últimos três meses, e a tabela 2.7 mostra os resultados 
após as ações tomadas. Foram retiradas vinte amostras antes da melhoria e vinte e 
cinco amostras depois da melhoria implantada. 
Tabela de freqüência, gráficos de barra e coluna
Tabela 2.6: número de peças defeituosas para cada 80 peças amostradas antes do 
plano de ação.
Fevereiro
Amostra
1
Amostra
2
Amostra 
3
Amostra
4
Amostra
5
Defeituosas 7 5 8 8 9
Março
Amostra
6
Amostra
7
Amostra 
8
Amostra
9
Amostra
10
Defeituosas 7 6 9 6 8
Abril
Amostra
11
Amostra
12
Amostra 
13
Amostra
14
Amostra
15
Defeituosas 2 10 6 6 7
Maio
Amostra
16
Amostra
17
Amostra 
18
Amostra
19
Amostra
20
Defeituosas 8 11 10 7 9
Tabela 2.7: Número de peças defeituosas para cada 80 peças amostradas após o 
plano de ação.
Junho
Amostra
1
Amostra
2
Amostra 
3
Amostra
4
Amostra
5
Defeituosas 3 9 5 3 7
Julho
Amostra
6
Amostra
7
Amostra 
8
Amostra
9
Amostra
10
Defeituosas 5 4 3 6 4
Agosto
Amostra
11
Amostra
12
Amostra 
13
Amostra
14
Amostra
15
Defeituosas 5 6 8 8 6
Setembro
Amostra
16
Amostra
17
Amostra 
18
Amostra
19
Amostra
20
Defeituosas 6 4 1 7 6
Outubro
Amostra
21
Amostra
22
Amostra 
23
Amostra
24
Amostra
25
Defeituosas 5 6 4 1 6
A tabela 2.8, que mostra os resultados agrupando os dados das tabelas 2.6 e 2.7, é 
uma tabela de freqüência. Observe que a variável em análise é quantitativa discreta, 
pois o número de defeituosos na amostra de oitenta são números inteiros, de zero a 
oitenta. Na primeira coluna está a variável de análise, na segunda coluna, a freqüência 
ou ocorrência do valor da variável na amostra, na coluna três está a freqüência 
acumulada, na coluna quatro, a freqüência relativa, e na coluna 5, a freqüência relativa 
acumulada. 
Tabela 2.8: Freqüência do número de itens defeituosos das tabelas 2.6 e 2.7. 
Defeituosos Freqüência Acumulado
Freqüência 
Relativa
Acumulada
1 0 0 0 0,00
2 6 6 0,13 0,13
3 1 7 0,02 0,16
4 4 11 0,09 0,24
5 5 16 0,11 0,36
6 10 26 0,22 0,58
7 10 36 0,22 0,80
8 4 40 0,09 0,89
9 2 42 0,04 0,93
10 2 44 0,04 0,98
11 1 45 0,02 1,00
12 0 45 0 1,00
Observe que 80% das amostras analisadas (foram 45) tiveram, no máximo, 7 peças 
defeituosas e o número de peças defeituosas que mais ocorreu nas amostras foram 6 
e 7. A figura 2.4 mostra um gráfico de barras referente aos dados da tabela 2.8. Essa 
é uma das opções de gráfico, você poderia fazer para os mesmos dados um gráfico de 
colunas (figura 2.5), que mostra a freqüência acumulada. 
Figura 2.4: Gráfico de barras referente aos dados da tabela 2.8.
Figura 2.5: Freqüência relativa acumulada. 
Observe nas figuras 2.4 e 2.5 que as barras estão separadas, ao contrário do 
histograma, onde ficam juntas. É que os dados não são contínuos. 
Gráfico de linhas
Um gráfico de linhas, mostrado na figura 2.6, compara o desempenho do processo, 
em termos de qualidade, antes e após a implantação das melhorias. Observe que as 
ações foram efetivas, ou seja, deram bons resultados. 
Figura 2.6: Gráfico de linhas comparando dois momentos distintos de um processo 
industrial.
Para ampliarmos o entendimento do processo do exemplo 4, construímos a tabela 2.9, 
separando os dados antes e após a implantação da melhoria. Esses mesmos dados 
da tabela 2.9 estão na figura 2.7. 
Tabela 2.9: Freqüências de itens defeituosos e porcentagens acumuladas, antes e 
após a melhoria. 
X
Freqüência 
Acumulada
Antes
Freqüência 
Acumulada
Depois
% 
Acumulada
Antes
% 
Acumulada 
Depois
2 2 4 10,0% 16,0%
3 2 5 10,0% 20,0%
4 3 8 15,0% 32,0%
5 4 12 20,0% 48,0%
6 8 18 40,0% 72,0%
7 13 23 65,0% 92,0%
8 16 24 80,0% 96,0%
9 18 24 90,0% 96,0%
10 19 25 95,0% 100,0%
11 20 25 100,0% 100,0%
Figura 2.7: Gráfico de barras com a porcentagem acumulada antes e após as ações 
de melhoria.
Observe pela figura 2.7 e a tabela 2.9 as melhorias alcançadas. Se tiver dificuldade 
em analisar o gráfico, verifique que antes das melhorias, 20% das amostras tinham 
mais de 8 peças defeituosas em cada lote de 80 unidades produzidas; após as 
melhorias, somente 4% dos lotes terão mais que 8 unidades defeituosas a cada 80 
produzidas. Pelas análises, há forte evidência de que as ações tomadasforam bem 
sucedidas. 
2.4.2 Variáveis qualitativas
Nesta seção iremos trabalhar com dados qualitativos ordinal e nominal. Começaremos 
estudando as variáveis qualitativas ordinais, para isso tomaremos o exemplo 2 da 
unidade 1.
2.4.2.1 Ordinal 
Dados qualitativos ordinais, em geral, referem-se a estudos sobre julgamentos e 
opiniões, onde um grupo de indivíduos faz o julgamento sobre um produto, um serviço, 
o grau de concordância sobre afirmações relacionadas a determinados assuntos, 
dentre outros possíveis trabalhos. Nesses tipos de estudo, utilizam-se escalas que 
variam de 1 a 10, ou de 1 a 5, conhecidas como escalas de Likert. 
Caso 3: 
É o exemplo 2, que apresenta uma amostra da R.C.M.P. (Royal Canadian Mounted 
Police Officers), que foi questionada sobre assuntos relacionados ao estresses das 
suas atividades regulares. O propósito da pesquisa foi dimensionar o estresse. Além 
das informações pessoais, 18 variáveis foram incluídas na pesquisa relacionadas ao 
estresse. 
Tabela 10: Pesquisa sobre estresse. 
Q7 Q8 Q9 Q10 Q11 Q12 Q13
6 6 3 4 6 3 3
5 9 4 6 5 15 5
8 4 12 10 8 6 4
2 9 4 4 15 9 3
4 3 10 5 10 8 4
9 15 15 5 10 20 4
6 2 3 3 12 2 3
1 4 8 10 15 6 8
4 4 4 4 4 6 0
6 4 3 0 2 0 0
6 6 4 3 2 2 0
2 3 4 4 10 4 0
1 6 1 2 8 2 2
6 9 4 3 9 6 1
6 6 4 3 4 3 0
2 3 3 3 8 2 0
6 8 5 4 8 4 4
4 6 4 5 4 4 0
Analisaremos a opinião de dezoito policiais sobre as questões de 7 a 13. Essas 
questões estão descritas na unidade 1. Elas abordam os seguintes temas: 7. Aviso a
parentes sobre óbitos ou ferimentos graves; 8. Tolerância a abuso verbal em público; 
9. Insucessos na tentativa de resolver uma série de infrações; 10. Falta de 
ambulâncias e médicos; 11. Pobre apresentação do caso por um promotor (sentimento 
de tempo perdido); 12. Excessiva carga de trabalho; 13. Não estar junto da unidade de 
comando. As demais variáveis não serão analisadas para simplificar a explicação do 
uso de análise gráfica para esse tipo de variável. 
A tabela 2.10 mostra os resultados das opiniões dos dezoito policiais sobre as sete 
questões relacionadas ao estresse. Os mesmos resultados estão na figura 2.8. A 
escala utilizada foi de 1 a 20, sendo quando maior a nota, maior o estresse causado 
pela variável ao policial. Observe, na figura 2.8, que o nível de estresse entre os 
policiais variam bastante, por exemplo, os policiais de número 9, 10 e 11 têm menores 
níveis de estresse que o policial de número 6. O gráfico da figura 2.8 é um modo de se 
representar os dados, outra maneira de representar os mesmos dados, é ordenando-
os do maior para o menor, tomando como base uma das variáveis. 
Figura 2.8: Níveis de estresse de dezoito policiais. 
Figura 2.9: Níveis de estresse classificados pela questão 11.
Fizemos uma classificação pela questão 11 (Q11) dos dados de estresse do maior 
para o menor. Observe que a questão 11 é predominante para parte dos policiais, 
conforme ela reduz no seu valor, as demais tendem também a reduzir. 
2.4.2.2 Nominal
Nessa escala de medida não é possível ordenar as respostas em ordem de valor. 
Variáveis desse tipo são, por exemplo, sexo e estado civil. 
Caso 4
Retomemos o exemplo 4 da unidade 1. Para que o engenheiro melhore o 
desempenho do processo pela redução da quantidade de peças não conformes, ele 
precisa planejar um estudo. Para começar, é necessário registrar os tipos de não 
conformidade geradas pelo processo, em seguida, identificar aquela que mais ocorre 
para, depois, buscar as causas da não conformidade. O próximo passo é planejar 
ações que eliminem essas causas, programar as ações e verificar os resultados 
obtidos. A tabela 2.11 registra as causas que geraram não conformidades durante três 
meses de produção. 
Foram registrados os defeitos de amostras de vinte lotes de produção, cujos tamanhos 
são de oitenta peças. Esses lotes são direcionados à montagem, caso seja montado 
um produto com peça com problemas, a confiabilidade do produto é reduzida 
drasticamente. Lembre-se que esse estudo foi feito antes da melhoria. 
Pela análise da figura 2.10 e tabela 2.11, conclui-se que o foco das ações de melhoria 
é reduzir a incidência de problemas de rasgo das peças. A figura 2.10 é chamada de 
Pareto, nome do idealizador desse gráfico, que indica o problema prioritário. Se 
reduzir pela metade o problema “rasgo nas peças”, obter-se-ia uma redução de 26% 
das não conformidades do processo de fabricação.
Tabela 2.11: Ocorrência de defeitos antes da melhoria.
AMOSTRAS
Defeitos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Total 2 7 5 8 8 9 7 6 9 6 8 2 10 6 7 7 6 11 7 4
Rasgo 1 3 2 5 4 4 5 3 6 3 4 1 3 2 5 4 3 6 4 2
Furo 1 2 2 3 4 2 1 2 2 3 2 2 2 1 3 1 2
Dimensional 1 1 1 1 1 1 1 1 1 1 1
Incompleta 1 1 1 1 1 1 1 1 1
Torta 1 1 1 1 1
Outros 1 1 1
Figura 2.10: Análise de Pareto.
2.5 Análise numérica de dados
O próximo passo nesta unidade é apresentar métodos de análise numérica de 
conjuntos de dados, para enriquecer nossa capacidade analítica.
Trataremos de quatro tipos de análise ou medidas numéricas:
 Medidas de posição central,
 Medidas de dispersão,
 Medidas de forma, e
 Medidas de relacionamento entre duas variáveis.
2.5.1 Medidas de posição central
As principais medidas de posição central são:
 Média,
 Mediana, e
 Moda
• Média amostral:
• Mediana amostral:
Se n ímpar, a mediana estará na ordem: 
Se n par, a mediana estará entre os valores: e
• Moda: é o valor que mais ocorre na amostra.
A média aritmética é mais sensível a valores extremos que a mediana. 
Já a mediana divide os dados em duas partes, sendo que cada uma contém metade 
dos dados (50%). Tomemos como exemplo a variável X4 do estudo dos pardais. Para 
calcular a mediana temos que ordenar os dados, do menor para o maior, para, em 
seguida, ranquear os mesmos. A figura 2.11 mostra os dados já ranqueados da 
variável X4.
Ordem X4 Ordem X4
1 17,20 25 18,50
2 17,30 26 18,50
3 17,30 27 18,50
4 17,70 28 18,50
5 17,70 29 18,60
6 17,90 30 18,60
7 17,90 31 18,60
8 18,00 32 18,60
9 18,00 33 18,60
10 18,00 34 18,60
11 18,00 35 18,80
12 18,10 36 18,80
13 18,10 37 18,80
14 18,10 38 18,80
15 18,20 39 18,80
16 18,20 40 19,00
17 18,20 41 19,10
18 18,20 42 19,10
19 18,40 43 19,10
20 18,40 44 19,10
21 18,40 45 19,10
22 18,50 46 19,30
23 18,50 47 19,50
24 18,50 48 19,50
49 19,80
Figura 2.11: Variável ranqueada. 
Como o tamanho da amostra é impar (n=49), a mediana estará na vigésima quinta 
posição. Assim, a mediana é de 18,50 cm. Para os mesmos dados, a média será:
A moda será:
Quando a moda, a mediana e a média são iguais, isso indica que a distribuição é 
simétrica. Para distribuições assimétricas, a mediana estará entre a moda e a média.
Para o cálculo da média, mediana e moda de dados dispostos em uma tabela de 
freqüência, as fórmulas de cálculo são mostradas a seguir: 
k: classes da tabela de freqüência;
f: é a freqüência absoluta ou ocorrência;
: é a freqüência relativa que estima a probabilidade de ocorrência de um dado x.
Li: limite inferior da classe que contém a mediana;
Fa:freqüência acumulada até a classe da mediana;
fmd: é a freqüência da classe que contém a mediana;
h: é a amplitude das classes.
Li: limite inferior da classe modal;
d1:diferença entre a freqüência da classe modal e da classe anterior;
d2:diferença entre a freqüência da classe modal e da classe posterior;
h: é a amplitude das classes.
2.5.2 Medidas de dispersão
Uma característica ou parâmetro importante na caracterização de uma população, tal 
como a média, são as medidas de dispersão. A primeira delas é o desvio padrão. A 
figura 2.12 ilustra o que é o desvio padrão. Ela analisa os dados da figura 2.11. 
Uma medida de dispersão poderia sera distância média de cada ponto em relação à 
média dos dados. Entretanto, o somatório da diferença de cada ponto em relação à 
média, como indica a figura 2.11, resultaria em zero. Uma maneira de contornar isso é 
elevar ao quadrado essas diferenças, somá-las, dividi-las pelo tamanho da amostra 
menos um (n-1), que denominamos de graus de liberdade. Este resultado 
chamaremos de variância. A raiz quadrada da variância nos fornece o desvio padrão 
na unidade de interesse. 
X4
17,2 x
17,3 xx
17,4
17,5
17,6
17,7 Xx
17,8
17,9 Xx
18 Xxxx
18,1 Xxx
18,2 Xxxx
18,3
18,4 Xxx
18,5 xxxxxxx
18,6 xxxxxx
18,7
18,8 Xxxxx
18,9
19 X
19,1 Xxxxx
19,2
Média
amostral
19,3 C
19,4
19,5 Xx
19,6
19,7
19,8 x
19,9
Figura 2.11: Ilustração do conceito de dispersão.
As fórmulas mostradas a seguir nos dão o modo de cálculo de duas medidas de 
dispersão amostral.
• Desvio padrão amostral:
• Variância amostral:
Para o desvio padrão e variância populacional, a média amostral é substituída na 
fórmula pela média populacional, : 
.
Onde N é o tamanho da população. 
A variância de dados dispostos em uma tabela de freqüência é calculada como segue:
xi: valor médio da classe i;
fi: freqüência ou ocorrência da classe i;
n: tamanho da amostra.
2.5.3 Medidas de forma
Para medidas de forma, usa-se a medida de assimetria, conhecida como Skewness, e 
a medida de achatamento, conhecida como Kurtosis. Essas medidas são coeficientes 
que indicam o grau de aderência dos dados à distribuição normal padrão (curva de 
sino), que está ilustrada na figura 2.12.
• Coeficiente de assimetria (Skewness)
• Coeficiente de achatamento (Kurtosis)
Quando os dados seguem uma distribuição normal padrão, igual ao da figura 2.12, a 
curtose (Kurtosis) e a Skewness terão valores zero. Quando o valor da assimetria é 
positivo, isso indica assimetria para a direita, quando for negativa indica que a 
assimetria é para a esquerda. Quanto a curtose é negativa, indica uma distribuição 
pontiaguda, quando for achatada, a curtose será positiva. 
Figura 2.12: Distribuição supostamente normal da variável X4.
Para a variável X4, a curtose é 0,137 e a assimetria é -0,0546. A figura 2.13 mostra 
duas distribuições simétricas com diferentes formatos, uma mais achatada e outra, 
pontiaguda. 
A figura 2.14 exemplifica uma distribuição assimétrica positiva, ou seja, que tem uma 
cauda a direita. Quanto maior a assimetria, mais positiva é a medida de Skewnness. 
Assimetria próxima de 0; segue uma 
distribuição normal.
Figura 2.13: Comparação entre duas distribuições simétricas mas com graus 
diferentes de curtose.
Histograma
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5
Var1
0
1
2
3
4
5
6
7
8
9
10
N
o 
of
 O
bs
er
va
tio
ns
Figura 2.14: Exemplo de uma distribuição assimétrica positiva.
2.6 Considerações finais 
Portanto, a partir das análises gráficas e com o apoio das análises numéricas, nós 
conseguiremos analisar a dispersão, a medida de posição central e a forma da 
distribuição de um conjunto de dados. Com isso em mãos, podemos extrair 
importantes informações sobre uma dada população e comparar diferentes 
populações com base nas estimativas de parâmetros populacionais. 
2.7 Leitura complementar 
É fundamental que o aluno complemente seus conhecimentos consultando as 
referências indicadas. Outro ponto fundamental é utilizar o Excel para fazer análises 
gráficas e numéricas.

Outros materiais