Buscar

Estatistica e Probabilidade Aplicada a Engenharia da Qualidade

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 106 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 106 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 106 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ESTATÍSTICA E PROBABILIDADE 
APLICADA A ENGENHARIA DA QUALIDADE 
EDIÇÃO Nº1 – 2017 
 
 
 
 
 
 
 
 
 
 
CARLOS WILLIANS PASCHOAL 
 
 
 
 
 
 
 
 
 
 
APRESENTAÇÃO 
 
Caros alunos, neste livro trabalhamos uma abordagem da estatística e 
da probabilidade adequada à engenharia da qualidade, dando ênfase na 
aplicação de tópicos da Inferência Estatística, sempre buscando indicar como 
usar as ferramentas da disciplina na tomada de decisões. A escolha de tópicos 
privilegia assuntos que são aplicados no cotidiano da manufatura e serviços, seja 
de forma descritiva ou probabilística. 
No capítulo 1 estudamos a estatística descritiva, seus métodos 
tabulares, tanto gráfico, como as tabelas de frequência, além de analisar o papel 
de medidas de posição e de dispersão na organização e análise de dados, ao 
final trabalhamos com a ferramenta gráfica Boxplot, útil na comparação de 
médias e de variância de uma sequência de experimentos. 
O capítulo 2, aborda o estudo da probabilidade, desde seus conceitos 
básicos, ou seja, da razão de probabilidade, até o estudo de variáveis aleatórias, 
e o estudo de modelos matemáticos de distribuição de probabilidades, com maior 
destaque para a distribuição Normal. 
O capítulo 3, inicia os estudos de inferência estatística, é nele que 
entenderemos o uso do teorema do limite central, tanto na definição de intervalos 
de confiança, como no teste de hipóteses para uma ou duas variáveis. Também 
estudaremos a inferência para proporções, quando nosso olhar se volta para a 
conformidade de um serviço ou produto. 
No capítulo 4, estudaremos duas fortes metodologias direcionadas a 
qualidade, a análise de variância para um fator (ANOVA) e a regressão linear, 
ambas se interessam em analisar qual o comportamento de dados amostrais e 
que conclusões podemos tirar a partir dos dados, com o rigor matemático 
necessário. 
Ao final dos nossos estudos, esperamos que você seja capaz de aplicar 
ferramentas estatísticas a um processo, bem como tirar conclusões de cunho 
cientifico, empregando a metodologia adequada. 
Bons estudos! 
 
SUMÁRIO 
 
CAPÍTULO 1: MÉTODOS ESTATÍSTICOS PARA MELHORIA DA QUALIDADE, O PAPEL DA 
ESTATÍSTICA DESCRITIVA. .............................................................................................................. 5 
População .................................................................................................................................. 6 
Amostra ..................................................................................................................................... 6 
1.1 MÉTODO TABULAR – TABELA DE FREQUÊNCIA .................................................................. 6 
1.2 MÉTODO TABULAR – GRÁFICOS ....................................................................................... 12 
1. 2. 1 Gráfico de setores .................................................................................................... 12 
1. 2. 2 Histograma ............................................................................................................... 13 
1. 2. 3 Diagrama de Pareto .................................................................................................. 15 
1.3 MEDIDAS DE LOCALIZAÇÃO .............................................................................................. 17 
1. 3. 2 Mediana .................................................................................................................... 19 
1. 3. 3 Moda ........................................................................................................................ 21 
1. 4 MEDIDAS DE DISPERSÃO .................................................................................................. 21 
1. 4. 1 Intervalo ou Amplitude total .................................................................................... 22 
1. 4. 2 Variância (s2) ............................................................................................................. 23 
1. 4. 3 Desvio Padrão (s) ...................................................................................................... 23 
1. 4. 4 Coeficiente de Variação Percentual (c.v.%) .............................................................. 24 
1. 5 BOXPLOTS ......................................................................................................................... 25 
QUESTÕES ................................................................................................................................... 28 
CAPÍTULO 2: VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE. ........................... 31 
2.1 PROBABILIDADE ................................................................................................................ 31 
2.1 .1 Probabilidade da união de dois eventos: ...................................................................... 32 
2. 1. 2 Probabilidade de eventos dependentes e independentes ...................................... 33 
2.2 VARIÁVEIS ALEATÓRIAS ..................................................................................................... 35 
2. 2. 1 Variáveis aleatórias contínuas .................................................................................. 38 
2. 2. 2 Esperança Matemática ............................................................................................. 40 
2. 2. 3 Variância de uma variável aleatória ......................................................................... 41 
2.3 DISTRIBUIÇÕES DE PROBABILIDADE DISCRETAS ............................................................... 42 
2. 3. 1. Distribuição binomial ............................................................................................... 42 
2. 3. 2 Distribuição de Poisson ............................................................................................ 46 
2. 4 DISTRIBUIÇÃO DE PROBABILIDADES CONTÍNUAS ............................................................ 47 
2. 4. 1 A Distribuição normal ............................................................................................... 48 
2. 4. 2 Distribuição Exponencial .......................................................................................... 53 
Questões ..................................................................................................................................... 55 
CAPÍTULO 3: AMOSTRAGEM E TESTES DE HIPÓTESES. ............................................................... 56 
3. 1 DISTRIBUIÇÕES AMOSTRAIS E TEOREMA DO LIMITE CENTRAL ....................................... 57 
3.2 INTERVALOS ESTATÍSTICOS PARA UMA ÚNICA AMOSTRA ............................................... 59 
3. 2. 1 Caso do 𝝈 desconhecido .......................................................................................... 62 
3. 2. 2 Intervalos de Confiança para uma proporção .......................................................... 62 
3. 3 TESTE DE HIPÓTESES ........................................................................................................ 64 
3.3.1 Teste de hipótese para duas amostras ...................................................................... 72 
QUESTÕES ................................................................................................................................... 77 
CAPÍTULO 4: ANÁLISE DE VARIÂNCIA E REGRESSÃO LINEAR. ..................................................... 79 
4. 1 ANOVA de fator único ...................................................................................................... 79 
4. 2 Regressão Linear Simples e Correlação ............................................................................ 85 
QUESTÕES ................................................................................................................................... 90 
BIBLIOGRAFIA ..............................................................................................................................92 
ANEXO 1: TABELA DA DISTRIBUIÇÃO BINOMIAL ........................................................................ 93 
ANEXO 2: DISTRIBUIÇÃO DE POISSON ........................................................................................ 99 
ANEXO 3: TABELA DA DISTRIBUIÇÃO NORMAL ........................................................................ 102 
ANEXO 4: TABELA DA DISTRIBUIÇÃO T ..................................................................................... 104 
Anexo 5: VALORES CRÍTICOS PARA A DISTRIBUIÇÃO DE AMPLITUDE STUDENTIZADA ............ 106 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
CAPÍTULO 1: MÉTODOS ESTATÍSTICOS PARA MELHORIA DA 
QUALIDADE, O PAPEL DA ESTATÍSTICA DESCRITIVA. 
 
Quando observamos nosso mundo utilizando para isso métodos 
estatísticos, temos a possibilidade de estender nossa compreensão a respeito 
do de fenômenos que abarcam campos das ciências, engenharias e qualidade. 
Essa disciplina nos auxiliará a tomar decisões na presença de incertezas e 
variações, utilizando para isso métodos confiáveis em que há previsibilidade 
inclusive para o erro que pode ser cometido. 
Neste tipo de trabalho estamos constantemente expostos a conjuntos de 
fatos ou dados, que podem ser coletados por meio de uma investigação que se 
concentra em um determinado grupo de interesse, esse quando bem definido, 
pode ser chamado de população de interesse, alguns exemplos ligados a 
população, podem ser: 
• Todas as capsulas de determinado tipo de remédio, em um 
determinado período de tempo. 
• Quantidade de estudantes que receberam o diploma de 
engenharia, após 1990 
Poucas vezes é possível coletar as informações que desejamos para 
toda uma população, isso demanda um tempo razoável, além de um 
investimento grande. Quando pesquisamos em toda a população, denominamos 
essa pesquisa como censo, o exemplo clássico, é o censo do IBGE (Instituto 
Brasileiro de Geografia e Estatística) que ocorre há cada dez anos no Brasil 
Por tempo, dinheiro ou mesmo impossibilidade de pesquisar todos os 
elementos, vide uma produção contínua, a Estatística emprega a possibilidade 
de utilizar amostras de uma prescrita, em geral que depende do método 
estatístico e políticas de qualidade da empresa como um todo, para ser 
determinado. Dessa maneira podemos obter uma amostra de parafusos, sendo 
que a partir dessa amostra queremos inferir informações da produção. 
Estas amostras podem ser retiradas uma punica vez, ou em sequência, 
formado grupos de amostras, com a intenção que suas características reflitam, 
de forma aproximada, as características da população da qual foi retirada. 
 
 
 
 
Figura 1: População e amostra 
 
População 
Amostra 
 
 
 
Fonte: Autor 
 
Em geral estamos interessados em algumas características de cada item 
da amostra, que podem ser de natureza categórica, por exemplo sexo ou tipo de 
defeito encontrado, ou de natureza numérica, por exemplo a idade, ou o diâmetro 
da peça amostrada. 
Segundo Devore (2014), “uma variável é qualquer característica cujo 
valor pode mudar de um objeto para outro na população”, por exemplo a marca 
da calculadora de um estudante, o número de defeitos encontrados em lotes de 
100 peças de determinado produto, a distância de frenagem de um automóvel 
em determinadas condições. 
Essas observações podem ser classificadas em univariadas, bivariadas 
ou multivariadas, no caso da observação univariadas, apenas uma variável será 
observada para cada item da amostra, enquanto que na bivariada a observação 
é feita em cada uma das duas variáveis, sendo que este caso, é uma situação 
especial das observações multivariadas, que acontecem quando observamos 
mais do que uma variável por item da amostra, seria o caso de para um único 
item observarmos de maneira simultânea a pressão, a densidade e a rigidez. 
 
1.1 MÉTODO TABULAR – TABELA DE FREQUÊNCIA 
 
As tabelas de frequência têm como objetivo resumir os dados de maneira 
à ordena-los em linhas ou colunas, facilitando a leitura destes dados, 
principalmente quando os mesmos se apresentam em grande quantidade. 
O primeiro passo dessa organização é transformar os dados brutos em 
um rol de dados, organizar os dados em rol, nada mais é do que organiza-los 
em ordem crescente. Por exemplo, imaginamos um conjunto de dados, que 
descreva as notas de uma turma de alunos e quando coletados se apresentam, 
conforme a seguir: 
 
 7 2 3 7 3 3 3 8 4 4 
 5 7 5 5 5 5 5 5 6 5 
 5 5 5 5 5 5 5 6 5 5 
 1 6 7 3 7 8 8 3 8 8 
 
 Após transformar estes dados em um rol, teremos: 
 
N: 1 2 3 3 3 3 3 3 4 4 
 5 5 5 5 5 5 5 5 5 5 
 5 5 5 5 5 5 5 6 6 6 
 7 7 7 7 7 8 8 8 8 8 
 
O que facilita em organizações futuras, por exemplo na organização de 
uma tabela de frequência, que é uma representação dos valores a serem 
analisados em forma de tabela, como podemos mostrar no exemplo a seguir: 
 
Tabela 1: Notas dos alunos de uma turma 
Notas ( ix ) Frequência ( if ) 
1 1 
2 1 
3 6 
4 2 
5 17 
6 3 
7 5 
8 5 
Fonte: Autor 
 
Este tipo de tabela recebe o nome de tabela de frequências para dados 
não - agrupados ou não tabulados em classe, sendo que não é aconselhável 
utiliza-la quando estamos trabalhando com amostragens grandes, por em geral 
ficar muito extensa, perdendo sua função que é a de facilitar as análises e 
conclusões que podem ser retiradas dos dados. 
No caso de tabelas maiores o ideal é organizar uma tabela de dados 
agrupados, ou tabulados em classes, para entender melhor essa estrutura 
partiremos de um exemplo de aplicação, que envolve o nível de ruído 
experimentado por 77 indivíduos que trabalham em certo escritórios. 
 
55,3 55,3 55,3 55,9 55,9 55,9 55,9 56,1 56,1 56,1 56,1 
56,1 56,1 56,8 56,8 57,0 57,0 57,0 57,8 57,8 57,8 57,9 
57,9 57,9 58,8 58,8 58,8 59,8 59,8 59,8 62,2 62,2 63,8 
63,8 63,8 63,9 63,9 63,9 64,7 64,7 64,7 65,1 65,1 65,1 
65,3 65,3 65,3 65,3 67,4 67,4 67,4 67,4 68,7 68,7 68,7 
68,7 69,0 70,4 70,4 71,2 71,2 71,2 73,0 73,0 73,1 73,1 
74,6 74,6 74,6 74,6 79,3 79,3 79,3 79,3 83,0 83,0 83,0 
 
Esses dados estão disponíveis no artigo “Acceptable noise levels for 
construction site offices” e em Devore (2014, p. 39), como podemos notar os 
dados já estão organizados em Rol, fato que irá simplificar o trabalho, uma tabela 
de frequência e composta por alguns elementos, que serão identificados e 
calculados a seguir. 
• Classe: Chamamos de classes de frequências os intervalos de 
variação da variável estatística. 
O cálculo do número de classes pode ser feito a partir de dois critérios, 
a Regra de Sturges ou o critério da Raiz, identificaremos o número de classes 
de uma distribuição como k, logo: 
𝑘 = 1 + 3,322 log(𝑛) 
Ou 
𝑘 = √𝑛 
O valor k, deve ser aproximado para o número inteiro mais próximo, 
sendo que no nosso exemplo: 
𝑘 = 1 + 3,322 log(77) = 7,27 
Ou 
𝑘 = √77 = 8,77 
 
Como podemos notar o valor calculado por Sturges, fica ligeiramente 
menor, essa diferença é acentuada para grandes dados, e como em geral 
queremos uma tabela menor, essa fórmula pode ser a mais adequada, dessa 
maneira iremos estabelecer para este exemplo k = 7. 
Em seguida utilizando a amplitude total dos dados, iremos determinar o 
intervalo de cada classe. A amplitude total é calculada pela diferença entre o 
valor máximo dos dados e o valor mínimo, logo: 
 
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑡𝑜𝑡𝑎𝑙 = 83 − 55,3 = 27,7 
 
Para o cálculo do intervalo de classe dividiremos, a amplitude total pelo 
número de classes e faremos a aproximação pelo arredondamento matemático, 
respeitando uma casa decimal. 
Cabe observar que esse arredondamento deve seguir os dados, 
portanto se os dados são inteiros o arredondamento é inteiro, se há duas casas 
decimais, o arredondamento respeita duas casas decimais, símbolo usado para 
intervalo de classe nesta obra, será o h. 
No nosso caso, temos: 
 
ℎ =
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑡𝑒 𝑡𝑜𝑡𝑎𝑙
𝑘
=
27,7
7
= 3,9571429≅ 4,0 
 
No caso de o arredondamento ser para “baixo”, pode ser que haja a 
necessidade de se abrir mais uma classe de forma que os últimos valores entrem 
na tabela. 
Em seguida já podemos iniciar com a construção de nossa tabela, ela 
terá intervalo fechado a esquerda e intervalo aberto a direita, garantido assim 
que o número na extremidade do intervalo pertença a uma única classe, a 
quantidade de dados que cada classe contém é chamada de frequência 
absoluta, ou de frequência simples, e é obtida por processo de contagem.: 
 
 
Tabela 2: Tabela de frequências para dados agrupados em classe. 
Classe Frequência absoluta 
55,3 |----------- 59,3 27 
59,3 |----------- 63,3 5 
63,3 |----------- 67,3 16 
67,3 |----------- 71,3 14 
71,3 |----------- 75,3 8 
75,3 |----------- 79,3 0 
79,3 |----------- 83,3 7 
Total 77 
Fonte: Autor 
 
Note que a 6º classe está vazia, mesmo que o valor 79,3 faça parte dos 
rols de dados, isso ocorre, pelo fato do valor entrar uma única vez, na classe em 
que o intervalo está fechado, logo na classe 75,3 |----------- 79,3, o valor 75,3 está 
presente, enquanto que o valor 79,3 está excluído. E na classe 79,3 |----------- 
83,3, o valor 79,3, está incluído, enquanto que o valor 83,3 não. 
Uma tabela de frequências completa tem outros componentes que serão 
listas a seguir, em conjunto com a nomenclatura que será utilizada: 
 
• Ponto Médio de uma Classe (𝑥𝑖): p ponto médio de uma classe é a 
média aritmética entre o limite inferior e superior de um intervalo de classe. 
𝑥𝑖 =
𝐿𝑠 − 𝐿𝑖
2
 
 
• Amplitude do Intervalo de Classe (h): é representada pela diferença 
entre o limite superior e o limite inferior de uma determinada classe. Temos, 
• Frequência absoluta simples ( if ): é definida como sendo o número de 
vezes ou de informações verificadas em cada classe. 
• Frequência Acumulada ( iF ): é o total das frequências de todos os 
valores inferiores ao limite superior do intervalo de uma dada classe. 
• Frequência Total ( ft ): Representa a soma de todos os elementos 
observados nas frequências simples absolutas. Podemos representá-la por: 
 if = ft = N 
• Frequência Simples Relativa ( ifr ): a frequência relativa de uma classe 
é o quociente entre a frequência dessa classe e a frequência total, lembrando 
sempre que a soma das frequências-relativas é igual a 1 ou 100%, ou seja: 
ft
f
fr ii  
• Frequência Acumulada Relativa ( iFr ): é a frequência acumulada da 
classe, dividida pela frequência total da distribuição: 
𝐹𝑟𝑖 =
𝐹𝑖
∑𝑓𝑖
 
Vejamos agora como é uma tabela de distribuição de frequências com 
dados agrupados em classe, lembrando que nem sempre existe a necessidade 
de se estabelecer uma tabela de frequência completa, essa necessidade só pode 
ser medida pelo analista em questão. 
 
Tabela 3: Tabela de frequências para dados agrupados em classe – 
continuação. 
Classe 𝑥𝑖 
if iF ifr iFr 
55,3 |----------- 59,3 57,3 27 27 35,06% 35,06 
59,3 |----------- 63,3 61,3 5 32 6,49% 41,55 
63,3 |----------- 67,3 65,3 16 48 20,78% 62,33 
67,3 |----------- 71,3 69,3 14 62 18,18% 80,51 
71,3 |----------- 75,3 73,3 8 70 10,39% 90,9 
75,3 |----------- 79,3 77,3 0 70 0 90,9 
79,3 |----------- 83,3 81,3 7 77 9,09% 99,99 
Total 77 99,99% 
Fonte: autor 
 
O fato da soma dos percentuais não resultar em 100% ocorre por conta 
do arredondamento matemático, uma solução simples para esse fato é o 
aumento de casas decimais, o que melhora a aproximação. 
 
1.2 MÉTODO TABULAR – GRÁFICOS 
 
Iremos agora dar foco em técnicas visuais que podem ser consideradas 
uteis na interpretação de dados, entre essas técnicas está o gráfico de setores, 
o histograma, o diagrama de Pareto e o gráfico Boxplot. 
 
1. 2. 1 Gráfico de setores 
 
Os gráficos em setores são bastante utilizados para ilustrar dados 
qualitativos de modo mais compreensível. Esses podem ser em apenas uma 
dimensão ou em 3-D comumente chamados. Para desenhar esse tipo de gráfico 
desenhamos um círculo e então usamos as frequências relativas para subdividir 
o círculo em setores ou partes, que correspondem à frequência para cada classe. 
Em outras palavras, é um tipo de gráfico em que certos valores (em 
geral, porcentagens) são representados por partes de um círculo. Essas partes 
chamam-se setores circulares. Na maioria das vezes, esse tipo de gráfico é 
usado para mostrar a relação entre as partes e o total. 
A seguir apresentamos os gráficos em duas e três dimensões para os 
dados aposentados na tabela 3: 
 
Gráfico 1: exemplo de gráfico de setores 
 
Fonte: autor 
 
Gráfico 2: Exemplo de gráfico de setores em perspectiva 
 
Fonte: autor 
 
É interessante notar que visualmente, a faixa amarela no gráfico em 
perspectiva, parece ser maior do que realmente é, por isso esse modelo de 
gráfico apesar de bonito, deve ser usado com cuidado. 
 
1. 2. 2 Histograma 
 
35,06%
6,49%20,78%
18,18%
10,39%
0
9,09%
55,3 |----------- 59,3 59,3 |----------- 63,3 63,3 |----------- 67,3 67,3 |----------- 71,3
71,3 |----------- 75,3 75,3 |----------- 79,3 79,3 |----------- 83,3
35,06%
6,49%
20,78%
18,18%
10,39%
9,09%
55,3 |----------- 59,3 59,3 |----------- 63,3 63,3 |----------- 67,3 67,3 |----------- 71,3
71,3 |----------- 75,3 75,3 |----------- 79,3 79,3 |----------- 83,3
É um dispositivo gráfico bastante comum que consiste em representar 
em uma escala horizontal os rótulos que são usados para as classes, e em uma 
escala vertical as frequências, utilizando barras para representar os valores das 
frequências das diversas classes. É claro que a construção de um histograma é 
sempre precedida da construção de uma tabela de frequências. Podemos 
construir um histograma não só com as frequências absolutas simples e 
acumuladas, mas também com as frequências relativas simples e acumuladas. 
Em nosso exemplo iremos construir um histograma que tem como base 
os dados da tabela 3, e que utiliza para isso a frequência absoluta simples, cabe 
notar que como temos uma classe com frequência 0, teremos uma espécie de 
buraco no histograma, algo não tão comum. 
 
Gráfico 3: Histograma com base nos dados da tabela 3. 
 
Fonte: autor 
 
Com base nos dados do histograma, podemos construir um polígono de 
frequências: 
 
 
 
 
 
0
5
10
15
20
25
30
55,3 |-----------
59,3
59,3 |-----------
63,3
63,3 |-----------
67,3
67,3 |-----------
71,3
71,3 |-----------
75,3
75,3 |-----------
79,3
79,3 |-----------
83,3
Gráfico 4: Polígono de frequência com base nos dados da tabela 3. 
 
Fonte: autor 
 
1. 2. 3 Diagrama de Pareto 
 
O diagrama de Pareto é uma ferramenta da qualidade que facilita a 
visualização das causas de um defeito, seguindo a proporção 20/80. Isso 
significa que em geral, 20% das causas são responsáveis por 80% dos defeitos 
encontrados em um processo, devemos deixar claro que não estamos falando 
de números exatos e sim de uma proporção estimada. 
Sua composição é de um gráfico de barras, junto com um gráfico de linhas 
feito a partir da frequência relativa acumulada. O gráfico de barras apresenta a 
frequência em que aparece cada tipo de defeito, enquanto que o gráfico de linhas 
apresenta a frequência relativa acumulada para o número de defeitos. 
A sua construção inicia-se com o tipo de perda, ou defeito que queremos 
identificar, na sequência organizamos uma metodologia para o preenchimento 
da folha de verificação que pode ser no modelo apresentado no tópico anterior. 
Na figura a seguir, segue um modelo da folha e folha de verificação, mas 
ressaltamos que não há um modelo único para ser utilizado. 
 
Figura 2: modelo da folha de verificação 
0
5
10
15
20
25
30
53,3 57,3 61,3 65,3 69,3 73,3 77,3 81,3 85,3
 
Fonte:http://www.datalyzer.com.br/site/suporte/administrador/info/arquiv
os/info46/46.html 
 
Com base nos dados desta folha de verificação iremos organizar um 
gráfico de Pareto, lembrando que a ferramentaExcel ®, apresenta um modelo 
para este gráfico. 
Em geral lidar com as causas dos defeitos principais, auxilia na 
resolução das causas de defeitos como um todo, no chão de fábrica, e essa 
facilidade que representa a importância do gráfico de Pareto. 
 
Gráfico 5: Modelo de gráfico de Pareto 
 
Fonte: autor 
O último modelo gráfico que será abordado neste capítulo, os do tipo 
Boxplot, envolvem as medidas de localização, para nos indicar visualmente a 
dispersão dos dados, com esse enfoque iremos tratar primeiro das medidas de 
localização e dispersão, para em seguida apresentar o gráfico boxplot. 
 
1.3 MEDIDAS DE LOCALIZAÇÃO 
 
 As medidas de localização, também são conhecidas como medidas de 
tendência central e tem como objetivo sintetizar em um único número o conjunto 
de dados, procurando definir um valor que represente bem a distribuição em sua 
variável de interesse, essa medidas são a média, a mediana e a moda, que 
devem ser utilizadas de acordo com a especificidade dos dados. 
 
1. 3. 1 Média 
 
Existem vários tipos de média (aritmética, ponderada, geométrica, 
harmônica etc.), mas iremos trabalhar com a média aritmética que será chamada 
apenas de média. A média de n observações  nxxx ,...,, 21 é denotada por x e é 
dada por: 
n
x
n
xxx
x
n
i
i
n



 121
...
 
 
 Exemplo: Considere os seguintes pesos em kg de 10 recém-nascidos: 
 
3,2 3,2 2,8 2,1 2,9 3,1 3,2 3,0 3,5 4,0 
 
A média dos pesos dos recém-nascidos é: 
 
1,3
10
31
10
0,45,30,32,31,39,21,28,22,32,3


x 
 
 O peso médio é de 3,1kg ou 3100g. Obviamente alguns recém-
nascidos têm peso abaixo da média e outros acima da média, mas a média é um 
valor típico. 
 Ressaltamos que nem sempre a média aritmética faz parte da 
sequência de dados em estudo, porém ela identifica o valor onde há mais 
concentração de elementos da referida sequência. Costumamos dizer que a 
média não tem existência concreta e caso a dispersão dos dados seja grande, 
também não terá aproximação com a maioria dos dados. 
Se os dados estão em uma tabela de distribuição de frequências, o 
cálculo da média é feito de outra forma, considerando a média de cada linha e o 
peso de suas vaiáveis. Para entender melhor como essa estrutura funciona, 
vamos utilizar os dados da tabela 3 a adaptando para o cálculo da média 
 
Tabela 4: Dados da tabela 3 adaptados 
Classe 𝑥𝑖 
if 𝑥𝑖×𝑓𝑖 
55,3 |----------- 59,3 57,3 27 57,3×27 = 1547,10 
59,3 |----------- 63,3 61,3 5 61,3×5 = 306,50 
63,3 |----------- 67,3 65,3 16 65,3×16 = 1044,80 
67,3 |----------- 71,3 69,3 14 69,3×14 = 970,20 
71,3 |----------- 75,3 73,3 8 73,3×8 = 586,4 
75,3 |----------- 79,3 77,3 0 77,3×0 = 0 
79,3 |----------- 83,3 81,3 7 81,3×7 = 569,10 
Total 77 5024,10 
 
Para calcular a média, utilizamos: 
𝑥 =
∑𝑥𝑖𝑓𝑖
∑𝑓𝑖
 
Que no caso acima resulta em: 
𝑥 =
5024,10
77
= 65,25 
Há outras médias que são utilizadas em casos especiais, essas são a 
média geométrica e média harmônica, no caso da média geométrica, temos a 
raiz enésima dos produtos analisados, muito utilizado em Progressões 
Geométricas, como equivalência de taxa de juros compostos. Sua forma 
algébrica ficaria: 
n
n
i
n
n
ng xxxxx 


1
21
 
Por exemplo: 
Mês Produção Razão 
Agosto 40.000 
Setembro 52.000 1,3 
Outubro 83.200 1,6 
Novembro 124.800 1,5 
 
Aplicando a fórmula da Média Geométrica, ficaria: 
4612,15,16,13,13
1
 

n
n
i
ng xx 
 Para estimar a produção do próximo mês (Dezembro), seguindo a 
sequência bastaria utilizar a razão encontrada: 
Produção 358.18276,357.1824612,1800.124  
Enquanto que a média harmônica corresponde ao inverso da média dos 
inversos. Muito utilizada em problemas que tratam de velocidade e tempos 
médios. Sua fórmula é: 





n
i in
h
x
n
xxx
n
x
121
11
...
11
 
E um exemplo simples de aplicação ocorre quando queremos 
determinar a velocidade média durante um percurso, se um carro percorre 
metade da viagem a 70 km/h e o restante sua velocidade foi de 80 km/h. 
67,74
80
1
70
1
2


hx 
 
 1. 3. 2 Mediana 
A palavra mediana é sinônimo de meio, a mediana amostral realmente 
representa o valor do meio dos dados organizados em ordem crescente é 
adequada quando temos dados dispersos em relação à média, ou medidas 
fortemente assimétricas, neste texto ela será denotada por �̃� ou por Md. Uma 
distribuição pode assumir três posições, quando temos a mediana igual a média 
dizemos que a distribuição é simétrica, conforme indicado na figura 3. 
 
Figura 3: Três formas diferentes para uma distribuição de população 
 
Fonte: Devore (2014, p. 27) 
 
Já quando a média é menor do que a mediana, temos uma inclinação 
negativa da curva, enquanto que quando a média é maior do que a mediana 
temos uma inclinação positiva. 
Em outras palavras, 50% das observações ficam acima da mediana e 
50% ficam abaixo. Para calcular a mediana é necessário ordenar a amostra para 
que se possa localizar a posição da mediana e assim encontrar o seu valor: 
a) se o número de elementos for ímpar, a mediana se encontra na 
posição 
2
1n
 ; 
b) se o número de elementos for par, a mediana é a média entre os 
elementos da posição 
2
n
 e 
2
2n
. 
Observe que nem sempre a mediana é um valor amostrado. No caso 
dos pesos dos recém-nascidos, vamos determinar a mediana: primeiro 
colocando os elementos em ordem crescente. 
 
 2,1 2,8 2,9 3,0 3,1 3,2 3,2 3,2 3,5 4,0 
 
como o número de observações n = 10, a mediana é dada por: 
5,5
2
11
2
65~


x 
No cálculo da média, todos os valores da amostra são levados em conta, 
ao passo que no caso da mediana, isto não ocorre. Por esta razão, valores muito 
grandes ou muito pequenos, comparados aos demais valores da amostra, 
causam grandes variações na média, o que em geral não ocorre com a mediana. 
Por isso, dizemos que a mediana é uma medida robusta, isto é, resistente a 
valores atípicos. 
Não sugerimos nessa obra o cálculo da mediana para dados agrupados 
em classe, por obtermos apenas um valor estimado, sem que seja possível 
identificar quão boa é essa estimativa, por tanto, a mediana sempre deve ser 
calculada no Rol de dados, assim como a moda. 
 
1. 3. 3 Moda 
A moda é o valor que ocorre com maior frequência em uma amostra. Em 
uma distribuição pode haver mais de uma moda, ou seja, uma distribuição pode 
ser bimodal (duas modas), polimodal (várias modas), ou amodal no caso uma 
distribuição em que nenhum dos valores apresenta repetições. 
Quando lidamos com valores não-agrupados, a moda é facilmente 
reconhecida: basta, de acordo com a definição, procurar o valor que mais se 
repete. 
A série de dados: 7, 9, 9, 10, 10, 10, 11, 11, 13, 15, tem moda igual a 10. 
Enquanto que na série: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 temos duas modas: 4 e 7 
(bimodal). 
 Quando estamos trabalhando com dados agrupados em 
frequências, basta observarmos na tabela e identificarmos o elemento de maior 
frequência, inevitavelmente este será o termo que mais se repete, 
Para tabelas de frequência com dados agrupados em classes não 
sugerimos o uso das fórmulas de moda, e sim sua identificação nos dados 
brutos. 
 
1. 4 MEDIDAS DE DISPERSÃO 
 
 Quando informamos uma medida de tendência central, estamos 
trabalhando apenas com informações parciais a respeito dos dados, pois 
diferentes distribuições podem ter mesma medida central, mas comportamento 
diferente em torno dessa medida, essa diferença ocorre por causa da 
variabilidade que está presente em praticamente todos os fenômenos 
estudados. A variabilidade pode ser quantificada de maneira a identificar a 
dispersão, em torno de um valor de tendência central tomado como ponto de 
comparação, em geral dizemos que quando menor um valor de dispersão mais 
os dados se aproximam da tendência central. 
 Algunsexemplos do uso das medidas de dispersão, estão ligados aos 
instrumentos com os quais realizamos uma medida de laboratório, essa medida 
contém uma imprecisão que está associada principalmente ao instrumento de 
medida e à habilidade do operador. É necessário quantificar essa precisão para 
que a medida seja útil. 
 Considere os dois conjuntos de dados seguintes: 
 
A 2 3 4 
B 1 0 8 
 
A e B têm média igual a 3, mas o conjunto B é mais disperso em torno 
da média. Logo mesmo a média sendo um número que tem como função 
representar uma série de valores, não é possível apenas com a média, identificar 
se a mesma é uma boa representante destes valores. 
Para quantificar essa proximidade, iremos agora entender como calcular 
algumas medidas de precisão, que tem por objetivo é medir quão próximos os 
valores dos dados estão uns dos outros. Dessas medidas estudaremos: a 
amplitude total, a variância, o desvio padrão e o coeficiente de variação. 
 
1. 4. 1 Intervalo ou Amplitude total 
 
 É a medida mais simples de dispersão. Consiste em identificar os valores 
mínimo e máximo de cum conjunto efetuando suas diferenças, a vantagem 
dessa unidade de medida está em sua simplicidade, mas a principal 
desvantagem está no fato da medida não ter a capacidade de indicar o 
comportamento dos dados dentro da distribuição, no exemplo: 
 
Tabela 5: Notas de duas turmas de alunos 
Turma Valores 
A 4 5 5 6 6 7 7 8 
B 4 4 4,2 4,3 4,5 5 5 8 
Fonte: Autor 
 
1. 4. 2 Variância (s2) 
 
A variância é uma das medidas de dispersão mais importantes. É a média 
aritmética dos quadrados dos desvios de cada valor em relação à média, essa 
medida indica um valor associado a dispersão dos dados em torno da média, 
quando a variância for calculada de uma amostra dividiremos a somatória dos 
desvios médios quadrados por n – 1, por diversos motivos. 
 
(amostra) 
1
1
2
2





n
xx
s
n
i
i
 
 
)(população 1
2
2
n
xx
s
n
i
i


 
No qual ix é um valor qualquer do conjunto. 
A variância sozinha, é útil na comparação de diferentes amostras, em 
capítulos posteriores veremos também como a probabilidade utiliza a variância, 
mas por enquanto podemos afirmar que quanto maior a variância mais dispersos 
os dados estão em torno da média (maior a dispersão do conjunto). 
 É comum caracterizarmos a dispersão dos dados, não pela variância, e 
sim pelo desvio padrão, medida essa que pode ser utilizada para indicar um 
coeficiente variacional, e é a raiz quadrada positiva da variância. 
 
1. 4. 3 Desvio Padrão (s) 
 
É a raiz quadrada positiva da variância, apresentando a mesma unidade 
dos dados e da média. 
 
(amostra) 
1
1
2





n
xx
s
n
i
i
 
 
 
)(população 1
2
n
xx
s
n
i
i


 
 
É comum ao resumir através de medidas de síntese um conjunto de 
dados referente a uma variável quantitativa apresentar a média e o desvio 
padrão desse conjunto, principalmente em distribuições que apresentam uma 
proximidade com a simetria. 
A fórmula acima pode ser simplificada com a intenção de diminuir erros 
de arredondamento: 
 
 
(amostra) 
1n
n
x
x
s
2
n
1i
in
1i
2
i



























 
 
Mas uma calculadora cientifica básica, consegue efetuar o cálculo da 
média, da variância populacional ou amostra, e do desvio padrão em modo 
estatística com a utilização da memória, não há uma única maneira de realizar 
os procedimentos, pois cada calculadora tem sua própria base de cálculo, o 
vídeo no link abaixo oferece uma maneira de realizar o cálculo em uma 
calculadora cientifica comum: https://youtu.be/21yri_NajU0 
 
1. 4. 4 Coeficiente de Variação Percentual (c.v.%) 
 
https://youtu.be/21yri_NajU0
O coeficiente de variação percentual é uma medida de dispersão relativa, 
comparando em uma única medida o desvio padrão e a média amostral da 
distribuição. 
 
%100.%. 
x
s
vc 
 
Quanto menor o coeficiente de variação percentual, mais os dados estão 
concentrados em torno da média, pois o desvio padrão é pequeno em relação à 
média. 
 
1. 5 BOXPLOTS 
 
Histogramas nos conduzem a uma ideia geral sobre o comportamento 
dos dados, enquanto a média e as medidas de dispersão, tentam indicar um 
resumo numérico dos dados, há um outro tipo de resumo que vem sendo 
utilizado nos últimos anos, que aborda as características mais proeminentes dos 
dados, sendo estas: 
• Centro 
• Dispersão 
• Extensão 
• Presença de dados discrepantes (outliers) 
Um boxplot se baseia justamente em medidas resistentes a extremos, 
no caso as medidas entre quartos, os chamados quartis. Por definição, 
utilizaremos a Devore (2014, p. 34) 
 
Ordene as observações de menor para maior, separe a metade 
menor da maior. A mediana estará incluída em ambas as partes 
se n for ímpar. Então, o quarto inferior será a mediana da metade 
menor e o quarto superior será a mediana da metade maior. 
Uma medida de dispersão resistente a outliers é a dispersão 
entre quartos, dada por: quarto superior – quarto inferior. 
(DEVORE, 2014, p. 34) 
 
 
 
Figura 4: Modelo geral de um boxplot 
 
Fonte: Adaptado de http://www.portalaction.com.br/estatistica-
basica/31-boxplot 
 
Para exemplificar a construção do gráfico Boxplot, iremos utilizar os 
dados do artigo: Sobre o Boxplot no Geogebra, que faz a comparação entre a 
construção de boxplots em duas ferramentas gratuitas o software R e o software 
Geogebra, com base nos dados de pesos de 40 estudantes separados em dois 
grupos: 
 
Masculino: 
40,49,55,70,40,50,57,75,43,50,60,83,45,52,65,92,47,55,67,105 
Feminino: 
32,40,47,57,33,40,48,58,35,42,50,60,36,43,52,63,38,45,53,65 
 
A principal diferença apresentada entre os softwares é a capacidade do 
R em perceber que no grupo masculino a um outlier, fato que passa batido no 
Geogebra: 
Figura 5: Gráfico boxplot, obtido com o Geogebra 
http://www.portalaction.com.br/estatistica-basica/31-boxplot
http://www.portalaction.com.br/estatistica-basica/31-boxplot
 
Fonte: ARAUJO, ABAR, 2012, p; 16 
 
Obtidos a partir do comando: BoxPlot[ <Posição Vertical>, <Escala 
Vertical>, <Lista de Dados Brutos> ], que deve ser executado duas vezes, uma 
para cada agrupamento de dados. 
Já no software R, o gráfico obtido identifica o outlier, mas cabe notar que 
no R, inserimos os valores máximo e mínimo, e os quartos, logo o software 
organiza os dados inseridos, obtendo: 
 
Figura 6: Exemplo de Boxplot, construído no software R 
 
Fonte: ARAUJO, ABAR, 2012, p; 17 
 
Os outliers são calculados por meio da fórmula: 
• Quarto inferior – 1,5 x (quarto superior – quarto inferior) 
• Quarto superior + 1,5 x (quarto superior – quarto inferior) 
Sendo que qualquer valor que ultrapasse os resultados obtidos de forma 
superior ou inferior é considerado como um outlier. 
E para os dados do problema temos: 
Valor Homens Mulheres 
Mediana 55 46 
Quarto inferior 48 39 
Quarto 
superior 
68,5 55 
Máximo 92 65 
Mínimo 40 32 
Outliers 48 – 1,5x(68,5 – 48) = 17,25 (não 
há outliers) 
68,5 + 1,5x(68,5 – 48) = 99,25 
(105 é outlier) 
39 – 1,5x(55 – 39) = 15 (não há 
outliers) 
55 + 1,5x(55 – 39) = 79 (não há 
outliers) 
A comparação de dois boxplot, permite ter uma visão da tendência 
central dos dados, ao mesmo tempo que vemos a dispersão em blocos de 25%, 
os chamados quartos, o que é relevante, quando trabalhamos com muitos 
grupos de dados. 
No próximo capítulo veremos como trabalhar com outros tipos de 
variáveis, as chamadas variáveis aleatórias e os principais modelos matemáticos 
de distribuição. 
 
QUESTÕES 
 
1) Os dados da tabela, referem-se à população de cupins em milhares por 
unidade, encontra nos cupinzeiros da região de Mata Verde: 
160 161 163 163 164 165 165 165 
166 166 167 167 167 168 168 170 
170 170 170 171 171 171 171 171 
172 172 173 173 174 174 174 175 
176 176 178 178 179 180 182 183 
 
Pede-se:(a) Empregar o Critério da Raiz e determinar o número de classes. 
(b) Construir a distribuição de frequências absolutas e relativas (simples e 
acumuladas) 
Respostas: 
a) 6 
b) 
 
i Estatura 
(cm) 
if iF (%)ifr (%)iFr ix 
1 160 I— 164 4 4 10,00 10,00 162 
2 164 I— 168 9 13 22,50 32,50 166 
3 168 I— 172 11 24 27,50 60,00 170 
4 172 I— 176 8 32 20,00 80,00 174 
5 176 I— 180 5 37 12,50 92,50 178 
6 180 I— 184 3 40 7,50 100,00 182 
 
2) As notas obtidas em Matemática por 80 estudantes de uma escola X estão 
relacionadas abaixo: 
 
53 84 75 82 68 90 62 88 76 93 
57 79 88 73 60 93 71 59 85 75 
59 65 75 87 74 62 95 78 63 72 
60 78 82 75 94 77 69 74 68 60 
60 78 89 61 75 95 60 79 83 71 
60 62 67 97 78 85 76 65 71 75 
61 80 73 57 88 78 62 76 53 74 
61 67 73 81 72 63 76 75 85 77 
 
 Calcule a média, a moda e a mediana desta distribuição. 
Resposta: 
Média 
25,75x 
Moda 
75Mo 
Mediana 
75Md 
3) Durante um treinamento dos 100 m rasos, foi anotado uma amostra do tempo 
realizado por 3 atletas, obtendo: 
✓ Corredor A: 14,8 s; 17,0 s, 15,5 s e 13,1s; 
✓ Corredor B: 10,5 s; 15,1 s, 11,0 s e 23,2 s; 
✓ Corredor C: 14,6 s; 15,1 s, 14,3 s e 16,0 s. 
 
(a) Calcule e responda qual deles obteve a melhor média? 
Resp: A melhor média no treinamento foi do Corredor B. 
(b) Calcule e responda qual deles foi o mais regular? 
Resp: O Corredor C apresentou a melhor regularidade de tempo com o menor 
desvio padrão e coeficiente de variação percentual. 
4) A seguir encontramos uma amostra dos valores mensais pagos para o aluguel 
de escritório em Campinas. Determine o preço médio do aluguel e o coeficiente 
de variação percentual. 
4.000,00 4.300,00 4.600,00 4.050,00 3.575,00 3.975,00 3.275,00 
3.675,00 3.575,00 3.875,00 3.875,00 3.675,00 3.875,00 3.900,00 
2.900,00 3.500,00 4.275,00 3.275,00 4.075,00 3.525,00 
 
Resposta: 
Média: 3788,75 
Desvio padrão: 397,8953 
Coeficiente de variação: 10,50% 
 
 
 
 
CAPÍTULO 2: VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE 
PROBABILIDADE. 
 
Neste capítulo iremos realizar uma abordagem geral sobre a 
probabilidade e os papeis de uma variável aleatória na Estatística, segundo 
Vieira, 2014, a probabilidade é composta de três conceitos básico: 
• Ensaio ou tentativa, que é todo e qualquer experimento que 
envolve probabilidades, por exemplo lançar uma moeda, ou medir 
o tempo que uma lâmpada leva para queimar. 
• Espaço amostral, que é a lista de todos os resultados possíveis 
de um ensaio, por exemplo no lançamento de um dado de seis 
faces, o espaço amostral é {1, 2, 3, 4, 5, 6} 
• Evento que é o possível valor de cada variável aleatória, no caso 
do lançamento de um dado de seis faces, os eventos possíveis 
de ocorrer são, 1, 2, 3, 4, 5 e 6, todo equiprováveis, se o dado for 
honesto, ou seja cada evento pode ocorrer com mesma chance. 
 
2.1 PROBABILIDADE 
 
Quanto a ocorrência de qualquer evento aleatório, sempre devemos 
considerar uma incerteza, ou seja, o evento tem uma chance de acontecer, 
assim como tem a chance de não acontecer, essa chance é calculada por meio 
da razão de probabilidade, logo dado um evento A, a probabilidade do evento A 
ocorrer é dada por 
𝑃(𝐴) =
𝑛(𝐴)
𝑛(𝑆)
 
 
Sendo que: 
• 0 ≤ 𝑃(𝐴) ≤ 1 
• 𝑃(𝑆) = 1 (evento certo) 
 
Na prática o valor de uma probabilidade sempre será de zero até 1, zero 
representando o evento impossível, como por exemplo, tirar o número 7, ao 
lançar um dado de seis faces, e 1 representando um evento certo, por exemplo, 
tirar um número de 1 à 6, ao lançar um dado de seis faces. 
Na razão de probabilidade 𝑛(𝐴) representa o número de eventos 
favoráveis, enquanto que 𝑛(𝑆) representa o número de elementos de um espaço 
amostral. 
 
2.1 .1 Probabilidade da união de dois eventos: 
 
Neste tópico queremos obter uma expressão que nos permita calcular a 
probabilidade de ocorrer o evento A ou o evento B. na prática queremos calcular 
a probabilidade de ocorrência da união dos eventos A e B que é representado 
da seguinte forma: 
𝐴 ∪ 𝐵 
Esse tipo de situação é representado no esquema abaixo (figura 7), com 
uma observação nem sempre há intersecção entre os eventos. 
 
Figura 7: Representação da união de dois eventos 
 
Fonte: Autor 
 
Um exemplo clássico da utilização do conceito da união de dois eventos, 
é quanto queremos por exemplo (1) retirar de um baralho uma carta de copas ou 
um dois de espadas, nesse caso não há intersecção entre os eventos, dizemos 
que os eventos são mutuamente exclusivos. 
Já se queremos (2) retirar uma cata de copas e um rei, devemos 
perceber que o rei de copas está presente nos dois eventos, ele é a intersecção 
logos os eventos não são mutuamente exclusivos. 
O cálculo para esse tipo de situação, envolve a teoria dos conjuntos: 
𝑛(𝐴 ∪ 𝐵) = 𝑛(𝐴) + 𝑛(𝐵) − 𝑛(𝐴 ∩ 𝐵) 
Dividindo ambos os lados da igualdade por 𝑛(𝑆), já que é um valor não 
nulo temos: 
𝑛(𝐴 ∪ 𝐵)
𝑛(𝑆)
=
𝑛(𝐴)
𝑛(𝑆)
+
𝑛(𝐵)
𝑛(𝑆)
−
𝑛(𝐴 ∩ 𝐵)
𝑛(𝑆)
 
 
Que tem como consequência direta da definição de probabilidade: 
 
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) 
 
Vamos gora utilizando a definição resolver os dois exemplos 
anteriormente anunciados 
(1) Determinar a probabilidade de retirar de um baralho uma carta de 
copas ou um dois de espadas: 
A: uma carta de copas – n(A) = 13 
B: um dois de espadas – n(B) = 1 
Espaço amostral – n(S) = 52 
𝑃(𝐴 ∪ 𝐵) =
13
52
+
1
52
=
14
52
≅ 0,2692 
 
(2) Determinar a probabilidade de retirar uma cata de copas e um rei: 
A: uma carta de copas – n(A) =13 
B: um rei – n(B) = 4 
Espaço amostral – n(S) = 52 
Interseção: rei de copas – 𝑛(𝐴 ∩ 𝐵) = 1 
𝑃(𝐴 ∪ 𝐵) =
13
52
+
4
52
−
1
52
=
16
52
≅ 0,3077 
 
2. 1. 2 Probabilidade de eventos dependentes e independentes 
 
A probabilidade que envolve eventos dependentes, também é chamada 
de probabilidade condicional, e descreve por exemplo a probabilidade de um 
evento B ocorrer quando já temos conhecimento que o evento A ocorreu, e é 
definida por: 
𝑃(𝐵|𝐴) =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴)
 
Desde que P(A) > 0. 
Vamos ver uma aplicação a partir de dados categóricos de uma cidade: 
 
Tabela 6: Categorização de adultos de uma pequena cidade 
 Empregados Desempregados Total 
Homem 460 40 500 
Mulher 140 260 400 
Total 600 300 900 
Fonte: Walpole et al, 2009, p. 38 
 
E calcular a probabilidade de que um habitante escolhido ao acaso, seja 
homem, sendo que o mesmo está desempregado. 
Logo os eventos são: 
H: seja homem 
D: está desempregado 
 
𝑃(𝐻|𝐷) =
𝑃(𝐻 ∩ 𝐷)
𝑃(𝐷)
=
40
300
=
2
15
≅ 0,1333 
 
O conceito de independência de dois eventos, pode ser compreendido a 
partir da probabilidade condicional, que calcula a probabilidade de um evento 
ocorrer dado que um evento ocorreu, mas quando a ocorrência de um evento 
não altera a probabilidade de outro, dizemos que os eventos são independentes, 
por exemplo: 
Qual é a probabilidade de tirar um número quatro em um lançamento de 
um dado de seis faces, se anteriormente obtemos coroa em uma moeda: 
Essa probabilidade é de 1 6⁄ , e o resultado anterior obtido com a moeda 
não traz diferença ao lançamento do dado, matematicamente podemos dizer 
que: 
𝑃(𝐵|𝐴) =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴)
→ 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐵|𝐴) ∙ 𝑃(𝐴) 
 
Se os eventos forem independentes teremos 𝑃(𝐵|𝐴) = 𝑃(𝐵), portanto: 
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐵) ∙ 𝑃(𝐴) 
 
Exemplo: Suponha que temos uma caixa com 30 fusíveis, dentre os 
quais oito apresentam defeito. Se dois fusíveis são removidos sucessivamente, 
sem reposição do primeiro, qual é a probabilidade que ambos tenham defeito. 
A: Probabilidade do primeiro fusível retirado ter defeito: 
𝑃(𝐴) =
8
30
=
4
15
 
B: Probabilidade do segundo fusível retirado ter defeito, dado que o 
primeiro não foi reposto: 
𝑃(𝐵) =
7
29
 
Probabilidade do primeiro e do segundo fusível terem defeitos: 
𝑃(𝐴 ∩ 𝐵) =
4
15
∙
7
29
=
28
435
= 0,0644 
 
 
2.2 VARIÁVEIS ALEATÓRIASUma variável aleatória é uma função que associa um número real a cada 
elemento do espaço amostral. Se o espaço amostral contém um número finito 
de possibilidades ou uma sequência infinita com tantos elementos quanto são 
os números inteiros ele é chamado de espaço amostral discreto. 
Se um espaço amostral contém um número infinito de possibilidade igual 
ao número de pontos em um segmento de linha, ele é chamado de espaço 
amostral contínuo. Uma função de probabilidade é definida segundo Walpole et 
al (2009), como: 
O conjunto de pares ordenados (x, f(x)) é a função de probabilidade, 
função de massa de probabilidade ou distribuição de probabilidade da variável 
discreta X, se, para cada resultado possível x, 
 
).()(
1)(
0)(
xfxXP
xf
xf
x



 
 
Que tem como função de distribuição acumulada F(x) de uma variável 
aleatória discreta X: 



xt
xparatfxXPxF ),()()( 
 
Exemplo: Um carregamento de doze televisores contém quatro 
aparelhos com defeitos. Um hotel faz uma compra aleatória de três desses 
aparelhos. Se x é o número de aparelhos com defeitos comprados pelo hotel, 
determine a distribuição de probabilidade de X, expresse os resultados 
graficamente em um histograma de probabilidade. 
Na resolução deste exemplo, primeiro temos que determinar quais são 
as variáveis aleatórias para o número de televisores com defeitos, apesar de 
haver quatro aparelhos com defeito a retirada será de três aparelhos, o que 
indica o nosso número de variáveis: {0, 1, 2 e 3} 
A função de probabilidade deste problema utiliza a combinação simples 
em sua resolução, já que serão retirados subconjuntos de aparelhos de um total, 
não importando a ordem. 
𝑓(𝑥) =
(
4
𝑥
) (
8
3 − 𝑥
)
(
12
3
)
, 𝑋: {0, 1, 2, 3} 
Repare que os números de aparelhos foram divididos em aparelhos bons 
e aparelhos com defeitos, a distribuição de probabilidade leva em conta todos os 
valores possíveis de probabilidade: 
𝑓(0) =
(
4
0
) (
8
3
)
(
12
3
)
= 0,2545 
𝑓(1) =
(
4
1
) (
8
2
)
(
12
3
)
= 0,5091 
𝑓(2) =
(
4
2
) (
8
1
)
(
12
3
)
= 0,2182 
𝑓(3) =
(
4
3
) (
8
0
)
(
12
3
)
= 0,0182 
 
Podemos notar que a somatória das probabilidades, resulta em: 
 
∑𝑓(𝑥) = 1 → 𝑓(0) + 𝑓(1) + 𝑓(2) + 𝑓(3) = 1 
 
O que valida a função de probabilidade que também é chamada de 
função densidade de probabilidade, a partir dos valores obtidos 
podemos construir uma tabela de probabilidades acumuladas e um 
histograma de probabilidade, como segue: 
 
Tabela 7: Distribuição de probabilidade 
x f(x) F(x) 
0 0,2545 0,2545 
1 0,5091 0,7636 
2 0,2182 0,9818 
3 0,0182 1 
Fonte: Autor 
 
Gráfico 6: Histograma de probabilidades 
 
Fonte: Autor 
0
0,1
0,2
0,3
0,4
0,5
0,6
0 1 2 3
f(x)
2. 2. 1 Variáveis aleatórias contínuas 
 
Meyer (p. 81), define uma variável aleatória contínua, a partir de três 
condições: 
Diz-se que X é uma variável aleatória contínua, se existir 
uma função f, denominada função densidade de 
probabilidade (fdp) de X que satisfaça as seguintes 
condições: 
a) 𝑓(𝑥) ≥ 0 para todo 𝑥, 
b) ∫ 𝑓(𝑥)𝑑𝑥 = 1,
+∞
−∞
 
c) para quaisquer 𝑎, 𝑏, com −∞ < 𝑎 < 𝑏 < +∞, teremos 
𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫ 𝑓(𝑥)𝑑𝑥.
𝑏
𝑎
 (MEYER, 1983, p. 81) 
 
Meyer (1983) traz um exemplo de aplicação para funções de variáveis 
aleatórias: suponhamos que o raio do orifício de um tubo calibrado com precisão 
X seja considerado uma variável aleatória contínua com função densidade de 
probabilidade f. Seja 𝐴 = 𝜋𝑋² a área da secção transversal do círculo (MEYER, 
1983, p. 97). Neste exemplo o valor de X é o resultado de um experimento 
aleatório, enquanto o valor de A também é. No caso uma variável aleatória 
contínua, a qual podemos obter uma função g, chamada de função densidade 
de probabilidades, deduzida da função f. 
Uma variável aleatória contínua tem probabilidade zero de assumir 
qualquer um de seus valores, e sua distribuição não pode ser indicada por uma 
tabela, em geral essa variável é melhor indicada por uma curva. 
 
Figura 8: Função de densidade de probabilidade – variável contínua 
 
Fonte: autor 
 
 
Exemplo: Suponha que o erro na temperatura de reação (em °C), para 
um experimento de laboratório controlado, seja a variável aleatória X, que tem a 
função de densidade de probabilidade. 








contráriocaso
x
x
xf
,0
.21,
3
²
)(
 
Em primeiro vamos verificar se a função densidade de probabilidade é 
válida utilizando a parte b da definição dada por Meyer: 
∫ 𝑓(𝑥)𝑑𝑥 = 1 
+∞
−∞
 
Logo: 
∫
𝑥2
3
2
−1
𝑑𝑥 =
𝑥3
9
|
−1
2
=
23
9
− (
(−1)3
9
) =
8
9
+
1
9
=
9
9
= 1 
 
Verificado essa propriedade, podemos entender a função densidade de 
probabilidade indicada como válida, e calcular probabilidades no intervalo acima, 
cabe notar que esse resultado indica a área sobre a curva no intervalo. 
 
Figura 9: Curva delimitada no exemplo 
 
Fonte: Autor 
 
No exemplo acima se queremos determinar a probabilidade do erro da 
temperatura estar entre 0,5°C e 1,2°C, basta calcular: 
 
𝑃(0,5 < 𝑋 < 1,2) = ∫
𝑥2
3
1,2
0,5
𝑑𝑥 =
𝑥3
9
|
0,5
1,2
= 
=
1,23
9
− (
0,53
9
) = 0,192 − 0,01389 ≅ 0,1788 
 
Ou seja 17,88% aproximadamente. 
 
2. 2. 2 Esperança Matemática 
 
Seja X uma variável aleatória com distribuição de probabilidade f(x). A 
média ou o valor esperado de X é 

x
xxfxE )()( 
Quando tratamos de uma distribuição de probabilidade com uma variável 
aleatória discreta, retomando o exemplo anterior: 
Exemplo: Um carregamento de doze televisores contém quatro 
aparelhos com defeitos. Um hotel faz uma compra aleatória de três desses 
aparelhos. Se x é o número de aparelhos com defeitos comprados pelo hotel, 
determine a distribuição de probabilidade de X, expresse os resultados 
graficamente em um histograma de probabilidade. 
No qual calculamos a seguinte distribuição de probabilidades: 
𝑓(0) =
(
4
0
) (
8
3
)
(
12
3
)
= 0,2545 
𝑓(1) =
(
4
1
) (
8
2
)
(
12
3
)
= 0,5091 
𝑓(2) =
(
4
2
) (
8
1
)
(
12
3
)
= 0,2182 
𝑓(3) =
(
4
3
) (
8
0
)
(
12
3
)
= 0,0182 
Podemos calcular a média de computadores que podem ser comprados 
com defeitos, dado que essa situação ocorra um número suficiente de vezes por: 
 
𝜇 = 𝐸(𝑋) = 0 ∙ 0,2545 + 1 ∙ 0,5091 + 2 ∙ 0,2182 + 3 ∙ 0,0182 = 1,001 
 
Portanto a média de computadores com defeitos que serão retirados 
nestas condições é equivalente a 1, mas no caso de a distribuição de 
probabilidade ter uma variável aleatória contínua, temos: 
 



 dxxxfXE )()( 
 
Note que a integral deve ser calculada no limite de definição da integral, 
se utilizarmos a função densidade de probabilidade de nosso exemplo anterior: 








contráriocaso
x
x
xf
,0
.21,
3
²
)(
 
Percebermos que erro médio de temperatura é: 
𝜇 = 𝐸(𝑋) = ∫ 𝑥
𝑥2
3
𝑑𝑥
2
−1
=
1
3
∫ 𝑥3𝑑𝑥
2
−1
= 
=
1
3
∙
𝑥4
4
|
−1
2
=
𝑥4
12
|
−1
2
=
24
12
−
(−1)4
12
= 
=
16
12
−
1
12
=
15
12
= 1,25 
 
Logo o erro médio de temperatura ou o erro esperado é de 1,25°C. 
 
2. 2. 3 Variância de uma variável aleatória 
 
Seja X uma variável aleatória com distribuição de probabilidade f(x) e 
média  . A variância de X é 
²²)(²   XE 
Esta formula é muito útil pois pode ser aplicada tanto para distribuições 
de probabilidade de variável aleatórias discretas ou contínuas, tendo a variância 
o desvio padrão é determinado pela raiz quadrada do valor obtido. 
 
2.3 DISTRIBUIÇÕES DE PROBABILIDADE DISCRETAS 
 
Existem algumas distribuições de probabilidade que devido a sua grande 
utilização vale a penas estudar mais detalhadamente, sendo que estas 
apresentam modelos matemáticos para o cálculo de probabilidades. As duas 
distribuições de probabilidade discretas mais utilizadas e que serão analisadas 
neste capítulo são a distribuição Binomial e a distribuição de Poisson. 
 
2. 3. 1. Distribuição binomial 
 
Qual é a probabilidade de obtermos 4 vezes o número5 ao lançarmos 
um dado 7 vezes? 
A cada lançamento a probabilidade de cair o número 5 é 
de 1 possibilidade em 6, ou seja, 
6
1
. 
Quando lançamos o dado e obtemos um 5, temos o que e chamado de 
sucesso no lançamento, pois este é o resultado que pretendemos obter, no 
entanto quando obtemos um outro resultado qualquer, estamos diante de 
um fracasso. Note que só há duas possibilidades: Sucesso quando ocorre o 
número 5 ou fracasso quando dá qualquer outro número. 
Observe que cada lançamento não interfere na probabilidade de 
qualquer outro lançamento, a probabilidade em cada lançamento é 
independente, sendo as probabilidades de sucesso e fracasso as mesmas para 
cada lançamento, conforme segue: 
 
𝑃(𝑆) =
1
6
 
𝑃(𝐹) =
5
6
 
 
Nestas condições a probabilidade de obtermos x sucessos e n - 
x fracassos em n tentativas, é obtida pelo termo geral do Binômio de Newton: 
  nxqp
x
n
pnxbP xnx ,....2,1,0,;; 





  
Na equação acima temos 
• No qual 





x
n
 é um número binomial de numerador n e 
denominador x. 
• P é a probabilidade procurada. 
• n é o número de tentativas. 
• x é o número de sucessos. 
• q é a probabilidade de fracasso. 
Sendo n ≥ x, o número binomial 





x
n
é dado por: 
 !!
!
,
xnx
n
x
n
C xn







 , 
E também pode ser calculado com auxílio de uma calculadora cientifica 
em geral com tecla nCr. 
Com frequência, estamos interessados nos problemas em que é 
necessário encontrar a probabilidade de um intervalo do tipo )( rxP  ou 
)( bXaP  o que pode estender os cálculos de maneira desconfortável. 
Felizmente, as somas binomiais 
   


r
x
pnxbpnrB
0
;;;; 
estão disponíveis no anexo 1. 
Um experimento que segue as condições abaixo é denominado como 
um experimento binomial: 
• O experimento consiste em uma sequência de n 
experimentos menores denominados ensaios, em que n é fixado com 
antecedência. 
• Cada ensaio pode resultar em um de dois resultados 
possíveis, chamados de sucesso e falha. 
• Os ensaios são independentes, de forma que o resultado de 
qualquer ensaio particular não influencia o resultado de qualquer outro 
ensaio. 
• A probabilidade de sucesso P(S) é constante de um ensaio 
para o outro. Denominamos essa probabilidade p. 
A média e a variância de uma distribuição binomial, podem ser 
calculadas facilmente seguindo os modelos abaixo: 
npq
np


2

 
Como podemos notar a média de uma distribuição que segue o modelo 
binomial é o número de experimentos, multiplicado pela probabilidade de 
sucesso, enquanto que a variância é o número de experimentos, multiplicado 
pela probabilidade de sucesso, multiplicado pela probabilidade de fracasso. 
Vamos agora resolver alguns exemplos de aplicação da distribuição 
binomial. 
Exemplo 1: Qual é a probabilidade de obtermos 4 vezes o número 5 ao 
lançarmos um dado 7 vezes? 
Em primeiro vamos separar os dados do problema, que caracterizam a 
distribuição como binomial: 
𝑛 = 7 
𝑥 = 4 
𝑃(𝑆) = 𝑝 =
1
6
 
𝑃(𝐹) = 𝑞 =
5
6
 
Em seguida aplicamos o modelo matemático da distribuição binomial: 
  nxqp
x
n
pnxbP xnx ,....2,1,0,;; 





  
𝑃 = 𝑏 (4; 7,
1
6
) = (
7
4
) ∙ (
1
6
)
4
∙ (
5
6
)
3
= 0,01563 
Portanto a probabilidade de obtermos 4 vezes o número 5 lançado 7 
vezes um dado de seis faces é de 0,01563 aproximadamente, ou 1,563%. 
Exemplo 2: De acordo com a publicação Chemical Engineering Progress 
(nov. 1990), aproximadamente 30% de todas as falhas nas tubulações das 
indústrias são causadas por erro de operador. Qual é a probabilidade de que, 
das próximas 20 falhas na tubulação, quatro ou mais falhas sejam causadas por 
erro do operador? 
Separando os dados: 
𝑛 = 20 
𝑥 = {4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16} 
𝑃(𝑆) = 𝑝 = 0,3 
𝑃(𝐹) = 𝑞 = 0,7 
Nesse exemplo temos um problema com o número de cálculo 
necessários, já que a probabilidade solicitada: 
 
𝑃(𝑥 ≥ 4) = 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + ⋯+ 𝑝(𝑋 = 16) 
 
Dessa formar iremos recordar que a soma de todos os eventos possíveis 
em uma distribuição de probabilidade é igual a 1, o que implica em: 
 
𝑃(𝑥 ≥ 4) = 1 − 𝑃(𝑋 < 4) 
 
O que reduz consideravelmente a necessidade de cálculos, pois: 
 
𝑃(𝑋 < 4) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) 
 
Sendo que aplicando o modelo matemático teremos: 
 
𝑃(𝑋 < 4) = 𝑏(0; 20, 0,3) + 𝑏(1; 20, 0,3) + 𝑏(2; 20, 0,3) + 𝑏(3; 20, 0,3) = 0,1071 
 
Portanto, a probabilidade solicitada é de: 
 
𝑃(𝑥 ≥ 4) = 1 − 0,1071 = 0,8929 
 
 
2. 3. 2 Distribuição de Poisson 
 
Na distribuição binomial, a variável de interesse era o número de 
sucessos em um intervalo de n repetições, mas ocasionalmente, o interesse da 
variável aleatória reside no número de sucessos em um intervalo contínuo, por 
exemplo em um intervalo de tempo, ou o número de defeitos por metragem de 
tecido, etc. A caracterização de uma distribuição que leva em conta o número de 
sucessos (valores) em um intervalo contínuo, pressupõe que: 
i. Os eventos definidos em intervalos não sobrepostos são 
independentes; 
ii. Em intervalos de mesmo comprimento, são iguais as 
probabilidades de ocorrência de um mesmo número de sucessos; 
iii. Em intervalos muito pequenos, a probabilidade de mais de 
um sucesso é desprezível; 
iv. Em intervalos muito pequenos, a probabilidade de um 
sucesso é proporcional ao comprimento do intervalo. 
Se os valores de uma variável satisfazem as hipóteses acima, podemos 
dizer que mesma segue um modelo de distribuição de probabilidade de Poisson 
que tem seu modelo matemático descrito como: 
 
,...3,2,1,0,
!
);( 

x
x
e
xp
x



 
No qual  é o número médio de resultados por unidade de tempo, 
distância, área ou volume, e ...71828,2e . 
O anexo 2 contém a soma das probabilidades de Poisson 
   


r
x
txptrP
0
;;  para alguns valores selecionados de t variando de 0,1 a 18. 
Na distribuição de Poisson tanto a média quanto a variância são 
representados por  . 
 
 
 
 
 
Figura 9: Funções de densidade de Poisson para diferentes médias 
 
Fonte: Autor 
 
Exemplo: Durante um experimento de laboratório, o número médio de 
partículas que passam por um contador em um milésimo de segundo é quatro. 
Qual é a probabilidade que seis partículas entrem no contador em um dado 
milésimo de segundo? 
𝜆 = 4 (𝑚é𝑑𝑖𝑎 𝑑𝑒 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑠) 
Aplicando o modelo teremos: 
 
1042,0
!6
4
)4;6(
64

e
p 
 
Como podemos notar o modelo de Poisson, é de simples aplicação e 
tem uso em várias situações, além de modelos que derivam do de Poisson, a 
média estabelecida em uma determinada situação será proporcional ao 
intervalo, logo se temos uma média de 4 partículas para cada milésimo de 
segundo a média para dois milésimos de segundo será igual a 8. 
 
2. 4 DISTRIBUIÇÃO DE PROBABILIDADES CONTÍNUAS 
 
Como já enunciado a função f(x) é a função de probabilidade para a 
variável aleatória contínua X, definida no conjunto de números reais R, se 
,0)( xf para todo x 






b
a
dxxfbXaP
dxxf
)()(
1)(
 
Neste tópico iremos estudar dois modelos para distribuições de 
probabilidade contínua, o modelo normal e o modelo da distribuição exponencial, 
ambos muito aplicados, sendo que o modelo da distribuição normal, pode ser 
facilmente descrito como o modelo ou um dos modelos mais importantes da 
probabilidade aplicada a qualidade. 
 
2. 4. 1 A Distribuição normal 
 
A mais importante das distribuições de probabilidade contínuas no 
campo da estatística é a chamada distribuição normal. Seu gráfico, chamado 
curva normal, é a curva em forma de sino, que descreve muitos dos fenômenos 
que ocorrem na natureza, na indústria e nas pesquisas. 
 
 Figura 10: Modelo da distribuição normal 
 
Fonte: http://www.portalaction.com.br/probabilidades/62-distribuicao-
normal 
A equação da curva Normal é especificadausando dois parâmetros: a 
média ( ) que altera sua posição no eixo, e o desvio padrão ( ), que altera 
sua forma. 
 
 
http://www.portalaction.com.br/probabilidades/62-distribuicao-normal
http://www.portalaction.com.br/probabilidades/62-distribuicao-normal
Figura 11: Alguns modelos de distribuição normal 
 
Fonte: Autor 
 
Na figura 11, a curva azul, é chamada de distribuição normal padrão, ela 
tem média 0 e desvio padrão 1. Enquanto que a curva em vermelho tem média 
1 e desvio padrão 0,5, um desvio padrão menos, torna a curva mais afilada em 
torno dos dados, basicamente significa que sua dispersão em torno da média é 
menor. 
A curva em verde já é a que tem maior dispersão, com média 3 e desvio 
padrão 2, o que achata a curva, indicando que seus dados estão mais dispersos 
em torno do eixo x. 
Denotamos N(  , ) à curva Normal com média  e desvio padrão , a 
média indica o centro da distribuição normal e o desvio padrão o achatamento 
da curva, a distribuição normal é simétrica em torno da média o que significa que 
a média, a mediana e a moda são todas iguais. 
A área sob a curva normal e de como já vimos, de qualquer distribuição 
de probabilidade, é igual a 1, e por meio de uma regra empírica sabemos a 
proporção de área entre algumas distancias relacionadas ao desvio padrão de 
uma curva, conforme a figura 12 a seguir: 
 
 
 
 
Figura 12: Proporções importantes da distribuição normal 
 
Fonte: http://www.portalaction.com.br/probabilidades/62-distribuicao-
normal 
As aplicações dessa regra empírica denotam a praticidade em 
determinar medidas de produção, por exemplo, dado um processo industrial em 
que os diâmetros internos de cilindros tenham uma média histórica de 9,6 cm, 
com desvio padrão igual a 0,1 cm, e pressupondo que o processo esteja sobre 
uma distribuição normal, podemos afirmar que: 
 
• 68,26% dos cilindros tem diâmetro entre 9,5 cm e 9,7 cm. 
• 95,44% dos cilindros tem diâmetro entre 9,4 cm e 9,8 cm. 
• 99,73% dos cilindros tem diâmetro entre 9,3 cm e 9,9 cm. 
• 99,994% dos cilindros tem diâmetro entre 9,2 cm e 10,0 cm. 
 
Note que se a especificação do cliente permitir que cilindros com 
diâmetros entre 9,2 cm e 10 cm sejam aceitos, a perda desse processo é 
estimada entre 0,006% da produção, ou seja, a cada 100000 peças produzidas, 
seis estarão fora dos limites especificados. 
O modelo matemático da distribuição normal: 
𝑓(𝑥) =
1
√2𝜋𝜎²
exp [−
1
2
(
𝑥 − 𝜇
𝜎
)
2
] , − ∞ < 𝑋 < +∞ 
 
http://www.portalaction.com.br/probabilidades/62-distribuicao-normal
http://www.portalaction.com.br/probabilidades/62-distribuicao-normal
Não precisa ser utilizado nos cálculos de probabilidade, pois temos a 
tabela (anexo 3) das distribuições acumuladas de probabilidade, para a 
distribuição normal padronizada ou reduzida, que tem média igual a 0 e desvio 
padrão igual a 1. 
Na verdade, utilizando a fórmula: 
𝑍 =
𝑥 − 𝜇
𝜎
 
 
Transformamos valores de uma variável aleatória X, em uma variável 
aleatória Z, que já tem seus valores de probabilidade acumulada calculados, a 
importância dessa tabela se justifica pela dificuldade de integração do modelo 
matemático da distribuição normal. Vejamos alguns exemplos. 
Exemplo 1: Dada uma distribuição normal padrão, determine a área 
abaixo da curva que está: 
a) a direita de z = 1,84. 
Figura 13: Área sob a curva normal 
 
Fonte: Autor 
 
A área que queremos delimitar está à direita de 1,84, na tabela, como o 
que temos são valores acumulados de probabilidade, obtemos a área a 
esquerda: 
 
Portanto: 
𝑃(𝑍 > 1,84) = 1 − 𝑃(𝑍 ≤ 1,84) = 1 − 0,9671 = 0,0329 
 
b) entre z = -1,97 e z = 0,86 
 
Figura 14: Área sob a curva normal 
 
Fonte: Autor 
Como a distribuição é acumulada, iremos realizar a subtração das 
probabilidades, ou seja: 
𝑃(−1,97 < 𝑍 < 0,86) = 𝑃(𝑍 < 0,86) − 𝑃(𝑍 < −1,97) 
Que consultando a tabela, seguindo a orientação anterior resulta em: 
𝑃(𝑍 < 0,86) − 𝑃(𝑍 < −1,97) = 0,8051 − 0,0244 = 0,7807 
 
Exemplo 2: Uma indústria elétrica fabrica lâmpadas que tem vida útil, 
antes de queimarem, normalmente distribuída com média igual a 800 horas e 
desvio-padrão de 40 horas. Encontre a probabilidade de que uma lâmpada 
queime entre 778 e 834 horas. 
O exercício solicita o cálculo da probabilidade: P(778 < X < 834) em uma 
N(800, 40), que poderia ser calculado por integração direto no modelo da 
distribuição normal. 
Por conta da dificuldade, que envolve este cálculo, se torna mais 
simples, padronizar estes valores de variável aleat[oria X em uma variável 
aleatória Z, por meio da fórmula: 
𝑍 =
𝑥 − 𝜇
𝜎
 
Logo teremos: 
𝑧1 =
778 − 800
40
= −0,55 
 
𝑧2 =
834 − 800
40
= 0,85 
Em que concluímos que: 
𝑃(778 < 𝑋 < 834) = 𝑃(−0,55 < 𝑍 < 0,85) = 𝑃(𝑍 < 0,85) − 𝑃(𝑍 < −0,55) = 
= 0,8023 − 0,2912 = 0,5111 
 
2. 4. 2 Distribuição Exponencial 
 
Meyer (1983), afirma que, uma variável aleatória contínua X, que tome 
todos os valores não negativos, terá uma distribuição exponencial com 
parâmetro 𝛼 > 0, se sua função densidade de probabilidade for dada por 
(MEYER, 1983, p. 223): 
 
𝑓(𝑥) = {
𝛼𝑒−𝛼𝑥, 𝑥 > 0
0, 𝑝𝑎𝑟𝑎 𝑞𝑢𝑎𝑖𝑠𝑞𝑢𝑒𝑟 𝑜𝑢𝑡𝑟𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠
 
 
Que tem a seguinte representação gráfica: 
 
Figura 15: Representação gráfica da distribuição exponencial 
 
Fonte: Paschoal (2016) 
 
Que tem como sua principal propriedade a a “falta de memória” da 
Distribuição Exponencial, ou seja, 𝑃(𝑋 > 𝑡0 + 𝑡 | 𝑋 > 𝑡0) = 𝑃(𝑋 > 𝑡), que implica 
que se um componente, que é colocado em serviço, e após 𝑡0 horas, continua 
funcionando, a probabilidade deste componente continuar funcionando após t 
horas adicionais é idêntica à probabilidade original. Assim podemos concluir com 
base em Devore que que a distribuição do tempo de vida adicional é exatamente 
igual à distribuição original do tempo de vida. (DEVORE, 2014, p. 151). 
As principais aplicações da Distribuição Exponencial, remetem-se a lei 
das falhas, o que segundo Meyer (1983) é aquela cuja duração até falhar é 
descrita pela distribuição exponencial. (MEYER, 1983, p. 268). Podemos admitir 
que algumas peças, como por exemplo rolamentos, são tão bons em uso, quanto 
novos, enquanto estiverem funcionando. O que se aplica na prática, já que por 
exemplo um fusível manterá sua funcionalidade, sem alteração visível, até que 
se funda o que é considerado uma falha. Da mesma forma que um rolamento, 
ou um parafuso, sofrem poucas modificações pelo desgaste. 
No próximo capítulo iremos trabalhar com mais aplicações das 
distribuições de probabilidade, com ênfase nas aplicações da distribuição 
normal, e no teorema do limite central. 
Questões 
 
1) Vazamentos de tanques de gasolina subterrâneos em postos de gasolina 
podem prejudicar o meio ambiente. Estima-se que 17% desses tanques 
apresentam vazamento. Você examina 18 tanques escolhidos ao acaso, 
independentes entre si. 
a) Qual é o número médio de tanques com vazamento em tais amostras de 18? 
3,06 
b) Qual é a probabilidade de 8 ou mais dos 18 tanques apresentarem 
vazamento? 
0,006 
 
2) O número médio de navios petroleiros que chegam a cada dia em certo porto 
é dez. As instalações do porto podem suportar no máximo 15 navios por dia. 
Qual é a probabilidade de que, em certo dia, navios terão de ser mandados 
embora? 
0,0487 
3) Se o diâmetro médio de um lote de esferas para rolamentos produzidos por 
uma fábrica é de 0,30 polegadas e o desvio padrão de 0,01 polegadas. Uma 
esfera é considerada defeituosa se seu diâmetro é maior que 0,32 polegadas ou 
menor que 0,27 polegadas. Encontre a porcentagem de parafusos defeituosos. 
2,41% 
 
4) Os dados coletados no Toronto Pearson International Airport sugerem que 
uma distribuição exponencial com o valor médio de 2,725 horas é um bom 
modelo para a duração da chuva. Qual é a probabilidade de a duração de um 
determinado período de chuva neste local ser depelo menos 2 horas? No 
máximo 3 horas? Entre 2 e 3 horas? (Walpole et al, 2009) 
0,480; 0,667; 0,147 
 
 
 
 
CAPÍTULO 3: AMOSTRAGEM E TESTES DE HIPÓTESES. 
 
Métodos estatísticos são usados para tomar decisões tirar conclusões 
acerca de populações. Esse aspecto da estatística é geralmente chamado de 
inferência estatística. A inferência estatística pode ser dividida em duas grandes 
áreas: estimação e teste de hipóteses. 
Em geral uma análise estatística utiliza da amostragem, principalmente 
por conta da dificuldade em analisar populações como um todo, há diversas 
técnicas de amostragem algumas são quase intuitivas, enquanto que outras 
dependem de métodos estatístico mais robustos como por exemplo a estimação 
intervalar. 
Uma amostra pode ser classificada em probabilística ou não 
probabilística, sendo que a amostra probabilística, é aquela em que todo o item 
de uma determinada população tem a mesma probabilidade de fazer parte de 
uma amostra, em geral esse modelo de amostragem é o mais utilizado em 
pesquisas quantitativas. 
Uma mostra probabilística pode ser obtida de forma: 
• Aleatório simples, no qual cada item da população é escolhido por 
uma espécie de sorteio. 
• Aleatório sistemático, em que as amostras são selecionadas a 
partir de um esquema rígido e preestabelecido, em geral dividido 
em etapas, que tem como objetivo garantir que toda a população 
seja representada. 
• Aleatório estratificado, em que são identificados vários estratos 
de uma população, em geral sendo que o número de amostras 
em cada estrato é proporcional a população desse estrato. 
• Por clusters, ou seja, quando dentro de uma população é possível 
identificar agrupamentos naturais, por exemplo, na população do 
estado de São Paulo, considerar indivíduos de 22 a 30 anos, que 
possuam superior completo. 
As amostras não probabilísticas, em geral são mais utilizadas em 
pesquisas de opinião, importante ter claro que as mesmas carregam uma 
determinada subjetividade, em geral elas podem ser divididas em amostragem 
por cotas, onde se estabelece os critérios do sujeito. 
De forma intencional, na qual os critérios estabelecidos, devem tentar 
garantir toda a representatividade da população amostrada, e de maneira casual 
que o caso da pesquisa de opinião realizada na rua, a separação de grupos 
ocorre após um certo número de sujeitos ter respondido a pesquisa. 
O campo da estatística, se preocupa principalmente em como trabalhar 
os dados amostrais de forma a ter determinada confiabilidade sobre os 
parâmetros que são utilizados para previsões, por exemplo a média e a variância 
 
3. 1 DISTRIBUIÇÕES AMOSTRAIS E TEOREMA DO LIMITE CENTRAL 
 
As variáveis aleatórias nXXX ,...,, 21 são uma amostra aleatória de 
tamanho n, se: 
 
• os sX i ' forem variáveis aleatórias independentes; 
• cada iX tiver a mesma distribuição de probabilidades. 
 
Em geral identificamos uma estatística como qualquer função das 
observações em uma amostra aleatória, enquanto que a distribuição amostral é 
a distribuição de probabilidades de uma estatística. 
Considere uma distribuição amostral da média X da amostra. Suponha 
que uma amostra de tamanho n seja retirada de uma população normal, com 
média µ e variância σ². Então, podemos concluir que: 
A média da amostra 
n
XXX
X n


...21 tem uma distribuição normal 
com média 

 


nX
...
e variância 
nnX
²²...²²
²

 

 . 
Se estivermos amostrando de uma população que tenha uma 
distribuição desconhecida de probabilidades, a distribuição amostral da média 
da amostra será aproximadamente normal, se o tamanho n da amostra for 
grande. Esse é um dos mais úteis teoremas em estatística, e é chamado de 
teorema central do limite. 
Se nXXX ,...,, 21 for uma amostra aleatória de tamanho n, retirada de uma 
população (finita ou infinita), com média µ e variância finita σ², e se X for a média 
da amostra, então a forma limite da distribuição de 
n
X
Z


 quando n , é 
a distribuição normal padrão de variável aleatória Z, portanto com valores 
definidos na tabela do anexo 3. 
Exemplo: Uma indústria elétrica fabrica lâmpadas que têm vida útil 
distribuída aproximadamente normal, com média igual a 800 horas e desvio-
padrão de 40 horas. Determine a probabilidade de que uma amostra aleatória de 
16 lâmpadas terá vida útil média menor que 775 horas. 
Utilizando o teorema central do limite (TCL) 
𝑍 =
775 − 800
40
√16
⁄
= −2,5 
Com base na tabela do Anexo 3, temos: 
𝑃(�̅� < 775) = 𝑃(𝑍 < −2,5) = 0,0062 = 0,62% 
Portanto a 0,62% de chance aproximadamente de uma lâmpada de uma 
amostra com esses parâmetros ter vida útil média menor do que 775 horas. 
Muitas vezes precisamos lidar com duas amostras em comparação, por 
exemplo se queremos entender qual método de manufatura tem melhor 
capacidade de produção, nesses casos se as duas amostras de tamanho n, tem 
uma distribuição de probabilidade aproximadamente normal para sua média 
amostral (𝑋), podemos afirmar que a diferença de suas médias 𝑋1 − 𝑋2, também 
terá uma distribuição aproximadamente normal, com média: 
𝜇1−𝜇2 
E variância: 
𝜎1
2
𝑛1
+
𝜎2
2
𝑛2
 
Aplicando essas estruturas no teorema central do limite, temos: 
𝑍 =
(�̅�1 − �̅�2) − (𝜇1 − 𝜇2)
√
𝜎1
2
𝑛1
+
𝜎2
2
𝑛2
 
Que tem uma distribuição aproximadamente normal, de variável 
aleatória Z. 
Exemplo: Dois experimentos independentes são realizados nos quais 
dois tipos diferentes de tinta são comparados. Dezoito espécimes são pintados 
utilizando-se a tinta A e o tempo de secagem, em horas, é registrado em cada 
um deles, o mesmo é feito com a tinta B. Os desvios padrão são conhecidos 
como 1,0. Assumindo que a média do tempo de secagem é igual para os dois 
tipos de tinta, determine 𝑃(�̅�𝐴 − �̅�𝐵 > 1,0), onde �̅�𝐴 𝑒 �̅�𝐵 são as médias dos 
tempos de secagem para as amostras de tamanho 𝑛𝐴 = 𝑛𝐵 = 18. 
Note que nesse problema há interesse em que o tempo de secagem da 
tinta A seja superior, ao tempo de secagem da tinta B em uma hora, nossa 
premissa inicial para comparação é que o tempo de secagem de ambas as tintas 
seja idêntico, portanto temos: 
�̅�𝐴 − �̅�𝐵 = 1,0 
𝜇𝐴 − 𝜇𝐵 = 0 
A variância e o número das amostras nesse exemplo são os mesmos, 
mas cabe notar que se fosse diferente não haveria nenhuma diferença para 
aplicação do modelo, logo temos: 
 
𝑍 =
(�̅�𝐴 − �̅�𝐵) − (𝜇𝐴 − 𝜇𝐵)
√
𝜎𝐴
2
𝑛𝐴
+
𝜎𝐵
2
𝑛𝐵
=
1,0 − 0
√ 1
18 +
1
18
= 3,0 
𝑃(𝑍 > 3,0) = 0,0013 = 0,13% 
Ou seja, a probabilidade de 𝑃(�̅�𝐴 − �̅�𝐵 > 1,0), é de aproximadamente 
0,13%, julgar se essa probabilidade vale a utilização do processo A ou do 
processo B, depende do contexto que o analista irá considerar. 
 
3.2 INTERVALOS ESTATÍSTICOS PARA UMA ÚNICA AMOSTRA 
 
A teoria da inferência estatística consiste nos métodos pelos quais 
realizamos inferências ou generalizações sobre uma população. O método 
clássico consiste na estimação de um parâmetro populacional, por meio no qual 
inferências são baseadas estritamente nas informações obtidas de uma amostra 
aleatória selecionada da população. 
O método clássico de estimação consiste em considerar uma estimação 
pontual de algum parâmetro populacional (θ). 
Quando uma distribuição amostral de uma estatística tem uma média 
igual ao parâmetro estimado, o estimador é dito como não viciado. 
Em geral o estimador mais eficiente de um parâmetro é aquele cuja 
distribuição amostral tem a menor variância, logo na imagem podemos 
considerar que 3̂ é um estimado viciado. 
Figura 16: Comparação de estimadores 
 
Fonte: Walpole et al, 2009, p. 172 
 
A média amostral pode ser usada como uma estimativa pontual da média 
populacional, devido a distribuição amostral da 𝑋, ser centrada em µ. Na verdade 
a média amostral tem uma variância menor do que outro estimadores, para a 
maioria das aplicações quando pretendemos estimar µ, e de acordo com o

Outros materiais