Buscar

Livro Estatística Probabilidade e Inferência

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 154 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 154 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 154 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística: 
Probabilidade e 
Inferência 
 
 
 
 
 
 
Ademir José Petenate 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2 
 
 
Este material não pode ser copiado, reproduzido, reimpresso, utilizado em filmes ou gravações de vídeo 
ou armazenado em dispositivos eletrônicos sem a permissão escrita dos detentores dos direitos de co-
pyright. O material não pode ser incorporado em programas de treinamento com exceção da supervisão 
de algum instrutor da EDTI Consultoria e Treinamento LTDA. 
 
 
 
 
 
Autor: 
Ademir J Petenate, Escola EDTI 
 
 
 
 
 
 
 
 
 
 
 
Publicado por Escola EDTI® 
Campinas, São Paulo 
Impresso no Brasil 
3 
 
 
Sumário 
Capítulo 1. Estatística Descritiva ............................................................................................................. 6 
Variabilidade e Estatística ............................................................................................................ 6 
A aquisição dos dados .................................................................................................................. 8 
Fonte dos dados .......................................................................................................................... 10 
Distribuições .............................................................................................................................. 10 
Classificação de Variáveis ......................................................................................................... 13 
Descrição de Dados por Gráficos e Tabelas ............................................................................... 16 
Medidas de Centralidade ............................................................................................................ 23 
Medidas de Variabilidade .......................................................................................................... 28 
Box Plot ...................................................................................................................................... 34 
Diagrama de Pareto .................................................................................................................... 37 
Série de Tempo .......................................................................................................................... 39 
Gráfico de Dispersão e o Coeficiente de correlação .................................................................. 43 
Capítulo 2. Introdução à Probabilidade ................................................................................................. 49 
Introdução .................................................................................................................................. 49 
Conceitos de Probabilidade ........................................................................................................ 49 
As leis da Probabilidade ............................................................................................................. 51 
Probabilidade Condicional e Independência .............................................................................. 52 
Distribuição de Probabilidades .................................................................................................. 55 
Distribuição de Probabilidade Discreta ...................................................................................... 56 
4 
 
 
Média ou Valor esperado ........................................................................................................... 58 
Variância .................................................................................................................................... 62 
Capítulo 3. Modelos Probabilísticos ...................................................................................................... 64 
Modelos Probabilísticos Discretos ............................................................................................. 64 
Ensaios de Bernoulli: Sucesso - Falha ....................................................................................... 65 
Distribuição Binomial ................................................................................................................ 66 
Distribuição Hipergeométrica .................................................................................................... 69 
Distribuição Multinomial ........................................................................................................... 71 
A Distribuição Geométrica ........................................................................................................ 71 
Eventos raros e a Distribuição de Poisson ................................................................................. 72 
Distribuições de Variáveis Aleatórias Contínuas ....................................................................... 75 
A Distribuição Normal ............................................................................................................... 80 
A Distribuição t de Student ........................................................................................................ 92 
Capítulo 4. Estimação e distribuições amostrais.................................................................................... 95 
População e Amostra.................................................................................................................. 95 
Amostragem e censo .................................................................................................................. 95 
Estudos Observacionais ou Dados Históricos ............................................................................ 97 
Experimentos Controlados ......................................................................................................... 98 
População ................................................................................................................................... 99 
Amostra ...................................................................................................................................... 99 
Erros amostrais e não amostrais ............................................................................................... 100 
Amostragem Aleatória Simples ............................................................................................... 101 
5 
 
 
Procedimentos gráficos para verificar a condição de amostra aleatória simples ..................... 102 
Parâmetros e Estatísticas .......................................................................................................... 104 
Distribuição Amostral .............................................................................................................. 106 
Estatística ................................................................................................................................. 109 
Estimação da Média e do Desvio Padrão Populacional ........................................................... 109 
Estudos Observacionais ........................................................................................................... 126 
Capítulo 5. Testes de Hipóteses ........................................................................................................... 131 
Introdução ................................................................................................................................ 131 
Testes monocaudal e bicaudal .................................................................................................. 145 
Curva Característica de Operação ............................................................................................ 146 
Teste de hipóteses para a diferença entre duas médias ............................................................ 148 
Amostras Pareadas ...................................................................................................................152 
 
6 
 
 
Capítulo 1. Estatística Descritiva 
Variabilidade e Estatística 
A Estatística é um conjunto de conceitos e técnicas utilizadas no planejamento da coleta de dados e na sua 
análise, visando resolver problemas reais. Claramente, cientistas, engenheiros, economistas e outros pro-
fissionais estão envolvidos com essas atividades, e, portanto, necessitam utilizar a Estatística. Além disso, 
de uma forma ou de outra, todas as pessoas são afetadas pelo uso da Estatística. Cada vez mais órgãos 
governamentais e empresas baseiam suas decisões, as quais afetam o dia a dia das pessoas, em análises 
estatísticas, o que faz com que não só profissionais tenham de adquirir algum conhecimento dessa técni-
ca. 
O que torna essa disciplina de grande utilidade, e única, é que sua aplicação ocorre em situações ou pro-
cessos onde a incerteza e variabilidade estão presentes. 
Um processo é definido como uma combinação de pessoas, materiais, procedimentos, métodos, 
políticas e meio ambiente que combinados formam uma série de ações que conduzem a um determinado 
resultado. Em nosso caso, o resultado é um produto ou serviço. 
Para avaliar a utilidade de um produto para o consumidor, características de qualidade são medi-
das no produto. Dois itens produzidos nas mesmas condições não são, em geral, idênticos, com respeito 
às características de qualidade consideradas. Existe uma variabilidade inerente em cada processo Os mé-
todos estatísticos são desenvolvidos para lidar com a incerteza e a variabilidade. Eles são fundamentais 
para se fazer inferências sobre processos a partir de uma amostra de uma população. 
Considere exemplos de algumas áreas de atividade: 
• Processos econômicos: renda familiar, índice de inflação, taxa de juro, etc. 
• Processos industriais: porcentagem de peças defeituosas, diâmetro de peças, rendimento 
de um processo industrial, etc. 
7 
 
 
• Processos biológicos: pressão arterial, número de espécies, tempo de vida, etc. 
Em todas as situações descritas acima o que obtemos são respostas, as quais podem assumir dife-
rentes características: podem ser resultados numéricos (renda familiar, tempo de sobrevivência) ou sim-
plesmente resultados qualitativos (opção partidária, local de nascimento, sobrevivência ou não de um 
animal, etc.). 
Para avaliar a performance do processo e a qualidade do que se está produzindo é necessário cole-
tar dados sobre o processo ou produto. Os dados devem ser analisados e decisões devem ser feitas com 
respeito ao processo, e essas decisões devem ser tomadas na presença de variabilidade. A Estatística é a 
ferramenta adequada para se planejar a coleta de dados que sejam relevantes para o problema em estudo, 
bem como para analisá-las. 
Se o sistema de medidas tem resolução suficiente, todas as medidas apresentam variabilidade. 
Existem muitas razões para a presença dessa variabilidade. Por exemplo, a variabilidade pode 
surgir porque as condições em que um produto é fabricado variam ao longo do tempo. Essa variabilidade 
pode se originar por variações na matéria prima, diferenças entre as máquinas, entre operadores, entre 
condições de operações (temperatura, umidade, pressão). Parte da variabilidade pode ser originária do 
próprio sistema de medição utilizado. Instrumentos de medição de baixa precisão ou entrevistadores mal 
treinados são alguns exemplos. Esta variabilidade é chamada de variabilidade devida ao processo de me-
dição. 
Para exemplificar a diferença entre a variabilidade devida ao processo de produção e a variabili-
dade devido ao processo de medição considere o seguinte exemplo. Dez peças são produzidas e o diâme-
tro de cada peça é medida. Supondo que não há erro de medição envolvido, as 10 medidas apresentam va-
riabilidade que é devida ao processo de produção. Se agora uma peça é selecionada e medida dez vezes 
com uma régua escolar, as dez medidas quase certamente apresentarão variabilidade devido à baixa preci-
são do instrumento de medida utilizado. Se agora medimos as dez peças com a régua escolar, as medidas 
apresentam variabilidade que reflete uma combinação entre variabilidade de processo e de instrumento. É 
necessário entender, quantificar e dominar essa variabilidade. 
8 
 
 
A aquisição dos dados 
A análise estatística depende fundamentalmente de observações ou medidas. Nós nos referimos a 
essas observações ou medidas como dados. 
A coleta de dados é o primeiro passo a ser executado quando se está analisando um processo. 
Mesmo nas situações mais simples, é necessário planejar a coleta de dados, observando que os mesmos 
sejam relevantes para o estudo a ser realizado. 
Os dados coletados sobre um processo devem fornecer informações para a que a equipe de me-
lhoria possa atuar no processo visando a sua melhoria. Para isso, é necessário que a equipe saiba porque 
eles precisam dos dados, que dados serão coletados, quando e como eles serão obtidos. 
É importante que os dados adquiridos no estudo de um problema de interesse sejam corretamente 
coletados. Além disso, como atualmente esses dados serão, muito provavelmente, analisados através de 
um software apropriado, a estruturação correta dos mesmos é essencial. O passo final do processo de co-
leta de dados é tornar os dados disponíveis para o software, levando-se em conta a estruturação requerida 
pelo programa utilizado. 
Em alguns casos os dados são coletados simplesmente para descrever o processo. Em outras situ-
ações, os dados são coletados para monitorar o processo. Por exemplo, se a empresa produz um produto 
que tem um peso liquido especificado, é necessário retirar amostras de tempos em tempos e testar se o 
processo está sob controle. 
A próxima etapa é decidir que dados serão coletados. Qualquer processo gera uma quantidade 
grande de variáveis que podem ser medidas com o objetivo de controlar o processo. Algumas são críticas 
para o controle e outras são irrelevantes. Mesmo algumas variáveis críticas podem não estar disponíveis 
para análise a tempo de permitir interferência no processo. 
A equipe de melhoria deve considerar também em que ponto do processo os dados devem ser co-
letados. Por exemplo, se o produto é formado de várias partes, as medidas serão realizadas nas partes ou 
no produto final? 
9 
 
 
A decisão sobre como os dados serão coletados deverá levar em consideração o custo de obtê-los 
(análise de laboratório, teste destrutivo, dispositivo de medição, etc.), a quantidade de tempo necessária 
para se obter a medida e principalmente a acurácia e a precisão do processo de medida (dispositivo de 
medida, método analítico, etc.). 
Em todos os casos, é necessário ponderar a acurácia e precisão versus o custo e o tempo para se 
obter a informação. Tão importante quanto o aspecto técnico de se fazer a medição é o aspecto da seleção 
dos itens a serem medidos. O procedimento de seleção do itens é denominado de plano amostral . Quan-
do se retira uma amostra do processo, o objetivo pode ser medir uma característica de qualidade nos itens 
da amostra, e estimar um parâmetro do processo, por exemplo, no caso de produção de cerveja, o teor al-
coólico médio. Para que se possa avaliar a precisão dessa estimativa, é importante que a amostragem do 
processo seja feita de forma probabilística. Voltaremos a esse tema mais à frente. 
Conjunto de dados - chamamos de conjunto de dados à coleção de medidas ou observações cole-
tadas para um determinado estudo. Por exemplo, no estudo da relação entre o peso de um indivíduo e a 
hipertensão o conjunto de dados pode ter a estrutura apresentada na tabela seguinte. 
Os componentes de um conjunto de dados são: 
Elemento - é um indivíduo, ou unidade experimental ou observacional sobre o qual realizamos 
medidas. No exemplo acima, cada pessoa é um elemento do conjunto de dados. 
 
Nome 
 
Sexo 
 
Idade 
 
Peso 
 
Hipertenso 
 
Alberto 
 
M 
 
32 
 
67 
 
N 
 
Joana 
 
F 
 
45 
 
76 
 
SCecília 
 
F 
 
29 
 
57 
 
N 
 
Pedro 
 
M 
 
30 
 
79 
 
N 
 
Fernando 
 
M 
 
56 
 
75 
 
S 
 
10 
 
 
Variável - é uma característica observada em um elemento. Sexo é uma variável do conjunto de 
dados definido acima. Um conjunto de dados é univariado quando contém apenas uma variável, bivariado 
quando contém duas variáveis e multivariado quando contém três ou mais variáveis. 
Caso ou registro - é o conjunto de resultados das variáveis quando aplicados em um elemento. 
No exemplo acima cada linha da tabela forma um registro. 
Observação - é a informação sobre uma única variável em um elemento do conjunto de dados. 
Por exemplo, 32 é uma observação para a variável idade no elemento Alberto. 
Fonte dos dados 
Uma organização obtém seus dados de fontes internas ou de fontes externas. Qualquer organiza-
ção está constantemente gerando dados que podem ou não estar sendo apropriados ou aproveitados. Esses 
dados formam um capital valioso quando apropriados corretamente e estruturados de tal forma que pos-
sam ser facilmente trabalhados para se transformarem em informação. 
Outros dados são obtidos pela organização através de publicações especializadas, bancos de da-
dos de serviços, relatórios governamentais, etc. 
Quando se usa qualquer fonte de dados, é necessário estar atento para as limitações e para a qua-
lidade dos dados. Deve-se estar atento para a possibilidade de que ocorram erros na aquisição dos dados. 
Esses erros podem ser devidos aos instrumentos de medida utilizados, erros de transferência dos dados de 
um meio (papel) para outro (arquivo computacional), erros de preenchimento de questionários, dupla con-
tagem, transformações de variáveis devido a erro no programa computacional, etc. É importante também 
obter uma boa descrição do significado e do conteúdo das variáveis a serem analisadas. Conclusões errô-
neas podem ser tiradas quando não se atenta para esses detalhes. 
Distribuições 
11 
 
 
Existe outro conceito importante que queremos introduzir logo no início dessa discussão. Esse 
conceito é o de distribuição. Para tanto considere o conjunto de dados que contém o peso líquido de leite 
evaporado em gramas de uma amostra retirada da produção. 
Examinando o arquivo, nós encontramos 60 registros, sendo que os pesos variam de 265.1 a 
281.8 gramas .A maioria dos pesos, entretanto, está entre 270 e 276 gramas. Uma melhor descrição dos 
pesos, do ponto de vista estatístico, e feita através da distribuição dos pesos. A distribuição é representada 
graficamente pela figura abaixo. Através do gráfico podemos observar o comportamento dos pesos e 
examinar características como: simetria da distribuição, região onde há maior concentração de valores, o 
centro da distribuição (média, mediana, etc.), a dispersão dos valores em torno de um valor central. Po-
demos observar também que aproximadamente 10% dos latas tem peso líquido acima de 277.3. A distri-
buição, como veremos em detalhes mais à frente, nos fornece uma grande quantidade de informações so-
bre o conjunto de dados que estamos analisando. A figura a seguir apresenta a distribuição dos valores de 
peso líquido do conjunto de dados apresentado acima. 
 
Tabela 1: Peso líquido 
Lata Peso Lata Peso Lata Peso Lata Peso 
1 275.40 16 275.20 31 273.90 46 271.80 
2 275.30 17 279.10 32 266.80 47 266.40 
3 271.40 18 276.30 33 271.40 48 271.50 
4 270.30 19 271.80 34 270.50 49 276.50 
5 275.70 20 278.50 35 276.10 50 272.20 
6 277.30 21 271.70 36 270.30 51 271.50 
7 268.00 22 281.80 37 272.50 52 271.70 
8 273.30 23 272.60 38 274.10 53 274.80 
9 277.10 24 268.80 39 271.20 54 274.60 
10 276.00 25 272.40 40 275.20 55 272.60 
11 275.70 26 275.20 41 271.30 56 272.50 
12 275.90 27 276.70 42 278.80 57 269.90 
13 271.60 28 276.00 43 273.80 58 274.50 
14 276.30 29 272.60 44 277.80 59 267.80 
15 266.50 30 273.40 45 274.70 60 265.10 
12 
 
 
 
 
Figura 1: Histograma do peso 
 Quando examinamos a distribuição, não estamos interessados nos valores individuais, mas sim 
no conjunto das respostas. O conjunto das respostas pode ser caracterizado por alguns poucos números 
que quantificam características importantes. 
Suponha que estamos produzindo um determinado tipo de peça fundida para uma indústria auto-
mobilística e que a característica de qualidade de interesse é uma dimensão da peça, e que essa dimensão 
deve atender certas especificações. Quando avaliamos o processo, não estamos interessados no valor da 
característica para cada peça produzida. Queremos saber qual é o valor médio dessa dimensão, se o pro-
cesso produtivo apresenta muita ou pouca variabilidade, qual é a porcentagem de peças produzidas que 
não atende às especificações, etc. É difícil obter-se essas informações olhando-se para todos os valores da 
produção, ou mesmo para todos os valores medidos em uma amostra. É necessário que se utilize algum 
recurso para sumariar os dados e retirar as informações que são relevantes. 
Quando estudamos um processo discreto, podemos medir cada item produzido. Em processos 
contínuos, a necessidade de caracterizar o processo a partir de uma amostra é mais evidente. 
13 
 
 
A sumarização e exposição dos aspectos importantes de um conjunto de dados é chamada de Es-
tatística Descritiva. Sob esse nome reunimos um conjunto de técnicas que visam condensar os dados atra-
vés de gráficos e tabelas, e do cálculo de alguns números que indicam a tendência central dos dados (va-
lor médio), e medem a variabilidade dos mesmos. 
 As situações reais com que nos defrontamos são as mais diversas. Os métodos que serão apresen-
tados aqui funcionam sob situações bastante gerais, e se aplicam tanto a situações em que os dados foram 
obtidos de uma amostra (fração) da população, bem como a situações em que todos os indivíduos da po-
pulação são avaliados (censo), mas com certeza não funcionarão em todas as situações. Entretanto, alguns 
aspectos da análise merecem ser destacados. Cada conjunto de dados deveria ser examinado sob os se-
guintes aspectos: 
Os dados deveriam ser resumidos através de gráficos e tabelas, buscando principalmente: 
1. Examinar a forma geral da distribuição dos dados 
a. A existência de observações atípicas que pareçam se destacar do conjunto dos dados. 
2. Cálculo de medidas numéricas que: 
a. indiquem a tendência central 
b. quantifiquem a variabilidade presente nos dados. 
Classificação de Variáveis 
É comum representarmos o peso de uma criança por um número que expressa a quantidade em 
gramas. Por outro lado, o sexo de uma criança é, em geral representado por F ou M. Nada impede que uti-
lizamos os códigos 1 e 2 para Masculino e Feminino respectivamente, mas nesse caso os numerais 1 e 2 
representam símbolos. 
Variáveis em um conjunto de dados podem ser classificadas de muitas formas distintas, depen-
dendo do objetivo. A classificação pode ser feita em função da relação entre as variáveis (dependente ou 
independente) do tipo de observação gerada (numérica, não numérica), da técnica de análise empregada, 
14 
 
 
ou de qualquer outro objetivo. Apresentaremos algumas classificações que serão úteis no desenvolvimen-
to do texto. 
Variáveis Dependentes e Independentes 
Em muitas técnicas estatísticas, as variáveis são classificadas como dependentes (ou resposta) e 
independentes (ou explanatórias). Por exemplo, se queremos estudar a relação entre o rendimento de um 
processo (Y) e a temperatura de operação (T) através de uma relação funcional Y=f (T), a variável Y é 
classificada como resposta ou dependente e a variável T é classificada como explanatória ou independen-
te. A idéia é que o rendimento “depende” ou pode ser explicado pela variável T, a qual pode ser fixada de 
forma independente. 
Variáveis Quantitativas e Qualitativas 
Uma variável é quantitativa quando o resultado da observação é numérica e qualitativa quando re-
sulta em uma qualidade ou atributo. 
Tipos de Escalas de RespostasVariáveis podem também ser classificadas com discretas ou contínuas, dependendo da escala uti-
lizada. 
Escala discreta Variáveis medidas numa escala discreta assumem valores que podem ser 
associados com os números naturais. Ou de outra forma, é possível ordenar todos os valores possíveis de 
ocorrerem. A idade de uma pessoa em número de anos completos, o número de pessoas que habitam uma 
residência são exemplos de variáveis discretas. O conjunto de valores possíveis pode ser finito ou infinito 
enumerável. Esse tipo de escala surge naturalmente quando realizamos contagens 
Incluímos nesse tipo de variáveis aquelas em que a escala de medidas consiste de um conjunto de 
categorias, como por exemplo, a filiação partidária, o sexo de um recém-nascido, etc. Variáveis medidas 
numa escala discreta são chamadas às vezes de categóricas, dependendo do número de níveis e da técnica 
estatística empregada na sua análise. 
15 
 
 
Escala contínua Variáveis medidas numa escala continua têm conceitualmente um núme-
ro ilimitado de valores que não podem ser ordenados Por exemplo, a temperatura do corpo é medida nu-
ma escala contínua. Não devemos confundir a variável com o instrumento usado para medir a variável. 
Obviamente o termômetro tem uma precisão limitada que faz com que o resultado da medida da tempera-
tura seja discreto. De fato, como todas as variáveis contínuas são medidas por instrumentos com precisão 
discreta, variável contínua é apenas um modelo que é útil na prática. 
É necessário fazer aqui uma distinção entre medidas nominais e medidas ordinais. 
Medidas nominais Medidas nominais ocorrem quando não há uma ordem natural no valor 
da variável. Por exemplo, filiação partidária (PMDB, PSDB, PT, PFL), tipo de residência (casa, aparta-
mento, barraco, etc.). Sexo é uma medida nominal com "macho" e "fêmea" como valores. Poderíamos 
codificar o sexo como "1" e "2", mas os números nesse caso não tem significado como números, mas co-
mo nomes. 
Para esse tipo de variável, a ordem com que os valores da variável é listado é irrelevante para a 
análise estatística. 
Medidas ordinais Medidas ordinais tem uma ordem inerente que corresponde aos valores 
das variáveis. Pesquisas de opinião usam uma escala ordinal com valores: concorda fortemente, concorda, 
indiferente, não concorda, discorda fortemente. Poderíamos associar números a essas respostas, mas nesse 
caso teríamos que atribuir números de acordo com uma escala ordinal. Por exemplo, atribuiríamos 1 a 
discorda fortemente, 2 a discorda, e assim por diante. Medidas ordinais “ordenam” as categorias mas não 
estabelecem necessariamente uma distância entre as categorias. 
Distinguir se uma variável categórica é ordinal ou nominal depende do contexto em que ela está 
sendo utilizada. Por exemplo, se estamos “medindo” a cor da pele de um indivíduo e classificando-a entre 
negro, mulato e branco, não há uma ordem nessa classificação. Por outro lado, para uma indústria alimen-
tícia, a cor da bolacha produzida reflete a quantidade de energia recebida pela mesma durante o tempo 
que permaneceu no forno, e nesse caso há uma ordem subjacente na cor da bolacha. 
16 
 
 
A própria distinção entre variável discreta e variável contínua às vezes depende da técnica estatís-
tica empregada na sua análise. Procuraremos deixar claro essa distinção quando for necessário. 
Descrição de Dados por Gráficos e Tabelas 
Tabela de frequência 
Uma etapa importante na análise estatística é a sumarização dos dados através da construção de 
tabelas e gráficos e do cálculo de quantidades que representem características importantes do conjunto de 
dados tais como distribuição, locação e dispersão. 
Vamos considerar um exemplo. Os dados seguintes mostram o valor de venda de um determinado 
produto em 95 pontos de venda amostrados na cidade de São Paulo. 
Tabela 2: Valor de venda 
33.1 37.0 39.2 40.0 41.2 42.7 44.0 45.3 47.0 50.2 
33.5 37.2 39.2 40.0 41.2 43.0 44.0 45.3 47.0 50.5 
34.7 37.5 39.2 40.2 41.5 43.0 44.2 45.5 47.2 51.6 
35.0 38.0 39.5 40.5 41.5 43.0 44.2 45.5 47.5 51.7 
35.2 38.2 39.5 40.7 41.7 43.2 44.5 46.0 47.6 52.7 
35.5 38.5 39.5 40.7 42.1 43.2 44.5 46.0 47.8 
35.7 38.7 39.7 41.0 42.1 43.5 44.8 46.5 48.1 
36.1 38.7 39.7 41.0 42.2 43.5 44.9 46.5 48.2 
36.5 38.8 39.7 41.0 42.2 43.5 45.1 46.7 49.0 
37.0 38.9 40.0 41.2 42.5 43.5 45.2 47.0 50.0 
 
Para ressaltar aspectos estruturais de um conjunto de dados, os mesmos são condensados numa 
tabela chamada de distribuição de frequência, que é essencialmente uma tabela como a apresentada abai-
xo. 
Tabela 3: Tabela de frequência 
Intervalo 
de classe 
Ponto 
 médio 
Freq Freq acum Freq 
relat 
Freq relat acum 
33 - 36 34.5 7 7 7.37 7.37 
17 
 
 
36 - 39 37.5 13 20 13.68 21.05 
39 - 42 40.5 25 45 26.32 47.37 
42 - 45 43.5 23 68 24.21 71.58 
45 - 48 46.5 18 86 18.95 90.53 
48 - 51 49.5 6 92 6.32 96.84 
51 - 54 52.5 3 95 3.16 100.00 
 
Para construir uma distribuição de frequência devemos efetuar os seguintes passos: 
1. Ordenar os valores do conjunto de dados 
2. Encontrar o valor mínimo( xmin) o valor máximo (xmax) do conjunto de dados 
3. Escolher um número de subintervalos, em geral de igual comprimento, que contém o mínimo e o 
máximo, de tal forma que eles não se superponham, ou seja, cada medida é classificada em ape-
nas um dos subintervalos. Esses intervalos são chamados de intervalos de classe e os limites do 
intervalo de limites de classe. 
4. Contar o número de observações que caem em cada intervalo de classe. Esse número é chamado 
de frequência da classe ou simplesmente frequência. 
5. Determinar a frequência relativa do intervalo de classe dividindo a frequência pelo número total 
de observações. 
Frequência relativa = Frequência/Total de observações. 
A escolha do número de intervalos de classe e de sua amplitude merece algumas considerações. 
Número de classes 
O número de intervalos de classe deve levar em conta o número de observações e a efetividade da 
tabela de frequência em mostrar a forma da distribuição. Se poucos intervalos forem utilizados, perde-se 
no detalhe e pode não ficar evidenciada a forma da distribuição. Com um número muito grande de inter-
valos, as classes podem ter poucas observações em cada uma e novamente não ficar explicitada a distri-
buição dos dados. Geralmente são utilizados de 7 a 15 intervalos de classe. Se o número de observações 
18 
 
 
for muito grande, é possível utilizar um número maior de classes. Os softwares disponíveis geralmente 
são programados para fazer uma escolha adequada do número de classes na maioria dos casos. 
Amplitude dos intervalos de classe 
A escolha da amplitude dos intervalos está relacionada com o número de classes. É geralmente 
adequado escolher intervalos de classe de igual amplitude. Porém, quando a distribuição dos dados é for-
temente assimétrica, com poucas observações nos valores extremos, utiliza-se intervalos de classe com 
amplitudes diferentes. Na análise de dados econômicos, principalmente dados de renda, esse tipo de cons-
trução é muito comum. Pode-se adotar inclusive intervalos de classe abertos em um dos extremos. Por 
exemplo, a última classe pode ser definida pela renda maior ou igual a um certo valor. 
Esse trabalho é cansativo quando feito manualmente, principalmente se o conjunto de dados con-
tém muitas observações. Hoje, com a disponibilidade de computadores e de softwares adequados, essa ta-
refa é trivial. 
Histograma 
Um histograma nada mais é que uma representação gráfica de uma distribuição de frequência. 
Um histograma é formado por retângulos justapostos, sendo que a base do retângulo é formada pelos in-
tervalos de classe e a altura do retângulo é proporcional à frequência do intervalo. Um histograma fornece 
uma representação visual da distribuição dos dados. 
Em geral é mais adequado construir um histograma da frequência relativa.Uma das razões é que 
a influência do tamanho da amostra é minimizada. A área total do histograma (soma das áreas de cada re-
tângulo, considerando a base como sendo igual a 1) é 1 ( ou 100%). Dessa forma é possível comparar du-
as distribuições. 
Gráfico da Frequência Relativa Acumulada 
É usual apresentar o gráfico da frequência relativa acumulada, que nada mais é que um gráfico 
em que na ordenada se coloca a variável resposta (Y), e na abscissa a frequência relativa acumulada (Fra). 
19 
 
 
Para um valor Y0 na ordenada, o gráfico apresenta a proporção de valores no conjunto de dados que são 
menores ou iguais a Y0. 
Gráfico Ramo-e-Folhas 
O histograma é uma forma clássica de representar a distribuição dos resultados. Uma forma alter-
nativa, e que é muito simples de ser feita, é o ramo-e- folhas, que é uma combinação de tabela e gráfico. 
A melhor forma de explicar o que é um gráfico ramo-e-folha é através de um exemplo. A tabela 
abaixo apresenta os valores de aluguéis de um determinado tipo de imóvel (em mil). 
Tabela 4: Valor do aluguel 
 1.39 1.40 1.60 1.41 1.43 
 1.46 1.30 1.50 1.34 1.47 
 1.56 1.35 1.52 1.51 1.25 
 1.39 1.55 1.59 1.50 1.66 
 1.61 1.32 1.46 1.30 1.51 
 1.52 1.48 1.38 1.40 1.55 
 1.39 1.33 1.46 1.43 1.35 
 1.57 1.50 1.20 1.48 1.41 
 1.65 1.51 1.42 1.60 1.29 
 1.38 1.46 1.39 1.42 1.46 
 1.70 1.55 1.46 1.52 1.33 
 1.52 1.25 1.48 1.60 1.43 
 1.51 1.35 1.40 1.46 1.57 
 1.62 1.46 1.51 1.24 1.50 
 1.56 1.30 1.40 1.55 1.50 
 1.52 1.43 1.39 1.41 1.38 
 1.40 1.35 1.48 1.42 1.30 
 1.38 1.55 1.46 1.58 1.34 
 1.41 1.29 1.41 1.42 1.43 
 1.38 1.48 1.42 1.60 1.35 
 
 O primeiro valor na tabela (1.39) será usado para ilustrar o princípio. O número 1.39 é separado 
em duas partes da seguinte forma: 
Número : 1.39 Partição: 13|9 Ramo: 13 Folha: 9 
20 
 
 
 
Construímos então uma coluna com os ramos possíveis. No exemplo, os ramos são formados pe-
los números 11, 12, 13, 14, 15, 16 e 17, já que as medidas variam de 11.9 a 17.0. Ao lado de cada ramo, 
formando as folhas, anotamos o último dígito da medida, cada uma corresponde ao seu ramo. Finalmen-
te, podemos ordenar os números nas folhas. 
 
Figura 2: Gráfico Ramo e Folha do valor do aluguel 
 
O gráfico ramo-e-folhas apresenta algumas vantagens sobre o histograma: 
1. É mais fácil de ser construído manualmente. 
2. As medidas aparecem representadas, o que em algumas situações, é muito importante. 
3. As medidas são apresentadas de forma ordenada. 
Uma regra para determinar o número máximo de ramos (L) e que funciona adequadamente num 
número grande de casos é a seguinte: 
� = 10 × log	
 � 
L = 10*log10 n 
21 
 
 
onde � é o número de observações. Nesse caso, �	 = 	20. O ramo-e-folha modificado tem 12 ramos, que 
no caso é adequado. 
Na realidade, construir um ramo-e-folha adequado exige um pouco de técnica e um pouco de arte. 
Existem muitas variantes que podem ser usadas. O que temos de ter em mente é o objetivo: procurar des-
cobrir a forma da distribuição das medidas. 
O histograma para esse conjunto de dados é apresentado na figura 3. 
 
Figura 3: Histograma do valor do aluguel 
Algumas vezes as medidas são resultados de contagem, tais como o número de filhos por família, 
o número de insetos por planta, etc. Se o número de valores distintos que ocorrem na amostra não é muito 
grande, construímos a distribuição de frequência dos valores individuais. O histograma é construído da 
mesma forma, usando-se linhas verticais em lugar de retângulos. 
Exemplo: 25 famílias foram amostradas e o número de filhos por família foi contado em cada fa-
mília. Os resultados obtidos foram: 
Fam. NF Fam. NF 
22 
 
 
1 3 14 4 
2 5 15 5 
3 1 16 2 
4 3 17 1 
5 2 18 1 
6 4 19 3 
7 2 20 0 
8 1 21 2 
9 3 22 2 
10 2 23 2 
11 3 24 2 
12 2 25 2 
13 3 
 
 
A tabela abaixo apresenta a distribuição de frequência do número de filhos por família. O histo-
grama da distribuição é também apresentado a seguir. 
Número 
de filhos 
Freq. 
Freq. 
Rel. 
0 1 0.04 
1 4 0.16 
2 10 0.40 
3 6 0.24 
4 2 0.08 
5 2 0.08 
Total 25 1.00 
 
23 
 
 
 
Medidas de Centralidade 
Os procedimentos gráficos apresentados até aqui ajudam a visualizar a forma da distribuição das 
medidas. O próximo passo na análise é quantificar alguns aspectos importantes da distribuição. Duas me-
didas são amplamente utilizadas, uma para localizar a posição central e outra para quantificar a variabili-
dade ou dispersão da distribuição. 
A medida de posição central é um valor representativo da distribuição em torno do qual as outras 
medidas se distribuem. Duas medidas são as mais utilizadas: a média aritmética e a mediana. 
Média Aritmética 
A média aritmética de um conjunto de n valores, como o próprio nome indica, é obtida somando-
se todas as medidas e dividindo-se a soma por n. Representamos cada valor individual por uma letra (x, 
y, z, etc.) seguida por um sub-índice, ou seja, representamos os n valores da amostra por �	, ��, . . . , ��, 
onde �	 é a primeira observação, �� é a segunda e assim por diante. Então escrevemos 
24 
 
 
x�=∑ xini=1n 	
onde ∑ �����	 é um símbolo matemático que se lê "somatório" de ��, para i variando de 1 a n, que é equi-
valente a �	 + ��+. . . +��. 
Exemplo: O número médio de filhos por família, usando os dados do exemplo acima, é dado por: 
�� = �3 + 5 + 1 + 3 + ⋯+ 2 � = 6025 = 2.4 
Mediana 
A mediana é uma medida alternativa à média aritmética para representar o centro da distribuição. 
A mediana de um conjunto de medidas �	, ��, . . . , �� é um valor M tal que pelo menos 50% das medidas 
são menores ou iguais a M e pelo menos 50% das medidas são maiores ou iguais a M. Em outras pala-
vras, 50% das medidas ficam abaixo da mediana e 50% acima. 
Exemplo: Uma mulher, durante seu período reprodutivo, deu a luz a 5 crianças. Os pesos dos re-
cém-nascidos foram: 9.2, 6.4, 10.5, 8.1 e 7.8. Calcule a mediana dos pesos. 
Os valores ordenados são: 6.4 7.8 8.1 9.2 10.5. 
Portanto a mediana é 8.1. 
Exemplo: Os dados abaixo são tempos de vida (em dias) de 8 lâmpadas: 
500 550 550 550 600 700 750 2000 
Note que temos dois valores que satisfazem a condição de ser mediana, o quarto (550) e o quinto 
(600) valor na lista ordenada. Nesse caso, definimos a mediana como sendo a média dos dois valores 
centrais: 
#$%&'�'	 = 550 + 6002 = 575	
A média aritmética desses valores é 575. 
25 
 
 
Observe que se a lâmpada que sobreviveu 2000 dias tivesse sobrevivido 3950 dias o valor da me-
diana não se alteraria, mas a média aritmética aumentaria. Não ser afetada por valores extremos é uma 
vantagem da mediana em relação à média. Quando a distribuição dos dados é simétrica os valores da mé-
dia e da mediana praticamente coincidem. Quando a distribuição é assimétrica a média é "puxada" na di-
reção da assimetria. 
Quase sempre quando olhamos uma média fazemos algum julgamento de valor. Se lemos no jor-
nal qual é a renda média de uma determinada comunidade somos tentados a avaliar como é a situação 
econômica dessa comunidade. O valor pode ser alto e mesmo assim a situação social ser muito ruim. Bas-
ta que poucos ganhem muito e muitos ganhem pouco. A mediana não é influenciada por esses valores ex-
tremos e nesse caso refletirá melhor a condição econômica da comunidade. 
Em qualquer estudo, é interessante reportar as duas medidas de centralidade. 
Moda 
A moda de uma distribuição é o valor que ocorre mais frequentemente, ou o valor que correspon-
de ao intervalo de classe com a maior frequência. A moda, da mesma forma que a mediana, não é afetada 
por valores extremos. 
Uma distribuição de frequência que apresenta apenas uma moda é chamada de unimodal. Se a 
distribuição apresenta dois pontos de alta concentração ela é chamada de bimodal. Distribuições bimodais 
ou multimodais podem indicar que na realidade a distribuição de frequência se refere a duas populações 
cujas medidas foram misturadas. Por exemplo, suponhaque um lote de caixas de leite longa vida é amos-
trado e em cada caixa da amostra é medido o volume envasado. Se o lote é formado pela produção de du-
as máquinas de envase que estão calibradas em valores diferentes, é possível que o histograma apresente 
duas modas, uma para cada valor de calibração. 
Percentis 
Se o número de observações é grande, é interessante calcular algumas outras medidas de posição. 
Essas medidas são uma extensão do conceito de mediana. 
26 
 
 
 Suponha que estamos conduzindo um experimento com animais. Eles recebem um droga e me-
dimos o tempo de vida (em dias) após a ingestão da droga. Poderíamos fazer a seguinte pergunta: Qual é 
o tempo em que 50% do animais ainda estão vivos? Obviamente esse valor será a mediana. Poderíamos 
estar interessados em saber qual é o tempo em que 75% dos animais estão vivos. Ou 25%. Esses valores 
são chamados de Quartis da distribuição (dividem a distribuição em quartas partes) e são representados 
por Q1 (1º quartil - 25%) e Q3 (3º quartil - 75%). O segundo quartil, Q2, que corresponde a 50%, é a 
mediana. 
Esse conceito pode ser estendido um pouco mais, e em lugar de 25%, 50% e 75%, podemos que-
rer calcular percentis (5%,10%, 90%, Tc). 
Seja p um número qualquer entre 0 e 1. O 1100 × )-ésimo percentil é um valor tal que depois das 
medidas terem sido ordenadas, pelo menos 100 × )% das medidas são menores ou iguais a esse valor, e 
pelo menos 100 × �1 − ) % das medidas são maiores ou iguais a esse valor. 
Exemplo: O ganho em peso de 9 ratos submetidos a uma dieta são dados a seguir: 
93.9 105.8 106.5 116.6 125.0 128.3 132.1 136.7 152.4 
Cálculo de Q1 : Q1 corresponde a 25%. Então p=0.25 . 
O número de observações menores ou iguais a Q1 é 0.25 × 9 = 2.25. 
O número de observações maiores ou iguais a Q1 é �1 − 0.25 × 9 = 6.75 
Em outras palavras, pelo menos 3 observações tem que ser menores ou iguais a Q1, e pelo menos 
7 observações têm que ser maiores ou iguais a Q1. A medida 106.5 satisfaz esses requerimentos e, portan-
to Q1 = 106.5. 
Cálculo de Q3: Argumentos semelhantes mostram que Q3 = 132.1. 
Temos também que Q2 = 125.0, que é a mediana. 
Exemplo: Calcular os quartis e os percentis 5%, 10%, 90% e 95% para o amostra de valor de 
venda de um produto em 95 pontos de venda amostrados apresentado acima. 
27 
 
 
 
75% Q3 45.3 5% 35.2 
50% Q2 42.2 10% 37.0 
25% Q1 39.5 90% 47.0 
Média 42.4 95% 50.2 
 
Softwares de análise estatística calculam percentis utilizando diferentes métodos, os quais envol-
vem algum tipo de interpolação. Por isso é possível encontrar-se discrepâncias entre os valores calculados 
por diferentes programas. Essas discrepâncias em geral não afetam a análise. 
Média Geométrica 
A média geométrica de n números positivos é a raiz enésima do produto desses números. A média 
geométrica é usada principalmente quando estão envolvidas medidas que são razões ou índices econômi-
cos. Lembrando as propriedades de logaritmo de produto e de razão, é fácil mostrar que a média geomé-
trica de um conjunto de n números é o antilogaritmo da média aritmética dos logaritmos desses números. 
Assim é possível entender porque essa média é muito usada com dados econômicos. Esse tipo de dados 
apresenta geralmente uma distribuição que é fortemente assimétrica. Por isso é comum se trabalhar com o 
logaritmo das medidas para corrigir a assimetria. 
Exemplo: O preço de um determinado produto levantado em quatro meses consecutivos apresen-
tou os seguintes valores: R$30,00, R$33,00, R$33,66 e R$41,74. A taxa de acréscimo mês a mês é dada 
por: 1.1, 1.01 e 1.24. A taxa média de inflação no período, se calculada através da média geométrica foi: 
 
	�1.1 × 1.01 × 1.24 	/. = 	1.11 
 
28 
 
 
Dessa forma, o preço do quarto mês pode ser obtido a partir do preço do primeiro mês da seguinte 
forma: 
 
41.74	 = 	30.00 × �1.11 .	
Média harmônica 
 A média harmônica de � números �	, … , �� é definida como sendo o inverso da média dos recí-
procos, ou seja, 
�∑�	/01 . Essa média é utilizada quando os dados são razões. 
Exemplo: Um veículo percorre uma distancia de 20km a 50 km/hora e uma outra distância de 20 
km a 40 km/hora. Qual foi a velocidade média no percurso total? 
O carro levou 0.9 horas para percorrer 40 km; portanto sua velocidade média foi de 44.4km/hora. 
A média harmônica das velocidades médias é: 
��	/2
	3	/4
 	= 	44.456/ℎ89'. 
A média harmônica tem um uso muito limitado. 
Medidas de Variabilidade 
Como dissemos anteriormente, variabilidade está presente em praticamente todos os fenômenos 
estudados. Dois indivíduos submetidos às mesmas condições respondem de forma diferente. É importante 
entender essa variabilidade, e principalmente saber quantificá-la. 
 Suponha que você está interessado em saber quantos peixes existe em um determinado lago. 
Uma forma de se chegar a esse número é pescar todos os peixes e contar. Esse procedimento não é práti-
co. Outra forma é usar um procedimento amostral e estimar esse número. Um procedimento que se pode-
ria utilizar é o seguinte: Uma quantidade N de peixes é pescada, marcada e devolvida ao lago. Nesse mo-
mento a proporção de peixes marcados no lago é 
:;, onde M é o total de peixes no lago, quantidade que 
29 
 
 
queremos estimar. Após certo tempo, suficiente para que os peixes que foram devolvidos ao lago se mis-
turem, uma nova pesca é realizada de n peixes. Conta-se então o número de peixes marcados na segunda 
pesca. Vamos denotar por x esse número. Então, 
0� é uma estimativa da proporção de peixes marcados. 
Então fazemos 
:; = 0�, e calculamos finalmente # = :�0 . Suponha que a estimativa deu 5.946 peixes. Se 
repetirmos o processo encontraremos outro valor para M. Existe, portanto, uma variabilidade associada 
com essa estimativa, ou dito de outra forma, existe uma incerteza associada com esse número. A menos 
que quantifiquemos essa incerteza, a estimativa é de pouca utilidade. Nesse caso, a incerteza está associa-
da ao processo amostral. 
Quando realizamos uma medida em laboratório, essa medida contem uma incerteza que está asso-
ciada ao sistema de medição. É necessário quantificar essa precisão para que a medida seja útil. 
Quando calculamos índices econômicos baseados em amostragem, tal como o índice de inflação, 
existe uma incerteza associada com esse índice que precisa ser quantificada para que os agentes econômi-
cos possam tomar suas decisões. 
Somente o cálculo da média, ou outra medida de posição, não é suficiente para caracterizar o con-
junto de dados. Dois conjuntos de medidas podem ter a mesma média, mas diferir com respeito à distri-
buição das medidas em torno da média. 
Considere os dois conjuntos de dados seguintes: 
 
A: (2, 3, 4) B: (1, 3, 5) 
 
Ambos tem média igual a 3, mas o conjunto B é mais disperso em torno da média. 
Existem diversas formas de quantificar a dispersão de um conjunto de medidas. 
Amplitude 
30 
 
 
 A mais simples é a Amplitude, que nada mais é que a diferença entre o maior e o menor valor do 
conjunto. 
 No exemplo acima, a amplitude do conjunto A é 4-2=2 e do conjunto B é 5-1=4. 
Desvio Padrão 
O uso da amplitude apresenta algumas desvantagens, a mais importante é que o seu cálculo en-
volve apenas os valores extremos do conjunto. Uma forma de medir variabilidade, e que é amplamente 
utilizada, é o desvio padrão. 
Como a média é uma medida de centralidade, e estamos interessados em quantificar a dispersão 
dos dados em torno da média, vamos usar os desvios de cada valor em torno da média. Esses valores são: �	 − ��, �� − ��,… , �� − ��, e são chamados de desvios em torno da média. É fácil verificar que a soma 
desses desvios é 0, ou seja, ∑ ��� − �� ���	 . Esse fato resulta de que alguns desvios são positivos, outros 
negativos, e que na média se anulam. O cálculo do desvio padrão faz uso desses desvios de uma forma di-
ferente. 
O desvio padrão de um conjunto de medidas é definido como:< = =∑ ��� − �� ���	� − 1 
Uma medida equivalente, e que é usada por conveniência, é a variância amostral, que nada mais é 
que o quadrado do desvio padrão. 
<� = ∑ ��� − �� ���	� − 1 
Exemplo: Uma empresa com 100 funcionários anotou o número de faltas semanais durante 6 se-
manas consecutivas. Os resultados obtidos foram: 4, 2, 3, 3, 6 e 3. Calcule a média, variância e desvio pa-
drão das medidas. 
média amostral: �� = ∑01� = �	> = 3.5 
31 
 
 
 variância amostral: <� = ∑ �01?@� A1BC�?	 = D.22 = 1.9 
 desvio padrão amostral: < = E∑ �01?@� A1BC�?	 = 1.4 faltas 
Amplitude interquartis 
 
Uma outra medida de dispersão que é utilizada é a amplitude interquartis, definida como: 
Amplitude interquartis= Q 3 - Q 1. 
A amplitude interquartis representa o intervalo coberto por 50% das medidas centrais. 
Coeficiente de Variação 
Uma desvantagem do desvio padrão como medida de dispersão é que ele depende da escala de 
medidas que se está utilizando. Por exemplo, o peso de um objeto tem um desvio padrão de 0.1 onças ou 
2835 miligramas, o que é a mesma coisa. Mas olhando o valor absoluto, em um caso podemos imaginar 
que a dispersão é pequena, e no outro que a dispersão é muito grande. Por outro lado, se estamos medindo 
anéis de ouro que estão sendo produzidos, essa dispersão pode ser muito grande. Por outro lado, se esta-
mos pesando sacos de cimento, essa dispersão é irrelevante. Para contornar esse problema definimos uma 
medida de variação relativa que é o coeficiente de variação. O coeficiente de variação é a razão entre o 
desvio padrão e a média, e geralmente é apresentado em porcentagem. 
F. G. = 		 H.I.JéL�M = NO . 
Observe que o C.V. é uma quantidade adimensional. 
Exemplo: Diversas medidas do diâmetro de uma bola de rolamento foram feitas com um micrô-
metro apresentaram média de 2.49 mm e desvio padrão de 0.012 mm. Medidas do comprimento de um 
parafuso de precisão feitas com um outro micrômetro apresentaram média de 0.75 polegadas com desvio 
padrão de 0.002. Qual dos micrômetros é mais preciso? 
32 
 
 
Para o primeiro micrômetro temos: F. G.= 	0.012	/	2.49	 = 	0.0048. 
Para o segundo micrômetro temos: F. G	 = 	0.002	/	0.75		 = 	0.0027. 
Então o primeiro micrômetro é mais preciso que o segundo. 
Algumas Estatísticas Adicionais 
Até agora discutimos estatísticas de locação (média, mediana, percentis) e de dispersão (desvio 
padrão. amplitude, amplitude interquartis). Existe uma quantidade ilimitada de estatísticas que podem ser 
calculadas a partir de um conjunto de dados que descrevem outras características da distribuição. 
Coeficiente de Assimetria 
Embora distribuições de dados possam assumir as mais diferentes formas, a maioria delas pode 
ser aproximada por um pequeno número de tipos padrões. Dentre essas, a mais importante é a distribuição 
simétrica que tem a forma aproximada de um sino, e que será estudada com detalhes mais à frente. 
Distribuições que tem apenas um pico importante e que são assimétricas são classificadas em po-
sitivamente assimétricas se a cauda maior da distribuição é à direita e negativamente assimétricas se a 
cauda maior é à esquerda. Distribuições de renda são geralmente positivamente assimétricas; pouca con-
centração de alta renda e alta concentração de baixa renda. 
Existem diversas estatísticas usadas comumente para medir o grau de assimetria de uma distribui-
ção (skewness). Uma relativamente simples é baseada no fato de que se há perfeita simetria, então a mé-
dia e a mediana da distribuição são iguais. Se a distribuição tem assimetria positiva, então a média será 
maior que a mediana, e se a assimetria é negativa, a média é menor que a mediana. Essa relação é usada 
para definir o coeficiente de assimetria de Pearson, e é dado por: 
<Q = 3 × �6é%&' − 6$%&'�' %$RS&8	)'%9ã8 
33 
 
 
Para uma distribuição simétrica, SK =0. O valor de SK varia essencialmente entre -3 e 3. A divi-
são pelo desvio padrão torna SK independente da escala de medida. Outras medidas de assimetria exis-
tem, mas medem essencialmente a mesma coisa. 
Curtose 
Outra característica de uma distribuição simétrica é a forma como os dados se distribuem em tor-
no da média. Uma distribuição simétrica pode ser subdividida em três partes: meio, ombros e caudas. A 
caracterização da distribuição é feita em comparação com a distribuição normal ou gaussiana, que é a dis-
tribuição simétrica mais utilizada na Estatística. 
Considere a figura abaixo. 
 
A distribuição 1 representa a distribuição normal. A distribuição 3 tem concentração maior que a 
normal nas caudas e no meio e concentração menor nos ombros. A distribuição 2 tem concentração maior 
que a normal nos ombros e menor no meio e nas caudas. 
Uma medida numérica para distinguir as situações 1 e 3 é a curtose, que é calculada como: 
UV9W8R$ = �∑��� − �� 4X∑��� − �� �Y� 
 
3
1
2
34 
 
 
 O valor da curtose para a distribuição normal é zero. A curva 3 tem curtose positiva (dizemos 
que ela tem cauda mais pesada que a normal). A curva 2 tem curtose negativa (dizemos que ela tem cauda 
mais leve que a normal). 
Box Plot 
O Box Plot ( também chamado de box e whisker plot) é um método alternativo ao histograma e 
ao ramo-e-folha para representar os dados. O Box Plot fornece informação sobre as seguintes característi-
cas do conjunto de dados: locação, dispersão, assimetria, comprimento da cauda e outliers (medidas dis-
crepantes). 
Embora o Box plot forneça informação sobre locação e dispersão, seu verdadeiro valor está na in-
formação que fornece sobre a cauda da distribuição. Pontos desgarrados (Outliers) podem afetar de forma 
adversa as decisões a serem tomadas a partir da análise dos dados se não forem devidamente considera-
dos. O Box Plot é uma ferramenta gráfica que ajuda a identificar a existência de possíveis outliers no con-
junto de dados. 
Um Box Plot nada mais é que um retângulo alinhado verticalmente (ou horizontalmente) com du-
as semi-retas, uma em cada um de lados opostos do retângulo. A altura do retângulo é definida pelos 
quartis Q1 e Q3. Uma linha seciona o retângulo no valor da mediana (ou Q2). As semi-retas ligam res-
pectivamente os quartis Q1 e Q3 ao valor mínimo e máximo do conjunto de dados. Quando o conjunto de 
dados é grande, as semi-retas vão até os percentis 10% e 90% ou até os percentis 5% e 95%. Então, valo-
res extremos são representados por um zero ou por um asterisco. Não existe uma única forma de apresen-
tar um gráfico Box plot. Diferentes livros (ou softwares) adotam variações na apresentação dos pontos ex-
tremos. O gráfico abaixo apresenta o Box plot para o valor de venda de um produto amostrado em 95 
pontos de venda, apresentado anteriormente. 
Interpretação do Box Plot 
O centro da distribuição é indicado pela linha da mediana. A dispersão é representada pela altura 
do retângulo (Q3 -Q1). O retângulo contem 50% dos valores do conjunto de dados. A posição da linha 
35 
 
 
mediana no retângulo informa sobre a assimetria da distribuição. Uma distribuição simétrica teria a medi-
ana no centro do retângulo. Se a mediana é próxima de Q1 então os dados são positivamente assimétricos. 
Se a mediana é próxima de Q3 os dados são negativamente assimétricos. No exemplo a seguir, a distri-
buição dos dados é simétrica: 
 
O comprimento das linhas fora do retângulo (algumas vezes chamadas de whisquers) informam 
sobre a cauda da distribuição. Os valores fora de Q1-1.5*(Q3-Q1) e Q3+1.5*(Q3 -Q1) geralmente são 
chamados de "outside" e devem ser investigados como possíveis outliers. Valores "outside" não são ne-
cessariamente outliers, mas um outlier usualmente aparece no gráfico como um outside. 
Exemplo: Um engenheiro numa indústria química é responsável pela produção de acetona. Para 
avaliar a linha de produção, o gerente monitora o processo. Durante uma semana, 16 bateladas de acetona 
são produzidas e uma leitura por batelada é feita. Os resultados são apresentados natabela abaixo. 
Batelada 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
Leitura 6 24 12 11 34 32 28 19 31 22 29 58 15 5 17 25 
 
Arrumamos os dados em ordem crescente: 
 
36 
 
 
5, 6, 11, 12, 15, 17, 19, 22, 24, 25, 28, 29, 31, 32, 34, 58 
 
Desses dados calculamos: 
Q1=13.5 M=23 Q3=30 
IQR=16.5 Min=5 Max=58 
O Box plot é apresentado a seguir. 
 
Além de fornecer informações importantes sobre um conjunto de dados, o Box plot é usado para 
comparar graficamente mais de um conjunto de medidas com respeito à media, dispersão e distribuição. 
Isso pode ser conseguido desenhando-se os Box plots para cada conjunto de dados paralelamente num 
mesmo gráfico. 
O próximo conjunto de dados apresenta dados de viscosidade de 3 misturas diferentes 
Mistura 1 Mistura 2 Mistura 3 
22.02 21.49 20.33 
23.83 22.67 21.67 
26.67 24.62 24.67 
25.38 24.18 22.45 
25.49 22.78 22.29 
23.50 22.56 21.95 
25.90 24.46 20.49 
24.89 23.79 21.81 
 
O Box Plot comparativo é apresentado a seguir: 
37 
 
 
 
Como podemos observar, as misturas apresentam níveis médios diferentes de viscosidade, de-
crescentes da mistura 1 para a mistura 3. 
Diagrama de Pareto 
Um dos objetivos centrais de um programa de qualidade é reduzir perdas provocadas por peças 
defeituosas que não atendem às especificações. Existem muitos tipos de defeitos que fazem com um pro-
duto não atenda às especificações. Concentrar esforços no sentido de eliminar todos os tipos de defeitos 
não é uma política eficaz. Geralmente, alguns poucos tipos de defeitos são responsáveis pela maioria das 
rejeições, e é mais eficaz atacar as causas desses poucos defeitos mais importantes. 
Essa abordagem já foi proposta por J. M. Juran, um dos pioneiros da Qualidade. Ele estabeleceu 
uma regra hoje conhecida como “a regra dos poucos vitais e dos muitos triviais”. 
Para identificar os poucos vitais ele propôs a utilização de um diagrama conhecido como Diagra-
ma de Pareto. O diagrama é basicamente um histograma da distribuição dos defeitos pelos tipos, ordenado 
em ordem decrescente de freqüência de ocorrência. 
Exemplo: Uma empresa classificou um grupo de 100 produtos rejeitados por problemas de emba-
lagem pelo tipo de defeito que causou a rejeição. Os resultados estão apresentados na tabela abaixo. 
Mistura 3Mistura 2Mistura 1
27
26
25
24
23
22
21
20
D
a
ta
Boxplot of Mistura 1; Mistura 2; Mistura 3
38 
 
 
Tipo de defeito 
Número de 
peças 
Porc. 
Porc. 
Acum. 
A: Não selagem do topo 55 0.4 0.4 
B: Não selagem do fundo 38 0.28 0.68 
C: Não selagem lateral 22 0.16 0.84 
D: Impressão borrada 8 0.06 0.9 
E: Caixa amassada 7 0.05 0.95 
F: Cor da impressão 4 0.03 0.98 
G: Caixa rasurada 2 0.02 1.00 
 
Obs. Existem 136 defeitos porque algumas embalagens apresentaram mais de um defeito. 
O Diagrama de Pareto para esses dados é apresentado abaixo. 
Observe que os defeitos A, B e C são responsáveis por 84% do total e o esforço de melhorar a 
qualidade deveria se concentrar primeiramente neles. 
39 
 
 
 
Série de Tempo 
A tabela de frequência, e seu equivalente gráfico que é o histograma, devem ser utilizados com a 
devida cautela. Se estivermos medindo uma característica de um processo sequencialmente, o histograma 
das medidas não inclui a informação sobre a ordem em que os dados foram obtidos, e consequentemente 
não revela tendências ou ciclos que podem estar ocorrendo ao longo do tempo, ou mesmo aumento ou de-
créscimo da variabilidade. A falta dessa informação é crítica quando utilizamos as medidas para monito-
rar o processo. 
Geralmente utilizamos a distribuição da característica de qualidade para avaliar a capacidade do 
processo. Antes de construir a distribuição e calcular os índices, é necessário certificar-se de que o pro-
cesso está estável, ou sob controle estatístico. Quando amostras são retiradas sequencialmente, é necessá-
0
25
50
75
100
125
150
Tipo de defeito
0
20
40
60
80
100
40 
 
 
rio graficar as medidas contra a ordem em que elas foram obtidas. Tendências e ciclos presentes no pro-
cesso são relativamente fáceis de detectar nesse tipo de gráfico. 
Exemplo: Barras de chocolate são produzidas e a cada 15 minutos 3 barras são retiradas da linha e 
pesadas. Os dados obtidos durante um período de 6 horas e 30 minutos bem como o histograma estão 
apresentadas na tabela abaixo. 
N tempo Obs Amostra Peso N tempo Obs Amostra Peso N tempo Obs Amostra Peso 
1 9.00 1 1 170.384 28 11.15 1 10 170.100 55 13.30 1 19 170.951 
2 9.00 2 1 169.817 29 11.15 2 10 170.667 56 13.30 2 19 171.234 
3 9.00 3 1 170.667 30 11.15 3 10 170.384 57 13.30 3 19 170.384 
4 9.15 1 2 169.533 31 11.30 1 11 171.234 58 13.45 1 20 170.667 
5 9.15 2 2 169.817 32 11.30 2 11 170.667 59 13.45 2 20 170.667 
6 9.15 3 2 170.384 33 11.30 3 11 170.951 60 13.45 3 20 170.667 
7 9.30 1 3 170.951 34 11.45 1 12 170.667 61 14.00 1 21 171.234 
8 9.30 2 3 170.667 35 11.45 2 12 170.384 62 14.00 2 21 171.518 
9 9.30 3 3 170.667 36 11.45 3 12 170.100 63 14.00 3 21 170.951 
10 9.45 1 4 170.667 37 12.00 1 13 170.951 64 14.15 1 22 171.801 
11 9.45 2 4 170.951 38 12.00 2 13 170.667 65 14.15 2 22 170.951 
12 9.45 3 4 170.667 39 12.00 3 13 171.234 66 14.15 3 22 171.234 
13 10.00 1 5 170.100 40 12.15 1 14 170.667 67 14.30 1 23 171.518 
14 10.00 2 5 169.817 41 12.15 2 14 170.667 68 14.30 2 23 171.234 
15 10.00 3 5 170.384 42 12.15 3 14 170.951 69 14.30 3 23 170.667 
16 10.15 1 6 169.817 43 12.30 1 15 170.951 70 14.45 1 24 171.518 
17 10.15 2 6 170.100 44 12.30 2 15 170.667 71 14.45 2 24 171.234 
18 10.15 3 6 170.100 45 12.30 3 15 170.951 72 14.45 3 24 170.951 
19 10.30 1 7 170.667 46 12.45 1 16 170.951 73 15.00 1 25 171.234 
20 10.30 2 7 170.384 47 12.45 2 16 170.100 74 15.00 2 25 171.801 
21 10.30 3 7 170.100 48 12.45 3 16 170.384 75 15.00 3 25 171.518 
22 10.45 1 8 170.384 49 13.00 1 17 171.234 76 15.15 1 26 171.518 
23 10.45 2 8 170.951 50 13.00 2 17 170.667 77 15.15 2 26 170.951 
24 10.45 3 8 170.384 51 13.00 3 17 170.951 78 15.15 3 26 171.234 
25 11.00 1 9 170.384 52 13.15 1 18 171.518 79 15.30 1 27 170.951 
26 11.00 2 9 170.667 53 13.15 2 18 170.667 80 15.30 2 27 171.234 
41 
 
 
27 11.00 3 9 170.100 54 13.15 3 18 171.234 81 15.30 3 27 170.951 
 
 
Aparentemente não há nada de errado com o histograma, ou melhor, o histograma não indica ne-
nhum problema com a estabilidade do processo. O gráfico das medidas contra a ordem em que foram ob-
tidas está apresentado na figura abaixo. 
 
D
e
n
s
it
y
P
e
s
o
42 
 
 
 Observe que há uma tendência de aumento no peso das barra produzidas ao longo do período de 
7 horas, o que aponta para a necessidade de intervenção no processo. Essa tendência fica mais clara quan-
do elaboramos um gráfico com o peso médio da amostra versus o tempo. 
 
O gráfico a seguir apresenta o comportamento da variabilidade ao longo do tempo. O desvio pa-
drão é calculado para cada amostra. 
 
 Esse tipo de gráfico será melhor explorado e analisado através do estudo das cartas de controle. 
170.0
170.5
171.0
171.5
172.0
Amostra
43 
 
 
Gráfico de Dispersão e o Coeficiente de correlação 
Quando medimos duas variáveis relacionadas a um mesmo problema, geralmente estamos inte-
ressados no estudo da relação entre as variáveis. Vamos considerar por hora a situação em que as duas va-
riáveis podem ser consideradas como contínuas. 
Exemplo. Uma empresa que distribui produtos por todo o país contrata uma empresa aérea para 
efetuar o transporte. Um estudo foi realizado pela empresa contratante para verificar a relação entre o cus-
to de transporte (Y) e o peso do material transportado (X). Os dados se referem a um período de 6 meses e 
estão apresentados na tabela abaixo. 
Custo Peso Custo Peso 
5492.29 3778.0 6143.24 4181.0 
 4401.89 3268.5 6309.65 4575.0 
 5721.46 4026.0 8391.60 6272.0 
 6237.14 4564.5 8530.49 6676.0 
 6396.44 4386.0 6343.74 4841.0 
 6863.91 5664.0 7482.64 6047.07258.21 4852.0 6467.10 5315.0 
 6643.56 5000.0 8768.30 6856.0 
 8515.98 6646.0 8833.71 7198.0 
 4687.63 3350.0 7987.36 6324.0 
 5928.33 3726.0 8267.05 6452.0 
10856.09 8718.0 4829.24 3699.0 
 7766.47 5647.0 
 
44 
 
 
O primeiro passo na análise dos dados é colocar os pontos num gráfico cartesiano de Y em função 
de X. 
 
 Do gráfico pode-se perceber que: 
• Há uma tendência de aumento do custo com o aumento do peso ( o que era de se esperar 
nesse exemplo) 
• Que a relação entre as duas variáveis é aproximadamente linear na região em que temos 
observações 
• Que há uma forte relação entre as duas variáveis. 
Se os pontos no gráfico apresentam pouca dispersão em torno de uma reta ligando X e Y dizemos 
que existe uma forte correlação linear entre as variáveis. Se os pontos apresentam alta dispersão dizemos 
que as variáveis são pouco correlacionadas. 
Uma forma de quantificar o grau de associação linear entre duas variáveis é através do coeficien-
te de correlação amostral. Ele mede o grau de associação linear que existe entre as duas variáveis. 
Se,	��	, Z	 , ���, Z� , … , �Z�, Z� são � pares de pontos, o coeficiente de correlação amostral 90,[ é 
calculado como: 
9000800070006000500040003000
11000
10000
9000
8000
7000
6000
5000
4000
Peso
C
u
s
to
Gráfico de Dispersão: Custo vs Peso
45 
 
 
90,[ = ∑��� − �� �Z� − \� ]∑��� − �� ��Z� − \� �	 
Pode-se verificar que o coeficiente de correlação é uma quantidade que varia entre -1 e 1, ou seja, 
−1 ≤ 90,[ ≤ 1 
O coeficiente de correlação mede a direção e o grau de associação linear entre as variáveis. Valo-
res próximos de -1 ou +1 indicam forte associação. Valores próximos de zero indicam pouca associação. 
O sinal do coeficiente indica se a associação é positiva (Y aumenta com o aumento de X) ou negativa ( Y 
decresce com o aumento de X). 
O coeficiente de correlação para os dados acima é 0.98. 
A seguir apresentamos diversas configuração de pares (X,Y) 
 
 
(a) (b) 
 
(c) (d) 
20151050
25
20
15
10
5
x
Y
Gráfico de Dispersão: Y vs X
20151050
35
30
25
20
15
10
5
0
x
Y
Gráfico de Dispersão: Y vs X
20151050
0
-5
-10
-15
-20
x
Y
Gráfico de Dispersão: Y vs X
252015105
35
30
25
20
15
10
5
0
X
Y
Gráfico de Dispersão: Y vs X
46 
 
 
 
 
(e) 
 
Os diagramas da Figura (a) e (b) mostram duas situações onde os pontos estão em torno de uma 
reta imaginária ascendente. Valores pequenos de X estão associados a valores pequenos de Y, o mesmo 
acontecendo para valores grandes. Estes dois casos indicam o que chamamos de correlação linear positiva 
de Y e X. O dados em (b) estão mais próximos da reta imaginária, caracterizando uma correlação mais 
forte que a de (a), ou seja, o valor da correlação em (b) está mais próxima de +1 do que (a), apesar do que, 
os dois conjuntos de dados têm valor de r maiores do que zero. 
A Figura (c) mostra que os pontos em X e Y estão em torno de uma reta imaginária descendente, 
indicando o que chamamos de correlação linear negativa, ou seja, valor de r menor que zero. 
Os valores de X e Y na Figura (d) não sugerem uma associação entre duas variáveis pois valores 
pequenos, ou grandes, de X estão associados tanto a valores pequenos quanto a valores grandes de Y. Os 
pontos do diagrama não se posicionam em torno de uma linha imaginária ascendente ou descendente. 
A Figura (e) aproxima-se mais de uma parábola do que de uma reta, ilustrando correlação não li-
near. Apesar de serem muito correlacionados, o coeficiente de correlação linear será próximo de zero. Isto 
ocorre devido ao fato de que o coeficiente só pode ser usado para correlações lineares. 
Correlação e causalidade 
Dizemos que uma variável X “causa” Y se X provoca um efeito ou resultado em Y. Devemos es-
tar atentos para não confundir os conceitos de correlação e causalidade. Muitas vezes encontramos uma 
20151050
120
100
80
60
40
20
0
x
Y
Gráfico de Dispersão: Y vs X
47 
 
 
forte correlação entre duas variáveis e somos tentados a estabelecer uma relação de causa e efeito entre as 
duas variáveis, o que nem sempre é verdade. 
A tabela seguinte apresenta o número de doentes mentais por 10000 habitantes e o número de 
aparelhos de rádio no Reino Unido durante os anos de 1924 a 1937. 
Ano Número de doentes men-
tais 
 no Reino Unido 
por 10000 habitantes 
Número aparelhos 
de rádio (em milhões) 
1924 8 1350 
1925 8 1960 
1926 9 2270 
1927 10 2483 
1928 11 2730 
1929 11 3091 
1930 12 3647 
1931 16 4620 
1932 18 5497 
1933 19 6260 
1934 20 7012 
1935 21 7618 
1936 22 8131 
1937 23 8593 
 
O gráfico abaixo mostra a forte relação existente entre o número de doentes mentais e o número 
de aparelhos de rádio. Entretanto, não é razoável pensar que a relação seja de causa e efeito. A variável 
ano é que está provocando está correlação. Ambas as variáveis aumentaram ao longo do tempo. 
48 
 
 
 
Quando encontramos uma correlação sem relação causal, dizemos que a correlação é espúria. 
Em muitas situações práticas não é tão simples decidir se a relação é causal. Uma forma de se es-
tabelecer se a relação é de causa e efeito é através da realização de experimentos planejados. 
Estudar a correlação entre duas ou mais variáveis pode ser bastante útil. Se Y é uma medida de 
um produto ou processo e se Y está fortemente correlacionada com outra medida X que é mais barata ou 
mais fácil de obter, então podemos medir X e através da relação existente entre elas estimar o valor de Y. 
A técnica utilizada nesse tipo de situação é regressão linear, que será estudada mais à frente. 
 
900080007000600050004000300020001000
25
20
15
10
N aparelhos de rádio (1000)
N
 d
o
e
n
te
s
 M
e
n
ta
is
 p
o
r 
1
0
0
.0
0
0
 h
Gráfico de Dispersão: N doentes Mentais vs N aparelhos de rádio
49 
 
 
Capítulo 2. Introdução à Probabilidade 
Introdução 
No capítulo anterior foram apresentadas ferramentas estatísticas para a sumarização dos dados, 
que é geralmente a primeira etapa da análise de dados. Essa etapa é geralmente aplicada em um conjunto 
de dados observados em uma amostra retirada de uma população. É necessário avançar na análise e, utili-
zando os resultados da amostra, fazer inferências sobre a população. O processo inferencial utiliza concei-
tos de probabilidade, que é o tópico a ser coberto nesse capítulo. 
Exemplo: Uma empresa quando recebe um lote de matéria-prima de um fornecedor tem de 
decidir se o lote satisfaz níveis de qualidade estabelecidos. Em geral, uma amostra é retirada do lote e ín-
dices de qualidade, como, por exemplo, a porcentagem de defeituosos, são calculadas na amostra. Utili-
zando-se o índice calculado, deve-se decidir se o lote é aprovado ou reprovado. Esse processo de tirar 
conclusões sobre a população (lote) a partir de uma amostra utiliza os conceitos de probabilidade. Obvia-
mente a conclusão está sujeita a erros. Podemos aprovar o lote quando ele tem uma porcentagem de defei-
tuosos maior que o aceitável ou reprovar um lote que tem porcentagem de defeituosos menor que o acei-
tável. O uso da teoria de probabilidade permite mensurar as chances de cometer esses dois tipos de erro, 
bem como auxilia a estabelecer planos amostrais de tal forma a controlar as chances de tomar uma deci-
são incorreta. 
Os conceitos de probabilidade são importantes por si só, e têm importantes aplicações em proces-
sos decisórios onde a incerteza está presente. 
Serão apresentados aqui apenas os conceitos básicos sobre probabilidades. 
Conceitos de Probabilidade 
Um experimento aleatório é um processo que apresenta como resultado qualquer um de um con-
junto de possíveis valores, sem que a ocorrência de um particular evento possa ser predita com certeza. A 
50 
 
 
maneira mais comum de medir a incerteza de um evento que pode resultar de um experimento aleatório é 
através da atribuição de um valor que reflete a chance de ocorrência desse evento. Esse valor é chamadode probabilidade. 
 Historicamente, a forma mais antiga de medir incerteza através de probabilidade é através do que 
é chamado de probabilidade clássica. Essa medida foi desenvolvida basicamente através dos jogos de 
azar. O conceito clássico de probabilidade aplica-se somente quando todos os possíveis resultados são 
igualmente prováveis. 
Suponha que um experimento aleatório tem um total de � resultados possíveis Ri, & = 1,2, . . , �, e 
que cada um desses resultados é igualmente provável. Então, a chance de ocorrência de cada um é 1/�. 
Expressamos isso de uma maneira formal dizendo: 
_�`� = 1/�, onde _ simboliza Probabilidade. 
Se um evento E é formado por m eventos elementares igualmente prováveis, então 
_�a = 6/�. 
O exemplo mais clássico de aplicação da probabilidade clássica é o lançamento de um dado ho-
nesto. O conjunto de resultados possíveis é {1, 2, 3, 4, 5, 6} e cada resultado ocorre com probabilidade 1/6. Se o evento E é formado pelos resultados pares, então _�a = _�2,4,6 = 3/6. Note que estamos fa-
lando aqui de um dado hipotético, para o qual assumimos que as faces são igualmente prováveis. Nada 
garante que um dado real tenha que ter faces igualmente prováveis. 
Se o experimento aleatório obedece à condição de eventos elementares igualmente prováveis, en-
tão todas as probabilidades relacionadas com o experimento podem ser calculadas a priori, sem necessi-
dade de experimentação. Entretanto, na maioria das situações, temos de estimar a probabilidade a partir 
da realização de experimentos. Para tanto, usamos a abordagem frequentista para calcular probabilidades. 
Suponha que um experimento que tem como resultados possíveis {`	, `�, . . . , `d} é realizado um 
número � de vezes, e que cada resultado `& ocorre �& vezes. Então a frequência relativa do evento `� é )� = ��	/�. Se � é suficientemente grande, �1� converge para _�`� , e usamos o valor ni /n como o valor 
51 
 
 
aproximado de _�`� . A aplicação da abordagem frequêntista pressupõe que nas n repetições do experi-
mento o sistema esteja estável, ou em equilíbrio. Como ∑�� = �, temos que ∑ �1� = ∑)� = 1. 
 Outra abordagem é tratar probabilidade como uma medida de crença sobre a ocorrência de um 
evento. Por exemplo, observando as condições de tempo hoje, uma pessoa afirma, baseada em sua experi-
ência, que a chance de chover amanhã é 40%. Esse número é a sua probabilidade pessoal, ou subjetiva 
sobre o evento “chover amanhã”. Um especialista em mercado de ações afirma, baseado em sua experiên-
cia e nas informações que tem disponível, que a chance que as ações de uma determinada empresa subam 
no pregão é de 70%. 
Qualquer que seja a interpretação, ou abordagem, as leis básicas de probabilidade são as mesmas. 
Em lugar de desenvolver essas leis com rigor formal, vamos listá-las aqui, apelar para a intuição do leitor 
para sua devida compreensão, e ilustrá-las através de alguns exemplos simples. 
As leis da Probabilidade 
Denotaremos por uma letra maiúscula A, B, ... um evento aleatório. Em geral, um evento aleató-
rio é um conjunto de objetos, e utilizaremos a linguagem da teoria dos conjuntos para listar as leis da pro-
babilidade. Por exemplo, se um experimento aleatório consiste em lançar um dado e definimos o evento A 
como sendo formado pelos resultados pares, então e = {2,4,6}. Se estivermos estudando o tempo de vida 
de leite longa vida, podemos definir o evento A como sendo formado por todas as caixas que duram um 
tempo maior que 90 dias. Então, e = {W:	W > 90}. Observe nesse exemplo que a observação é o tempo 
de vida da caixa, portanto os eventos são formados por intervalos de tempo. 
Denotaremos por S o conjunto de todos os resultados possíveis. No primeiro exemplo, < ={1,2,3,4,5,6}. No segundo exemplo, < = {W:	W	 > 	0}. Observe que no segundo exemplo consideramos < 
formado por todos os tempos maiores ou iguais a zero. Embora se saiba que há um limite para o tempo de 
vida de uma caixa de leite longa vida, por razões que ficarão claras mais à frente, é mais conveniente mo-
delar o conjunto dos valores possíveis para o tempo de vida como formado por todos os valores maiores 
ou iguais a zero. 
52 
 
 
Denotaremos por _�e a probabilidade de ocorrência do evento A 
1º Lei. Qualquer que seja o evento A 
 
0	 ≤ 	_�e 	≤ 	1 
 Se S representa o conjunto de todos os resultados possíveis e ∅ o conjunto vazio, então, 
_�< = 1 e _�∅ = 0. 
2º Lei. Se e	 e e� são dois eventos que não têm nenhum elemento em comum dizemos que e	 e e� são disjuntos �e	 	∩ 	e� 	= ∅ . Se dois eventos e	 e e� são disjuntos, então _�e	 ∪ e� = _�e	 + _�e� 
Obs. O evento �e	 ∪ e� é formado por todos os elementos de e	 e de e�. 
Generalizando, se e	, e�, … , ed são eventos mutuamente disjuntos, então, _�e	 ∪ e� ∪ …∪ ed 	 = _�e	 + 	_�e� +	. . . +_�ed 
3º Lei. Representamos por Ac o evento formado por todos os resultados possíveis que não fazem 
parte de A. Dizemos que Ac é o complementar do evento A. Temos, 
ek ∪ 	e = < e ek ∩ 	e = ∅. 
Então temos: 
_�ek 	 = 1 − 	_�e 
4º Lei. Se e	 e e� são dois eventos quaisquer, então, _�e	 ∪	e� = _�e	 + _�e� 	− 	_�e	 ∩	e� . 
Probabilidade Condicional e Independência 
53 
 
 
Em muitas situações, quando queremos saber a probabilidade de que certo evento e ocorra, temos 
à disposição a informação de que outro evento relacionado, l, ocorreu. Veremos como a informação de 
que o evento l ocorreu altera a probabilidade de ocorrência do evento e. A probabilidade revisada de e 
dada a informação de que l ocorreu é chamada de probabilidade condicional de e dado l e denotamos 
por _�e|l . Para ilustrar esse novo conceito e aprender como calcular a probabilidade condicional vamos 
recorrer a um exemplo. 
Exemplo: Um grupo de bancários foi classificado de acordo com sua condição de peso cor-
poral e presença ou ausência de hipertensão. As proporções encontradas nas diversas categorias aparecem 
na tabela a seguir. 
 
Tabela: Condição de Peso Corporal e Hipertensão 
 
Condição em relação ao peso 
 
 Acima Normal Abaixo Total 
 
Hipertenso 
 
Sim 0.10 0.08 0.02 0.20 
Não 0.15 0.45 0.20 0.80 
 Total 0.25 0.53 0.20 1.00 
 
Qual é a probabilidade de que uma pessoa selecionada ao acaso desse grupo tenha hipertensão? 
Vamos usar o símbolo e para denotar hipertensão. Então, queremos saber _�e . Esse valor é igual a 0.20 
e escrevemos _�e = 0.20. Qual é a probabilidade que uma pessoa selecionada ao acaso desse grupo te-
nha peso acima do normal. Vamos usar o símbolo l para a condição de ter peso acima do normal. Então, _�l = 0.25. 
Essas duas probabilidades são probabilidades não condicionadas. Suponha agora que uma pessoa 
é selecionada ao acaso e ela tem peso acima do normal. Qual é a probabilidade de que ela seja hipertensa. 
Como sabemos que ela tem peso acima do normal, o conjunto de pessoas a serem consideradas se reduz a 
54 
 
 
25% do total. Dessas 25%, 10% são hipertensas. Então a probabilidade considerada é igual a 0.10/0.25 = 0.40. Portanto, dada a informação de que a pessoa tem peso acima do normal, a probabilidade de 
ser hipertensa é igual a 40% e escrevemos: 
 _�e|l = 
.	
.�2 = 0.40 
Considere agora o evento: a pessoa é hipertensa e tem peso acima do normal. Denotamos esse 
evento por e ∩ l, ou simplesmente el. Então _�el = 0.10, ou seja, existem 10% de pessoas que satis-
fazem as duas condições ao mesmo tempo. Note que no cálculo da probabilidade condicional usamos a 
razão 0.10/0.25, que nesse caso coincide com a razão I�no I�o . De fato, essa coincidência não é fortuita e 
vale sempre, de tal forma que podemos utilizar essa relação para o cálculo da probabilidade condicional. 
A probabilidade condicional de e dado l é denotada por _�e|l e é definida pela fórmula 
_�e|l = _�el _�l 
 desde que _�l > 0. Equivalentemente, essa fórmula pode ser escrita como 
_�el = _�e|l _�l 
Essa versão da fórmula é chamada de lei da multiplicação da probabilidade. 
Similarmente, a probabilidade condicional de B dado A pode ser

Continue navegando