Apostila Estatística QUAL Unicamp REVISÃO 2020_VALUNO

•
FGV

Rodrigo Moreira
19/07/2020
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 97 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 97 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 97 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

57.007 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Estatística Aplicada / Profa. Luciana Oriqui 
 1 
 
 
UNIVERSIDADE DE CAMPINAS – UNICAMP 
FACULDADE DE ENGENHARIA QUÍMICA 
Cursos de Extensão Universitária 
 
 
 
 
 
 
 
 
 
 
 
ESTATÍSTICA BÁSICA APLICADA 
 
 
 
 
 
 
 
 
 
 
Livros Texto: 
Introdução à Estatística – Mario F. Triola – Editora LTC – 11a. Edição 
Estatística Aplicada à Administração e Economia – Anderson / Sweeney / Williams – Editora Thomson 
ESTAT – Johnson / Kuby – Editora Cengage Learning, 2014 
Estatística Teoria e Aplicações – Usando o Microsoft® Excel em Português – 6ª edição – Levine / Stephan 
/ Krehbiel / Berenson – Editora LTC 
Estatística Aplicada e Probabilidade para Engenheiros – Montgomery D.C. e Runger, G.C. – Editora Gen 
/ LTC, 5a. Edição, 2012 
 
Livros de apoio: 
Estatística Aplicada à Engenharia – Montgomery, Runger e Hubele – Editora LTC, 2a. Edição 
Estatística Geral e Aplicada – Gilberto de Andrade Martins – Editora Atlas – 2a. Edição 
Estatística Aplicada – Larson / Farber – Editora Pearson – 2a. Edição 
Estatística Aplicada – Douglas Downing & Jeffrey Clark – Editora Saraiva – 2a. Edição 
 
 Este trabalho trata-se de uma compilação dos livros e trabalhos acima mencionados, e tem como 
objetivo ser usado como notas de aulas dos Cursos de Extensão da UNICAMP. – Campinas – SP. 
Elaborada pelo Profa. Luciana Oriqui. 
 
2020 
Estatística Aplicada / Profa. Luciana Oriqui 
 2 
Conceitos Iniciais 
“A estatística é a ciência de coletar, descrever e interpretar dados”. 
Johnson/Kuby, 2014 
 
A estatística pode ser dividida em: 
 
- Estatística Descritiva: - informações reduzidas. – Uso de medidas-sínteses. 
- Estatística Indutiva ou Inferência Estatística: obter e generalizar conclusões. Fundamentada na Teoria das 
Probabilidades. 
 
 
Estatística Descritiva 
 
- Coleta de Dados 
- Organização e classificação destes dados 
- Apresentação através de gráficos e tabelas 
- Cálculo de coeficientes (estatísticos) que permitem descrever resumidamente os fenômenos. 
 
 
População 
- indivíduos que apresentem ao menos uma característica comum 
- finitas (n. limitado de indivíduos) ou infinitas 
 
Amostra 
- subconjunto finito (não vazio) de uma população estudada 
- utilizada para tirar conclusões sobre a população 
 
Estimativa 
- calculada em função de elementos da amostra 
 
Parâmetro 
- característica de toda uma população 
 
Censo 
- avaliação direta de um parâmetro 
 
 
Variáveis 
São as características de interesse dos estudos. 
- Qualitativas (por tipo de atributos) 
- Quantitativas (valores podem ser expressos em números) 
 
Qualitativa 
- nominal: cor de olhos, sexo, grupos sanguíneos,... 
- ordinal: grau de escolaridade, estágios de doenças, classe social, etc. 
 
Quantitativas 
- discretas: n. de filhos, no. de funcionários,.. 
- contínuas: idades, estaturas, massa corporal, pressão sanguínea... 
 
 
Ou ainda: 
- dados de variáveis (contínuos/Normal) 
- dados de atributos (contagem – DPU/Poisson ou classificação - %/Binomial) 
 
Quanto à forma de relacionamento: 
- dependente (exibida em função de outra variável) 
- independente (tempo- anos, meses, semanas) 
Estatística Aplicada / Profa. Luciana Oriqui 
 3 
Fases do Trabalho Estatístico 
 
 
 
 
 
 
 
 
 
 
 
 
 
Definição do problema: formulação do problema a ser estudado 
 
Planejamento: como levantar informações sobre o assunto objeto do estudo. Escolher tipo de levantamento a ser 
utilizado: por amostragem ou censitário. Cronograma das atividades, custos, planejamento global (exame das 
informações, delineamento da amostra, elaboração do questionário...) 
 
Coleta de dados: direta (pelo próprio pesquisador) ou indireta fontes externas de dados: publicações periódicas do IBGE, 
Prefeituras, Cartórios.. 
 
Crítica dos dados: depuração dos dados, supressão de valores estranhos... 
Nesta fase faz-se também a apuração que consiste em organizar as bases de dados através de sua contagem e 
agrupamento. 
 
Apresentação: 
- tabular: apresentação numérica 
- gráfica: apresentação geométrica (colunas, barras, pizza) 
 
Análise: tirar conclusões que auxiliem o pesquisador a resolver seu problema. Está ligada essencialmente ao cálculo de 
medidas, ou números-resumo, como também são chamados os dados estatísticos. 
 
 
Apresentação das Tabelas 
Título, Cabeçalho, Corpo da tabela, Coluna Indicadora, Fonte, Notas e Chamadas. 
 
 
Distribuição de Freqüências 
As variáveis de interesse ao estudo são números simples ou intervalos amostrais. 
A distribuição de freqüências tem como finalidade organizar os dados coletados de forma bruta. E pode ser apresentada 
com números isolados ou agrupada em classes de freqüências. 
 
Distribuição de Freqüência com dados isolados 
 
Tabela: No. de acidentes por dia na Rodovia Dutra, em dezembro de 1990 
 
No. Acidentes por dia No. Dias 
0 12 
1 7 
2 6 
3 3 
4 2 
5 1 
Fonte: Departamento Nacional de Estrada e Rodagens, 1991. 
Definição do 
Problema 
Planejamento 
da pesquisa 
Crítica dos 
Dados 
Apresentação 
dos Dados 
Análise 
Numérica 
Direta ou 
Indireta 
Tabelas Gráficos Medidas de 
Tendência 
Central e 
Dispersão 
Estatística Aplicada / Profa. Luciana Oriqui 
 4 
Distribuição de frequência com dados agrupados 
 
Notas da disciplina X, 2o. bimestre de 1995___________ 
 Classes de Notas Freqüências 
 30⎯40 4 
 40⎯50 6 
 50⎯60 8 
 60⎯70 13 
 70⎯80 9 
 80⎯90 7 
 90⎯100 3 
 
 
 
Exercício Explicativo 
Um professor aplicou uma avaliação numa turma de 50 alunos e verificou os seguintes resultados abaixo relacionados: 
 
30 50 61 69 80 35 52 64 71 81 
35 53 65 73 84 39 54 65 76 89 
73 85 41 55 65 74 85 41 55 66 
74 88 42 57 66 48 60 68 78 98 
45 59 66 77 91 47 60 67 77 94 
 
Apresentadas desta forma: dados brutos 
 
Rol: quando os dados brutos estão ordenados de uma forma crescente ou decrescente 
 
No exemplo acima, ordenando em forma crescente, temos o seguinte rol: 
30 35 35 39 41 41 42 45 47 48 
50 52 53 54 55 55 57 59 60 60 
61 64 65 65 65 66 66 66 67 68 
69 71 73 73 74 74 76 77 77 78 
80 81 84 85 85 88 89 91 94 98 
 
Amplitude Total (AT): diferença entre o maior e o menor valor. 
At = Xmáx – Xmín 
At = 98 – 30 = 68 
 
 
Número de Classes (k): é a quantidade de classes de uma distribuição de freqüências. 
3 formas de calcular: 
- se número de elementos do conjunto de dados for n25: no máximo 5 classes (k5) 
- se n25, no. de classes = K = √ n 
- Fórmula de Sturges: K = 1 + 3,33*log n 
 
Observação: √ = sinal de “raiz quadrada” 
 
No exemplo temos n=50, e então no. de classes, k = √50 = 7,07 ≈ 7 
Ou ainda, K = 1 + 3,33*log50 = 1 + 3,33*1,70 = 1 + 5,66 = 6,66 ≈ 7 
 
 
Amplitude de um intervalo de classe (h): é obtido através da relação h = AT 
 k 
No exemplo temos: h = 68/7 = 9,7 ≈ 10 
 
 
Limite de Classes: as formas usuais de representá-los são: 
➢ 10 ├┤20, intervalo com todos os números entre 10 e 20, inclusive os mesmos 
Estatística Aplicada / Profa. Luciana Oriqui 
 5 
➢ 10 ├ 20, intervalo entre os números entre 10 e 20, excluindo o 20 
➢ 10 ┤20, intervalo entre os números entre 10 e 20, excluindo o 10 
 
Neste exemplo, o 10 é o limite inferior da classe e o 20, o limite superior. 
 
 
Pontos Médios das classes (Pm): é obtido através da média aritmética entre o limite superior e o limite inferior da classe. 
É o valor representante da classe. 
Pm = limitesuperior + limiteinferior 
 2 
 
Frequência Absoluta (fi): é o número de vezes que o elemento aparece em um conjunto de dados ou o número de 
elementos pertencentes a uma classe. 
 
 
Frequência Acumulada (fac): é a soma das freqüências absolutas. 
 
 
Frequência Relativa (fr): é obtida pela relação fr = fi/n. A soma das fr é 1, ou seja, 100%. 
 
 
Frequência Relativa Acumulada(frac): é a soma das freqüências relativas.Histogramas 
Contém as mesmas informações da tabela de distribuição de freqüências absolutas ou relativas. 
São representações que buscam a organização e sintetização de grupos de dados quantitativos. 
 
É construído colocando-se a variável de interesse no eixo horizontal e a freqüência no eixo vertical. 
As frequências de cada uma das classes é mostrada desenhando-se um retângulo cuja base é o intervalo de classe e cuja 
altura corresponde à sua respectiva freqüência. 
 
 
Tabela 1 - Pesos de um grupo de 42 adolescentes
Classes de Pesos Freqüências ( fi )
 45 53 4
 53 61 6
 61 69 12
 69 77 10
 77 85 5
 85 93 3
Total 40
Fonte: Elaboração própria, 2004
Estatística Aplicada / Profa. Luciana Oriqui 
 6 
 
 
 
 
 
Ogivas 
O gráfico de uma distribuição cumulativa é chamado de ogiva. 
 
Os valores dos dados são mostrados no eixo horizontal e as freqüências cumulativas são mostradas no eixo vertical. 
 
 
 
12
11
10
9 Polígono de
8 freqüências
7
6
5
4
3
2
1
0
45 53 61 69 77 85 93
Figura 1 - Histograma e polígono de freqüências da tabela nº 1
Tabela 2 - Notas obtidas por uma classe de 75 alunos
Classes
Freqüências 
absolutas ( fi )
Freq.acumulad
as ( fac )
 00 10 1 1
 10 20 4 5
 20 30 6 11
 30 40 10 21
 40 50 15 36
 50 60 21 57
 60 70 9 66
 70 80 6 72
 80 90 2 74
 90 100 1 75
Total 75
Fonte: Elaboração própria, 2004
Estatística Aplicada / Profa. Luciana Oriqui 
 7 
 
 
 
EXERCÍCIO 1 
 
Número de defeitos encontrados em dia de produção (colocados em ordem crescente) 
 
18 20 20 21 22 24 25 25 26 27 
29 29 30 30 31 31 32 33 34 35 
36 36 37 37 37 37 38 38 38 40 
41 43 44 44 45 45 45 46 47 48 
49 50 51 53 54 54 56 58 62 65 
 
a) Qual a amplitude total? 
b) Qual o número de classes? Dado log 50 = 1,70 
c) Fazer a tabela de distribuição de freqüência das idades constando as freqüências absolutas e relativas acumuladas. 
d) Fazer o histograma da freqüência absoluta 
 
At = 65 – 18 = 47 
 
K = raiz quadrada de n = n = 50 = 7,07 = 8, ou ainda: 
K = 1 + 3,33logn = 1+ 3,33 log 50 = 1 + 3,33*1,70 = 6,6  7,0 
 
h = At/k = 47/7,0 = 6,71  7 
 
fi= freqüência absoluta (quantas amostras existem em cada intervalo) 
 
fac = freqüência absoluta acumulada 
 
fr = freqüência relativa = fi/n 
 
frac = freqüência relativa acumulada 
 
 
 
 
 
 
Figura 2 - Gráfico das Freqüências acumuladas
0
10
20
30
40
50
60
70
80
1 2 3 4 5 6 7 8 9 10
Classes das Notas
F
re
q
ü
ê
n
ci
a
s 
A
c
u
m
u
la
d
a
s
Estatística Aplicada / Profa. Luciana Oriqui 
 8 
 
EXERCÍCIO 2 
 
Montar a tabela de freqüências (fi, fac, fr, frac, Pm) e construir o histograma das freqüências absolutas para os dados 
listados abaixo, que indicam as idades de 35 motoristas que se envolveram em acidentes de carro bastante sérios, que 
envolveram processos judiciais e pagamento de grandes seguros. Usar fórmula de Sturges, sabendo que log 35 ≈ 1,54. 
Repetir o procedimento calculando o número de classes através de n. Comparar. 
 
76 18 30 16 56 73 17 17 24 51 
40 17 18 45 20 22 36 27 16 27 
17 74 19 23 28 38 18 18 28 69 
35 52 16 88 37 
 
 
 
EXERCÍCIO 3 
 
O Serviço de Recursos Humanos da Roth Young relatou que os salários anuais para os gerentes assistentes de lojas de 
departamento variam de US$ 28.000 a US$ 57.000 (National Businees Employment Weekly, 22 de outubro de 1994). 
Assuma que os seguintes dados são uma amostra dos salários anuais de 40 gerentes assistentes de lojas de departamento 
(os dados estão em mil dólares): 
48 35 57 48 52 56 51 44 
40 40 50 31 52 37 51 41 
47 45 46 42 53 43 44 39 
50 50 44 49 45 45 50 42 
52 55 46 54 45 41 45 47 
 
a) quais foram os salários mais altos e mais baixos relatados?(US$ 57.000 e US$ 31.000) 
b) Use uma amplitude de classe de US$ 5.000 e prepare sumários tabulares dos dados de salários anuais (tabela de 
distribuição de freqüências constando freq. absoluta e freq. relativa). 
c) Pela tabela de freqüências, que proporção de salários anuais é de até US$ 36.000, exclusive? (5%) 
d) Pela tabela de freqüências, que porcentagem dos salários anuais é de pelo menos US$ 51.000? (25%) 
e) Prepare um histograma dos dados. 
 
 
 
Gráfico Caule e Folhas ou Ramo e Folhas 
Uma apresentação de caule e folhas pode ser usada para mostrar simultaneamente tanto a ordem da classificação como a 
forma de conjunto de dados. 
1o passo: arranjar os dígitos, à exceção do último, de cada valor dos dados à esquerda de uma linha vertical. 
2o.passo: à direita desta linha vertical, registrar o último dígito de cada valor de dados. O último dígito para cada valor 
dos dados é colocado na linha que corresponde ao seu primeiro dígito. 
 
Vantagem da apresentação caule e folha: 
- apresentação de caule e folha è mais fácil de construir 
- dentro de um intervalo de classe, a apresentação de caule e folha fornece mais informações que o histograma, 
porque o caule e a folha mostram os valores reais. 
 
 
 
 
Exemplo 1: Dados de uma amostra dos salários anuais de 40 gerentes assistentes de lojas de departamento (os dados 
estão em mil dólares). Usar unidade de folha = 1,0: 
48 35 57 48 52 56 51 44 
40 40 50 31 52 37 51 41 
47 45 46 42 53 43 44 39 
50 50 44 49 45 45 50 42 
52 55 46 54 45 41 45 47 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 9 
 
3 1 5 7 9 
4 0 0 1 1 2 2 3 4 4 4 5 5 5
 5 5 6 6 7 7 8 8 9 
5 0 0 0 0 1 1 2 2 2 3 4 5 6
 7 
 
 
3 1 
3 5 7 9 
4 0 0 1 1 2 2 3 4 4 4 
4 5 5 5 5 6 6 7 7 8 8 9 
5 0 0 0 0 1 1 2 2 2 3 4 
5 5 6 7 
 
 
 
 
Exemplo 2: Número de questões respondidas corretamente em um teste de aptidão 
112 72 69 97 107 
73 92 76 86 73 
126 128 118 127 124 
82 104 132 134 83 
92 108 96 100 92 
115 76 91 102 81 
95 141 81 80 106 
84 119 113 98 75 
68 98 115 106 95 
100 85 94 106 119 
 
 
6 9 8 
7 2 3 6 3 6 5 
8 6 2 3 1 1 0 4 5 
9 7 2 2 6 2 1 5 8 8 5 4 
10 7 4 8 0 2 6 6 0 6 
11 2 8 5 9 3 5 9 
12 6 8 7 4 
13 2 4 
14 1 
 
 
6 8 9 
7 2 3 3 5 6 6 
8 0 1 1 2 3 4 5 6 
9 1 2 2 2 4 5 5 6 7 8 8 
10 0 0 2 4 6 6 6 7 8 
11 2 3 5 5 8 9 9 
12 4 6 7 8 
13 2 4 
14 1 
 
 
Cada linha = caule 
Cada dígito no caule = folha (nesse caso, unidade da folha = 1,0) 
 
Se usarmos um retângulo para retratar o “comprimento” de cada caule, e girando a figura em 90 graus no sentido anti-
horário, obtém-se uma figura dos dados que é similar a um histograma com classes 60 – 69, 70 – 79, 80 – 89 e assim por 
diante (variáveis quantitativas discretas). 
Estatística Aplicada / Profa. Luciana Oriqui 
 10 
OS: Para apresentações de caule e folha para dados de mais de três dígitos, pode-se fazer aproximação utilizando-se a 
unidade de folha multiplicada por um determinado número. 
Exemplo: Número de hambúrgueres vendidos por um restaurante, para cada uma de 15 semanas: 
1565 1852 1644 1766 1888 1912 2044 1812 
1790 1679 2008 1852 1967 1954 1733 
 
Unidade de folha = 10 
 
15 6 
16 4 7 
17 3 6 9 
18 1 5 5 8 
19 1 5 6 
20 0 4 
 
 
Exercício 
Periodicamente, o Barron´s publica as previsões de ganhos para as empresas listadas na Média Industrial Dow Jones. Os 
dados que seguem são as previsões da relação preço/ganhos (P/G) de 1998 para essas empresas sugeridas pelas previsões 
de ganhos do Barron´s (Barron´s, 8 de dezembro de 1997) 
Empresa Previsão P/G de 1998 Empresa Previsão de P/G de 1998 
AT&T 20 Hewlett-Packard 18 
Alcoa 10 IBM 16 
Allied Signal 16 International Paper 17 
American Express 18 Johnson&Johnson 23 
Boeing 21 McDonald´s18 
Caterpillar 11 Merck 24 
Chevron 18 Minnesota Mining 21 
Coca-Cola 38 J P Morgan 15 
Disney 27 Philip Morris 13 
Dupont 16 Procter&Gamble 27 
Eastman Kodak 15 Sears 13 
Exxon 20 Travelers 17 
General Electric 26 Union Carbide 12 
General Motors 8 United Technologies 17 
Goodyear 13 Wal-Mart 24 
a) Desenvolva uma apresentação caule e folha para os dados 
b) Use os resultados da apresentação de caule e folha para desenvolver um histograma das freqüências absolutas, 
dado amplitude de classe = 8. 
 
 
Medidas de Tendência Central 
 
➢ Média Aritmética ou Média Amostral 
 
A média aritmética de uma amostra de n observações, é representada pelo símbolo x (lê-se x barra) e é calculada por: 
 
x = soma dos valores de x =  xi 
 no. de observações n 
 
Exemplo: Idade de 50 funcionários 
18 20 20 21 22 24 25 25 26 27 
29 29 30 30 31 31 32 33 34 35 
36 36 37 37 37 37 38 38 38 40 
41 43 44 44 45 45 45 46 47 48 
49 50 51 53 54 54 56 58 62 65 
 
x = xi = 1916 = 38,32 anos 
 n 50 
Estatística Aplicada / Profa. Luciana Oriqui 
 11 
 
E, quando os valores de xi estão agrupados com suas respectivas freqüências absolutas fi, a média aritmética é expressa 
por: 
 
x =  xifi ou x =  Pm*fi 
 n n 
 
Exemplo: 
Intervalo de classes fi xi (=Pm) Pm*fi 
18 |⎯ 25 6 21,5 129 
25 |⎯ 32 10 28,5 285 
32 |⎯ 39 13 35,5 461,5 
39 |⎯ 46 8 42,5 340 
46 |⎯ 53 6 49,5 297 
53 |⎯ 60 5 56,5 282,5 
60 |⎯ 67 2 63,5 127 
  50 1922 
 
Logo x =  Pmfi = 1922 = 38,44 anos 
 n 50 
 
 
 
 
Exercício: 
1) A seguir, é dada a distribuição da quantidade de defeitos por microcomputador para uma amostra de 100 aparelhos: 
Quantidade de defeitos por micro 0 1 2 3 4 5 6 
Número de aparelhos 15 28 20 14 10 7 6 
 
Determine o número médio de defeitos por microcomputador.(x = 2,21) 
 
 
 
➢ Mediana ( = (n+1)/2 ) 
É a medida da posição central da amostra. 
É o valor que fica no meio da seqüência quando os dados são arranjados em ordem crescente. 
Número ímpar de observações: valor do meio= (n+1)/2 
Número par: dois valores do meio = n/2 e (n/2)+1 
Ou então, fórmula genérica: Md = (n+1)/2 
 
Exemplo: Dados os salários iniciais de 12 recém graduados de um curso X: 
Graduados Salário Mensal (R$) 
1 2.350 
2 2.450 
3 2.550 
4 2.380 
5 2.255 
6 2.210 
7 2.390 
8 2.630 
9 2.440 
10 2.825 
11 2.420 
12 2.380 
 
Rol = 2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 12 
n = 12 (número par), então: n/2 = 6 e (n)/2+1 = 6+1=7 
Portanto mediana = posições 6 e 7 = (2.390 + 2.420)/2 = 2.405 
(isto significa que 50% dos graduados ganham de 2.210 a 2.405) 
Para o mesmo caso, a média aritmética seria: 29.280/12 = 2.440 
(isto significa que a média de salário entre os graduados observados é de 2.440) 
 
Para o mesmo caso, a moda seria 2.380 
 
OS: Se no caso o maior salário fosse por exemplo 8.000, a média mudaria para 
34.455/12 = 2.871, e a mediana continuaria a ser 2.405 (posições extremas distorcidas) 
 
 
Cálculo da mediana para variável contínua 
Md = Lmd + (n/2 - fan)h/fmd 
 
Onde: 
Md = mediana 
Lmd = limite inferior da classe da Mediana 
fan = soma das freqüências anteriores à classe mediana 
h = amplitude da classe mediana 
fmd = freqüência da classe mediana 
 
 
 
Exemplo: Dada a distribuição amostral, calcular a mediana 
Intervalo de classes fi fac 
35 ├ 45 5 5 
45 ├ 55 12 17 
55 ├ 65 18 35 
65 ├ 75 14 49 
75 ├ 85 6 55 
85 ├ 95 3 58 
 
 
n/2 = 58/2 = 29 
Classe da mediana = 55 ├ 65 
Lmd = 55 
n = 58 
fan = 17 
h = 10 
fmd = 18 
 
Md = 55 + [(29 – 17)10]/18 = 55 + (12*10)/18 = 55 + 120/18 = 55 + 6,67 
Md = 61,67 
Isto significa que 50% das observações têm medidas abaixo de 61,67 e 50% acima. 
 
 
 
➢ Moda para Variáveis Contínuas 
 
Série Amodal: não existe moda, todos os valores com a mesma freqüência 
Série Unimodal: existe uma única moda 
Série Bimodal: existem exatamente 2 modas. 
Série Plurimodal ou Multimodal: existem mais de duas modas na mesma série 
 
Para distribuições simples: identificação visual 
Para dados agrupados em classes: fórmula Czuber (ou método das diferenças) 
 
Mo = Lmo + 1/(1 + 2)h ou 
Estatística Aplicada / Profa. Luciana Oriqui 
 13 
Mo = Lmo + 1 *h 
 (1 + 2) 
Onde: 
Mo = Moda 
Lmo = limite inferior da classe modal 
1 = diferença entre a freqüência da classe modal e a freqüência da classe imediatamente anterior 
2 = diferença entre a freqüência da classe modal e a freqüência da classe imediatamente posterior 
h = amplitude da classe modal 
 
No exemplo anterior: 
Classe modal = 55 ├ 65 
Lmo = 55 
1 = 18 – 12 = 6 
2 = 18 – 14 = 4 
h = 10 
 
Mo = 55 + (6/(6+4))*10 = 55 + (6/10)*10 = 55 + 6 = 61 
Portanto Mo = 61 
 
Exercício 
Sendo: 
Idade (anos) Pm No. Pessoas Pmfi fac 
10 ├ 14 12 15 180 15 
14 ├ 18 16 28 448 43 
18 ├ 22 20 40 800 83 
22 ├ 26 24 30 720 113 
26 ├ 30 28 20 560 133 
30 ├ 34 32 15 480 148 
34 ├ 38 36 10 360 158 
38 ├ 42 40 5 200 163 
 3.748 
a) Determinar a média (x = 22,99) 
b) Calcular a medida que deixa 50% dos elementos de cada lado (Md = 21,85) 
c) Determinar e interpretar a moda (Mo = 20,18) 
 
Medidas Separatrizes 
 
➢ Quartis 
 
Os quartis dividem um conjunto de dados em quatro partes iguais. 
 
0% 25% 50% 75% 100% 
 Q1 Q2=Md Q3 
 
Q1= 1o. quartil, deixa 25% dos elementos = n/4 (Fórmula genérica adotada pelo Minitab: Q1 = (n+1)/4) 
Q2 = 2o. quartil, coincide com a mediana, deixa 50% dos elementos = 2n/4 = n/2 (Fórmula genérica adotada pelo 
Minitab: Q2 = 2(n+1)/4 = (n+1)/2) 
Q3 = 3o. quartil, deixa 75% dos elementos = 3n/4 (Fórmula genérica adotada pelo Minitab: Q3 = 3(n+1)/4) 
 
 
 
Lembra da fórmula da mediana? 
Md = Lmd + (n/2 - fan)h/fmd 
 
 
Onde: 
Md = mediana 
Lmd = limite inferior da classe da Mediana 
Estatística Aplicada / Profa. Luciana Oriqui 
 14 
fan = soma das freqüências anteriores à classe mediana 
h = amplitude da classe mediana 
fmd = freqüência da classe mediana 
 
Para Q1 → Lq1, n/4, fq1 
Para Q2 → Lq2, n/2, fq2 
Para Q1 → Lq3, 3n/4, fq3 
 
Exercício: 
Dada a distribuição abaixo, determine os quartis Q1 e Q3 e a mediana. (Q1 = 0,14, Q3 = 0,42 e Md = 0,28) 
 
 Precipitação 
Diária (polegadas) Freqüência Pm Pmfi fac 
 0,00 ⊢ 0,50 31 0,25 7,75 31 
 0,50 ⊢ 1,00 1 0,75 0,75 32 
 1,00 ⊢ 1,50 0 1,25 0 32 
 1,50 ⊢ 2,00 2 1,75 3,50 34 
 2,00 ⊢ 2,50 0 2,25 0 34 
 2,50 ⊢ 3,00 1 2,75 2,75 35 
 14,75 
 
 
➢ Decis 
 
São os valores que dividem a série em 10 partes iguais. 
 
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 
 D1 D2 D3 D4 D5 D6 D7 D8 D9 
 
A ordem é dada por in/10, em que i = 1,2, 3,...,9 
 
E, pelo mesmo raciocínio anterior (dos quartis): 
 
Para D1 → Ld1, n/10, fd1 
Para D2 → Ld2, 2n/10, fd2 
. 
. 
. 
Para D9 → Ld9, 9n/10, fd9 
 
Di = Ldi + (in/10 - fan)h/Fdi 
 
➢ Percentis 
 
São as medidas que dividem as séries em 100 partes iguais 
O ordem é dada por: in/100 
 
Pi = Lpi + (in/100 - fan)h/Fpi 
 
 
 
 
 
Exercícios: 
1) Calcular para o exercício anterior, sobre precipitação diária, o P12 , o D4, a média aritmética e a moda. (P12=0,07, 
D4=0,23, x = 0,42 e Mo = 0,25) 
Estatística Aplicada / Profa. Luciana Oriqui 
 15 
 
 
2) 
Sendo: 
Idade(anos) No. pessoas 
10 ├ 14 15 
14 ├ 18 28 
18 ├ 22 40 
22 ├ 26 30 
26 ├ 30 20 
30 ├ 34 15 
34 ├ 38 10 
38 ├ 42 5 
 
a) determinar a média (Resp: 22,99)b) calcular a medida que deixa 50% dos elementos (Resp: 21,85) 
c) determinar e interpretar a moda (Resp: 20,18) 
d) calcular e interpretar o 3o. decil (Resp: 18,59) 
e) determinar a medida que deixa ¼ dos elementos (Resp: 17,68) 
f) calcular e interpretar o percentil 80o. (Resp: 29,48) 
 
 
 
 
Medidas de Dispersão 
São medidas estatísticas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média. 
 
Medidas de Dispersão: 
- Amplitude Total (AT = xmáx - xmín) 
- Variância Amostral 
- Desvio Padrão 
- Coeficiente de Variação de Person (CV) 
- Escores Padronizado ou Contagens-z 
- Outliers 
 
Variância Amostral (S2) 
Analisa os desvios de cada valor Xi em relação à médiaX, isto é: di = (xi -x). 
- di baixos: pouca dispersão 
- di altos: elevada dispersão 
 
S2 =  ( xi –x )
2*fi ou ainda, uma fórmula prática: S
2 = 1  xi
2*fi - ( xi*fi)
2 
 n – 1 n – 1 n 
Observação: A variância é expressa pelo quadrado da unidade de medida da variável que está sendo estudada. 
Quanto maior S2, maior a dispersão de dados amostrais. 
 
 
 
Desvio Padrão Amostral (S) 
O desvio padrão é uma medida de dispersão proveniente da variância que possibilita um valor expresso na unidade de 
medida original estudada, portanto: 
S = √ S2 
 
 
Interpretações do Desvio Padrão: 
Para qualquer distribuição amostral com médiax e desvio padrão S. 
1. Regra Empírica 
Estatística Aplicada / Profa. Luciana Oriqui 
 16 
- o intervalo x  S, contém entre 60% e 80% de todas as observações amostrais. A porcentagem aproxima-se de 
68% para distribuições aproximadamente simétricas, chegando a 90% para distribuições fortemente 
assimétricas. ( 68,26%) 
- o intervalo x  2S, contém aproximadamente 95% das observações amostrais para distribuições simétricas e 
aproximadamente 100% para distribuições com assimetria elevada. ( 95,44%) 
- o intervalo x  3S, contém aproximadamente 100% das observações amostrais, para distribuições simétricas. 
( 99,73%) 
 
2. Teorema de Tchebycheff - implicações 
- o intervalox  2S, contém, no mínimo, 75% de todas as observações amostrais. 
- o intervalox  3S, contém, no mínimo, 89% de todas as observações amostrais. 
 
 
Exemplo: Dada a tabela freqüencial da distribuição amostral das idades de 50 funcionários da empresa XYZ, vamos 
determinar a variância, o desvio padrão, e constatar as regras para interpretação do desvio padrão. 
Intervalo das classes fi xi (= Pm) xi
2 xi*fi xi
2*fi 
18 ├ 25 6 21,5 462,25 129,0 2.773,50 
25 ├ 32 10 28,5 812,25 285,0 8.122,50 
32 ├ 39 13 35,5 1.260,25 461,5 16.383,25 
39 ├ 46 8 42,5 1.806,25 340,0 14.450,00 
46 ├ 53 6 49,5 2.450,25 297,0 14.701,50 
53 ├ 60 5 56,5 3.192,25 282,5 15.961,25 
60 ├ 67 2 63,5 4.032,25 127,0 8.064,50 
 50 1.922,0 80.456,50 
Média Amostral = x = xi*fi = 1.922 = 38,44 anos 
 n 50 
Variância Amostral = S2 = 1  xi
2*fi - ( xi*fi)
2 = 1 80.456,50 – (1.922)2 = 134,18 
 n – 1 n 49 50 
 
Desvio Padrão = S = √ S2 = √ 134,18 = 11,58 anos 
 
Verificação das regras: 
1.x  S = 38,44  11,58 = (26,86 ; 50,02) 
e pelos dados originais podemos concluir realmente que entre 27 e 50 anos, temos (33/50)*100 = 66% das observações. 
 
2.x  2S = 38,44  2(11,58) = (15,28 ; 61,60) 
e pelos dados originais podemos concluir realmente que entre 16 e 62 anos, temos (49/50)*100 = 98% das observações. 
Com esse resultado também podemos concluir que a distribuição com que trabalhamos é aproximadamente simétrica. 
 
 
Coeficiente de Variação de Pearson (C.V) 
Enquanto a amplitude total, variância e desvio padrão são medidas absolutas de dispersão, o coeficiente de variação de 
Pearson é uma medida relativa de dispersão. 
C.V = S * 100 
 x 
 S = desvio amostral 
x = média amostral 
 
Interpretações do coeficiente de variação 
Em geral, o coeficiente de variação é uma estatística útil para comparar a variabilidade de variáveis que tenham 
diferentes desvios-padrões e diferentes médias. 
 
 
Exemplo: 
Em uma empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de R$ 1.500, e o salário médio das 
mulheres é de R$ 3.000,00, com desvio padrão de R$ 1.200,00. Quem, homens ou mulheres, tem maior dispersão relativa 
de salários? 
Solução: 
Estatística Aplicada / Profa. Luciana Oriqui 
 17 
CVhomens = (1500/4000)*100 = 37,5% 
CVmulheres = (1200/3000)*100 = 40,0% 
 
Por 
tanto, mulheres tem maior dispersão relativa que homens. 
Escore Padronizado ou Contagem-z 
Para uma medida xi, o escore padronizado é dado por: 
zi = xi -x 
 S 
Observação: Um escore zi negativo indica que a observação xi está à esquerda da média, enquanto um escore positivo 
indica que a observação está à direita da média. 
 
A contagem-z é freqüentemente chamada de valor padronizado. Ela pode ser interpretada como o número de desvios 
padrões xi em relação à média x. Por exemplo, z1 = 1,2 indicaria que x1 está 1,2 desvio padrão maior do que a média da 
amostra. 
 
Exemplo: São dadas as médias e os desvios padrões das avaliações de duas disciplinas: português (xp = 6,5 e Sp = 1,2 ) 
e matemática (xm = 5,0 e Sm = 0,9 ). Relativamente às duas disciplinas, em qual delas obteve uma melhor performance 
um aluno com 7,5 em Português e 6,0 em Matemática? (Resp: zmat = 1,111 e zport = 0,8333) 
 
 
 
 “Outliers” ou Pontos Fora da Curva 
São observações que fogem das dimensões esperadas – os outliers. 
Um ponto fora da curva pode ser: 
- um valor de dados incorretamente registrado – nesse caso ele pode ser corrigido antes de continuar a análise; 
- uma observação incorretamente incluída no conjunto de dados – e então ele pode ser removido; 
- um valor de dados não usual registrado corretamente e que pertence ao conjunto de dados – em tal caso ele pode 
permanecer. 
 
Para detectá-los, pode-se calcular os escores padronizado zi e considerar outliers as observações cujos escores, em valor 
absoluto (em módulo), sejam maiores que 3. 
 
Ou ainda, em diagramas de caixas (Box Plot), os outliers são aqueles que tem valores: 
- maiores do que a expressão Qs + 1,5*(Qs-Qi), 
- menores do que a expressão Qi - 1,5*(Qs-Qi), 
onde Qs = quartil superior ou Q3 
e Qi = quartil inferior ou Q1 
 
 
Exemplo: Os dados de uma pesquisa revelaram média 0,243 e desvio padrão 0,052 para determinada variável. Verificar 
se os dados 0,380 e 0,455 podem ser considerados observações da referida variável. 
Solução: Tem-se x = 0,243 e S = 0,052 
Para xi = 0,380, zi = (0,380 – 0,243)/0,052 = 2,6343 
Para xi = 0,455, zi = (0,455 – 0,243)/0,052 = 4,0769 
Portanto o dado 0,380 pode ser considerado normal, mas 0,455 pode ser um outliers, portanto descartável. 
 
 
 
 
Diagramas em Caixas ou Box Plot 
Roteiro para construção do Box Plot: 
1) ordenar os dados (rol crescente) 
2) calcular mediana, quartil infeiror (Q1) e quartil superior (Q3) 
3) identificar os extremos “Qs + 1,5*(Qs-Qi)” e “Qi - 1,5*(Qs-Qi)” 
4) construir os retângulos (Qs – Md, Md – Q1) 
5) a partir dos retângulos, para cima e para baixo, seguem linhas até o último valor não 
discrepante 
6) marcar as observações discrepantes. 
Estatística Aplicada / Profa. Luciana Oriqui 
 18 
Se as duas caixas tiverem “alturas” semelhantes (Qs – Md e Md – Qi) a distribuição é dita simétrica. Quanto maiores as 
“alturas” das caixas, maior a dispersão do conjunto. A dimensão horizontal das caixas é irrelevante. 
Observação: (Qs – Qi) também é chamada de AIQ, Amplitude Interquartil 
 
 
 
 
 
 
 Q1 Md Q3 
 
 ** * * 
 
 
 
 
 
Medidas de Assimetria 
Denomina-se assimetria o grau de afastamento, de uma distribuição, da unidade de simetria. 
Em uma distribuição simétrica, tem-se igualdade dos valores da média, mediana e moda. 
 
SKEWNESS: Grau de assimetria dos dados. Quanto mais simétricos, mais próximo de “zero” é o valor de Skewness. 
 
A) Ilustração gráfica de uma distribuição simétrica 
 Têm-se: x = Md = Mo 
 Eixo de Simetria 
 
 
 
 Skewness = 0 
 
 
 
 x = Md = Mo 
 
B) Ilustração gráfica de uma distribuição assimétrica positiva ou assimétrica à direita 
 Têm-se: Mo  Md x 
 
 Skewness  0 
 
 
C) Ilustração gráfica de uma distribuição assimétrica negativa ou assimétrica à esquerda 
 Têm-se: x  Md  Mo 
 
Whisker: A linha se estende, a partir do 
terceiro quartil até o maior ponto dado 
dentro de 1,5 amplitudes interquartis 
Whisker: A linha se estende, a partir do 
primeiro quartil, até o menor ponto dado 
dentro de 1,5 amplitudes interquartis 
Outliers: ponto além do whisker, porém 
a menos de 3 amplitudes interquartis 
Outlier Extremo: ponto a mais de 3 
amplitudes interquartis 
= Q1 – 3,0 AIQ 
= Q3 + 3,0 AIQ 
= Q3 + 1,5 AIQ 
= Q1 – 1,5 AIQ 
Estatística Aplicada / Profa. Luciana Oriqui 
 19 
 Skewness  0 
 
Identificar se a distribuição de uma variável quantitativa em um determinado conjunto de dados é simétrica ou 
assimétrica pode ser de grande valia por alguns motivos: 
b) se os dados são provenientes de uma amostra, identificar a simetria ou não da distribuição pode ser 
necessário para selecionar o modelo probabilístico mais adequado para descrever a variável na 
população. 
c) No caso de um experimento, em que todas as causas da variação indesejadas são suprimidas, a 
ocorrência de assimetria quando era esperada simetria, ou o contrário, pode indicar que houve algum 
erro de planejamento ou de medição. 
d) Nos casos em que são comparadas distribuições da mesma variável quantitativa em situações diferentes 
a identificação de um comportamento assimétrico ou simétrico, inesperado ou diferenciado, pode 
alertar para aspectos anteriormente despercebidos, ou existência de erros. 
 
 
Existem várias fórmulas para o cálculo do coeficiente de assimetria, dentre elas são úteis: 
1o. Coeficiente de Pearson (AS) 
AS = x – Mo 
 S 
 
2o. Coeficiente de Pearson (AS) 
AS = Q1 + Q3 – 2*Md 
 Q3 – Q1 
 
Se: AS = 0, diz-se que a distribuição é simétrica 
 AS  0, diz-se que a distribuição é assimétrica positiva 
 AS  0, diz-se que a distribuição é assimétrica negativa. 
 
Curtose 
É o grau de achatamento da distribuição. Ou ainda, o quanto uma curva de freqüência será achatada em relação a uma 
curva normal de referência. 
Para o cálculo do grau de curtose de uma distribuição utiliza-se o coeficiente de curtose, k, também chamado de 
coeficiente percentílico de curtose. 
K = (Q3 –Q1)_ 
 2(P90 – P10) 
Onde: Q3 = 3
o.quartil ou quartil superior 
 Q1 = 1
o. quartil ou quartil inferior 
 Q3 – Q1 = AIQ (amplitude interquartil) 
 P90 = 90
o. percentil 
 P10 = 10
o. percentil 
Quanto ao coeficiente percentílico de curtose, a distribuição pode ser: 
- mesocúrtica: curva normal, nem achatada e nem alongada (b2 = 0,263) 
- platicúrtica: curva achatada (b2  0,263) 
- leptocúrtica: curva alongada (b2  0,263) 
Quanto ao coeficiente de momento de curtose, a distribuição pode ser (2 formas de cálculo, segunda parâmetro 3) 
- mesocúrtica: curva normal, nem achatada e nem alongada (k = 0) ou (k=3) 
- platicúrtica: curva achatada (k  0) ou (k  3) 
- leptocúrtica: curva alongada (k  0) ou (k  3) 
 
 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 20 
Exemplo de Obtenção de Dados no Excel 
Dadas 60 rendas de famílias de um determinado bairro XZ (dados em $ 1.000) 
 
 Medidas Estatísticas 
10 7 1 3 6 Média 7,683 
5 15 12 15 4 Erro Padrão 0,582 
13 11 3 13 15 Mediana 7,500 
13 1 5 3 4 Moda 3,000 
8 9 7 12 14 Desvio Padrão 4,508 
3 6 4 9 10 Variância da Amostra 20,322 
8 8 2 6 3 Curtose (k) -1,175 
16 8 11 5 10 Assimetria (AS) 0,284 
4 2 3 14 2 Intervalo (AT) 15,000 
14 9 1 4 8 Mínimo 1,000 
14 4 16 13 5 Máximo 16,000 
10 3 2 9 6 Soma (xi) 461,000 
 Contagem (n) 60,000 
 
 
Os resultados podem ser interpretados, sinteticamente, da seguinte maneira: 
➢ Média = 7,683 (A renda média do conjunto das 60 famílias é de $7.683) 
➢ Erro Padrão = 0,582 (quociente entre desvio padrão e a raiz quadrada de n, no caso n = 60, é de $ 582) 
➢ Mediana = 7,500 (50% das famílias têm renda inferior a $7.500 e o restante 50%, acima desse valor) 
➢ Moda = 3,000 ( a renda mais freqüente do grupo de 60 famílias é de $ 3.000) 
➢ Desvio Padrão = 4,508 (a dispersão em torno da média, medida pelo desvio padrão, é de $ 4.508) 
➢ Variância da Amostra = 20,322 
➢ Curtose = -1,175 (a medida de curtose avalia o grau de achatamento da distribuição, e, neste exemplo, indica 
que a distribuição é platicúrtica (é “achatada”), pois o coeficiente é negativo 
➢ Assimetria = 0,284 (a distribuição das rendas é suavemente assimétrica à direita – coeficiente 0,284. Observe 
que a moda é menor do que a mediana, e a mediana é menor do que a média) 
➢ Intervalo = 15,000 (refere-se à amplitude total do conjunto das 60 famílias) 
➢ Mínimo e Máximo (indicam respectivamente a menor e a maior renda do grupo) 
➢ Soma = 461,000 (o somatório de todas as rendas atinge $ 461.000) 
➢ Contagem = 60,000 (quantidade de elementos, no caso famílias, é 60) 
 
 
Medidas de Associações entre Duas Variáveis 
Covariância da Amostra 
Para uma amostra de tamanho n com as seguintes observações (x1, y1), (x2,y2) etc, a covariância da amostra é dada por: 
SXY =  (xi - x)(yi - y) 
 n – 1 
 
Covariância da População 
A fórmula para se calcular a covariância da população de tamanho N é análoga à equação anterior, mas usamos uma 
notação diferente para indicar que estamos trabalhando com a população inteira. 
XY =  (xi - X)(yi - Y) 
 N 
 
Interpretação da Covariância 
SXY Positivo: X e Y são relacionados positiva e linearmente 
 
 • 
 • • • 
 • 
 • • 
 • 
 • • 
 • 
Estatística Aplicada / Profa. Luciana Oriqui 
 21 
 
SXY Aproximadamente 0: X e Y não são relacionados linearmente 
 
 • • • 
 • • 
 • 
 • • 
 • • 
 • •• • • 
 
 
SXY Negativo: X e Y são relacionados negativa e linearmente 
 • 
 • • 
 • 
 • • 
 • • 
 • • 
 • • 
OS: A covariância é uma medida de associação linear entre duas variáveis, no entanto há um problema em se usar a 
covariância como uma medida da intensidade da relação linear já que seu valor depende das unidades de medida para x e 
y. 
 
Uma medida da relação entre duas variáveis que evita essa dificuldade é o coeficiente de correlação. 
 
Coeficiente de Correlação (RXY) 
Coeficiente de Correlação do Momento do produto de Pearson para dados amostrais: 
RXY = SXY 
 Sx*SY 
Onde: 
RXY = Coeficiente de correlação da amostra 
SXY = Covariância da amostra 
SX = desvio-padrão da amostra de X 
SY = desvio-padrão da amostra de Y 
 
Fórmula Prática: 
RXY = xiyi – (xiyi)/n . 
  [ xi
2 – (xi)
2/n ] *  [ yi
2 – (yi)
2/n ] 
 
 
Coeficiente de Correlação do Momento do produto de Pearson para dados de população: 
XY = XY 
 x*Y 
Onde: 
XY = Coeficiente de correlação da população 
XY = Covariância da população 
X = desvio-padrão da população para X 
Y = desvio-padrão da população para Y 
 
Interpretação da Coeficiente de Correlação 
O coeficiente de correlação varia de –1 a + 1. 
✓ Valores = +1 correspondem a uma perfeita relação linear positiva entre X e Y 
✓ Valores próximos a “+ 1” correspondem a uma forte relação linear positiva entre X e Y 
✓ Valores = 0, indicam uma relação não linear entre X e Y 
✓ Valores = - 1 correspondem a uma perfeita relação linear negativa entre X e Y 
✓ Valores próximos a “- 1” correspondem a uma forte relação linear negativa entre X e Y 
Estatística Aplicada / Profa. Luciana Oriqui 
 22 
Introdução à Probabilidade 
A probabilidade é uma medida numérica da plausibilidade (“possibilidade”) de que um evento ocorrerá. 
 
Os valores da probabilidade são sempre atribuídos numa escala de 0 a 1, sendo que a probabilidade próxima de zero 
indica um evento improvável de ocorrer, e uma probabilidade próxima de 1 indica um evento quase certo. 
 
Outras probabilidades entre 0 e 1 representam graus de plausibilidade de um evento, sendo que a probabilidade 0,5 indica 
que a ocorrência do evento é tão provável quanto improvável. 
 
Espaço Amostral 
O Espaço Amostral de um experimento é o conjunto de todos os resultados possíveis experimentais. 
Já Ponto Amostral é o nome dado a cada um dos resultados possíveis do experimento. 
 
Exemplos de espaços amostrais (aqui chamados de S) e pontos amostrais: 
1) experimento “jogar moeda”: S = {Cara ; Coroa} 
2) experimento “selecionar uma peça para inspeção”: S = {defeituosa ; não defeituosa} 
3) experimento “lançar um dado”: S = {1, 2, 3, 4, 5, 6} 
 
 
Regras de Contagem, Combinação e Permutações 
A possibilidade de determinar e contar os resultados experimentais é uma etapa necessária na atribuição de 
probabilidades. 
 
Vejamos três regras de cálculos que são bastante úteis: 
 
1- Regra de Contagem para Experimentos de Múltiplas Etapas 
Se um experimento pode ser descrito como uma seqüência de k etapas com n1 resultados possíveis na primeira etapa, n2 
resultados possíveis na segunda etapa, e assim por diante, então o número total de resultados experimentais é dado por 
(n1)(n2)...(nk) 
 
Exemplo: no caso de arremesso de 2 moedas como uma seqüência de primeiro arremessar uma moeda (n1 = 2) e então 
arremessar a outra (n2 = 2), podemos observar então que há “2*2 = 4” resultados experimentais distintos possíveis (K, 
K), (K, C), (C, K), (C, C). 
 
Uma representação gráfica que é útil para visualizar e enumerar os resultados em um experimento de múltiplas etapas é o 
“diagrama de árvore”. 
 
 Etapa 1 Etapa 2 Resultado Experimental 
 Primeira Moeda Segunda Moeda (Ponto Amostral) 
 (K, K) 
 K 
 
 C 
 K (K, C) 
 
 K (C, K) 
 C 
 C 
 
 (C, C) 
 
Notação adotada: “K” = cara e “C” = coroa 
 
 
 
 
 
 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 23 
2 – Regra de Combinações 
Quando se extrai uma amostra aleatória sem reposição de uma população de tamanho N. O número de combinações de N 
objetos que são tomados n de cada vez é (seleção aleatória): 
 N 
CNn = = N! . 
 n n! (N – n)! 
 
onde: 
N! = N(N – 1)(N – 2)...(2)(1) 
n! = n(n – 1)(n – 2)...(2)(1) 
0! = 1 
 
Exemplos de aplicação de combinações: 
1) procedimento de controle de qualidade onde um inspetor seleciona aleatoriamente duas de cinco peças para 
testar em relação a defeitos. Em um grupo de cinco peças, quantas combinações de duas peças podem ser 
selecionadas? N = 5 e n = 2 
C52 = 5! / 2! (5 – 2)! = (5)(4)(3)(2)(1) / (2)(1)(3)(2)(1) = 120/12 = 10 
Assim 10 resultados são possíveis para o experimento de aleatoriamente selecionar duas peças de um grupo de 
5. Se rotularmos as cinco peças como A, B, C, D e E, as 10 combinações experimentais podem ser identificadas 
como: AB, AC, AD, AE, BC, BD, BE, CD, CE, DE. 
 
2) sistema da mega-sena: seleção aleatória de 6 inteiros de um grupo de 60 para determinar o ganhador semanal. N 
= 60 e n = 6. 
C606 = 60! / 6! 54! = 60*59*58*57*56*55 /6*5*4*3*2 = 50.063.860 
A regra de contagem para combinações nos diz que mais de 50 milhões de resultados experimentais são 
possíveis no sorteio da mega-sena. Sendo assim, um indivíduo que compra um bilhete tem 1 chance em 
50.063.860 de ganhar. 
 
 
3 – Regra de Permutações 
Ela permite calcular o número de resultados experimentais quando n objetos estão para ser selecionados a partir de um 
conjunto de N objetos, onde a ordem de seleção é importante. Os mesmos n objetos selecionados em uma ordem 
diferente são considerados um resultado experimental diferente. 
 
 N 
PNn = n! = N! . 
 n (N – n)! 
 
A regra de contagem para permutações está estritamente relacionada com aquela para combinações; no entanto, um 
experimento terá mais permutações do que combinações para o mesmo número de objetos. Isso porque para cada seleção 
de n objetos existem n! diferentes maneiras de ordená-los. 
 
Exemplo de aplicação de permutações: 
1) considere novamente o processo de controle de qualidade no qual um inspetor seleciona duas de cinco peças 
para inspecionar os defeitos. Quantas permutações podem ser selecionadas? 
P52 = 5!/3! = 20 
Assim os20 resultados, quando a ordem tem que ser levada em consideração são: AB, BA, AC, CA, AD, DA, 
AE, EA, BC, CB, BD, DB, BE, EB, CD, DC, CE, EC, DE, ED. 
 
 
 
Atribuição de Probabilidades 
Vejamos agora como as probabilidades podem ser atribuídas aos resultados experimentais. 
 
As três abordagens freqüentemente mais usadas são: 
- método clássico 
- método de frequência relativa 
- método subjetivo 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 24 
Independentemente do método utilizado, as probabilidades atribuídas precisam, satisfazer a duas exigências básicas: 
1. A probabilidade atribuída a cada resultado precisa estar entre 0 e 1, inclusive. Se Ei denotar o i-ésimo resultado 
experimental e P(Ei) a sua probabilidade, então essa exigência pode ser escrita como: 
0  P(Ei)  1, para todo i. 
2. A soma das probabilidades para todos os resultados experimentais possíveis precisa ser igual a 1. Portanto para 
n resultados experimentais, esta exigência pode ser escrita como: P(E1) + P(E2) +...+ P(En) = 1 
 
 
 
Método Clássico 
É apropriado quando todos os resultados experimentais são igualmente prováveis. Se n resultados experimentais são 
possíveis, a probabilidade de 1/n é atribuída a cada resultado experimental. 
Exemplo: considere o experimento “lançamento de um dado”, e parece razoável concluir que os seis resultados são 
igualmente prováveis e, portanto, a cada resultado é atribuída uma probabilidade P(x) = 1/6. 
 
 
 
Método de Frequência Relativa 
É recomendado quando os dados estão disponíveis para se estimar a proporção do tempo em que o resultado 
experimental ocorrerá se o experimento for repetido um grande número de vezes. Neste caso assume-se P(x) como sendo 
a freqüência relativa do evento. 
 
 
Método Subjetivo 
É o mais apropriado quando não é realístico supor que os resultados experimentais sejam igualmente prováveis e quando 
poucos dados relevantes estão disponíveis. 
Quando o método subjetivo é usado paras e atribuir probabilidades aos resultados experimentais, podemos usar qualquer 
informação disponível, tal como nossa experiência ou intuição. Depois de considerar toda informação disponível, um 
valor de probabilidade que expressa nosso grau de credibilidade (numa escala de 0 a 1) de que o resultado experimental 
ocorrerá é especificado. 
Como a probabilidade subjetiva expressa o grau de credibilidade de uma pessoa, ela é pessoal. 
 
Observação: mesmo em situações de negócios onde tanto a abordagem clássica como a abordagem da freqüência 
relativa podem ser aplicadas, os gerentes podem querer fornecer estimativas de probabilidade subjetiva. Em tais casos, a 
melhor estimativa de probabilidade freqüentemente é obtida combinando-se as estimativas das abordagens clássicas e de 
freqüência relativa com as estimativas de probabilidades subjetivas. 
 
 
Exemplo de Aplicação de Probabilidades 
A empresa ABC está iniciando um projeto de expansão de capacidade produtiva de uma de suas unidades fabris. O 
projeto está dividido em dois estágios ou etapas seqüenciais: etapa 1 (projeto) e etapa 2 (construção). 
Embora cada um dos estágios venha a ser programado e controlado tão de perto quanto possível, a administração não 
poderá prever de antemão o tempo exato exigido para se completar cada estágio do projeto. 
Uma análise de projetos similares de construção tem mostrado tempos de término para o estágio de projeto de 2, 3 ou 4 
meses, e um tempo de término para o estágio de construção de 6, 7 ou 8 meses. Além disso, devido à necessidade crítica 
de energia elétrica adicional, a administração estabeleceu um limite de 10 meses para o término do projeto como um 
todo. 
 
Resolução 
A regra de cálculo para experimentos de múltiplas etapas pode ser aplicada para determinar o número total de resultados 
experimentais possíveis: 
 
 
 
 
 
 
 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 25 
Listagem de Resultados Experimentais (Pontos Amostrais) 
Tempo de Término (meses) 
Estágio 1 (Projeto) Estágio 2 (Construção) Notação para o Resultado 
Experimental 
Tempo Total de Término 
do Projeto (meses) 
 
 
 
 
 
 
 
 
 
 
Vemos pelo quadro que X dos Y resultados (X/Y = Z%) fornecem o tempo desejado de término de 10 meses ou menos, 
porém, neste caso, como segundo a administração os resultados experimentais não eram igualmente prováveis, 
necessitava-se considerar como os valores da probabilidade podem ser atribuídos aos resultados experimentais antes de 
se fazer uma avaliação da probabilidade de que o projeto será completado dentro dos 10 meses desejados. 
 
 
Decidiu-se então realizar um estudo em termos de término para projetos similares empreendidos pela empresa nos 
últimos três anos, e o resultado de estudo de 40 projetos nestas condições estão sintetizados na tabela abaixo. 
 
Tempo de Término (meses) 
Estágio 1 
(Projeto) 
Estágio 2 
(Construção) 
Notação para o 
Resultado 
Experimental 
Tempo de 
Término do 
Projeto 
Número de 
Projetos que 
tiveram esses 
tempos d e término 
Probabilidade 
do Ponto 
Amostral 
Probabilidade 
de 10 meses 
ou menos 
 (2,6) 6 
 (2,7) 6 
 (2,8) 2 
 (3,6) 4 
 (3,7) 8 
 (3,8) 2 
 (4,6) 2 
 (4,7) 4 
 (4,8) 6 
Total 
 
Portanto a administração possui ______de probabilidade de concluir o projeto dentro do esperado. 
 
Evento e suas Probabilidades 
Evento é uma coleção de pontos amostrais. 
 
No caso do exemplo anterior sobre a empresa ABC, podemos escrever o evento de que o projeto seja terminado em 10 
meses ou menos como sendo: 
C = {(2,6), (2,7), (2,8), (3,6), (3,7), (4,6)} 
 
A probabilidade de qualquer evento é igual à soma das probabilidades dos pontos amostrais no evento. 
No caso, da empresa ABC, a probabilidade P(C) = ______ 
 
O Espaço Amostral, S, é um evento. Como ele contém todos os resultados experimentais, ele tem a probabilidade de 1 ou 
100%; isto é P(S) = 1 
 
 
 
 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 26 
Algumas Relações Básicas de Probabilidade 
 
Complemento de um Evento 
Dado um evento A, o complemento de A é definido como sendo o evento que consiste de todos os pontos amostrais que 
não estão em A. O complemento de A é denotado por A´ ou AC. 
Observe o Diagrama de Venn abaixo: 
 
 Espaço Amostral S 
 
 Evento A AC 
 
 Complemento do Evento A 
 
 
P(A) + P(AC) = 1 
 
Ou ainda: 
P(A) = 1 – P(AC) 
 
 
 
 
 
Lei da Adição 
A lei da adição é útil quando temos dois eventos e estamos interessados em conhecer a probabilidade de que pelo menos 
um deles ocorra. 
Isto é, com os eventos A e B estamos interessados em saber a probabilidade de que o evento A ou o evento B, ou ambos, 
ocorram. 
 
P(AB) = P(A) + P(B) – P(AB) 
 
(AB)  a união de A e B é o evento contendo todos os pontos amostrais que pertencem a A, a B ou a ambos. 
(AB)  dados dois eventos A e B, a intersecção de A e B é o evento que contém os pontos amostrais que pertencem 
tanto a A quanto a B. 
 
Exemplo 
Consideremos o caso de uma pequena fábrica de montagem com 50 empregados. Espera-se que cada trabalhador 
complete as atribuições de trabalho no horário e de tal modo que o produto montado passe numa inspeção final. Em 
certas ocasiões, alguns dos trabalhadores não têm êxito em satisfazer os padrões de desempenho, completando o trabalho 
mais tarde e/ou montando produtos com defeitos. 
No fim de um período de avaliação de desempenho, o gerente de produção descobriu que 5 dos 50 trabalhadores tinham 
completadoo trabalho mais tarde, que 6 dos 50 trabalhadores tinham montado produtos com defeitos, e que 2 dos 50 
trabalhadores tinham tanto completado o trabalho mais tarde como montado produtos com defeitos. 
Depois de rever os dados de performance, o gerente de produção decidiu atribuir uma avaliação de desempenho fraco a 
qualquer funcionário cujo trabalho foi tanto terminado mais tarde como defeituoso. Qual é a probabilidade de que o 
gerente de produção tenha atribuído a um empregado uma avaliação de desempenho fraco? 
 
Seja: 
T: evento em que o trabalho é completado mais tarde. 
D : evento em que o produto montado é defeituoso 
 
O que se quer saber é P(TD). 
P(T) = 5/50 = 0,10 
P(D) = 6/50 = 0,12 
P(TD) = 2/50 =0,04 
 
Portanto P(TD) = 0,10 + 0,12 – 0,04 = 0,18 
E podemos dizer que há 18% de probabilidade que um funcionário receba uma avaliação de desempenho fraco. 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 27 
 
Lei da Adição para Eventos Mutuamente Exclusivos 
Dois eventos, A e B, são ditos mutuamente exclusivos se eles não têm pontos amostrais em comum, ou seja P(AB) = 0. 
 
Nestes casos, podemos dizer que: P(AB) = P(A) + P(B) 
 
 
 
Probabilidade Condicional 
Freqüentemente, a probabilidade de um evento é influenciada pela ocorrência de ume evento paralelo. Suponha que 
temos um evento A com a probabilidade P(A). Se obtemos uma nova informação e ficamos sabendo que um evento 
paralelo, denotado por B, ocorreu, iremos querer tirar vantagem dessa informação no cálculo de uma nova probabilidade 
para o evento A. 
Esta nova probabilidade do evento A é escrita P(AB). 
A notação  é usada para denotar o fato de que estamos considerando a probabilidade de um evento A com a condição de 
que um evento B tenha ocorrido. 
Portanto a notação P(AB) é lida como “a probabilidade de A dado B”. 
 
P(AB) = P(AB) ou ainda, P(BA) = P(AB) 
 P(B) P(A) 
Probabilidades Associadas = probabilidades da intersecção de dois eventos. 
 
 
Exemplo: 
Consideremos a situação do status de promoção de oficiais masculinos e femininos de uma grande força policial 
metropolitana. A força policial consiste em 1.200 oficiais, sendo 960 homens e 240 mulheres. 
Nos últimos dois anos, 324 oficiais foram premiados com promoções. A divisão específica dessas promoções pode ser 
estruturada como na tabela abaixo. Depois de rever o registro de promoções, um comitê feminino de oficiais alegou 
discriminação, com base no fato de somente 36 mulheres terem recebido promoções. 
A administração argüiu que o número relativamente baixo referente às mulheres deve-se não à discriminação, mas ao 
fato de que há relativamente poucas mulheres na força policial. Mostremos como a probabilidade condicional poderia ser 
usada para analisar a acusação de discriminação. 
 Homens Mulheres Totais 
Promovidos 288 36 324 
Não promovidos 672 204 876 
Totais 960 240 1.200 
 
Seja: 
H = evento em que o oficial seja um homem 
M = evento em que um oficial seja uma mulher 
P = evento em que um oficial é promovido 
PC = evento em que um oficial não é promovido 
 
P(HP) = 288/1200 = 0,24 
P(HPC) = 672/1200 = 0,56 
P(MP) = 36/1200 = 0,03 
P(MPC) = 204/1200 = 0,17 
 Homens(H) Mulheres(M) Totais 
Promovidos (P) 0,24 0,03 0,27 
Não promovidos (PC) 0,56 0,17 0,73 
Totais 0,80 0,20 1,00 
 
Portanto P(PH) = P(PH)/P(H) = 0,24/0,80 = 0,30 
Ou ainda: P (PH) = 288/960 = 0,30 
(há 30% de chance de haver uma promoção dado que o oficial seja homem) 
 
Portanto P(PM) = P(PM)/P(M) = 0,03/0,20 = 0,15 
(há 15% de chance de haver uma promoção dado que o oficial seja mulher) 
Estatística Aplicada / Profa. Luciana Oriqui 
 28 
 
Embora o uso da probabilidade condicional não prove ele mesmo que existe discriminação neste caso, os valores da 
probabilidade condicional suportam o argumento apresentado pelas oficiais femininas. 
 
 
Eventos Independentes 
A probabilidade de um evento A não é afetada pela existência do evento B, caso estes sejam independentes. 
 
Dois eventos são independentes se: 
 P(AB) = P(A) 
ou 
 P(BA) = P(B) 
Caso contrário, os eventos são dependentes. 
 
 
Lei da Multiplicação 
Enquanto a lei da adição é usada para calcular a probabilidade de uma união de dois eventos, a lei da multiplicação é 
usada para calcular a probabilidade de uma intersecção de dois eventos. 
 P(AB) = P(B)*P(AB) 
ou 
 P(AB) = P(A)*P(BA) 
Lei da Multiplicação para Eventos Independentes 
P(AB) = P(A)*P(B) 
 
 
Nota: 
Não confundir a notação de eventos mutuamente exclusivos com aquela de eventos independentes. Dois eventos com 
probabilidades diferentes de zero não podem ser ambos mutuamente exclusivos e independentes. 
Se ocorre um evento mutuamente exclusivo, a probabilidade de outro ocorrer é reduzida a zero. Consequentemente, eles 
são dependentes. 
 
 
 
Teorema de Bayes 
Freqüentemente, começamos a análise com um cálculo da probabilidade inicial ou prévia para eventos de interesse 
específico. Então, a partir de fontes tais como uma amostra, um relatório especial ou um teste de produto, obtemos 
informação adicional sobre os eventos. 
Dada essa nova informação, atualizamos os valores prévios da probabilidade calculando as probabilidades adicionais, 
denominadas probabilidades posteriores. 
O Teorema de Bayes fornece um meio de fazer esses cálculos de probabilidade. 
 
 
Revisão da Probabilidade Usando o Teorema de Bayes 
 
Probabilidades Nova Aplicação do Probabilidades 
Prévias Informação Teorema de Bayes Posteriores 
 
 
Teorema de Bayes 
P(AiR) = P(Ai)*P(RAi) . 
 P(A1)*P(RA1) + P(A2)*P(RA2) + ... + P(An)*P(RAn ) 
 
Onde: 
P(A1), P(A2)...P(An) = probabilidades prévias 
P(RA1), P(RA2), ... , P(RAn) = probabilidades condicionais 
P(AiR) = probabilidades posteriores dos eventos A1, A2, ... , An 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 29 
O teorema de Bayes é aplicável quando os eventos para os quais queremos calcular probabilidades posteriores são 
mutuamente exclusivos e suas uniões são o espaço de amostra inteiro. 
 
Este teorema é usado extensivamente nas análises de decisões. As probabilidades prévias são freqüentemente estimativas 
subjetivas fornecidas por um tomador de decisão. A informação amostral é obtida e as probabilidades posteriores são 
calculadas para uso no desenvolvimento de uma estratégia de decisão. 
 
Exemplo 
Considere uma empresa fabricante que recebe embarques de peças de dois diferentes fornecedores, e seja: 
A1: evento em que uma peça vem do fornecedor 1 
A2: evento em que uma peça vem do fornecedor 2 
Atualmente 65% das peças compradas são do fornecedor 1 e o restante, 35%, são do fornecedor 2. Portanto, se uma peça 
é selecionada aleatoriamente, poderíamos atribuir as probabilidades prévias P(A1) = 0,65 e P(A2) = 0,35. 
A qualidade das peças varia de acordo com a fonte de fornecimento. Os dados históricos sugerem que as avaliações de 
qualidade dos dois fornecedores são como mostradas no quadro a seguir (níveis históricos de qualidade de dois 
fornecedores): 
 Porcentagem de Peças Boas Porcentagem de Peças Ruins 
 
Fornecedor 1 
98 2 
Fornecedor 2 95 5 
Seja: 
B = evento em que a peça é boa 
R = evento em que a peça é ruim 
Probabilidades Condicionais: 
P (B A1) = 0,98 P(R A1) = 0 
P (B A2) = 0,95 P(R A2) = 0,05 
 
O diagrama de árvores abaixo retrata o processo de a empresa receber uma peça de um dos dois fornecedores e então 
descobrir que a peça está boa ou está ruim como um experimento de duas etapas. 
 
 Etapa 1 Etapa 2 Probabilidade de Resultado 
 Fornecedor Condição 
 P(A1B) = P(A1)*P(BA1) = 0,6370 
 P(BA1)=0,98P(RA1)=0,02 
 P(A1) = 0,65 P(A1R) = P(A1)*P(RA1) = 0,0130 
 P(A2B) = P(A2)*P(BA2) = 0,3325 
 P(BA2) = 0,95 
 P(A2) = 0,35 
 P(RA2)=0,05 
 
 P(A2R) = P(A2)*P(RA2) = 0,0175 
 
 
Para encontrarmos a probabilidade de recebermos uma peça ruim P(R) = P(A1R) + P(A2R) = 0,0130+0,0175 = 
0,0305. 
 
Suponha que as peças dos dois fornecedores são usadas no processo de fabricação da forma, e que uma máquina se 
quebre porque estava tentando processar uma peça ruim. Dada a informação de que a peça é ruim, qual é a probabilidade 
de que ela venha do fornecedor 1 e qual a probabilidade que ela venha do fornecedor 2? 
P(A1 R) = P(A1R) = 0,0130/0,0305 = 0,4262 
 P(R) 
 
P(A2 R) = P(A2R) = 0,0175/0,0305 = 0,5738 
 P(R) 
 
 
Estatística Aplicada / Profa. Luciana Oriqui 
 30 
Abordagem Tabular do teorema de Bayes 
Etapa (1) 
 
Eventos 
Ai 
Etapa (2) 
Prévias 
Probabilidades 
P(Ai) 
Etapa (3) 
Condicionais 
Probabilidades 
P(RAi) 
Etapa (4) 
Associadas 
Probabilidades 
P(AiR) 
Etapa (5) 
Posteriores 
Probabilidades 
P(AiR) 
A1 0,65 0,02 0,0130 0,0130/0,0305 = 0,4262 
A2 0,35 0,05 0,0175 0,0175/0,0305 = 0,5738 
 1,00 P(R) = 0,0305 
 
 
 
 
Distribuições Estatísticas 
 
Variável Aleatória é uma descrição numérica do resultado de um experimento, ou seja, ela associa um valor numérico a 
cada resultado experimental possível. 
Uma variável aleatória pode ser classificada em discreta ou contínua. 
 
É bastante comum para os estudiosos tentar descrever um determinado fenômeno através do estudo da probabilidade de 
um evento associado a ele, por exemplo, como no caso de se tentar estimar a ocorrência de um determinado tipo de 
defeito. 
 
É preciso definir qual das inúmeras distribuições estatísticas é a que melhor representa o processo que está sendo 
estudado. 
 
As distribuições estatísticas podem ser divididas em dois grandes grupos: 
 
Distribuições Discretas de Probabilidades (ou de Atributos) 
Para uma variável discreta x, a distribuição de probabilidade é definida por uma função de probabilidade, denotada por 
f(x). 
 
A função de probabilidade fornece a probabilidade para cada um dos valores da variável aleatória. 
 
Devem ser utilizadas para modelar situações em que a saída de interesse só pode assumir valores inteiros (discretos) , 
como 0 ou 1 para falha ou sucesso, ou 0,1,2,3,... como o número de ocorrências de um determinado evento de interesse . 
 
A distribuição discreta pode ainda ser dividida em duas famílias: 
- Distribuição Binomial 
- Distribuição Poisson 
 
 
Distribuição Binomial 
Deve ser utilizada para modelar situações onde para uma determinada saída de interesse a probabilidade de ocorrências 
de um sucesso ( p ) e de um fracasso ( q ) é sempre constante . Essa condição funciona bem quando os tamanhos dos 
lotes são grandes ou em produções contínuas ( n/N <0,1 ) . 
 
Ou seja, para poder ser considerado um experimento binomial, quatro propriedades tem que ser encontradas no mesmo: 
1. O experimento consiste de uma seqüência de n ensaios independentes, idênticos e repetidos 
2. Dois resultados são possíveis em cada ensaio. Referimo-nos a um como sucesso (p) e ao outro como fracasso (1 
– p) 
3. p + q = 1 e p não se altera no decorrer do tempo (hipótese estacionária) 
4. A variável aleatória binomial x é a contagem do número de testes bem sucedidos que ocorreram; x pode assumir 
qualquer valor de zero a n. 
OS: requisito de independência: amostragem sem reposição envolve eventos dependentes, o que viola o segundo 
requisito de probabilidade binomial, no entanto, podemos sempre admitir a independência, aplicando a diretriz dos 5% 
(se os cálculos são complicados e se o tamanho da amostra não for superior a 5% do tamanho da população, trate 
as seleções como independentes (Regra dos 5%), mesmo que sejam feitas sem reposição, de modo que seriam 
tecnicamente dependentes). 
Estatística Aplicada / Profa. Luciana Oriqui 
 31 
Função Binomial de Probabilidade 
 
f(x) = n * px*(1 – p)(n – x) 
 x 
 
onde: 
f(x) = probabilidade de x sucessos em n ensaios 
n = número de ensaios 
p = probabilidade de um sucesso em qualquer dos ensaios 
(1 – p) = probabilidade de fracasso em qualquer um dos ensaios 
 n = n! . 
 x x! (n – x)! 
 
 
Exemplo 1 de Experimento Binomial: Uma moeda é lançada três vezes e observa-se o número de vezes que ocorre cara 
nos três lançamentos. 
Esse é um experimento binomial, pois apresenta todas as propriedades de um experimento binomial: 
1. Existem n = 3 testes independentes repetidos (cada lançamento da moeda é um experimento separado, e o 
resultado de qualquer um dos testes não afeta a probabilidade dos outros testes) 
2. Cada teste (cada lançamento de moeda) tem dois resultados: sucesso = cara e fracasso = coroa 
3. A probabilidade de sucesso é p = P(K) = 0,5 e a probabilidade de fracasso é q = P(C) = 0,5, sendo que p + q =1, 
e p não se altera no decorrer do tempo, checado. 
4. A variável aleatória x é o número de caras que ocorre nos três testes; x assumirá exatamente um dos valores 0, 1, 
2 ou 3 quando o experimento estiver concluído. 
 
A função de probabilidade binomial para o lançamento de 3 moedas é: 
P ( x ) = (
n
x )p
x
 ( 1- p )
n-x
 
P ( x ) = (
3
x )0,5
x
 ( 0,5 )
3-x, para x = 0, 1, 2 ou 3 
 
Para, por exemplo, saber-se a probabilidade de sair 1 vez cara (x = 1): 
P ( 1 ) = (
3
1)0,5
1
 ( 0,5 )
2 = 3*0,5*0,25 = 0,375 
 
Quanto aos possíveis números de sucessos x de um experimento binomial, podemos dizer: 
a) número de valores é finito 
b) x é uma variável aleatória discreta 
 
Exemplo 2 de um experimento binomial: considere um vendedor de seguros que visita 10 famílias selecionadas 
aleatoriamente. O resultado associado com cada visita está classificado como um sucesso se a família compra uma 
apólice de seguro e um fracasso se a família não compra. De experiências passadas, o vendedor sabe que a probabilidade 
de que uma família selecionada aleatoriamente comprará uma apólice de seguro é de 10%. 
Verificando as propriedades de um experimento binomial, nós observamos que: 
1. o experimento consiste em 10 ensaios idênticos e independentes(porque as famílias são sorteadas 
aleatoriamente); cada ensaio envolve contatar uma família. 
2. dois resultados são possíveis em cada ensaio: a família compra uma apólice (sucesso) ou a família não compra 
uma apólice (fracasso). 
3. considera-se que as probabilidades de uma compra e de uma não-compra são as mesmas para cada chamada de 
venda, com p = 0,10 e q = 0,90, sendo p + q = 1, e p não se altera no decorrer do tempo 
4. A variável aleatória x é o número de uma família comprar uma apólice de seguro que ocorre nas dez visitas; x 
assumirá exatamente um dos valores 0, 1, 2, 3, 4...ou 10 quando o experimento estiver concluído. 
 
Como as quatro hipóteses estão satisfeitas, este exemplo é um experimento binomial. A variável aleatória de interesse é o 
número de vendas obtidas em contatar as 10 famílias. 
Neste caso, x pode assumir os valores de 0, 1, 2 , 3, 4, 5, 6, 7, 8, 9 e 10. 
 
Considere agora que o vendedor continua ligando as famílias para vender as apólices de seguro. Se, conforme o dia passa 
vagarosamente, o vendedor fica cansado e perde o entusiasmo, a probabilidade de sucesso pode cair para 0,05, por 
exemplo, por volta da décima ligação. 
Em tal caso, a propriedade 3 não satisfeita enão teríamos um experimento binomial, mesmo que todas as outras 
propriedades se mantivessem. 
Estatística Aplicada / Profa. Luciana Oriqui 
 32 
Valor Esperado (E(x)) e Variância (2) para a Distribuição Binomial de Probabilidade 
E(x) =  = n*p 
2 = n*p*q) 
 
Observação 1: 
O Valor Esperado, ou média, de uma variável aleatória é a medida central para a variável aleatória. 
E(x) =  = x*f(x) 
 
 
Considere um exemplo do valor esperado para o número de automóveis vendidos durante um dia em determinada 
revendedora: 
X f(x) x*f(x) 
0 0,18 0,00 
1 0,39 0,39 
2 0,24 0,48 
3 0,14 0,42 
4 0,04 0,16 
5 0,01 0,05 
E(x) = x*f(x) = 1,50 
Podemos concluir a partir destes dados que embora as vendas de 0, 1, 3, 3, 4 ou 5 automóveis sejam possíveis em 
qualquer um dos dias, no momento a revendedora pode antecipar que vende uma média de 1,5 automóveis/dia. Supondo 
30 dias de operação, pode-se usar o valor esperado de 1,50 diário para antecipara s vendas mensais médias de 30*1,50 = 
45 automóveis. 
 
Observação 2: 
Enquanto o valor esperado fornece o valor médio para a variável aleatória, a variância sintetiza a variabilidade nos 
valores da variável aleatória. 
2 = (x - )2*f(x) 
ou seja, a variância é a soma dos quadrados dos desvios multiplicados pela suas correspondentes funções probabilidades. 
 
 
Distribuição Geométrica 
Uma distribuição de probabilidade geométrica é bastante relacionada com a distribuição binomial, porém as séries de 
tentativas de Bernouilli (tentativas independentes, com probabilidade constante “p” de um sucesso em cada tentativa), 
diferem das consideradas na distribuição binomial no que tange ao número de tentativas, “n”, sendo: 
- na probabilidade binomial: número fixo de tentativas, 
- na probabilidade geométrica: tentativas são realizadas até que um sucesso seja obtido 
 
Fórmula da Probabilidade Geométrica 
P(x) = (1 – p)x – 1*p 
para x = 0, 1, 2,...,n 
em que: 
x = variável aleatória que fornece o número de tentativas/falhas até o primeiro sucesso 
p = probabilidade de sucesso em qualquer tentativa 
q = probabilidade de fracasso em qualquer tentativa (q = 1 – p) 
 
 
Exemplo 1: 
Um pesquisador está realizando experimentos químicos independentes e sabe que a probabilidade de que cada 
experimento apresente uma reação positiva é 0,3. Qual é a probabilidade de que menos de 5 reações negativas ocorram 
antes da primeira positiva? 
Para resolver este problema, considere como sendo a variável aleatória que representa o número de reações negativas 
até a ocorrência da primeira positiva. 
P(X  5) = = 0,70*0,3+ 0,7*0,3 + 0,72*0,3 + 0,73*0,3 + 0,74*0,3 
Estatística Aplicada / Profa. Luciana Oriqui 
 33 
P(X  5) = 0,3 + 0,21 + 0,147 + 0,1029 + 0,072 
P(X  5) = 0,8319 
 
 
Distribuição de Poisson 
É freqüentemente utilizada para estimar o número de ocorrências sobre um intervalo de tempo ou de espaço específicos. 
Exemplos: 
- defeitos em barras, tecidos, em um intervalo contínuo de tempo, em uma área, volume, etc. 
- número de chegada a um lava-carros em uma hora 
- número de reparos necessários em 10 km de uma auto-estrada 
- número de vazamentos em 100km de tubulação. 
- quantidade de riscos encontrados sobre o teto de um automóvel 
 
Propriedades específicas: 
1. A probabilidade de ocorrência é a mesma para quaisquer dois intervalos de igual comprimento; 
2. A ocorrência ou não-ocorrência em qualquer intervalo é independente da ocorrência ou não-ocorrência em 
qualquer outro intervalo. 
 
Função de Probabilidade de Poisson 
f(x) = x * e- 
 x! 
onde: 
f(x) = probabilidade de x ocorrências em um intervalo 
 = valor esperado ou número médio de ocorrências em um intervalo 
e = 2,71828 
x = número de ocorrências no intervalo 
 
 
Exemplo 
Suponha que estamos interessados no número de chegadas a uma caixa automática (tipo drive-thru) de um banco durante 
um período de 15 minutos nas manhãs de finais de semana. 
Se pudermos considerar a probabilidade de um carro chegar é a mesma para quaisquer dois períodos de tempo de igual 
comprimento, e que a chegada ou não-chegada de um carro em qualquer período de tempo seja independente da chegada 
ou não-chegada de outro em qualquer outro período de tempo, a função de probabilidade de Poisson é aplicável. 
Suponha que essas hipóteses são satisfeitas e uma análise dos dados históricos mostra que o número médio de carros no 
período de 15 minutos é 10, então: 
f(x) = 10x * e-10 
 x! 
x = variável aleatória que representa o número de carros que chegam em qualquer período de quinze minutos. 
 
Se a administração quer saber a probabilidade de exatamente cinco chegadas em 15 minutos, então: 
f(5) = (105 * e-10)/5! = 0,0378 
Embora essa probabilidade tenha sido determinada calculando-se a função probabilidade, é freqüentemente mais fácil 
referir-se às tabelas para distribuição de Poisson. Essas tabelas fornecem probabilidades para valores específicos de x e 
.. 
 
Nesse mesmo exemplo, outros períodos poderiam ser considerados, utilizando-se simples regra de 3 para calcular .. Por 
exemplo se quisemos calcular chegadas de carros em 3 minutos: 
10 carros - 15 minutos 
k - 3 minutos k = nova média  = 2 carros a cada 3 minutos 
e a função probabilidade agora seria: 
f(x) = 2x * e-2 
 x! 
 
Aproximação de Poisson da Distribuição Binomial de Probabilidade 
A distribuição de Poisson pode ser usada como uma aproximação da distribuição binomial de probabilidade quando p, a 
probabilidade de sucesso, é pequena e n, o número de ensaios é grande. 
Estatística Aplicada / Profa. Luciana Oriqui 
 34 
Nesses casos simplesmente faça  = n*p e use as tabelas de probabilidades de Poisson. 
 
 
Regra Prática: a aproximação será boa sempre que: 
➢ p  0,05, e 
➢ n  20 
 
 
 
Distribuição Hipergeométrica de Probabilidade 
A distribuição hipergeométrica de probabilidade está restritamente relacionada com a distribuição binomial de 
probabilidade. 
A diferença-chave entre elas é que na distribuição hipergeométrica os ensaios não são independentes e a probabilidade de 
sucesso muda de ensaio para ensaio. 
 
Amostras são frequentemente selecionadas sem reposição. Embora possibilidades possam ser determinadas por 
aproximações de independência (regra dos 5%, por exemplo), uma fórmula geral para calcular probabilidades, quando 
amostras são selecionadas sem reposição, é bastante útil. 
 
 
Função Hipergeométrica de Probabilidade 
 
 r N - r 
 x n - x 
f(x) = _____________ para 0  x  1 
 N 
 n 
 
onde: 
f(x) = probabilidade de x sucessos em n ensaios 
n = número de ensaios 
N = número de elementos na população 
r = número de elementos na população rotulados de sucesso 
 r = número de modos pelos quais x sucessos podem ser relacionados a partir de um total de r sucessos na 
 x população 
 N = número de modos pelos quais uma amostra de tamanho n pode ser selecionada a partir de uma população 
 n de tamanho N 
 
 N – r = número de modos pelos quais n – x fracassos podem ser selecionados a partir de N – r fracassos na 
 n – x população. 
 
 
 
Exemplo: 
Suponha que uma população consiste de 10 itens, quatro dos quais classificados como defeituosos e seis dos quais são 
classificados como não-defeituosos. Qual é a probabilidade de que uma amostra aleatória de tamanho três conterá dois 
itens defeituosos? 
Para este problema podemos pensar em obter um item defeituoso como um sucesso. Portanto: 
N =10 
n = 3 
r = 4 
x = 2 
 4 6 
f(2) = 2 1 = 36/120 = 0,30 
 10 
 3 
Estatística Aplicada / Profa. Luciana Oriqui 
 35 
Estatística Aplicada / Profa. Luciana Oriqui 
 36 
Distribuições Contínuas de Probabilidade 
Aqui discutiremos três distribuições