Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

1
Estatística Básica 
com Excel 
 
Prof. Francisco Carlos Benedetti 
 
2008 
2
CAPÍTULO I – Estatística Descritiva: 
Definições, Tabelas e Gráficos 
 
CAPÍTULO II – Medidas Estatísticas: 
Medidas de Tendência Central e Medidas de Dispersão 
 
CAPÍTULO III – Medidas Estatísticas de Posição 
 
CAPÍTULO IV – Probabilidades 
 
CAPÍTULO V – Probabilidades: Distribuições Binomiais 
 
CAPÍTULO VI – Distribuições de Probabilidades: Histogramas e 
Medidas 
 
CAPÍTULO VII – Distribuições Normais Probabilidades: A 
famosa Curva de Gauss 
 
CAPÍTULO VIII – Distribuições Amostrais 
 
CAPÍTULO IX – Intervalos de Confiança para a Média: desvio 
padrão conhecido 
 
CAPÍTULO X – Intervalos de Confiança para Média – desvio 
padrão desconhecido: a Distribuição T de Student 
 
CAPÍTULO XI – Distribuições Amostrais e Intervalos de 
Confiança para uma Proporção 
 
CAPÍTULO XII – Correlação entre Variáveis 
Regressão Linear 
Outros tipos de Regressão 
3
CAPÍTULO I 
 
Estatística Descritiva: 
Definições, Tabelas e Gráficos 
 
• Como usar Excel para construir gráficos (a fim de praticar a famosa 
expressão: “muitas vezes, uma figura fala mais do que mil 
palavras”); 
• Como saber qual tipo de gráfico usar (gráfico de barras ou 
histogramas?); 
 
4.1 Introdução geral ao curso 
 
Estatística é a ciência que lida com dados, o que envolve coleta, 
classificação, resumo, organização, análise, interpretação e inferência 
dos mesmos; geralmente nos leva a predições e estimativas. Nas mais 
diferentes áreas do conhecimento e da atividade humana é possível observar uma 
grande massa de informações que nos apresentam, seja pela tv, jornais e revistas 
impressos ou Internet. Não há limites para o uso da Estatística e, para quem está 
ou quer estar no mercado de trabalho, deve atentar ao fato de que Estatística não 
é apenas uma forma de apresentar números, tabelas e gráficos para que alguém 
os entenda, mas sim, a partir de tais informações, concluir fatos, descobrir 
relações para, após análise e reflexão, tomar decisões. Este será o caminho que 
percorreremos neste curso. 
Vamos à primeira parte de nosso estudo em Estatística, que se refere à 
apresentação e organização de dados. Durante todo o curso utilizaremos a planilha 
eletrônica Excel, e também um software estatístico chamado R. Note que o 
objetivo não é usar o Excel para fazer uma bela apresentação de dados (para isso 
você tem a disciplina específica), mas sim para usufruirmos suas funções, seus 
cálculos facilitadores e suas formas de análise de dados. 
 
4.2 Estatística descritiva 
 
Estatística Descritiva: é a o segmento da Estatística que está relacionada 
à organização, resumo, descrição e apresentação dos dados. Não é nosso curso 
todo, é apenas o começo, já que estudaremos também cálculo de probabilidades, 
amostragem e tomadas de decisão. 
População é o conjunto de dados que descrevem algum fenômeno de 
interesse. 
Amostra é um subconjunto, ou seja, uma parte da população. 
4
4.3 Tipos de variável 
 
Uma variável é uma característica que difere, ou varia, de uma observação 
para outra. 
As medidas de alturas de pessoas são variáveis numéricas, enquanto o grau 
de satisfação de um consumidor com determinado produto (baixo, médio, alto) 
não é uma variável numérica (é uma categoria, uma qualidade). Perceba, dessa 
forma, que há diferenças entre os tipos de dados que obtemos. 
Variáveis quantitativas (numéricas) são medidas sobre uma escala 
numérica. Exemplos: valores em reais (preços, salários), medidas de comprimento 
(de área, de volume), índices (porcentagens diversas), tempos de realização de 
certos processos. 
Variáveis qualitativas (categorizadas) não são numéricos, podem ser 
classificados em um grupo de categorias (certo-errado, V-F, sim-não, ótimo-bom-
regular-ruim). 
 
4.4 Apresentação de dados qualitativos (categorizados) 
 
A apresentação de dados qualitativos costuma ser mais imediata, sem 
tantas dificuldades para análise; costumam ser ilustrados por meio de tabelas e 
gráficos de barras. Também podemos citar o sectograma, conhecido como gráfico 
tipo “pizza”. 
O professor Reinaldo, de Logística, realizou amostragens com seus alunos 
em determinada turma de graduação em Informática. Propôs uma análise 
proveniente de coleta de dados em supermercados para avaliar a possibilidade de 
criação de caixas com serviços exclusivos. O arquivo super1.xls ilustra tal pesquisa, 
que será detalhada em outro texto. Para o momento, utilizaremos esse conjunto 
de dados para ilustrarmos a apresentação de uma variável qualitativa. 
Essa variável será “tipo de pagamento”, que significa a forma como os 
clientes pagaram suas compras. Os valores que essa variável pode assumir são: 
cartão de crédito, cartão de débito, dinheiro, cheque ou vale (tíquete). A seguir 
uma ilustração do conjunto de dados; utilizaremos, desse exemplo, a coluna 
intitulada “forma de pagamento”. 
Nossa intenção é observar as quantidades (porcentagens) que ocorreram 
para cada valor da variável “tipo de pagamento”. Para construir qualquer tipo de 
gráfico (como o de barras e o tipo “pizza”), devemos antes construir uma tabela 
com essas quantidades. Em Estatística, chamamos essas tabelas de “tabelas de 
distribuição de freqüências”. 
 
5
A tabela de distribuição de freqüências, feita com auxílio de lápis-e-papel e 
calculadora simples, pode ser assim apresentada: 
Forma de 
pagamento 
Freqüência 
absoluta 
Freqüência 
relativa 
Dinheiro 118 44,70% 
Cheque 43 16,29% 
Cartão de crédito 19 7,58% 
Cartão de débito 83 31,44% 
Tíquete 0 0,00% 
Total 264 100% 
 
Como fazê-la no Excel? 
Construa a primeira linha e a primeira coluna da tabela acima, usando à 
vontade seus conhecimentos de digitação e de Excel (itens de embelezamento 
para apresentações ficarão por sua conta, ok?). Usaremos a função =CONT.SE 
desse programa para fazer a contagem de cada valor da variável em questão. 
 
6
Na célula B2 (veja a figura anterior) digitamos =CONT.SE (intervalo dos 
dados, expressão que se deseja contar). O intervalo dos dados neste 
exemplo é a coluna já indicada (“formas de pagamento”); veja que ela está na 
planilha um do arquivo super1.xls, mas estamos usando a planilha 2 para construir 
a tabela. A expressão que se deseja contar é o valor da variável em questão, 
no caso, “dinheiro” (escreva entre aspas, exatamente como está no conjunto de 
dados). 
Em seguida, proceda de modo análogo com as células B3, B4, B5 e B6. O 
total de dados pode ser obtido com a função =SOMA, conforme ilustra a próxima 
figura. 
 
Já é possível construir um gráfico de barras, relacionando as formas de 
pagamento com a freqüência absoluta. Como trabalharemos com porcentagens, 
construiremos a coluna de freqüências relativas e, em seguida, construiremos o 
gráfico de barras e o tipo pizza, usando esses valores. 
Na coluna das freqüências relativas, podemos usar a opção de dividir 118 
pelo total 264, obtendo 0,446969696 (=B2/B$7). Fazendo-se isso para as células 
seguintes, você obterá as respectivas proporções; para apresentar esses cálculos 
na forma percentual com o número de casas decimais que desejar, basta usar os 
botões circulados na figura a seguir. 
 
Vamos ao gráfico de barras: 
1º) Clique no assistente de gráfico, selecione o “tipo colunas” (é o 
primeiro e já vem selecionado!) e pressione avançar;
2º) Na etapa 2 de 4, há duas abas: na aba intervalo de dados selecione a 
coluna de freqüências relativas; na aba série digite o nome que deseja ao 
gráfico (como “Forma de Pagamento”) e em rótulos do eixo das categorias 
7
Formas de Pagamento
44,70%
16,29%
7,58%
31,44%
0,00%
0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
45,00%
50,00%
Dinheiro Cheque Cartão de crédito Cartão de débito Tíquete
Formas de Pagamento
44,70%
16,29%
7,58%
31,44%
0,00%
Dinheiro
Cheque
Cartão de crédito
Cartão de débito
Tíquete
(X) selecione a coluna das variáveis qualitativas, ou seja, a coluna das 
formas de pagamento, e pressionetrês eventos mutuamente 
exclusivos. 
 
No exemplo das cartas, P(A ou B) = P(A) + P(B) = 13/52 +13/52 
Observação: se os eventos A e B não forem mutuamente exclusivos, 
devemos fazer: 
P(A ou B) = P(A) + P(B) - P(A e B) 
 
Por exemplo: retirar uma carta de um baralho comum e calcular a 
probabilidade de sair uma carta vermelha ou uma dama. Temos: 
P(V ou D) = 26/52 + 4/52 – 2/52 = 28/52 
 
• Evento Complementar de A, chamado de A , é o “contrário” de A. A 
probabilidade de não ocorrer A, denotada por P( A ), é: 
 
P( A ) = 1 – P(A) 
 
Note que P(A) + P( A ) = 1, que significa que, ao somarmos as probabilidades de 
ocorrer um evento e de ele não ocorrer é 1 (100%) 
Se um instituto de meteorologia afirma que hoje há 30% de chances de 
chover, podemos concluir que hoje há 70% de chances de não chover, pois 
efetuamos a subtração 100% – 30% = 70% 
 
• Probabilidade Condicional 
 
Exemplo: Pedro joga um dado cúbico equilibrado, mas João não consegue 
ver a face que caiu. Pedro então lhe diz que a face voltada para cima é par. Qual a 
probabilidade de João acertar a face que caiu? 
Veja que a resposta pode ser formulada intuitivamente: 1/3, já que João 
escolherá uma das faces 2, 4 ou 6 (a não ser que ele não saiba o que é um 
número par). 
Vamos refazer este problema, a fim de introduzirmos uma nova notação e 
uma nova fórmula: qual a probabilidade de ter saído face 4, sabendo que ocorreu 
face par? Veja que há dois eventos em questão: A = sair face 4 e B = ocorrer face 
par. Em símbolos: 
2ª lei de Probabilidades: Se A e B são eventos mutuamente 
exclusivos, então: 
 
P(A ou B) = P(A) + P(B) 
42
A = {4} e B = {2, 4, 6} 
O que se deseja é: calcular a probabilidade de ocorrer face 4, sabendo que 
ocorreu face par. Há uma notação específica para esta pergunta: a probabilidade 
de ocorrer o evento A sabendo que ocorreu B é representada por )|( BAP , que 
se lê: “probabilidade de A, dado B”. Esclarecida esta notação, podemos então 
enunciar a 3ª lei de probabilidades: 
 
No exemplo, perceba que o valor 1/3 obtido intuitivamente também pode 
ser obtido a partir dessa expressão: 
3
1
6/3
6/1
)(
)(
)|( ===
BP
BeAP
BAP
• Eventos Independentes: a ocorrência de um não interfere na probabilidade 
de ocorrência do outro; em outras palavras, ao se saber que B ocorreu, isso 
não influenciará na probabilidade de ocorrência de A. Nesse caso, é correto 
afirmar que )()|( APBAP = , e então temos a conhecida “regra da 
multiplicação” entre probabilidades, a qual é derivada da terceira lei de 
probabilidades: 
 
)()|()( BPBAPBeAP ×= 
fica equivalente a 
 
)()()( BPAPBeAP ×= 
Exemplo: Uma marca de salgadinhos fez uma promoção do tipo “raspadinha”. Em 
cada embalagem vem uma cartela (ver figura), com a qual você participa de um 
jogo e concorre a brindes. Na cartela existem vários espaços (círculos) cobertos 
por uma tinta cinzenta, os quais, após serem raspados, revelam uma figura 
impressa: uma bola de futebol, ou um X. A cartela simula um campo de futebol, 
sendo uma das traves o início do jogo e a outra o gol que contém o prêmio. O 
objetivo do jogo é atravessar esse campo pela trilha de bolas. Se ao raspar o 
3ª lei de Probabilidades: Se A e B são dois eventos, então: 
)(
)(
)|(
BP
BeAP
BAP =
ou, de maneira equivalente: 
)()|()( BPBAPBeAP ×= 
43
primeiro círculo você encontrar uma bola, vá para a próxima faixa e repita o 
processo. Caso contrário, se você encontrar um X, perdeu o jogo. Em cada faixa 
há apenas um círculo que contém uma bola escondida. Os outros são todos X .
Tente chegar ao gol do prêmio, raspando apenas nas bolas, sem nunca encontrar 
um X. A probabilidade de ganhar o prêmio numa cartela como a da figura a 
seguir, é: (1/3)×(1/4)×(1/3)×(1/4) = 1/144 
 
prêmio 
 
4a faixa 
 
3a faixa 
 
2a faixa 
 
1a faixa 
 
início 
 
4.2 Tabelas de contingência. 
 
São tabelas que possuem dados classificados em mais de uma categoria ou 
tipo de análise. Utilizemos um exemplo para que o uso de tais tabelas seja 
praticado. 
Suponha que 100 gerentes de diversos setores de grandes empresas de 
certa cidade foram consultados em relação a seus respectivos salários. Abaixo as 
classificações dos entrevistados em relação ao sexo (masculino ou feminino) e à 
faixa salarial (faixa A de salários mais altos, a partir de R$ 5.000,00, e faixa 
B de salários inferiores a R$ 5.000,00) 
 Homens Mulheres Totais 
Faixa A 25 15 40 
Faixa B 45 15 60 
Totais 70 30 100 
Se realizarmos o experimento “escolher um(a) gerente aleatoriamente 
dentre os 100 que participaram da pesquisa”, podemos reconstruir a tabela com as 
devidas proporções, as quais se tornam probabilidades:
Homens Mulheres Totais 
Faixa A 0,25 0,15 0,40 
Faixa B 0,45 0,15 0,60 
Totais 0,70 0,30 1,00 
44
Questões possíveis: escolhendo-se uma pessoa ao acaso, calcular a 
probabilidade de: 
(a) Ser do sexo feminino; 
(b) Ser do sexo masculino; 
(c) Ser da faixa A; 
(d) Ser da faixa B; 
(e) Ser do sexo feminino e ser da faixa A; 
(f) Ser do sexo masculino e ser da faixa B; 
(g) Ser do sexo feminino, sabendo que é da faixa A; 
(h) Ser da faixa A, sabendo que é do sexo feminino. 
 
4.3 Exercícios 
 
1. Quatro estudantes de um mesmo curso de uma faculdade costumam vir num 
mesmo carro para as aulas. Não se sentindo preparados para a prova de 
Estatística, os estudantes resolveram faltar no dia da prova, tentando 
enganar o professor ao dizerem que o pneu do carro havia furado, a fim de 
que o professor não ficasse furioso. Ao relatarem tal fato na semana seguinte 
à prova, o professor pediu para que cada um dos quatro estudantes 
escrevesse num pequeno pedaço de papel qual dos quatro pneus havia 
furado (dianteiro direito, dianteiro esquerdo, posterior direito ou posterior 
esquerdo). Se cada um dos estudantes escolher aleatoriamente um dos 
pneus para escrever no papel, qual a probabilidade de que consigam enganar 
o professor? 
 
2. Suponha que certa aplicação A tem 80% de chances de ter um rendimento 
superior a 1% ao mês, enquanto que a aplicação B tem 60% de chances de 
render mais que 1% após um mês. O que pode tornar a aplicação B mais 
atraente a um investidor é o fato de que, em seu histórico oscilante, há 
meses em que seu rendimento foi consideravelmente superior a 1%. Agripino 
aplicará, em determinado mês, uma quantia na aplicação A e outra quantia 
na aplicação B. Admitindo que A e B são aplicações cujos índices são 
independentes, calcule a probabilidade de que: 
a) ambas aplicações rendam mais que 1% nesse mês; 
b) apenas uma das aplicações renda mais que 1% nesse mês; 
c) nenhuma aplicação renda mais que 1% nesse mês. 
 
3. Suponha agora outro cenário para o problema anterior: Agripino aplicará toda 
a quantia financeira em apenas uma das aplicações. Agripino escolherá a 
aplicação lançando uma moeda, decidindo pela aplicação A se o resultado for 
“cara”, e decidindo pela aplicação B se o resultado for “coroa”. Calcule a 
probabilidade de que a aplicação que Agripino fizer lhe dê um rendimento 
45
maior que 1%. (Sugestão: caso não esteja conseguindo resolver este 
problema, monte um “diagrama de árvore”) 
 
4. Um processo de manufatura produz microprocessadores usando uma nova 
tecnologia. Dados históricos mostram que 30% do total fabricado apresentam 
algum tipo de defeito e, dessa forma, gera algum tipo de “retrabalho”. A 
fábrica possui uma forma de testar um produto ao seu final, de maneira que 
ele acerta 80% das vezes em que o produto está realmente com defeito, 
enquanto nas ocorrências em que o produto não tem defeito, em 10% dos 
casos o teste aponta algum tipo de defeito. O gerente de produção acredita 
que a empresa deve investir em um novo tipo de teste para melhor averiguar 
os produtos finais, afirmando que esse teste está errando em torno de 30% 
das vezes. Você concorda com esse gerente? Justifique sua conclusão através 
de cálculos de probabilidades. 
 
5. Uma companhia de petróleo efetuará perfurações em três lugares diferentes, 
nos quaisforam realizados estudos prévios. Estes estudos foram testes 
geológicos que apontaram as seguintes probabilidades de se encontrar 
petróleo: 0.70, 0.85 e 0.80 em cada um dos lugares, respectivamente. 
Presume-se que a presença de petróleo em qualquer das regiões independe 
da presença de petróleo nos outros dois locais. 
(a) Qual a probabilidade de se encontrar petróleo nos três lugares? 
(b) Qual a probabilidade de não se encontrar petróleo em qualquer dos três 
lugares? 
(c) Qual a probabilidade de se encontrar petróleo em apenas um dos lugares? 
 
6. 100 investimentos considerados “de risco” foram avaliados de acordo com 
dois itens: sua lucratividade e o tempo em que permaneceram aplicados no 
mercado financeiro. Os resultados estão dispostos na tabela a seguir (esse 
tipo de tabela é conhecido como “tabela de contingência”). 
 
Menos de 2 
meses 
2 a 5 meses Mais que 5 
meses 
Totais 
Lucrativo 2 8 14 24 
Não lucrativo 16 35 25 76 
Totais 18 43 39 100 
Escolhendo ao acaso um desses investimentos, calcule a probabilidade de 
que essa aplicação: 
(a) Tenha sido lucrativa e tenha durado mais que 5 meses. 
(b) Tenha sido lucrativa ou tenha durado mais que 5 meses. 
(c) Tenha sido lucrativa, sabendo que durou mais que 5 meses. 
(d) Não tenha sido lucrativa. 
46
4.4 Respostas dos exercícios 
 
1. aprox. 0,0156 ou 1,56% 
2. (a)48% (b)44% (c)8% 
3. 0,7 
4. A afirmação do gerente não é verdadeira; fazendo o diagrama de árvore, chegamos à 
conclusão que o teste tem probabilidade de 87% de acerto. 
5. (a) 0,476 (b) 0,009 (c) 0,108 
6. (a)14% (b)49% (c)35,9% (d)76% 
 
47
CAPÍTULO V 
 
Probabilidades: Distribuições Binomiais 
 
5.1 Variável aleatória 
Segundo Barbetta (2003), variável aleatória é uma “característica 
numérica associada aos resultados de um experimento”. Mais formalmente, é uma 
“função que associa resultados do espaço amostral Ω ao conjunto dos números 
reais”. 
Exemplos: 
a) número x de caras em 5 lançamentos de uma moeda; 
b) número x de pontos obtidos no lançamento de um dado; 
c) selecionando 10 de um grande lote de peças, verificar o n° x de peças 
defeituosas; 
d) observando o comportamento de uma ação no mercado durante 20 dias 
úteis seguidos, verificar o número x de vezes que a mesma aumentou seu 
valor; 
e) efetuar 20 medições de um forno industrial ao longo de um dia, e verificar 
quantas delas que ficaram no intervalo [95º,105°]; 
f) efetuar 20 medições da massa de um produto (cuja embalagem apresenta a 
informação “500g”), e verificar quantas delas que ficaram no intervalo 
[480g,520g]; 
 
• variável aleatória discreta: geralmente originada através de contagem 
(em matemática, podemos associá-la aos números inteiros); é o caso dos 
pontos no dado, nº de caras, nº de peças com defeito, nº de vezes que a 
ação subiu etc. 
• variável aleatória contínua: (em matemática, podemos associá-la aos 
números reais) geralmente originada através de medição; é o caso de 
temperatura, tempo, peso, altura, valores em reais etc. 
 
5.2 O modelo binomial 
Condições para que um modelo probabilístico se caracterize como 
binomial:
1ª) Um experimento é realizado n vezes, procurando-se analisar a 
ocorrência de determinado evento x vezes; 
2ª) Cada observação, de um total de n observações, pode ser 
classificada somente em uma de duas possibilidades 
(sucesso/fracasso, sim/não, verdadeiro/falso, cara/coroa etc.); Na 
48
literatura estatística é comum o uso das expressões "Sucesso" e 
"Fracasso", que não devem ser entendidas em seu senso comum, 
mas sim como "ocorre o evento analisado" e "não ocorre o evento 
analisado", respectivamente†.
3ª) A probabilidade de sucesso, em cada observação, vale p, o que nos 
leva à conclusão de que a probabilidade de fracasso é 1-p;
4ª) As n observações são independentes entre si, ou seja, o resultado da 
primeira observação não interfere no resultado da segunda 
observação, e assim por diante (em problemas como “retiradas 
sucessivas de uma bola em urna”, deve-se considerar que cada bola 
retirada é reposta antes da retirada seguinte). 
 
Observação: As observações possíveis podem ser obtidas através de 
dois métodos diferentes de amostragem. Cada observação pode ser 
considerada como se tivesse sido selecionada a partir de uma população 
infinita sem reposição ou a partir de uma população finita com 
reposição. 
5.3 Exemplos de distribuições binomiais: 
 
(a) Cremilda quer ter 3 filhos(as). Admitindo que a probabilidade de nascer 
menino ou menina é de 50% para cada sexo, Cremilda quer calcular a 
probabilidade de nascerem 2 meninas e 1 menino. 
(b) Suponha a que uma roleta de cassino tenha metade de suas casas 
(numeradas) na cor preta e a outra metade na cor vermelha. Qual a 
probabilidade de, em 10 jogadas, a bolinha cair exatamente 7 vezes numa 
casa vermelha? E cair até 7 vezes numa casa vermelha (ou seja, no máximo 
7 vezes)? E a bolinha cair mais que 7 vezes numa casa vermelha? 
(c) Qual a probabilidade de que, numa amostra de 20 pneus do mesmo tipo, 
nenhum será defeituoso, sabendo que 8% de todos os pneus produzidos 
por uma determinada fábrica são defeituosos? Nesse mesmo problema, 
qual a probabilidade de serem escolhidos até 2 pneus defeituosos? 
(d) Você prestará um concurso para ser admitido por uma empresa. Uma das 
provas é composta de 10 questões tipo “teste”, com 5 alternativas cada. Se 
você “chutar” todas as respostas, qual a probabilidade de você acertar 
exatamente 5 questões? 
(e) Qual a probabilidade de uma determinada ação apresentar elevação no seu 
preço de fechamento (numa base diária) nas próximas 10 sessões de 
negociação, considerando que as mudanças no preço de mercado são 
aleatórias e que, a cada dia, há 70% de chance dessa ação subir? 
 
• † Exemplo: Jogar um dado e calcular a probabilidade de ocorrer face 5; nesse caso, a 
probabilidade do sucesso é 1/6 e do fracasso é 5/6, pois sucesso significa ocorrer face 5 e 
fracasso significa não ocorrer face 5.
49
5.4 O Cálculo da probabilidade 
 
Para calcular a probabilidade de ocorrer determinado resultado x vezes, 
num universo de n realizações de determinado experimento, temos a expressão: 
xnx pp
xnx
n
xP −−
−⋅
= )1.(.
)!(!
!
)(
Por exemplo: a probabilidade de ocorrer x vezes (0≤x≤5) a face cara em 
5 lançamentos de uma moeda honesta é dada por: 
xx
xx
xP −
−⋅
= 5)5,0.()5,0.(
)!5(!
!5
)(
A expressão anterior assume o formato a seguir se quisermos calcular a 
probabilidade de ocorrer face cara três vezes (em cinco lançamentos): 
23 )5,0.()5,0.(
)!35(!3
!5
)3(
−⋅
=P
Outro exemplo: a probabilidade de ocorrer x vezes (0≤x≤5) a face "três" 
em 5 lançamentos de um dado honesto é dado por: 
xx
xxx
xP −






−⋅
= 5)6/5.()6/1.(
5
)!5(!
!5
)(
5.5 Comentário para quem estiver interessado nos fundamentos 
matemáticos das expressões anteriores: o significado do cálculo 
)!(!
!
xnx
n
−⋅
Lembra-se da operação “fatorial”? Veja os exemplos: 
3!=3.2.1=6 
5!=5.4.3.2.1=120 
9!=9.8.7.6.5.4.3.2.1=362880 
Em relação à parte da fórmula que calcula probabilidades binomiais, tão ou 
mais importante do que seu cálculo, é necessário que você entenda o que tal 
número significa; o resultado desse cálculo indica o número de maneiras 
diferentes de se escolher x coisas dentre um total de n coisas. 
Exemplo: 10
1.2.3.1.2
1.2.3.4.5
)!25(!2
!5 ==
−⋅
; veja que isso representa o seguinte: há 
10 maneiras diferentes de se escolher 2 coisas dentre 5. Não acredita? 
Então faça o teste: vamos escrever 5 letras, A, B, C, D e E. Faça todas as escolhas 
possíveis de duas dessas letras; teremos: AB, AC, AD, AE, BC, BD, BE, CD, CE, DE. 
Viu só? São 10 combinações possíveis! 
 
5.6 Calculando P(x) com Excel. 
 
Ao mesmo tempo em que vamos mostrar a você o comando que fornece 
diretamente o cálculo da distribuição binomial com Excel, vamos resolver um 
50
problema que mostre a aplicação das fórmulas acima, e sua conseqüente entrada 
de dados nesse software. 
Problema: suponha que uma determinada a�o tem50% de chances de 
ter seu valor aumentado em cada dia útil e, conseqüentemente, 50% de chances 
de manter ou diminuir seu valor. Em três dias seguidos de observação, qual a 
probabilidade dessa ação aumentar exatamente 2 vezes o seu valor? 
Probabilidade de ocorrer sucesso (aumentar o valor da ação): p = 0,5.
Probabilidade de ocorrer fracasso (diminuir o valor): 1–p=1–0,5=0,5.
Número de eventos: n = 3.
Número de sucessos: x = 2.
Número de fracassos: n – x = 3 – 2 = 1
Probabilidade de ocorrer exatamente 2 sucessos (2 vezes aumento no valor 
da ação): 12 )5,0.()5,0.(
)!23!.(2
!3
)2(
−
=P
O resultado é: 5,0.25,0.3)2( =P , ou seja, %5,37375,0)2( ==P
Para este exemplo, o Excel calculará da seguinte maneira: 
 
=DISTRBINOM(2; 3; 0,5; FALSO) 
 
Para usar o comando DISTRBINOM você também pode procurá-lo junto à 
lista de funções (INSERIR � FUNÇÃO � opção ESTATÍSTICA � DISTRBINOM); o 
próprio excel irá te ajudar com a explicação do comando, semelhante à seguinte: 
 
Veja que, no exemplo, temos: 
Núm � 2
Tentativas � 3
Probabilidade � 0,5 
Cumulativo � FALSO 
 
A opção VERDADEIRO, para o item cumulativo, ocorre no caso de se 
desejar a somatória de probabilidades menores ou iguais à desejada. No exemplo 
anterior, se a pergunta fosse “Em três dias seguidos de observação, qual a 
probabilidade dessa ação aumentar até (ou no máximo) 2 vezes o seu valor”, 
teríamos que calcular P(0) + P(1) + P(2), ou seja, P(X ≤ 2), pois da pergunta se 
DISTRBINOM 
(núm;tentativas;probabilidade;cumulativo)
Núm � é o número de sucessos. 
Tentativas � valor de n (total de eventos) 
Probabilidade � probabilidade de sucesso em cada 
tentativa. 
Cumulativo � FALSO para probabilidade exata,
VERDADEIRO para probabilidade acumulada até o valor “Núm”. 
51
deduz que a ação pode não subir, subir uma vez ou subir duas vezes. No Excel, 
basta efetuar o seguinte comando: DISTRBINOM(2; 3; 0,5; VERDADEIRO). 
Compare ambas as respostas: 
DISTRBINOM(2; 3; 0,5; FALSO) = 0,375 
DISTRBINOM(2; 3; 0,5; VERDADEIRO) = 0,875 
Em símbolos, no primeiro caso temos P(2) e, no segundo, P(X ≤ 2). 
Vamos então ampliar o problema com outros números: em 10 dias úteis 
seguidos e estimando-se que essa ação tem 70% de chances de ter seu valor 
aumentado em determinado dia, calcule a probabilidade de que essa ação 
aumente: 
(a) exatamente 6 dias: DISTRBINOM(6; 10; 0,7; FALSO) 
(b) exatamente 2 dias: DISTRBINOM(2; 10; 0,7; FALSO) 
(c) no máximo 3 dias: DISTRBINOM(3; 10; 0,7; VERDADEIRO) 
(d) no mínimo 4 dias: 1 – DISTRBINOM(3; 10; 0,7; VERDADEIRO) 
 
5.7 Exercícios 
 
1) Em 5 lançamentos de uma moeda comum, calcule a probabilidade de: 
(a) serem obtidas exatamente 2 caras; 
(b) serem obtidas até 2 caras; 
(c) serem obtidas no mínimo uma cara. 
 
2) Uma urna tem 12 bolas, das quais 9 são verdes, 2 são brancas e uma é 
azul. Sorteia-se aleatoriamente uma bola dessa urna, verifica-se sua cor 
e devolve-se essa bola na urna. Fazendo-se esse processo três vezes 
seguidas, ou seja, retirando-se três vezes com reposição uma bola 
dessa urna, calcule a probabilidade de que ocorra: 
(a) bola verde nos três sorteios; 
(b) não ocorrer bola verde em qualquer dos três sorteios. 
 
3) Suponha que uma determinada ação tem 80% de chances de ter seu 
valor aumentado em cada dia útil e, conseqüentemente, 20% de 
chances de diminuir seu valor. Em quatro dias seguidos de observação, 
qual a probabilidade dessa ação aumentar: 
(a) Exatamente 3 vezes o seu valor? 
(b) Exatamente 4 vezes o seu valor? 
(c) Pelo menos 3 vezes o seu valor? 
(d) Pelo menos duas vezes seu valor? 
 
4) Um certo processo industrial produz, no máximo, 10% de itens 
defeituosos. Assumindo esse valor como a probabilidade de cada item, 
em particular, ser produzido com defeito, calcule a probabilidade de 
ocorrerem, numa amostra de 10 itens, três ou mais itens defeituosos. 
 
52
5) Sabe-se que numa linha de produção 10% das peças são defeituosas, e 
as peças são acondicionadas em caixas com 5 unidades. Seja x a
variável aleatória igual ao número de peças defeituosas encontradas 
numa caixa (observe que x assume valor de 0 a 5). Calcule a 
probabilidade de uma caixa qualquer conter: 
(a) exatamente 3 peças defeituosas; 
(b) duas ou mais peças defeituosas; 
 
6) Qual a probabilidade de que, numa amostra de 20 pneus do mesmo 
tipo, nenhum será defeituoso, sabendo que 8% de todos os pneus 
produzidos por uma determinada fábrica são defeituosos? 
 
7) No mesmo contexto do exercício anterior, qual a probabilidade de serem 
escolhidos até 2 pneus defeituosos? E mais que 5 pneus defeituosos? 
 
8) No transporte de carros novos entre o pátio da montadora e a 
concessionária, 3% dos carros transportados sofrem algum tipo de 
avaria em sua pintura. Se uma concessionária recebe 50 carros em certo 
período, calcule a probabilidade de: 
(a) Nenhum dos carros transportados sofrer avarias na pintura; 
(b) Dois ou mais carros sofrerem avarias na pintura 
 
9) A companhia Telektronic compra grandes carregamentos de lâmpadas 
fluorescentes e usa este plano de amostragem de aceitação: seleciona 
aleatoriamente e testa 24 lâmpadas, e aceita o lote todo se há apenas 
uma ou nenhuma lâmpada que não funcione. Se um carregamento 
particular de milhares de lâmpadas tem uma taxa de 4% de defeituosas, 
qual é a probabilidade de que o carregamento todo seja aceito? 
 
5.8 Respostas dos exercícios 
 
1. (a) 31,25% (b) 50% (c) 96,88% 
2. (a) 42,19% (b) 1,56% 
3. (a) 40,96% (b) 40,96% (c) 81,92% (d) 97,28% 
4. 7,02% 
5. (a)0,81% (b)8,15% 
6. 18,87% 
7. 78,79%; 0,38% 
8. (a) 21,81% (b) 44,47% 
9. 75,08% 
 
53
CAPÍTULO VI 
 
Distribuições de Probabilidades: 
Histogramas e Medidas 
 
6.1 Distribuição de Probabilidade; Histogramas de probabilidades. 
 
Recordando, sabemos que uma variável aleatória, geralmente representada 
por x, é um valor numérico associado a cada resultado de um experimento. 
Exemplos: 
a) número x de caras em 5 lançamentos de uma moeda (x vale O, 1, 2, 3, 4 
ou 5); 
b) selecionando 3 peças de um lote com 10 peças, verificar o n° x de peças 
defeituosas (x pode ser 0, 1, 2 ou 3); 
c) medir a temperatura de um forno industrial (x pode ser um número real que 
varia no intervalo de 25º a 105°. 
Estamos ainda no estudo de problemas como os dos itens (a) e (b), que se 
tratam de variáveis aleatórias inteiras (“discretas”): geralmente originada através 
de contagem (lembre-se do que são números inteiros, em Matemática!). O 
exemplo (c), que é um exemplo de variável aleatória real (contínua), será 
estudado mais adiante. 
Uma distribuição de probabilidades “é um gráfico, uma tabela ou uma 
fórmula que dá a probabilidade para cada valor da variável aleatória”. 
Exemplo 1: Veja a distribuição de probabilidades para resultados do 
experimento “lançamento de um dado” (Triola, p.). 
 
Resultado Probabilidade Resultado Probabilidade 
1 1/6 1 0,16667 
2 1/6 2 0,16667 
3 1/6 3 0,16667 
4 1/6 4 0,16667 
5 1/6 5 0,16667 
6 1/6 6 0,16667 
Exemplo 2: Seja o experimento “lançamento de uma moeda 10 vezes”, e 
seja a variável aleatória x = número de caras obtido. Veja a tabela de distribuição 
de freqüências para esse evento. 
 
54
Exemplo 3: A empresa WW calcula continuamente o valor total de suas 
vendas semanais. De acordo com os resultados, calculados com valores 
aproximados e arredondados, foram obtidas as seguintes probabilidades: 
Vendas (em milhares de 
R$) 
Probabilidade 
3 0,05 
4 0,20 
5 0,35 
6 0,30 
7 0,10 
Exemplo 4: A empresa ZZ também calcula continuamente o valor total de 
suas vendas semanais. De acordo com os resultados, calculados com valores 
aproximados, foram obtidas as seguintes probabilidades: 
Vendas (em milhares de 
R$) 
Probabilidade 
2 0,05 
3 0,10 
4 0,15 
5 0,20 
6 0,30 
7 0,10 
8 0,05 
9 0,05 
Note que tais distribuições podem também ser representadas graficamente, 
através dos histogramas: 
Número de caras Probabilidades 
0 0,0010 
1 0,0098 
2 0,0439 
3 0,1172 
4 0,2051 
5 0,2461 
6 0,2051 
7 0,1172 
8 0,0439 
9 0,0098 
10 0,001055
Lançamento de um dado
0
0,05
0,1
0,15
0,2
1 2 3 4 5 6
resultados
p
ro
b
a
b
il
id
a
d
e
s
Vendas de WW
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
3 4 5 6 7
Milhares de reais
P
ro
b
a
b
il
id
a
d
e
s
Lançamento de moeda 10 vezes
0,0000
0,1000
0,2000
0,3000
0 1 2 3 4 5 6 7 8 9 10
Número de caras
P
ro
b
a
b
il
id
a
d
e
s
56
Vendas de ZZ
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
1 2 3 4 5 6 7 8
Milhares de reais
P
ro
b
a
b
il
id
a
d
e
s
Uma observação importante que devemos fazer, ao observar esses 
histogramas, é que a região composta por retângulos de maior área, são regiões 
onde se tem a maior probabilidade de ocorrência do evento em questão. Ou seja, 
o valor que se espera obter nesse experimento geralmente é um valor do eixo x 
que se situa nessa região. 
 
6.2 Valor esperado (Média aritmética) de uma variável aleatória. 
 
Imagine a seguinte situação: você irá jogar um dado inúmeras vezes. 
Imagine também que a cada resultado está associado o respectivo valor em reais 
(face 1 � R$ 1,00, face 2 � R$ 2,00, e assim por diante, até face 6 � R$ 6,00). 
Suponha que você vai receber a quantia referente à média de todos os resultados 
obtidos. Quanto será que você vai receber? Melhorando a forma de perguntar, 
qual será o provável valor que irá receber? 
A primeira forma de você desconfiar da resposta é jogando, efetivamente, 
um dado por muitas vezes e fazer o cálculo. O autor deste texto fez quatro 
simulações com 100 elementos, usando o Excel, de maneira a imitar o lançamento 
de um dado 100 vezes; faça você mesmo usando a função 
=ALEATÓRIOENTRE(1;6). Realizando 4 simulações dessa forma, a média dos 
pontos obtidos em cada uma delas foram as seguintes: 3.6, 3.31, 3.54 e 3.55. 
Percebe em torno de qual valor esses quatro resultados se aproximam? Mais uma 
dica: a média desses quatro valores é 3.498864... 
Ou seja, é possível perceber que a média esperada ao se lançar um dado 
inúmeras vezes é 3,5; dizendo de outro modo, falamos que 3,5 é o valor esperado 
no lançamento de um dado. Veja que o valor da média não é necessariamente um 
valor da variável x (que pode ser 1, 2, 3, 4, 5 ou 6), mas isso não atrapalha o 
57
modelo matemático que estamos construindo, uma vez que estamos trabalhando, 
em todos os exemplos que seguem, por meio de uma sucessão de determinado 
experimento realizada várias vezes (assim como o dado foi lançado inúmeras 
vezes, os valores de vendas dos exemplos 3 e 4 também foram coletados a partir 
de várias semanas). 
Mas qual o cálculo que pode ilustrar o valor 3,5 previamente, sem termos 
que lançar um dado inúmeras vezes ou mesmo simular esse procedimento com o 
Excel? 
O raciocínio é similar ao cálculo de uma média aritmética ponderada; se 
lançarmos um dado 600 vezes, o que se espera é que ocorra um valor muito 
próximo de 100 vezes a face 1, 100 vezes a face 2, 100 vezes a face 3, 100 vezes 
a face 4, 100 vezes a face 5 e 100 vezes a face 6. Veja como seria o cálculo da 
média. 
600
610051004100310021001100
 média
×+×+×+×+×+×=
Esse cálculo resulta em 3.5, conforme já havíamos imaginado, porém veja 
como isso pode ser explicado por meio de probabilidades: 
5,36
6
1
5
6
1
4
6
1
3
6
1
2
6
1
1
6
1
6
61
6
51
6
41
6
31
6
21
6
11
600
6100
600
5100
600
4100
600
3100
600
2100
600
1100
600
610051004100310021001100
 
=×+×+×+×+×+×
=×+×+×+×+×+×
=×+×+×+×+×+×
=×+×+×+×+×+×
Sabemos que 1/6 é a probabilidade de cada resultado em particular. 
Formalizando a idéia: cada resultado possível é multiplicado pela sua 
probabilidade, e a média (valor esperado) resulta da soma desses 
cálculos.
No exemplo 3, o gerente da empresa WW tem uma forte intuição de que as 
vendas da próxima semana ficarão em torno de 4 a 6 mil reais; qual será a média 
semanal esperada para essa empresa? Basta realizar o cálculo semelhante ao 
exemplo anterior do dado, multiplicando cada resultado possível pela sua 
probabilidade. 
 
Vendas (em milhares de 
R$) 
Probabilidade 
3 0,05 
4 0,20 
5 0,35 
6 0,30 
7 0,10 
58
710,0630,0535,0420,0305,0 ×+×+×+×+×=µ
2,5=µ
Isso significa que 5,2 milhares de reais é o valor esperado das vendas na 
próxima semana. Dessa forma, analise a oração anteriormente descrita para 
resumir a forma de se efetuar o cálculo: cada resultado possível é 
multiplicado pela sua probabilidade, e a média (valor esperado) resulta 
da soma desses cálculos. Formalizando, temos: 
Sejam x1, x2, ... , xn os resultados possíveis de uma variável aleatória, e 
sejam p1, p2, ... , pn as respectivas probabilidades desses resultados. Chamamos 
de média ou valor esperado da variável x ao valor µ tal que: 
nn xpxpxp ×++×+×= ...2211µ
Um resumo para essa fórmula é dado por: ∑ ×= ii xpµ , ou, para 
quem é mais exigente na notação matemática: ∑
=
×=
n
i
ii xp
1
µ
6.3 Variância e Desvio Padrão 
 
Utilizemos o exemplo 3, das vendas da empresa WW, a fim de retomarmos 
a noção de variância e de desvio padrão. Sabendo que sua média (valor 
esperado) é 5.2, mas supondo que não conhecemos o restante da distribuição,
pergunta-se: a probabilidade de ocorrer o valor 6.3 para as vendas é alta, média 
ou baixa? 
Note que, sem conhecer o formato da distribuição, fica difícil arriscar um 
palpite. Isso porque não sabemos o quão espalhadas são as possibilidades em 
torno da média. Se tivermos um histograma mais concentrado (barras mais altas e 
próximas), boa parte dos resultados possíveis fica mais próxima da média, 
enquanto um histograma com probabilidades mais diluídas em vários retângulos 
afastados da média, faz com que imaginemos uma variação maior das 
possibilidades. 
Ou seja, concluímos que é necessário continuarmos com a idéia de desvio 
padrão para medir o espalhamento dos possíveis resultados de nossa distribuição. 
Assim como estudamos na Estatística Descritiva, a Variância, denotada por 2σ , é
o quadrado do desvio padrão. Usaremos, a partir desta lição, as letras gregas σ ,
para o desvio padrão da população, e µ para a média da população (em 
contraposição a S e X , que são usadas em amostras). Valem as seguintes 
fórmulas: 
 
VARIÂNCIA: ( )∑ −⋅= 22 )( µσ ii xp
DESVIO PADRÃO: ∑ −⋅= 2)( µσ ii xp
59
Não abordaremos aqui a explicação matemática dessa formulação, porém 
vamos intensificar a forma de usar e entender esse resultado; lembre-se que a 
primeira idéia de desvio padrão que deve vir ao seu pensamento ao lhe ser 
solicitado um significado é: “medida de espalhamento”. É uma espécie de “média” 
dos desvios de cada valor em relação à média. Quanto maior o desvio padrão, 
mais afastados da média estão os valores; reciprocamente, quanto menor o desvio 
padrão, mais concentrados em torno da média estão os dados. 
 
6.4 Média e Desvio Padrão para Distribuições Binomiais 
No caso de distribuições binomiais, as fórmulas, decorrentes das anteriores, 
são bastante simples: 
 
Nessa fórmula, n é o número de eventos, e p é a probabilidade de sucesso. 
No exemplo do lançamento de 10 moedas, em relação ao número de caras, temos: 
5
2
1
10. n.p µ === ; e 5 não é realmente o resultado mais provável? 
Para o desvio padrão, temos: 
1,58 0,5)-10.0,5.(1 p)-n.p.(1 σ ≅==
6.5 Exercícios 
 
1. O lucro líquido da empresa para o ano que vem foi estimado de acordo com 
as seguintes probabilidades: 
Cenário Lucro (em 
milhões de u. m.)
Probabilidade 
Excelente 10 20% 
Bom 5 40% 
Sofrível 1 25% 
Ruim -4 15% 
Calcule o valor esperado de lucro dessa empresa. Calcule também o desvio 
padrão. 
pn.=µ
)1.(. ppn −=σ
60
2. Um analista de mercado estimou que os preços da ação GHTW para os 
próximos doze meses é a variável aleatória registrada na tabela seguinte. 
(a) Calcular o valor esperado e o desvio padrão. 
 (b) Determine o primeiro intervalo da regra empírica para o desvio padrão. 
 
Preço Probabilidade 
$ 10 10% 
$ 14 25% 
$ 19 35% 
$ 24 20% 
$ 30 10% 
3. Suponha que você tem em mãos uma moeda viciada, ou seja, uma moeda 
na qual as probabilidades para cada resultado não são iguais (ouseja, não 
são de 50% para cada face). Sabendo que esta moeda tem 25% de 
chances de sair cara: 
(e) Calcule a probabilidade de, em 10 lançamentos, ocorrer exatamente 
2 caras. 
(f) Calcule a média (valor esperado) para a variável “o número de caras 
a serem obtidos em 10 lançamentos”. 
(g) Calcule o desvio padrão para a variável do ex. (b). 
(h) “É improvável que ocorram exatamente 8 caras em 10 lançamentos 
dessa moeda”. Mostre como o item (c) pode ser utilizado para 
explicar a essa afirmação. 
 
4. Dados anteriores mostram que 10% dos pacotes de frango congelados 
comercializados pela empresa NNN passam do prazo de validade ainda nas 
prateleiras de supermercados ou lojas do ramo (localizados numa grande 
cidade). Escolhe-se 15 pacotes aleatoriamente nesses estabelecimentos de 
comércio, a fim de se fazer uma análise do número de pacotes com data 
vencida. Utilize o conceito de média (valor esperado) e de desvio padrão de 
uma distribuição binomial para avaliar se é provável, pouco provável ou 
improvável que ocorra: 
(a) Exatamente 6 pacotes vencidos; 
(b) Exatamente 4 pacotes vencidos; 
(c) Exatamente 2 pacotes vencidos; 
(d) Exatamente 1 pacote vencido; 
(e) Nenhum pacote vencido. 
 
61
6.6 Respostas dos exercícios 
 
1. A média é 3,65 milhões u.m.; o desvio padrão é de 4,396 milhões u.m. 
2. (a) 95,18$=µ e 61,5$=σ (b) [$13,34; $24,56] 
3. (a) 28% (aprox.) (b) 2,5 caras (c) 1,37 caras (d) o resultado 8 para a variável 
aleatória em questão ultrapassa o 3º intervalo da regra empírica, ou seja, está além de 3 
desvios padrão da média (cujo valor é 6,61); portanto, é um dado discrepante, de pequena 
probabilidade de ocorrência. 
4. Calculando primeiramente a média e o desvio padrão, temos 5,1=µ e 16,1=σ ;
(a) Improvável, pois 6 é um resultado que está além de 3 desvios, já que 1,5+3.1,16 = 4,98 
(b) pouco provável, pois está além de 2 desvios, embora menos de 3 desvios (se ocorrer, será 
considerado suspeito) 
(c) resultado normal, está próximo da média, a menos de um desvio da mesma. 
(d) idem anterior 
(e) não é difícil ocorrer; embora esteja no segundo intervalo da regra empírica, o valor zero 
está um pouco além de um desvio padrão da média, já que 1,5 – 1,16 = 0,34. 
 
62
CAPÍTULO VII 
 
Distribuições Normais Probabilidades: 
A famosa Curva de Gauss 
 
7.1 Introdução: histograma de probabilidades 
 
Retomemos a distribuição de probabilidades discretas, a partir do seguinte 
exemplo: jogar uma moeda dez vezes, e observar a distribuição de probabilidades 
da variável X = número de caras obtidas. 
Note que o número de caras é um valor que vai de 0 a 10, porém a 
probabilidade de ocorrerem 10 caras não é a mesma de ocorrerem 7 caras. Veja o 
porquê disso. 
Nenhuma cara: 0,098%250.00097656)5,0.()5,0.(
0
10
)0( 100 ≅=





=P .
7 caras: %72,110.1171875)5,0.()5,0.(
7
10
)7( 37 ≅=





=P
Veja que os cálculos específicos de probabilidades resultam em (0.5)10, mas 
P(7) é maior porque há muitas maneiras de ocorrerem 7 caras e 3 coroas, ao 
contrário de nenhuma cara; só há uma maneira de ocorrer nenhuma cara (ou seja, 
10 coroas): cccccccccc. Porém, há 120 maneiras de ocorrerem 7 caras e 3 coroas 
(o binomial (10,7) indica isso!). Veja alguns exemplos: kkkkkkkccc, 
kkcckkkkcK, kkckkckkck, ckkkkkkkcc. Estas são 4 das 120 possibilidades de 
ocorrerem 7 caras e 3 coroas, por isso sua probabilidade é maior. 
Qual é o resultado mais provável? Seguindo a intuição que nos leva a crer 
em 50% das possibilidades para cada face da moeda, inclusive em termos de 
vários lançamentos, temos que 5 caras e 5 coroas seria o resultado com maior 
probabilidade de ocorrer. 
%61,240.2460938)5,0.()5,0.(
5
10
)5( 55 ≅=





=P
Como observar todas as probabilidades? Uma forma é, sem dúvida, fazer 
todos os cálculos; porém, a forma mais prática é observarmos o histograma com 
todas essas probabilidades (ver figura na próxima página). 
Perceba que a coluna mais alta está na região em torno de X=5, e sua 
altura é a respectiva probabilidade aproximadamente igual a 0,24. Verifique 
também as probabilidades mostradas neste texto, ou seja, P(0) e P(7). 
Observação importante: perceba que a área correspondente a todo o 
histograma tem valor 1 (ou seja, 100%). Isso é exclusividade deste exemplo? É 
63
claro que não! Todo histograma de probabilidades terá essa característica, ou seja, 
delimitar uma região que possui área igual a 1.
7.2 Variáveis aleatórias contínuas 
 
Comparando com um pouco mais de profundidade as variáveis discretas e 
contínuas, podemos observar o seguinte: 
- variáveis discretas (valores inteiros) geralmente têm origem em 
processos de contagem: nº de pontos no dado, nº de peças com defeito, nº de 
vezes que uma ação subiu, nº de caras em vários lançamentos de moeda etc. 
- variáveis contínuas (valores reais) geralmente têm origem em 
processos de medição; alguns exemplos: tempo para descarregamento de um lote 
varia de 14min a 33min; a largura de placas de aço produzidas em determinado 
processo de temperatura variável varia de 52,2 mm a 65,8 mm; na produção 
agrícola, interessa saber a variação pluviométrica de determinada região, em 
determinada época do ano; temperatura de certo forno industrial pode variar de 
500ºC a 900ºC; volume de combustível (gás, óleo, gasolina) gasto em processos 
de queima (de cimento, de cerâmicas) ou de aquecimento (produção alimentícia); 
volume contido em embalagens de certo produto vendidos no atacado podem ser 
avaliados por uma entidade de defesa do consumidor; tempo de vida útil de 
determinado sistema hidráulico. 
Alturas, pesos, tempos, temperaturas, volumes... aqui, a probabilidade faz 
sentido para intervalos, pois a probabilidade específica de um determinado valor é 
definida como zero. Procure não estranhar tanto esse fato, através desse exemplo: 
numa população de 1000 pessoas, qual a probabilidade de escolhermos uma 
aleatoriamente que tenha altura 1,756 m de altura? 
Lançamento de moeda 10 vezes
0,0000
0,1000
0,2000
0,3000
0 1 2 3 4 5 6 7 8 9 10
Número de caras
P
ro
b
a
b
il
id
a
d
e
s
64
Nesse tipo de cálculo de probabilidades, fará sentido calcularmos, por 
exemplo, uma probabilidade de encontrarmos uma pessoa que tenha entre 1,73 e 
1,76m de altura. 
 
7.3 A Distribuição Normal 
 
Depois de analisarmos vários histogramas parecidos com aquele 
apresentado nesta página, já possuímos uma visão mais ampla do que esse 
desenho representa: uma distribuição (de dados ou probabilidades) que possui sua 
concentração em torno da média aritmética, a qual situa-se, de maneira geral, 
no centro desse desenho. 
Intitulada como função de densidade de probabilidade normal, ou 
curva de Gauss, o gráfico a seguir ilustra inúmeros fenômenos que são muito 
importantes e são diariamente estudados em engenharia, finanças, ciências sociais 
e processos diversos que fazem parte do cotidiano de muitos administradores de 
empresas. 
Tomemos mais alguns exemplos simples: 
a) Suponhamos que as alturas de 500 pessoas que estudam numa 
faculdade possuem uma média de 1,70m, e desvio padrão de 0,10m. 
Não é difícil imaginar que há muitas alturas que estão próximas desse 
valor (o que nos leva novamente à concentração em torno da média), e 
poucos valores afastados dela (pessoas com 1,40m ou 2,00m são 
minoria). 
b) Supondo que seu horário de trabalho é fixo e que entra todo dia às 8h 
da manhã, qual é, em média, o horário em que você chega para 
- 3 - 2 - 1 0 1 2 3
65
trabalhar? Geralmente às 7h50, mas às vezes um pouco antes, um 
pouco depois, raramente às 8h10 ou 7h30... 
c) O peso um pacote de salgadinhos deve ser 200g. Registros indicam que, 
em inúmeras pesagens, verificou-se que o peso médio verificado 
realmente é 200g, mas há inúmeras medidas observadas: 198.2, 200.6, 
200.2, 199.5, 198.6, 199.4, e assim por diante. 
 
7.4 Principais propriedades da Distribuição Normal 
 
a) É simétrica e tem o formato de um sino; 
b) A área sob a curva vale 1; 
c) Comparando curvas:na figura à esquerda, é possível identificar curvas com 
médias diferentes, mas mesmo desvio padrão; já na figura à direita, curvas 
com mesma média, mas desvios padrão diferentes (a curva mais alta tem 
dados mais concentrados, ou seja, desvio padrão menor). 
 
d) O eixo horizontal possui infinitos valores, porém, na prática, seu estudo se 
concentra no intervalo de –3 a +3. Mas, que valores são esses? 
São os valores Z, padronizados para quaisquer distribuições com a fórmula 
a seguir: 
σ
µ−= X
Z
66
Nessa fórmula, usávamos X como média da amostra, mas os livros de 
estatística costumam representar por µ a média esperada da população. A mesma 
mudança ocorre para o desvio padrão: ao invés de usarmos S, que era o desvio 
padrão da amostra, usaremos a letra σ que representa o desvio padrão da 
população. No exemplo (a) das alturas temos o eixo Z padronizado da seguinte 
forma: 
Escolhendo-se uma pessoa ao acaso, qual a probabilidade de ela ter: 
a) mais que 1,70m? 
b) mais que 1,80m? 
c) entre 1,60m e 1,80m? 
Note que para se responder o item (a), não é necessário muito esforço: 
50% é a resposta, já que a região a que se refere a pergunta é metade da região 
completa, uma vez que 1,70 é a média. 
A resposta do item (b) é o valor da área sob a curva representada pela 
região situada a partir do valor 1,80m ou, em termos de valor padronizado Z, na 
região referente a Z>1 (pois 1,80 está a um desvio padrão da média). 
A resposta do item (c) é o valor da área sob a curva representada pela 
região situada entre –1 e 1 (ou seja, para 1,60 1 
- 3 - 2 - 1 0 1 2 3
Probabilidade para –1 1 é igual a probabilidade para z 1-2*DIST.NORMP(-1) 
Resposta: 0.6826895 
 
> DIST.NORMP(1) – DIST.NORMP(–1) 
Resposta: 0.6826895 
 
2ª FORMA: TABELA DE VALORES (não será usado em aula)
Calcula-se o valor Z através da fórmula anteriormente revista, e busca-se o 
valor da respectiva área através da tabela que consta na página seguinte. Na 
primeira coluna está o valor inteiro de Z juntamente com sua primeira casa 
decimal. A primeira linha tem os valores da segunda casa decimal de Z; fazendo o 
cruzamento de linha com coluna, obtém-se a área desejada, que vem desde ∞− e
vai até o valor Z em questão. 
Exemplo: para z=1,25, toma-se o valor 1,2 da primeira coluna e a decimal 
0,05 na primeira linha. A área correspondente está no cruzamento desses dois 
valores: 0,8944, ou seja, a área (probabilidade) vale 89,44%. Note que essa área 
se refere a toda região anterior ao valor 1,25. 
E se você quiser saber a região situada entre a média 0 e o valor 1,25? 
Basta subtrair 0,5, que é a metade da região determinada pela gaussiana, ou seja, 
0,8944 – 0,5 = 0,3944. 
E se você quiser saber a área menor que – 1,25? Basta fazer 1 – 0,8944 = 
0,1056. Recomendação: vale a pena esboçar um desenho simples da curva de 
Gauss para poder responder com segurança a essas perguntas. Dessa forma, você 
usará a simetria dos valores e do desenho de forma simultânea, diminuindo (e 
muito) a probabilidade de erro. 
70
7.6 Exercícios 
 
1. Suponha que as notas de uma prova para concurso público tenham 
distribuição normal com média 60 pontos e desvio padrão 15 pontos. 
a) se você realizou essa prova e obteve nota 80 pontos, qual é a sua posição 
relativa, em unidades de desvios padrão, com relação à média das notas? 
b) Se foram considerados aprovados os candidatos que obtiveram nota mínima 
correspondente a 1 (um) desvio padrão acima da média, qual é a nota 
mínima de aprovação na escala original? 
 
2. Admitamos que a altura X de estudantes da Faculdade tenha distribuição 
normal com 170cm de média e desvio padrão 10cm (exemplo feito em 
sala). Calcule as seguintes probabilidades: 
a) P(x>190) 
ZZZZ
Segunda decimal de Z 
71
b) P(150têm distribuição normal, 
com média de 65,3g e desvio padrão de 5,5g. Encontre o número esperado 
de peças com massas: 
d) entre 60,0 e 70,0g; 
e) superiores a 63,2g. 
f) há um valor, em gramas, para o qual espera-se que apenas 10% das 
peças tenham massa menor que ele. Determine esse valor. 
 
7. Uma máquina automática para encher garrafas está regulada para que o 
volume médio de refrigerante em cada garrafa seja de 2 litros e o desvio 
72
padrão de 20ml. Pode-se admitir que o volume de refrigerante nas garrafas 
tenha distribuição normal. 
a) qual a porcentagem de garrafas em que o volume de refrigerante é 
inferior a 1965 ml? 
b) Se as garrafas são embaladas em pacotes com 6 unidades cada um, 
qual a probabilidade de que um pacote, escolhido aleatoriamente, 
contenha pelo menos uma garrafa com volume de refrigerante 
inferior a 1965 ml? 
c) Sabendo-se que um supermercado vende em média por semana 
2500 dessas garrafas de refrigerante, com desvio padrão de 80 
garrafas e distribuição normal, de quantas garrafas deve ser o seu 
estoque semanal para que a probabilidade de que falte esse tipo de 
refrigerante numa determinada semana seja de apenas 3%? 
 
7.7 Respostas dos exercícios 
 
1. 
(a) 1,33 desvio acima da média (b) 75 
 
2. 
a) P(x>190) = 0.02275013 (aprox. 2,28%) 
b) P(150 450,00) 
Com o Excel (veja que fácil!): DIST.NORMP(-2.125)+(1- DIST.NORMP(0.375)) = 0.3706235 
(aprox. 37,06%) 
Com a tabela: 
P(X 450,00) = 36,86% (idem) 
 
d) Este item é mais fácil de ser feito com a tabela (com o Excel também é possível, porém são 
necessárias algumas tentativas): a resposta é 455,20 u.m. 
 
5. 
a) P(XX
Z
σ
µ−=
Retome o exemplo das amostragens feitas com os dados: perceba que se 
forem feitas inúmeras amostras de dez dados, por exemplo, haverá um 
comportamento semelhante acontecendo com a média aritmética, já que teremos 
inúmeros valores bastante próximos a ela. O que concluímos com esse fato é de 
extrema importância: a forma como essas médias se distribuem se 
comporta conforme o modelo normal. Esse processo de amostragem, 
oriundo de uma distribuição uniforme (como o exemplo de um dado) ou 
de uma distribuição que tende à normal, como apresentado aqui e em 
aula, nos leva a utilizar o modelo normal para a realização de cálculos e 
previsões. 
 
Exemplo 2: A ser resolvido em aula. 
 Os registros históricos de produção de frascos com detergente mostram 
que o volume de enchimento realizado pela máquina automática é normalmente 
distribuído com média 150cm³ e desvio padrão 0,50cm³. Se for retirada uma 
amostra de tamanho n=9, qual a probabilidade da média desta amostra ser menor 
ou igual a 149,75cm³? 
 
8.2 Teorema do Limite Central 
Você percebeu que, no exemplo 1, a distribuição amostral se referia a uma 
curva normal, correto? Mas, se fôssemos lançar um dado inúmeras vezes, a 
distribuição de freqüências das faces não obedeceria a uma curva normal, mas 
77
seria um gráfico com o formato de uma distribuição uniforme, já que as 
chances de ocorrer cada uma das faces são iguais. 
Para “piorar” essa situação, perceba que podemos fazer amostras a partir 
de dados que não tenham sua variável se comportando de maneira normal 
(gaussiana); a palavra “piorar” está entre aspas pelo seguinte fato: 
 
Teorema do Limite Central§
Ou seja, mesmo que a população tenha seu parâmetro não se comportando 
dentro do modelo normal, fazendo-se várias amostras de tamanho n
suficientemente grande (os estatísticos sugerem n>30), essa distribuição amostral 
é tomada como normal. 
 
8.3 Exercícios 
1. O gerente de uma agência bancária verificou que, em determinado período 
considerado crítico por economistas, o saldo médio das contas correntes era 
de R$325,00 e o desvio padrão R$114,00. Retirando-se uma amostra 
aleatória de 100 contas correntes: 
g) qual a probabilidade da média dos saldos ser menor ou igual a 
R$330,00? 
h) qual a probabilidade da média dos saldos médios ser maior ou igual a 
R$ 350,00? 
 
2. O fabricante de pneus assegura que a duração do pneu mais vendido tem 
média 60.000 km com desvio padrão 5.000 km. Como os distribuidores não 
estão convencidos, o fabricante ofereceu aos revendedores a oportunidade 
de separar, aleatoriamente, 40 pneus para verificar os resultados afirmados 
pelo fabricante. 
a) se afirmação do fabricante é verdadeira, qual a porcentagem de 
pneus, do total fabricado, têm duração entre 55.000 km e 65.000 
km? 
b) se afirmação do fabricante é verdadeira, qual é a probabilidade de 
que a amostra de 40 pneus tenha duração média entre 55.000 km 
e 65.000 km? Analise o resultado. 
 
§ Texto do teorema extraído de Levine et al (2000) 
À medida que o tamanho da amostra (nº de observações em 
cada amostra) se torna suficientemente grande, a distribuição 
de amostragem da média aritmética pode ser aproximada pela 
distribuição normal. Isto é verdadeiro, independentemente do 
formato da distribuição dos valores individuais na população.
78
c) se afirmação do fabricante é verdadeira, qual é a probabilidade de 
que a amostra de 40 pneus tenha duração média entre inferior a 
57.500 km? Analise o resultado. 
 
3. Uma montadora de carros afirma que a média de consumo do seu novo 
modelo tem distribuição normal com média de 15,9 km por litro e desvio 
padrão de 0,8 km por litro. 
a) Calcular a probabilidade da média de uma amostra de tamanho 25 
ser menor ou igual a 15,5 km/litro. 
b) Suponha que uma amostra aleatória de 25 carros fabricados na 
mesma época apresentou média amostral de 15km/litro. Você 
acredita que a declaração da montadora deva ser aceita? 
 
8.4 Respostas dos Exercícios 
 
1. (a) 67% (b)1,43% 
2. (a) 68,26% (b) 100% (c) 0,08% 
3. (a) 0,62% (b) A média da amostra é possível, porém pouco provável; talvez seja mais 
razoável acreditar que os parâmetros da população mudaram ou então que há algum erro 
na afirmação ou nos resultados divulgados. 
 
79
CAPÍTULO IX 
 
Intervalos de Confiança para a Média: 
desvio padrão conhecido 
 
9.1 Inferência estatística 
“O objetivo da inferência estatística é a obtenção de informações sobre 
aspectos de uma população de interesse (parâmetros) por meio de resultados 
obtidos na observação de uma ou mais amostras extraídas dessa população” (Ara 
et al, p. 55). 
Lembrando que parâmetro é uma medida que descreve uma população e 
que estatística é uma medida que descreve uma amostra, interessa-nos, a partir 
de valores obtidos numa amostra, estimar, com considerável nível de confiança,
um intervalo de valores extremos para os quais é razoável supor que as medidas 
da população nele se encontram. 
 
9.2 Uma expressão para o Intervalo de Confiança 
Um exemplo típico: deseja-se estimar a largura média de um tipo de peça. 
Para isso considerou-se uma amostra de 25 peças e obteve-se uma largura média 
igual a 5,2cm. Sabendo-se que para a variável “largura” o desvio padrão é de 
0,5cm e que esses dados são distribuídos normalmente, construa um intervalo de 
valores que contenha a verdadeira média, com 95% de confiança. 
A expressão “95% de confiança” indica aquilo que chamamos de nível de 
confiança, o que pode ser entendido como o intervalo de valores da distribuição 
amostral que tem 95% de probabilidade de conter o verdadeiro parâmetro da 
população. A literatura em Estatística também usa a expressão “nível de 
significância”, simbolizado por α , que é a probabilidade complementar à de 
confiança, ou seja, a probabilidade de erro. Ou seja, “construir um intervalo de 
valores com 95% de confiança” ou “construir um intervalo de valores com α =5% 
como nível de significância” são expressões com mesmo significado. 
Para chegarmos ao intervalo pedido, é necessário, primeiramente, encontrar 
os valores Z para os quais a área 0,95 está compreendida, conforme ilustra a 
figura a seguir. 
80
Isso é feito através da tabela, de maneira invertida ao que costumeiramente 
fizemos nos textos anteriores: como se pede 95% de confiança, a área restante, 
situada nas duas caudas, é de 5%, cujo valor é dividido em duas partes de 2,5% 
cada. Na tabela, procuramos o valor Z referente à área 0,025 através do valor 
complementar, ou seja, 1 – 0,025 = 0,975. 
Por meio dessa área, encontramos Z=1,96. Porém, note que o intervalo tem 
um extremo maior (que será obtido por meio de 1,96), mas tem também um 
extremo menor; este deverá ser obtido através de Z=– 1,96. 
No texto anterior trabalhamos com a expressão: 
n
X
Z
σ
µ−=
Fazendo as transformações necessárias (como numa equação de 1º grau 
qualquer), ficamos com os valores extremos (também chamados de valores 
críticos) do intervalo procurado: 
n
ZX
σµ '.±=
Chamamos o valor Z de Z’ na expressão acima para que você se lembre de 
fazer as passagens anteriormente descritas (dividir a porcentagem destinada às 
caudas por 2), embora boa parte dos problemas use algumas porcentagens 
padrão: usa-se muito o nível de confiança 95% (que nos levou a Z=±1,96), 90% 
(que leva a Z=±1,65) e 99% (que leva a Z=±2,58). 
Assim, no exemplo proposto, teremos a seguinte estimativa para a média: 
n
X
σµ .96,1±= �
25
5,0
.96,12,5 ±=µ � 196,02,5 ±=µ
81
Assim, o intervalo previsto para a média é [ ]396.5;004.5 . O que isso 
significa? 
• Se várias amostras de 25 elementos forem selecionadas 
aleatoriamente (o que, na prática, dificilmente é feito), 95% delas 
terão, provavelmente, a média aritmética situada entre 5,004cm e 
5,396cm. 
• Significado principal: Há 95% de chances de que a média de toda a 
população de peças do exemplo considerado esteja numa medida 
entre 5,004cm e 5,396cm. 
E se não se dispuser do valor do desvio padrão da população? Nesse caso, 
é necessárioutilizar-se do Teorema do Limite Central, adotando o desvio padrão 
da amostra como referência, desde que a amostra seja suficientemente grande,
conforme enunciado do Teorema, trabalhado no texto anterior. Para amostras 
pequenas (n 30 
Use a distribuição T (INVT) σ desconhecido e população 
normalmente distribuída 
OU 
σ desconhecido e n > 30 
Métodos avançados (não-paramétricos 
ou bootstrap)
População não é normalmente 
distribuída e n ≤ 30 
Observações finais: 
(a) Critérios para decidir se a população é ou não normalmente 
distribuída: a população não precisa ser exatamente normal, mas deve 
87
parecer simétrica de alguma forma, com uma única moda e sem dados 
discrepantes (outliers).
(b) Tamanho amostral n > 30: é uma diretriz comumente usada, mas 
tamanhos amostrais de 15 a 30 são adequadosse a população parece ter 
uma distribuição que não se afasta muito da normal e se não há outliers.
Para algumas distribuições populacionais que se afastam extremamente da 
normal, o tamanho amostral pode precisar ser maior do que 50, ou mesmo 
100. 
 
10.4 Exercícios 
 
1. Um fabricante trabalha com máquinas que produzem certo tipo de peça 
bastante elaborada. Ele pretende diminuir o tempo que cada máquina gasta 
na produção da peça alterando um dispositivo contido nessas máquinas. 
Dessa forma, separa 8 delas e anota o tempo gasto na produção da referida 
peça; em seguida, troca o dispositivo dessas máquinas e anota novamente 
o tempo gasto na produção da peça, conforme a tabela a seguir. 
 
Máquina A B C D E F G H 
Sem 
alteração
10,5 8,7 9,2 10,0 9,5 8,9 11,2 12,0 horas 
Com 
alteração
9,0 8,9 7,8 7,3 8,0 8,0 9,5 10,0 horas 
Construa dois intervalos de 95% confiança para médias de tempos de toda a 
população de máquinas: um com a amostra sem a alteração, e outro para a 
amostra com os novos dispositivos, admitindo que os dois conjuntos de dados 
possuem certa semelhança com uma distribuição normal. 
 
2. Para verificar a eficácia de um programa de prevenção de acidentes de 
trabalho, fez-se um estudo experimental, implementando este programa em 
dez empresas da construção civil, escolhidas ao acaso, numa certa região. 
Os dados abaixo referem-se aos percentuais de redução de acidentes de 
trabalho nas 10 empresas observadas. 
Amostra: 20, 15, 23, 11, 29, 5, 20, 22, 18, 17 
Usando 95% de confiança, construa um intervalo para o qual provavelmente se 
situa a média percentual de redução de acidentes de trabalho para todas as 
empresas submetidas ao referido programa. 
 
3. Deseja-se estimar a nota média em um exame aplicado em uma escola. 
Para isso considerou-se uma amostra de 16 alunos submetidos a esse 
exame e obteve-se uma nota média de 7,3 e um desvio padrão de 0,4. 
Construa o IC com 95% de confiança para a verdadeira média. 
 
88
4. Refaça o exercício anterior, usando 90% para nível de confiança, porém, 
antes de fazer os cálculos, responda: espera-se um intervalo menor ou 
maior que o obtido nesse exercício? 
 
5. Uma amostra representativa de 20 peças cilíndricas apontou seus 
respectivos diâmetros com média 21,5 mm e desvio padrão 1,1mm. A 
população original a partir da qual se extraiu essa amostra é normalmente 
distribuída, e o estatístico da empresa fabricante estimou um intervalo de 
confiança para a média populacional que tem como máximo 22,20 mm e 
um mínimo de 20,80 mm. Qual foi o nível de confiança usado pelo 
estatístico? 
 
6. Um lote de 100 ações teve uma variação média mensal de 1,02% no último 
período, com desvio padrão 0,09%. Sabendo que essas ações fazem parte 
de um conjunto de 2.412 ações de uma empresa, pergunta-se: 
(a) Para determinar, com 95% de confiança, um intervalo que 
contenha a média percentual de rendimentos de todas as 
ações dessa empresa, você utilizaria valores z (da distribuição 
normal padronizada) ou valores t (da distribuição t de 
Student)? Justifique sua resposta. 
(b) Determine esse I.C. usando essas duas opções, e comente os 
resultados obtidos. 
 
10.5 Respostas dos exercícios 
 
1. [9,.03; 10.97] sem os novos dispositivos, e [7.78; 9.34] com os novos dispositivos; note 
que a unidade para todos os dados numéricos é “horas” 
2. [13.24; 22.76] note que a unidade para os dados numéricos é “pontos percentuais” 
3. [7,086 ; 7,513] 
4. Menor, pois é possível aumentar a precisão do intervalo somente se aumentarmos o risco, 
ou seja, diminuirmos o nível de confiança. Geometricamente é possível observar que, ao se 
desenhar uma área menor na curva, teremos conseqüentemente um intervalo menor. O IC 
obtido é [7,1247 ; 7,4753] 
5. 99% 
6. Não olhe a resposta antes de ter pensando nessa pergunta! 
(a) valores t, uma vez que não é conhecido o desvio padrão da população toda das 2.412 
ações, mas somente o desvio padrão amostral (note que na expressão do I.C. com valores 
z o desvio padrão é da população (σ ), enquanto na expressão com valores t o desvio 
padrão é da amostra ( Aσ ); além disso, não foi afirmado se a população é normalmente 
distribuída; como o número de elementos da amostra n é maior que 30, tal situação se 
enquadra nas condições do uso do valor t. 
(b) Com valor t: [1,002%; 1,038%] e com valor z [1,002%; 1,038%]; as respostas, apesar de 
estarem iguais, não são exatamente as mesmas, em termos de precisão matemática, já 
que tais valores estão aproximados com 3 casas decimais. Porém estatisticamente isso 
mostra que quanto maior o número de elementos de uma mostra, mais a distribuição t se 
torna próxima da distribuição z. Isso pode ser aceito, apesar de não se ter σ , porque o 
desvio padrão para n razoavelmente grande tende a se tornar mais próximo do desvio 
padrão da população. 
89
CAPÍTULO XI 
 
Distribuições Amostrais e Intervalos de 
Confiança para uma Proporção 
 
11.1 Aproximação da Binomial à Normal. 
 
Continuando o trabalho de se utilizar amostras (por meio de suas 
“estatísticas”) para que se conheça valores similares aos “parâmetros” da 
população, neste texto analisaremos situações correspondentes àquelas estudadas 
nas distribuições binomiais, onde a variável em questão tem ou não tem 
determinado atributo. Exemplos: 
(a) proporção de pessoas que aprova (ou reprova) o governo atual; 
(b) proporção de pessoas que usa (ou não) certo produto; 
(c) proporção de pessoas que aprova (ou reprova) o novo sabor de 
determinado produto; 
(d) proporção de peças fabricadas que possuem certo defeito (ou não o 
possuem); 
Em Estatística I a propriedade de “possuir certo atributo” e a de “não 
possuir certo atributo” foram chamadas, respectivamente, de sucesso e
fracasso. 
No entanto, situações binomiais podem ser aproximadas para o enfoque 
normal quando se tratar de um valor de n suficientemente grande, desde 
que a proporção p não esteja muito próxima de zero**. Nesses casos, pode-se 
calcular a média aritmética e o desvio padrão da seguinte forma: 
pn ⋅=µ e )1( ppn −⋅⋅=σ
Exemplo: Suponha que 40% dos funcionários de uma grande empresa faz 
hora extra com determinada freqüência (mínimo de 2 vezes por mês, por 
exemplo). Se forem selecionados aleatoriamente 50 funcionários dessa empresa, 
teremos um valor de n grande e, como p=0,40 não é próximo de 0 ou 1, então 
teremos a média 204,050 =⋅=⋅= pnµ e o desvio padrão 
464,3)40,01(40,050)1( =−⋅⋅=−⋅⋅= ppnσ .
Quais são os significados desses valores? Tais valores têm significado 
quando queremos calcular probabilidades como, por exemplo, a seguinte: nessa 
amostra, qual a probabilidade de que 25 funcionários ou mais façam hora extra 
(nas condições apresentadas)? 
Com esses valores de µ e de σ calculamos a respectiva probabilidade, 
encontrando o valor Z e utilizando a tabela ou o Excel. 
 
** Estatísticos apontam as seguintes condições: 5≥⋅ pn e 5)1( ≥−⋅ pn .
90
11.2 Continuando a Inferência Estatística: Distribuição de 
Amostragem de Proporções
Numa amostra de n elementos, sobre os quais é avaliada a presença ou 
não de certo atributo, vamos chamar de pa a proporção deles que possui a 
característica que está sendo estudada. Veja a fórmula a seguir. 
amostradatamanho
sucessos denúmero==
n
X
pa
A proporção da amostra pa é um número entre 0 e 1 (é uma 
porcentagem!); enquanto a média aritmética da amostra X é um meio de calcular 
a média aritmética da população µ , a estatística pa é um meio de calcular a 
proporção da população p. Por analogia à distribuição de amostragem da média 
aritmética, o erro padrão dessa proporção satisfaz a seguinte expressão (o qual 
também tem a “participação do Teorema do Limite Central”): 
n
pp
ap
)1( −⋅=σ
Dessa forma, para se calcular probabilidades específicas em determinados 
intervalos, podemos inserir esses valores na fórmula do valor Z, obviamente, 
dentro das condições apresentadas até aqui:
n
X
Z
σ
µ−=
�
n
pp
Z a
σ
−= , de 
onde se chega à fórmula 
 
n
pp
pp
Z a
)1( −⋅
−=avançar.
3º) Você pode, ao avançar as próximas etapas, optar por inserir mais 
nomes ou informações no gráfico. Verifique as possibilidades; eu, 
Francisco, resolvi deixá-lo assim: 
 
Fica como exercício para você a realização do gráfico tipo “pizza” para esse 
mesmo exemplo. Uma possibilidade é a apresentada abaixo. 
 
8
4.5 Apresentação de dados quantitativos – HISTOGRAMAS 
 
Para iniciar as análises do tipo de dados que mais trabalharemos (ou seja, 
dados numéricos), vale a pena observarmos uma classificação dos mesmos: 
Variável inteira (ou discreta) é aquela que pode assumir somente um 
número “contável” de valores. Ex.: nº de funcionários de uma empresa, nº de 
erros de impressão num exemplar de jornal, nº de filhos de um casal. 
Variável real (ou contínua) pode assumir qualquer valor em um ou mais 
intervalos sobre a reta real. Ex.: medidas de comprimento de uma peça fabricada, 
áreas ou volumes de certos produtos, valores do dólar ao longo de um ano, índices 
percentuais da inflação nos últimos 12 meses. 
O que é um histograma? 
É o tipo de gráfico usado para se resumir um conjunto que possua muitos 
dados numéricos (inteiros ou reais), agrupando-os em intervalos. Veja o exemplo 
de 81 alturas de alunos de uma turma de Administração de Empresas; os dados 
brutos são: 
1.84,1.82,1.75,1.83,1.63,1.74,1.85,1.62,1.69,1.60,1.70,1.71,1.72,1.71,1.70,1.68,1.58,1.58, 
1.76,1.74,1.65,1.75,1.74,1.61,1.63,1.79,1.60,1.67,1.70,1.83,1.70,1.57,1.70,1.70,1.84,1.68, 
1.63,1.62,1.56,1.65,1.78,1.82,1.77,1.85,1.70,1.70,1.76,1.55,1.60,1.52,1.78,1.63,1.70,1.60, 
1.73,1.60,1.63,1.76,1.67,1.77,1.75,1.80,1.73,1.78,1.73,1.72,1.64,1.63,1.63,1.78,1.49,1.62, 
1.73,1.56,1.74,1.60,1.60,1.57,1.57 
Histograma
0 1
16
28 28
8
0 0
0
5
10
15
20
25
30
1,40 1,50 1,60 1,70 1,80 1,90 2,00 Mais
Bloco
F
re
q
ü
ê
n
c
ia
Histograma
0 0 1 2
14 14 14
16
12
8
0 0 0 0
0
5
10
15
20
1
,4
0
1
,4
5
1
,5
0
1
,5
5
1
,6
0
1
,6
5
1
,7
0
1
,7
5
1
,8
0
1
,8
5
1
,9
0
1
,9
5
2
,0
0
M
a
is
Bloco
F
re
q
ü
ê
n
c
ia
Observe que os histogramas são diferentes, mas representam os mesmos 
dados. No primeiro gráfico, os valores foram agrupados em intervalos de 10cm 
(0,10m), enquanto no segundo os dados foram agrupados em intervalos de 5cm. 
Como construir histogramas no Excel? 
Este texto não tem a intenção de ser um tutorial para uso do Excel. O que 
será feito é uma narrativa de como o ser humano que te escreve estas palavras 
construiu as figuras do texto. Explicações mais detalhadas e/ou técnicas podem ser 
obtidas, por exemplo, em Winston, W. L.: Microsoft Excel, Data Analysis and 
Business Modeling, livro que inspirou uma parte deste curso. 
Assim, para construir o primeiro histograma anteriormente apresentado, fiz 
a seguinte seqüência de passos: 
9
1º) Ferramentas � Análise de Dados*
� Histograma 
2º) No intervalo de entrada, introduza a coluna dos dados (ver próxima 
figura); no intervalo de bloco, é necessário introduzir uma coluna previamente 
construída (fazê-la na mesma planilha facilita), a qual conterá os limites dos 
intervalos escolhidos para o histograma. Na figura seguinte você poderá perceber 
os dois intervalos por mim escolhidos para construir o histograma**.
3º) Selecione a opção “Resultado do gráfico” e pressione OK. 
 
Ao seguir esses passos, você perceberá (provavelmente) que seu 
histograma ainda não ficou igual ao meu... O uso de barras juntas é largamente 
usado pelos estatísticos. Para fazê-lo, clique duplo em qualquer uma das barras, e 
aparecerá uma janela de título “Formatar seqüência de dados”. Em “Opções”, 
digite o número zero na caixa “Largura do espaçamento” e clique em OK (ver 
próxima figura). E aproveite para explorar um pouco essa janela e veja o que há 
em outras opções... 
 
* Se a opção “Análise de dados” não estiver disponível, siga os seguintes passos para disponibilizá-la: 
Ferramentas ���� Suplementos ���� Selecione “Ferramentas de Análise” e “Ferramentas de Análise VBA” 
** Vários autores sugerem um mínimo de 5 e um máximo de 20 classes; existe, ainda, uma regra empírica: 
n classes, onde n é a quantidade de valores (embora acredite que, se n for muito grande, n pode não ser 
interessante, como no caso de n=10.000...). 
 
10
Dólar Comercial
2,12
2,13
2,14
2,15
2,16
2,17
2,18
2,19
0 10 20 30 40 50 60
Último comentário neste item: se você não inserir um intervalo de bloco ao 
construir um histograma, o Excel o fará automaticamente, seguindo algumas 
regras matemáticas (as quais podem ser observadas na Ajuda desse programa); 
porém, alguns pequenos problemas podem ocorrer ao se comparar histogramas 
com intervalos de valores diferentes (esse problema será abordado no exercício 2). 
 
4.6 Gráficos de controle 
Muito útil em situações de análise de vários processos, um gráfico de 
controle fornece um panorama geral de oscilações através de uma observação 
gráfica de todos os valores numéricos (ou, pelo menos, de grande parte deles). O 
exemplo a seguir, obtido através da planilha Dólar Comercial.xls fornece uma idéia 
de como oscilou o valor do dólar comercial no período de 01/11/2006 até 
19/01/2007 (fonte: www.fvg.br). 
11
Dólar Comercial
2,12
2,13
2,14
2,15
2,16
2,17
2,18
2,19
0 10 20 30 40 50 60
Para obter esse gráfico, basta usar o assistente de gráfico do Excel, optar 
pelo tipo “Dispersão (XY)” e, na etapa seguinte, inserir a coluna dos valores do 
dólar na caixa “Intervalo de Dados”, escolhendo as séries em “Colunas”. Os 
próximos passos são triviais. 
Muitas pessoas que trabalham com esse diagrama, conforme poderemos 
perceber através de alguns casos que estudaremos, costumam ligar os pontos do 
gráfico através de segmentos. Caso deseje, você poderá fazê-lo com a seguinte 
seqüência: duplo click em qualquer ponto do gráfico já obtido, e na aba “padrões” 
� “linha” use a opção “automática” ou “personalizada”. 
 
Observação importante: esse tipo de gráfico faz bastante sentido quando a 
variável do eixo x é “tempo”, uma vez que o visual gráfico indicará uma ou mais 
tendências ao longo de determinados períodos (crescentes, decrescentes, pouco 
ou muito oscilantes, constantes etc.). 
 
4.7 Diagrama “ramo-e-folhas” 
 
Para encerrar este primeiro texto de estatística descritiva, vamos apresentar 
mais uma “modalidade” de apresentação de dados: o diagrama ramo-e-folhas,
que é bastante usado em resumos de dados, porém visualizando todos eles. É 
usado, por exemplo, numa coleta de dados dinâmica; suponha que as alturas 
descritas anteriormente tenham sido coletadas da seguinte forma: o professor 
(autor deste texto) pergunta a cada aluno sua respectiva altura, e a anota no 
papel. Já imaginou quantas vezes iria repetir o algarismo 1? Quantas vezes iria 
repetir o algarismo 7 (para as pessoas que têm de 1,70m a 1,79m de altura)? Veja 
o diagrama a seguir e observe como ele foi construído. 
 
14 | 9 
 15 | 256677788 
 16 | 00000001222333333345577889 
 17 | 0000000001122333344445556667788889 
 18 | 022334455 
12
Para construirmos um diagrama ramo-e-folhas no papel, você pode seguir 
as seguintes dicas: (a) primeiramente, decidir quais serão os ramos; note que este 
passo querer de você a intuição e o bom senso. Nesse exemplo os ramos foram 
compostos de 2 algarismos, mas a natureza dos dados podem levá-lo a outras 
opções; (b) na primeira coluna, liste os ramos em ordem crescente (nada impede 
que seja decrescente, mas use seu bom gosto!) (c) nas linhas de cada ramo, 
escreva as folhas. 
 
4.8 Exercícios 
 
1. Neste problema estudaremos um caso real em que analisaremos um 
conjunto de dados referentes a uma dimensão crítica de uma peça, e tal 
exemplo é extremamente ilustrativo de vários processos de produção. Se 
esta dimensão estiver dentro dos limites, ela encaixa na contra-peça, caso 
contrário vai ficar folgada ou muito apertada. Neste caso, oriundo de uma 
empresa fabricante de canetas, a dimensão estudada é o diâmetro externo 
da extremidade de uma caneta, e na contra-peça a dimensãoExercício: O gerente de determinado setor de uma grande agência bancária 
afirmou que 40% dos depositantes aplicam na modalidade W de aplicação. Ao se 
escolher uma amostra aleatória de 200 clientes, qual a probabilidade de que a 
proporção da amostra seja: 
(a) menor que 43% 
(b) entre 40 e 43% 
 
Resolução: 
(a) 
200
)40,01(40,0
40,043,0
−⋅
−=Z �
200
24,0
03,0=Z � 87,0=Z
91
Usando o comando =DIST.NORMP(0,87), encontramos o valor 0,8078, ou 
seja, 80,78% é a probabilidade da amostra apresentar uma proporção menor que 
43% de clientes que aplicam na modalidade W. 
(b) para a proporção entre 40% e 43%, basta fazer 0,8078 – 0,5000 = 
0,3078, já que 40% é a média esperada (faça um desenho!). Explicitando o 
resultado, entendemos que 30,78% é a probabilidade de que a amostra apresente 
uma proporção entre 40% e 43% de clientes que aplicam em W. 
 
11.3 Uma expressão para o Intervalo de Confiança 
De forma análoga ao que trabalhamos com a média aritmética, é possível 
construir um intervalo de confiança para uma proporção. Basta-nos, neste 
momento, retomar conceitos já trabalhados e construir uma expressão para esse 
intervalo. 
Primeiramente, lembremos que a expressão “95% de confiança” indica 
aquilo que chamamos de nível de confiança, que pode ser entendido como o 
intervalo de valores da distribuição amostral que tem 95% de probabilidade de 
conter o verdadeiro parâmetro da população. Essa porcentagem pode ser outra, 
como 90%, 98% ou 99%, mas geralmente o que se exige não foge desses 
valores. Por meio desse valor, buscamos o valor de Z para que possamos usá-lo na 
expressão do Intervalo de Confiança. 
No texto 3 mostramos que o desvio padrão para uma proporção é calculado 
por meio da expressão 
n
pp
p
)1( −⋅=σ , o que nos levou à expressão 
n
pp
pp
Z a
)1( −⋅
−= para o cálculo do valor Z de uma amostra, e assim obter as 
probabilidades necessárias. 
Fazendo os mesmos cálculos que desenvolvemos para a média aritmética, 
chegaremos à seguinte expressão para um Intervalo de Confiança de uma 
proporção p (da população), a partir de uma (ou mais) amostra(s) que 
apresentem a proporção pa:
n
pp
Zpp aa
a
)1(
.
−⋅±=
Exemplo: Uma amostra de 400 peças retiradas de um lote produzido 
apresentou 6 peças com defeito. Estime um intervalo para a verdadeira proporção 
de peças defeituosas nesse lote através de um intervalo com 90% de confiança. 
Veja que a proporção ap é: 015,0
400
6 ==ap � valor z = 1,65 (não se 
esqueça de que 90% de área é dividida em duas de 45%, o que determina 5% de 
área em cada cauda). O intervalo é assim calculado: 
92
n
pp
Zpp aa
a
)1(
.
−⋅
±= �
400
)015,01(015,0
.65,1015,0
−⋅±=p
Realizando os cálculos e os arredondamentos aceitáveis, temos o intervalo 
previsto para a proporção: [ ]025.0;005.0 = [ ]%5.2%;5.0 O que isso 
significa? 
As condições para que o raciocínio presente neste exemplo e neste texto 
sejam aplicáveis são as mesmas apresentadas no texto 3: a amostra deve ser 
grande, o que estatísticos aprovam mediante as seguintes condições: 5≥⋅ pn e
5)1( ≥−⋅ pn .
11.4 Exercícios 
 
1. Historicamente, 10% de uma grande remessa de peças de máquinas são 
defeituosas. 
(a) Qual a probabilidade de que uma amostra aleatória de 400 peças 
tenha entre 9% e 10% de peças defeituosas? 
(b) Qual a probabilidade de que uma amostra aleatória de 400 peças 
tenha menos que 8% de peças defeituosas? 
(c) Se um tamanho de amostra de somente 100 peças fosse 
selecionado, quais teriam sido suas respostas em (a) e (b)? 
(d) O que é mais provável ocorrer: um percentual de defeitos acima 
de 13% em uma amostra de 100 peças ou um percentual de 
defeitos acima de 10,5% numa amostra de 400 peças? Explique. 
2. Com base em dados anteriores, 30% das compras em uma grande loja de 
departamentos são realizadas para quantias acima de R$ 100,00. Se forem 
tomadas amostras aleatórias de 100 compras: 
a) Qual a proporção de amostras é esperada para ter mais de 20% das 
compras acima de R$ 100,00? 
b) Qual a proporção de amostras é esperada para ter entre 20% e 30% das 
compras acima de R$ 100,00? 
c) Entre quais limites simétricos de percentagem da população estariam 95% 
das percentagens? 
 
3. Em uma pesquisa de mercado sobre a preferência dos consumidores em 
relação a um novo produto, 155 de uma amostra de 250 consumidores 
preferiram o novo produto. Determine um intervalo de 90% de confiança 
para a proporção de consumidores que prefiram esse produto, no contexto 
da população da qual foi retirada essa amostra. 
93
4. Uma máquina produz certo tipo de peça, sendo 4% a proporção de peças 
defeituosas. Qual o número mínimo de peças defeituosas que se espera 
encontrar em um lote de 250 peças produzidas por essa máquina, com 98% 
de confiança? 
 
5. O gerente de um banco de certa cidade gostaria de determinar a proporção 
de seus correntistas que recebem salários via banco. Uma amostra aleatória 
de 100 correntistas foi selecionada, e 30 deles recebem seus respectivos 
salários via banco. Desenvolva uma estimativa da proporção de correntistas 
desse banco que têm seus salários recebidos via banco, com 90% de 
confiança. 
6. Uma grande concessionária de automóveis quer calcular a proporção de 
consumidores que ainda possuem o carro que lá compraram, no período 
que corresponde ao tempo de 2 a 5 anos de compra. Numa amostra 
aleatória de 200 consumidores, selecionados a partir dos inúmeros registros 
da concessionária, 82 deles ainda possuem o carro que lá compraram. 
Desenvolva uma estimativa, com intervalo de confiança de 95%, da 
proporção da população de consumidores dessa empresa que possuem 
ainda o carro que lá compraram, nas condições anteriormente descritas. 
 
11.5 Respostas dos Exercícios 
 
1. (a) 0,2486 (b) 0,0918 (c) 0,1293 e 0,2514 (d) Um percentual de defeitos acima de 10,5% 
é mais provável de ocorrer, um uma vez que está apenas 0,33 desvio padrão acima do 
valor de 10%. (você também pode justificar este item calculando os respectivos valores de 
probabilidades). 
2. (a) 98,54% (b) 48,54% (c) entre 21% e 39% (o valor 0,389818... foi arredondado 
para 39%) 
3. [56.93%; 67.07%] 
4. 17 
5. [22.46%;37.54%] 
6. [0.342;0.478] 
94
CAPÍTULO XII 
 
Correlação entre Variáveis 
Regressão Linear 
Outros tipos de Regressão 
 
12.1 A relação entre duas variáveis 
 
Em diversos processos envolvendo diferentes contextos do mundo 
empresarial (e outros “mundos” também) é possível identificar a relação entre 
duas variáveis. De modo geral, a variável da qual se deseja ter uma predição é 
chamada de variável dependente, a qual é costumeiramente “batizada” de y em 
aulas de Matemática. A variável independente (usualmente chamada de x) é 
aquela que costuma ser inserida em alguma lei (“fórmula”, no popular) a fim de se 
determinar y. 
Exemplos de variáveis que podem se relacionar: 
 
Variável Independente x Variável Dependente y 
Unidades produzidas ao mês por uma 
empresa 
Custo mensal total 
Reais (R$) mensais investidos em 
publicidade 
Vendas mensais 
Preço de venda de um produto Demanda pelo produto 
Área de vários terrenos Valores de venda 
Número de clientes de diversas 
empresas do mesmo ramo 
Valores de receita 
Temperatura do forno industrial Grau de tenacidade dos azulejos 
fabricados 
Em tais exemplos, é possível estabelecer uma relação formal entre as duas 
variáveis, ou seja, uma lei algébrica (popularmente chamada de “fórmula”) que 
estabeleça a relação numérica aproximada entre as variáveis x e y. Leis podem 
ter diferentes comportamentos: uma relação linear pode ser representada por uma 
expressão do tipo y = a.x + b; relações exponenciais podem ser da forma 
xcbay ..= , e assim por diante. Boa parte deste texto será dedicada às relações 
lineares (funções do 1º grau, representadas graficamente por linhas retas), mas ao 
final comentaremos outros tipos de regressão. 
95
12.2 Como medir o grau de correlação entre duas variáveis. Como achar 
uma lei algébrica que melhor associa duas variáveiscorrelacionadas. 
 
Para delinear os itens teóricos deste texto, utilizaremos um exemplo 
constante no livro “Microsoft Excel Data Analysis and Business Modeling ”; nesse 
exemplo constam os valores, em 14 meses seguidos, dos custos totais (em 
dólares) gerados na fabricação de determinado produto, em função do número de 
unidades produzidas nos respectivos meses. Retomando as nomenclaturas, o 
número de unidades produzidas será representado por x e os valores de custo 
serão os valores de y que iremos inserir no Excel. Veja os valores a seguir: 
 
Mês Unidades produzidas Custo (US$) 
1 1.260 123.118,00 
2 1.007 99.601,00 
3 1.296 132.000,00 
4 873 80.000,00 
5 532 52.000,00 
6 476 58.625,00 
7 482 74.624,00 
8 1.273 110.000,00 
9 692 81.000,00 
10 690 73.507,00 
11 564 95.024,00 
12 470 88.004,00 
13 675 70.000,00 
14 870 110.253,00 
Para obtermos uma visão gráfica da relação entre o número de unidades 
produzidas (x) e o custo (y) que essa empresa teve em cada mês, vamos utilizar 
um sistema de dispersão, na mesma opção que utilizamos para construir gráficos 
de controle (textos 1 e 2). Selecione as duas colunas de dados e, através do 
assistente de gráfico, use a opção “dispersão”. 
 
96
Uma vez disponibilizado o gráfico, o menu “GRÁFICO” permanece 
disponibilizado quando você simplesmente “clica” sobre a área do mesmo. Nesse 
menu, vá na opção “adicionar linha de tendência” (veja a próxima figura). Nessa 
opção, você perceberá que possui várias maneiras de modelar esses dados. Você 
tem a possibilidade de modelá-los segundo função do 1º grau (“linear”), 
exponencial, logarítmica, potência etc. 
 
Usaremos, para este exemplo, a opção “Linear”, procurando fazer uma 
aproximação dos dados a uma reta que melhor represente esse conjunto de 
dados. 
 
Na aba “opções”, selecione as opções que estão indicadas na figura a 
seguir, ou seja, “exibir equação no gráfico” e “exibir valor de R quadrado” 
97
y = 64,269x + 37894
R2 = 0,6882
-
20.000,00
40.000,00
60.000,00
80.000,00
100.000,00
120.000,00
140.000,00
- 200 400 600 800 1.000 1.200 1.400
Série1
Linear (Série1)
O software oferecerá, dessa forma, a seguinte figura: 
 
Vamos à interpretação de tais resultados: 
1º) a equação Y = 64,269x + 37894, chamada de equação de 
regressão e representada no gráfico anterior, representa a reta que melhor
representa esse conjunto de dados ou, dito de outra forma, é a reta que melhor se 
aproxima da totalidade dos dados. Para que serve? Sua maior potencialidade é 
fornecer previsões para outros valores de x††.
Admitindo-se como razoável a associação entre essas variáveis, pode-se 
fazer a seguinte pergunta: se no mês 15 a empresa deseja produzir 1.000 
unidades do produto em questão, qual o custo estimado para essa situação? 
 
†† Não apresentarei, neste texto, explicações que levam às fórmulas que fornecem os valores de a e de b, 
melhores aproximações para coeficientes da reta que melhor representa esse conjunto de dados. Idem para o 
valor de R². 
98
Basta fazer x = 1.000 na equação de regressão e obter a estimativa 
correspondente para y: Y = 64,269 . 1000 + 37894, o que nos fornecerá Y =
102163, ou seja, aproximadamente R$ 102.163,00 é o valor previsto para o custo 
mensal dessa empresa, caso sejam produzidas 1.000 unidades do procuto. 
 
2º) o valor R² = 0,6882: medida utilizada para se dizer se a correlação 
entre os dados é forte, média ou fraca. Quanto mais próximo de 1 esse cálculo 
resultar, mais forte será a relação entre as variáveis. Quanto mais próximo de 0 
(zero) resultar esse valor, mais fraca será a correlação entre tais variáveis. 
Nesse caso, 0,6882 indica uma correlação moderada entre os dados. Isso 
indica que há mais fatores que estão influenciando fortemente para os resultados 
de custo apresentados. De modo geral, podemos assumir as seguintes condições 
de referência, para o caso de uma relação linear entre as variáveis: 
 
Valor de R² Correlação Aspecto gráfico 
Próximo a 1 Forte Os pontos estão próximos 
de se constituírem em 
uma reta 
Próximo a 0,5 Média Os pontos estão 
razoavelmente 
espalhados, porém nota-
se uma direção linear 
para a nuvem de pontos. 
Próximo a zero Fraca Pontos espalhados sem 
indicação de uma 
tendência linear. 
Essa é uma diretriz bastante geral, que é modificada, reestruturada ou 
detalhada de acordo com o contexto com o qual cada problema está inserido. 
Além disso, o R² também se aplica a outros modelos de regressão, com a mesma 
diretriz. 
 
12.3 Outros tipos de regressão 
 
Mas, e se outro modelo matemático se adaptar melhor a esse conjunto de 
pontos? O usuário do Excel tem a possibilidade de analisar, dentre as opções desse 
software, a lei algébrica da função que melhor se adapta a esses dados. Suponha 
que você acredita que os pontos do exemplo usado neste texto têm uma 
característica exponencial. 
Na opção “adicionar linha de tendência”, opte por “exponencial” 
 
99
O Excel apontará as seguintes informações: 0,0007x49076e y = e R²= 
0,6303. Note que esse formato de equação coloca o x no expoente. O número e 
pode ser arredondado para 2,72, para efeito de cálculos. 
Qual o modelo melhor? Dentre os dois, o modelo linear, pois possui o R² 
com maior valor. Ou seja, na busca por um modelo que melhor explica 
determinado fenômeno é aquele que apresenta maior valor de R². 
 
12.4 Exercícios 
 
Se necessário, faça e = 2,72 
 
1. A direção de uma empresa de embalagens plásticas, preocupada com a 
demanda y de seu produto (número de unidades), resolveu elaborar um 
estudo sobre as variações dessas demandas em função dos preços de 
venda x. Após esse estudo e levantamento de dados, obteve-se as 
informações condensadas na tabela a seguir, estabelecidas nos últimos 
trimestres: 
Meses 1º tri - 
2005 
2º tri - 
2005 
3º tri - 
2005 
4º tri - 
2005 
1º tri - 
2006 
2º tri - 
2006 
3º tri - 
2006 
4º tri - 
2006 
1º tri - 
2007 
Preço de 
venda 
(x) 
16 18 20 23 26 28 30 33 35 
Demanda 
(y) 
1.000 1.050 970 940 950 800 750 675 670 
A partir dessas informações, responda às seguintes questões: 
(a) Qual modelo matemático melhor ilustra esse conjunto de dados: a função 
do 1º grau, a função exponencial ou a função potência? Justifique sua 
resposta. 
(b) Através do Excel, escreva a lei algébrica que melhor representa esse 
conjunto de pontos. 
100
(c) Se a empresa planejar o preço de R$ 38,00 no próximo trimestre, qual será 
a expectativa de demanda? 
(d) Determine as expectativas de demanda que esse modelo prevê para o 2º 
trimestre de 2007, supondo que a empresa deseja manter o mesmo preço 
aplicado no 1º trimestre de 2007. 
 
2. Um índice econômico está evoluindo de acordo com sua variação anual. 
Esses dados levantados estão expressos na tabela a seguir 
Anos(x) 1 2 3 4 5 6 7 
Índice 100 120 150 318 622 870 1450 
De acordo com os dados apresentados, construa um diagrama de dispersão no 
Excel. Em seguida, responda: 
(a) Qual modelo matemático melhor ilustra esse conjunto de dados: a função 
do 1º grau, a função exponencial ou a função potência? Justifique sua 
resposta. 
(b) Através do Excel, escreva a lei algébrica que melhor representa esse 
conjunto de pontos. 
(c) Determine as expectativas que esse modelo prevê para os anos 8 e 9. 
 
12.5 Respostas dos exercícios 
1. 
a) O modelo linear, já que seu R² = 0,9032 é o maior dentre as três opções (a 
exponencial tem R² = 0,8972 e a função potência tem R² = 0,8438). 
b) y = -20,63x + 1392,1 
c) 608 unidades, aproximadamente. 
d) 670 unidades, aproximadamente. 
 
2. 
a) O modelo exponencial, pois tem o maior valor de R² dentre as três possibilidades 
(R² = 0,972, contra os valores de 0,8417 e 0,8566 das outras duas opções). 
b) 
0,4788x48,976e =y
c) Para x = 8 têm-se índice aprox. igual a 2.262,33; para x = 9 a previsão é de 
3652,81.é o diâmetro 
interno da tampinha da caneta. Observe as informações contidas no 
conjunto de dados que estão no arquivo peça e contrapeça1.xls. 
(a) Construa o gráfico de controle e pelo menos dois histogramas para 
esse conjunto de dados; 
(b) Todos os dados estão dentro dos limites aceitáveis para as medidas 
das tampas? 
(c) Pode-se dizer que esse processo está estável? Justifique. 
(d) A máquina que produziu as peças dessa amostra está trabalhando a 
contento, ou é possível que ela necessite de um ajuste? Justifique. 
 
2. Em outra situação real, faremos uma análise de dados obtidos numa grande 
empresa do setor de celulose e papel. No arquivo Umidade em madeira1.xls 
constam médias percentuais diárias de umidade, obtidas a partir de 
amostras de “punhados” de madeira coletados para controle do teor de 
umidade na madeira, que é a matéria-prima para a produção de celulose e 
posteriormente o papel; a forma como tais amostragens são realizadas 
serão discutidas bem mais adiante em nosso curso, mas se você deseja já 
ter uma idéia de como ela é realizada, veja a explicação fornecida pelo 
responsável por tais amostragens no quadro abaixo. Se desejar responder 
às perguntas diretamente, “pule” esse quadro. 
 
“Pegamos 6 amostras por dia de aproximadamente 80 g de madeira picada (que chamamos de “cavaco”), 
pesamos a amostra, colocamos na estufa por um determinado tempo, e pesamos novamente. A diferença 
de peso entre o inicial e o final é considerada como umidade que evaporou. As medidas de peso antes e 
depois estão ocultas, sendo que a tabela já mostra o valor percentual de umidade, que é o dado de 
controle para o processo. 
 
Ex: medida antes da estufa = 80g 
medida depois da estufa 60 g. 
Percentual de umidade = [(80-60)/80]x100 = 25% ���� informação para controle do processo”. 
13
(a) No item (b) desta questão será pedido você que construa 
histogramas para os três meses que constam no arquivo anexo. 
Antes de fazê-lo, porém, vamos resolver uma dúvida “informática”: 
é preferível construir os três histogramas usando um mesmo bloco 
para intervalo de dados ou não há problemas em construir os três 
histogramas com blocos automáticos do Excel? Justifique. 
(b) Construa os histogramas referente aos três meses apresentados 
nesse arquivo, e descreva diferenças entre eles. Diante do contexto 
deste caso, justifique o porquê das diferenças entre esses 
histogramas. 
(c) A meta que a empresa deseja para as médias percentuais é de 
27,5%. Pode-se ver que essa meta não foi alcançada em nenhum 
dos três meses. Pergunta: esse fato significa que o processo de 
controle de umidade está completamente descontrolado? Justifique. 
 
4.9 Respostas dos exercícios 
1. 
(a) Gráficos feitos com Excel. 
(b) Sim, pois todos estão no intervalo 132,00mm e 190,67mm. 
(c) De maneira geral o processo parece estável, já que boa parte dos dados se encontra na 
faixa entre 130mm e 150mm; porém, houve pelo menos 4 períodos em que o processo 
parece ter modificado seu comportamento, apresentando valores superiores aos da 
maioria. 
(d) É possível que essa máquina necessite de um ajuste; apesar dos dados se comportarem 
conforme explicado nos itens anteriores, o fato de existirem grande parte deles na faixa 
[130; 150] mostra que o processo está se desenvolvendo de forma que as peças estão 
consideravelmente próximas ao limite inferior, apresentado no conjunto original dos dados. 
 
2. 
(a) É preferível construir os três histogramas usando um mesmo bloco para intervalo de dados, 
uma vez que, com blocos automáticos, teremos que nos esforçar mais para comparar os 
valores dos eixos horizontais dos três histogramas, já que os intervalos de cada um dos 
três meses são diferentes. Compare as duas situações no arquivo Umidade em 
madeira2.xls. 
(b) No mês de Novembro, as porcentagens de umidade foram mais baixas (concentração de 
dados no “começo” do histograma) e no mês de Janeiro foram mais altas (concentração de 
dados no “fim” do histograma); em Dezembro há uma relativa simetria. O fator 
extremamente provável dessas diferenças é o período chuvoso mais intenso em Dezembro 
e Janeiro. 
(c) Não, pois a variabilidade dos dados não é grande. Assim como o caso do exercício 1, os 
dados têm um comportamento regular, não possuindo grandes oscilações, apesar do fato 
de estarem acima do desejado (faça gráficos de controle para visualizar isso). 
14
CAPÍTULO II 
 
Medidas Estatísticas: 
� Medidas de Tendência Central 
� Medidas de Dispersão 
 
• Quais as diferenças entre as medidas de tendência central de um 
conjunto de dados? Uma pode ser mais representativa que outra? 
• Como posso medir o espalhamento dos dados em relação à média 
aritmética? 
• O que a média e o desvio padrão podem fazer juntos? 
• É possível identificar comportamentos relacionando medidas 
estatísticas e histogramas? 
• É possível comparar histogramas? 
 
2.1 Um exemplo para guiar definições e análises 
Façamos uma atividade invertida em relação ao capítulo anterior: com base 
em um conjunto de dados e através de um comando do Excel, iremos: 
1. Definir algumas medidas estatísticas; 
2. Relacioná-las entre si, especialmente média e desvio padrão; 
3. Apresentar outras relações com outros comandos. 
Suponha que o conjunto de dados Receitas XYZ.xls contém as receitas 
semanais do produto XYZ, em reais; tal produto é fabricado e distribuído por uma 
filial de uma grande empresa, num período de 51 semanas. Note que, inicialmente, 
não vamos analisar um dado específico, mas sim o conjunto como um todo, 
através de medidas nele calculadas. A opção do Excel a ser utilizada é Estatística 
Descritiva, na seguinte seqüência: Ferramentas ���� Análise de dados ����
Estatística descritiva. Nessa caixa, selecionar “resumo estatístico”, conforme 
indica a figura a seguir. 
Com esses passos, o Excel apresentará um resumo de medidas (algumas 
principais, outras pouco usadas) a partir do qual teremos uma noção das 
características e possíveis tendências do conjunto dos dados (ver figuras). 
 
15
Coluna1 
Média 2294,941176
Erro padrão 32,4390398
Mediana 2303
Modo 2144
Desvio padrão 231,661081
Variância da 
amostra 53666,85647
Curtose -0,81417258
Assimetria -0,13156425
Intervalo 888
Mínimo 1807
Máximo 2695
Soma 117042
Contagem 51
16
2.2 Medidas de Tendência Central: 
 
• Média 
Para uma variável quantitativa* X, chamaremos a média de uma amostra de 
X , e a média de uma população de µ , que é a letra grega “mi” usada pela 
maioria dos textos em Estatística. A média aritmética é a divisão de todos os 
valores de X, pela quantidade deles, que chamaremos de n. Matematicamente, ela 
é assim definida: 
 
n
X
X
i∑= ou 
 
O símbolo Σ é a letra grega sigma (maiúscula), muito usada em matemática 
para indicar uma somatória de valores. A média aritmética é uma medida que 
fornece uma noção da concentração dos dados em um único valor. É
aquele valor que todos os elementos pesquisados deveriam ter se o conjunto 
estudado fosse absolutamente uniforme (todos os elementos iguais). 
No exemplo, podemos dizer que a média semanal da receita do produto 
XYZ é de R$ 2.294,94 (arredondando), no período considerado. No Excel, a função 
=MÉDIA(....) também retorna tal medida. 
 
• Mediana 
Uma definição informal: ao ordenarmos os dados (crescente ou 
decrescentemente), o termo que ocupa a posição absolutamente central na 
seqüência de dados (ou seja, 50% dos dados estão antes dele e 50% depois). 
Em nosso exemplo, se observarmos todas as receitas semanais numa 
ordem crescente (ou decrescente – há uma opção fácil no excel para fazê-lo), o 
valor R$ 2.303,00 ocupará a posição central. Na verdade, há um detalhe: se há um 
número ímpar de elementos, há o termo central. Se há um número par de 
elementos, a mediana é definida com a média entre os dois termos centrais. No 
caso, como são 51 elementos, o central é o 26º; se houvesse 50 termos, os 
centrais seriam o 25º e o 26º). 
A explicação teórica destes detalhes está no rodapédesta página. Leia 
somente se estiver com muita curiosidade matemática; caso contrário, gaste sua 
energia no próximo item*. No Excel, a mediana também pode ser obtida com a 
função =MED(...). 
 
• Moda 
 
* lembre-se: X é variável, ou seja, assume vários valores! 
*
Definição: a Mediana de uma amostra de n observações x1, x2,...., xn é o valor que ocupa a posição: 
(a) (n+1)/2, que é o termo central, se n for ímpar; (b) a média aritmética entre os dois termos centrais, cujas 
posições são n/2 e n/2+1, no caso de n ser par. 
 
n
xxxxx
X n+++++
=
...4321
17
Pouco usada, é uma medida de uso bastante restrito. Numa definição 
também informal, é o dado que ocorre mais vezes (tem maior freqüência). Basta 
ver que, no exemplo, o fato de que o valor R$ 2.144,00 ter se repetido não traz 
tanta importância para a análise do conjunto todo. Dados financeiros como esses, 
geralmente, fazem com que o Excel não disponibilize esse valor, uma vez que é 
fácil verificar conjuntos de dados em que nenhum valor se repete. Assim como se 
pode ter um conjunto que não possui Moda, pode-se também haver mais de uma 
moda (por exemplo, no conjunto 1,1,1,2,2,2,3,4,5). 
É provável que, mesmo intuitivamente, o controlador de estoque de uma 
loja de pneus, sapatos ou roupas use a Moda para manter seu estoque atualizado 
para a loja e para os consumidores (o número de pessoas do sexo masculino que 
calça sapato 40 é maior que o número de homens que calça 48). 
No caso do exemplo, podemos chamar de classe modal ao intervalo para 
o qual há mais dados, ou seja, o intervalo para o qual o retângulo do histograma é 
mais alto. No histograma apresentado a seguir, veja que o intervalo [2.400;2.500] 
é uma classe modal. Claro que, se definirmos outros intervalos para o bloco, no 
Excel, teremos outra classe modal (e não há nenhum problema quanto a isso). 
 
Relações entre essas medidas e os histogramas. 
 
Em conjuntos de dados razoavelmente simétricos, essas três medidas (em 
especial média e mediana) tendem a ser próximas. Em nosso exemplo, admitindo 
que o histograma é razoavelmente simétrico (mais à frente justificaremos o porquê 
desta afirmação ser verdadeira), é possível observar que essas medidas localizam-
se em torno do centro do histograma. 
 
Histograma
0
2
4
6
8
10
12
1
8
0
0
1
9
0
0
2
0
0
0
2
1
0
0
2
2
0
0
2
3
0
0
2
4
0
0
2
5
0
0
2
6
0
0
2
7
0
0
M
a
is
Bloco
F
re
q
ü
ê
n
c
ia
Freqüência
Média 2.294,94 Mediana 2.303,00 
18
Detalhes da mediana: divide o histograma ao meio (duas áreas de 50%), e 
não é afetada pelos extremos, ao contrário da média aritmética. Nos dados 
(1,1,1,1,2,2,2,3,4,5,15), a mediana vale 2, e não é afetada pelo dado 15, 
consideravelmente diferente dos demais. No exercício 2 do capítulo anterior, 
referente a percentuais de umidade em madeira (matéria prima para papel e 
celulose), pudemos observar inclinações diferentes para três meses consecutivos 
(reveja os histogramas que você construiu). 
Veja como é a relação entre histogramas e medidas, através de exemplos 
extraídos de arquivos disponíveis do livro Complete Business Statistics: 
Inclinação à esquerda 
(Assimetria Negativa) 
Inclinação à direita 
(Assimetria Positiva) 
Simétrico 
19
Assimetria, cuja medida está no resumo estatístico, indica o quão afastado 
de uma simetria perfeita o histograma está. Quando afirmei que o conjunto de 
dados Receitas XYZ.xls era razoavelmente simétrico, não o fiz apenas no 
“olhômetro” do histograma, mas também com os olhos na medida da assimetria, 
no caso, -0,13. A teoria estatística diz que se esse valor está entre -1 e 1, o 
conjunto pode ser considerado relativamente simétrico*.
A assimetria pode servir para responder a uma questão tradicional em 
Estatística: quem é melhor para descrever o conjunto de dados: a média ou a 
mediana? “Essencialmente, usamos a média como a melhor medida de localização 
central se o conjunto de dados não exibe uma inclinação (assimetria) excessiva. 
Caso contrário, usamos a mediana como medida de localização central” 
(WINSTON, p. 273). É o caso de um pequeno exemplo citado anteriormente, o 
conjunto 1,1,1,1,2,2,2,3,4,5,15; nele a média vale 3,36, razoavelmente superior a 
boa parte dos dados. A mediana vale 2, e é uma medida que ilustra melhor esse 
conjunto de dados, no caso de se necessitar uma informação rápida usando 
apenas essas medidas. E isso faz sentido também matematicamente, já que a 
assimetria é desses dados é 2,73. 
Porém, um conjunto pode ser simétrico e apresentar problemas tanto no 
uso da média quanto no uso da mediana. Isso será explorado através de um 
exercício. 
 
2.3 Medidas de dispersão 
 
• Amplitude 
É a diferença entre o maior e o menor dado: Amplitude = Xmaior – Xmenor 
Está disponível no resumo estatístico, em nosso exemplo do capítulo, com o 
título de Intervalo (veja o resumo do exemplo das receitas mensais do produto 
XYZ). É uma medida mais intuitiva, apenas para dar uma noção de que intervalo 
os dados variam. Veja que é uma medida limitada, já que não se sabe o que 
ocorre com dois conjuntos de dados que tenham a mesma amplitude: 
provavelmente um conjunto terá os dados mais espalhados que o outro, apesar de 
terem mesma amplitude. 
 
• Desvio Padrão: essa medida é a que você usará muito... 
 
Qual a média entre os números 1 e 9? E entre os números 4 e 6? Veja que 
a média 5 é a mesma para as duas perguntas, porém, esse valor é mais 
 
� Maior que 1 indica um alto grau de assimetria positiva 
� Menor que -1 indica alto grau de assimetria negativa 
� Entre -1 e 1 indica um relativo grau de simetria. 
 
20
1
)(....)()( 22
2
2
1
−
−++−+−
=
n
xxxxxx
S n
1
)(....)()( 22
2
2
12
−
−++−+−=
n
xxxxxx
S n
representativo para 4 e 6 do que para 1 e 9. Por quê? Porque 1 e 9 estão mais 
dispersos em relação à média! 
Como estabelecer uma medida para esse “espalhamento” dos dados? 
O desvio padrão é a medida mais famosa e mais usada com sucesso para 
estabelecer essa medida, a qual vale R$ 231,66 (com arredondamento) em nosso 
exemplo base. Numa oração razoavelmente informal, porém suficiente para se 
buscar uma clareza em termos de significado, esse valor significa que “os dados 
estão espalhados, em média, 231,66 reais unidades da média aritmética R$ 
2.294,94”. 
Como calculá-lo? Bem, sugiro fortemente que você se contente em usar o 
Excel, seja com o resumo estatístico já apresentado, seja com a função 
=DESVPAD(...). Mas, se sua curiosidade matemática é muito grande, veja como é 
a fórmula: 
 
De modo geral, usamos S para o desvio padrão de uma amostra, e σ
(sigma) para o desvio padrão de uma população*. A letra n é o número de 
elementos da amostra (número de dados), e há considerações que se pode fazer 
para o uso de n ou de n – 1 no denominador, porém essa discussão não será aqui 
abordada, uma vez que ela não é relevante ao nosso estudo. 
A primeira instrução que você deve construir em seu pensamento 
para entender o que significa o desvio padrão é a seguinte: quanto maior 
o desvio padrão, mais afastados da média estão os dados. 
Reciprocamente, quanto menor o desvio padrão, menos afastados da 
média estão os dados. Essa instrução é importante principalmente quando se 
comparam amostras de mesmo tamanho retiradas de uma mesma população, 
conforme veremos em capítulos mais à frente. 
 
• Variância 
É o quadrado do desvio padrão. Sua importância específica também 
aparecerá em aulas mais a frente, porém perceba que o desvio padrão é mais 
prático, já que tem a mesma unidade dos dados. 
 
* Há também a fórmula 
1
.
22
−
−
= ∑
n
XnX
S
i
21
2.4 Aprofundando o estudo sobre desvio padrão: por que, em inúmeras 
situações, o desvio padrão e a média devem ser usados juntos? 
 
Numa massa de dados razoavelmente simétrica é comum observarmos que 
há uma concentração maior de dados no centro do histograma, ou seja, há mais 
valores em torno da média (conforme já investigamos em vários exemplos). 
Porém, como avançar além da intuição e decidir, de maneiraestatística, se um 
dado está ou não consideravelmente afastado da média? 
Primeiramente veja que essa indagação é importante em diversos 
processos: há dados afastados que podem indicar algum problema na produção de 
determinada peça, ou ainda um valor alto e inesperado de vendas, que é ao 
mesmo tempo bom para o caixa da empresa e motivo de preocupação para o setor 
que controlar o estoque da empresa. 
O que muitas empresas usam nesta primeira análise de relação entre média 
e desvio padrão está relacionado ao que, em teoria estatística, é intitulado “Regra 
Empírica para Distribuição de Dados”, que indica o número de desvios padrão 
acima e abaixo da média aritmética. Não é difícil imaginar que boa parte dos dados 
fique próximo à média, mais especificamente, a dois desvios da média (para mais 
ou para menos), veja um possível enunciado para essa regra, e em seguida a 
aplicaremos no exemplo da produção automobilística presente neste texto. 
 
REGRA EMPÍRICA 
 
[ ]SXSX +− , : geralmente entre 60% e 80% dos dados, podendo chegar a 
90% no caso de distribuições cujo pico e proximidades são consideravelmente 
altos; 
[ ]SXSX .2,.2 +− : aproximadamente 95% para distribuições simétricas; 
torna-se próxima de 100% para distribuições bastante concentradas em torno da 
média; 
[ ]SXSX .3,.3 +− : praticamente 100%. 
 
Em nosso exemplo, temos os seguintes intervalos (que podem ser 
calculados com qualquer calculadora simples, ou mesmo no Excel*): 
1º INTERVALO Média – S 2.063 Média + S 2.527 
2º INTERVALO Média – 2S 1.832 Média +2S 2.758 
3° INTERVALO Média – 3S 1.600 Média +3S 2.990 
 
* A formatação condicional e outras funções do Excel podem ser usados para contar esses valores. 
 
Nº de 
dados Percentual de dados 
1º INTERVALO 34 66,7% 
2º INTERVALO 50 98,0% 
3° INTERVALO 51 100,0% 
22
Veja, através das duas tabelas acima, que os intervalos encontrados 
satisfazem tal regra. Porém, há algumas considerações que devemos fazer em 
relação ao único dado que está além do 2º intervalo: na teoria estatística, 
costuma-se chamar dados como esse de suspeitos, por estarem a mais de 2 
desvios da média aritmética. Se acontecer de um dado estar a mais de 3 desvios 
padrão da média (para cima ou para baixo), esse dado é conhecidíssimo como 
discrepante (outlier). 
 Aviso importante do autor deste texto: dependendo do contexto da 
situação específica (análise de item da produção, exame de qualidade, previsão de 
certo índice etc), da variável em questão e da forma como a empresa pode 
administrar certas questões, dados além de 2 desvios geralmente são considerados 
especiais, dignos de análise ou preocupação mais profunda. 
2.5 Dados discrepantes e o valor Z 
 
Estudaremos ainda muitas distribuições que se apresentarão de forma 
razoavelmente simétrica, e veremos mais adiante o porquê desse estudo intensivo. 
Os estatísticos, para estas situações características, entendem que um dado que 
fica fora do terceiro intervalo da regra empírica é considerado discrepante.
Quando eles ocorrem, eles podem ser visualizados nas “caudas” do histograma, 
pois são valores mais afastados do centro da distribuição. 
Portanto, usando os valores de média e desvio padrão, são considerados 
discrepantes os dados que ficam fora do intervalo [ ]SXSX .3,.3 +− da regra 
empírica. Há uma forma de extrema importância para que possamos identificar 
facilmente um dado discrepante, além de facilitar outras análises que ainda estão 
por vir. 
Muitas vezes a análise ocorre sobre um valor específico do conjunto de 
dados, após uma análise mais global do conjunto todo. Por exemplo, podemos 
discutir se os valores mínimo e máximo obtidos no resumo são valores normais ou 
estão muito distantes da média. O valor máximo R$ 2.695,00, por exemplo, não é 
tão alto em relação aos demais dados, uma vez que situa-se a 1,7 desvio padrão 
acima da média. O valor mínimo R$ 1.807,00, por exemplo, já está mais afastado 
da média, estando a 2,1 desvios padrão da mesma (dizemos que está a –2,1 
desvios da média). Note que tais dados podem ser submetidos a análises de suas 
possíveis causas, nas respectivas semanas em que ocorreram. 
Mas, que valores são esses? Como calculá-los? Podemos padronizar a forma 
de pensarmos sobre a posição de qualquer valor da variável X em termos de 
números de desvio padrão. 
Valor Z de um dado numérico é sua padronização em termos de desvios da 
média; tomando esta como zero. Assim, nessa escala construída em termos de 
23
desvios padrão, cada dado tem um valor equivalente em outra escala, e esse valor 
é chamado de valor Z. Veja como calculá-lo: 
 Definição: O valor Z de uma variável numérica X de um conjunto de 
dados cujo desvio padrão é S é dado por: 
 
na qual X é o dado a ser padronizado, X é a média e S é o desvio padrão. 
Um valor negativo para Z indica que o dado é menor que a média (está à 
esquerda da média), enquanto que um dado maior que a média leva a um valor 
positivo de Z (ou seja, um valor à direita da média). 
Faça os cálculos com os valores que descrevemos nos parágrafos anteriores 
e verifique a facilidade de se usar essa “fórmula”. 
 
Dado bruto Valor 
padronizado 
1.807 -2,11 
2.695 1,73 
2.294 0,00 
2.083 -0,91 
2.584 1,24 
Com essa padronização, podemos definir que um dado é considerado 
discrepante se o seu valor Z é maior que 3 ou menor que – 3. Tal 
consideração é usada em distribuições razoavelmente simétricas; em distribuições 
de assimetria muito acentuada, valores Z maiores que 1 (ou menores que -1) 
podem ser considerados discrepantes; é necessária uma análise cuidadosa nesses 
casos especiais. 
Nos exercícios que faremos vamos encontrar exemplos de dados 
discrepantes. O que inferir a respeito de um dado discrepante? Vários motivos 
podem se referir a um dado discrepante; ele pode: 
a) Ter sido computado incorretamente; 
b) Advir de uma população diferente; 
c) Estar correto, mas refere-se a um evento raro. Neste caso, muitas vezes 
gera preocupação para determinado setor da empresa; outras vezes, pode 
se referir a uma agradável surpresa (um valor inesperado de lucro, por 
exemplo); no ambiente empresarial, oscilações de mercado podem provocar 
o aparecimento de tais dados. No caso de análise de algum processo, um 
dado como esse pode revelar alguma situação que está fora dos padrões 
normais e merece uma interferência no processo. 
 
S
XX
Z
−=
24
O valor Z também serve para posicionar um dado ao longo da seqüência. 
Veja o exemplo a seguir. 
 
Um exemplo intuitivo 
Suponha que você participou de um concurso público, no qual houve 100 
participantes. Sabendo que a média das notas (as quais podem variar de 0 a 10) 
foi 5.5 e que você tirou 7.0, pergunta-se: podemos afirmar que você foi bem 
colocado na classificação geral? 
Bem, você deve estar sentindo falta de mais dados para responder a essa 
pergunta, não é verdade? Como não sabemos como foram todas notas, e muito 
menos como elas se distribuíram em relação à média, necessitamos conhecer o 
desvio padrão das mesmas para ter condições de opinar. Veja os casos a seguir. 
a) Desvio padrão 2.0: sua posição não é de grande destaque... façamos 
os cálculos para padronizar sua posição em relação aos demais dados 
(que são desconhecidos): z = (7.0 – 5.5)/2.0 = 0,75; isso indica que 
sua nota está próxima da média, juntamente com a maioria dos dados, 
inseridos no primeiro intervalo da regra empírica. 
b) Desvio padrão 0.7: sua posição é de grande destaque! façamos os 
cálculos para padronizar sua posição em relação aos demais dados 
(que são desconhecidos): z = (7.0 – 5.5)/0.7 = 2.14; isso indica que 
sua nota está longe da média, mais de dois desvios padrão! Veja como 
os números fazem sentido: desvio padrão menor, significa dados mais 
concentrados em torno da média; sua nota 7 está, neste caso, 
afastada da média, o que indica que sua nota é alta em relação à 
maioria das notas. 
 
Um comentário sobre distribuições muito assimétricas. 
Há conjuntos de dados quepossuem assimetrias consideráveis; para 
distribuições bastante assimétricas, a regra empírica apresentada para a 
concentração dos dados pode não ser válida. O Teorema de Tchebysheff 
aponta que, para qualquer distribuição com média X e desvio padrão S, as 
proporções do número total de valores da variável X situam-se nos intervalos 
abaixo, da seguinte forma: 
• SX 2± No mínimo 75% dos valores; 
• SX 3± Pelo menos 89% dos valores. 
 
Para encerrar, mais uma observação: há situações em que a média 
pode ser um valor interessante, porém a variabilidade dos dados pode 
ser muito alta, gerando certa insegurança. Há situações em que a média 
não é a desejada, porém, se o desvio padrão é pequeno, então o risco de 
se afastar dessa média é menor. O primeiro exercício visa a verificação prática 
dessa observação. 
25
2.6 Exercícios 
 
1. Um exercício para treinar a intuição e a observação: no texto anterior, através 
do conjunto de dados intitulado Peça e Contrapeça1.xls, estudamos o 
comportamento de uma amostra significativa de valores referentes ao diâmetro 
interno de tampinhas de caneta, as quais devem ter uma medida que se 
encaixe na caneta. Retomando os gráficos e as discussões que você deve ter 
trabalhado nesse problema, resolva as questões a seguir: Observe as 
afirmações: 
 
I) “é possível ter-se uma idéia de um pequeno intervalo no qual se situa a 
média aritmética desses valores mesmo sem, efetivamente, calcular o 
valor dessa média”; 
II) “A média, embora aceitável, não é um valor bom, mas o desvio padrão é 
bom”. 
Classifique cada uma dessas orações em verdadeira ou falsa, justificando o 
porquê de cada escolha. 
 
2. O Índice Geral de Preços do Mercado é uma importante informação percentual 
muito usada em contratos realizados no mercado financeiro (como compra de 
imóveis, por exemplo). Observe a definição disponível em 
www.estadao.com.br/ext/economia/: “IGP-M - Índice Geral dos Preços do 
Mercado, calculado pela Fundação Getúlio Vargas. A coleta de preços é feita 
entre os dias 21 do mês anterior e 20 do mês corrente, com divulgação no dia 
30. É composto por três índices: Índice de Preços no Atacado (IPA), Índice de 
Preços ao Consumidor (IPC) e Índice Nacional do Custo da Construção (INCC), 
que representam 60%, 30% e 10%, respectivamente, do IGP-M”. No arquivo 
IGP-M.xls você encontra os índices de 37 meses (Jan/2004 a Jan/07). 
(a) Usando média e desvio padrão, pode-se dizer que o índice mais alto 
e o mais baixo desse conjunto são dados discrepantes? Justifique. 
(b) A média e o desvio padrão de todo o conjunto de dados podem não 
ser boas estimativas (previsões) do próximo mês a ser observado. 
Algum gráfico pode justificar esse fato? Por quê? 
(c) Continuando a análise feita no item (b), como as previsões para o 
próximo mês podem ser melhoradas? 
 
3. Num artigo intitulado “Índices Técnicos e Rentabilidade da Pecuária Leiteira” 
(Oliveira et al.) os autores (administradores de empresas e engenheiros) 
discutem os problemas que certas fazendas mineiras estavam encontrando 
para obterem retornos melhores de suas respectivas produções. De maneira 
simplificada, entendamos “retorno” como “ganhos ou prejuízos obtidos como 
conseqüência de um investimento durante determinado período de tempo”. No 
conjunto de dados T.R.Leite.xls constam taxas de retorno (porcentagens que 
26
possuem regras próprias para cálculo) que, de maneira geral, parecem não 
agradar boa parte dos proprietários das 22 propriedades rurais participantes da 
pesquisa. Nos critérios da regra empírica para distribuição de dados, é possível 
dizer que as taxas de retorno das propriedades 1 e 15 são discrepantes em 
relação às demais propriedades? Justifique. 
 
4. Certo funcionário realizou amostragens do tempo de produção, em minutos, de 
determinada peça, de maneira que cada peça era produzida ora pela máquina 
A, ora pela máquina B, teoricamente aparelhos com iguais características. 
Porém, de forma descuidada, esse funcionário não anotou, em cada tempo, a 
referida máquina da qual ela era proveniente. A seqüência a seguir foi então 
apresentada por esse funcionário. 
 
15 16 15 18 20 19 2 3 
1 18 4 5 5 2 1 1 
20 4 1 15 16 3 2 17 
2 19 4 18 6 5 17 6 
17 10 16 3 20 16 1 19 
19 8 20 19 15 8 20 10 
Suponha que você é o gerente responsável pela qualidade de diversos 
processos que ocorrem na fictícia empresa deste exercício. Com esses dados 
em mãos (planilha Tempo Máquinas.xls), você deseja fazer uma análise 
estatística (média, desvio padrão etc.). Na hipótese de não conseguir entrar em 
contato com o funcionário que colheu os dados, quais características principais 
desse conjunto de dados você apontaria? Há decisões a serem tomadas? 
Explique. 
 
5. Contou-se o número de erros de impressão das 3 primeiras páginas de um 
jornal durante 50 dias, e um software específico registrou esses dados na 
forma de diagrama ramo-e-folhas. 
0 | 4
0 | 555556666777788899 
 1 | 000001111222222222234444444 
 1 | 569 
 2 | 2
Média: 10,4 erros 
Mediana: 11 erros 
Desvio Padrão: 3,83 erros 
 
(a) O valor 13 ocorreu apenas uma vez. A probabilidade de que ele ocorra 
novamente é alta ou baixa? Justifique sua resposta. 
(b) Faça a mesma análise para o dado 22. 
27
(c) Suponha que o dado 22 ocorreu em certo dia em que houve muitos 
problemas no processo de impressão desse jornal. Exclua esse dado do 
conjunto todo, e recalcule a média aritmética. 
(d) Se você somou todos os valores constantes no diagrama anterior para 
responder à questão (c), então refaça esse exercício, ou seja, recalcule a 
média sem o dado 22, supondo que você não conhece os dados, mas 
apenas a média de 10,4. 
 
6. Uma pequena estamparia comprou uma nova máquina para efetuar cortes 
automáticos de peças de tecido com comprimentos padronizados. Porém, 
devido às diferentes características dos tecidos empregados, a máquina não faz 
um corte exato da medida “pedida”, provocando uma variação no tamanho das 
peças cortadas. A tabela abaixo ilustra a freqüência absoluta de cortes, ao 
longo de um dia, que a máquina fez quando esteve ajustada para produzir 
peças entre 140 cm e 160 cm. DESAFIO: com os dados que dispõe, procure 
calcular um valor para a média aritmética desse conjunto de dados. 
Intervalo das medidas obtidas Freqüência 
100-109 8 
110-119 17 
120-129 20 
130-139 32 
140-149 42 
150-159 24 
160-169 11 
170-179 4 
2.7 Respostas dos exercícios 
 
1. As duas afirmações são verdadeiras; analisando o gráfico de controle desse conjunto de 
dados, fica mais fácil realizar essa observação: 
(I) Há muitos pontos que estão na faixa de 130mm a 150mm, aproximadamente, o que 
nos leva a imaginar que a média está nesse intervalo; 
(II) “O desvio padrão é bom” porque a variabilidade está previsível; a “média” não é boa 
porque está numa faixa mais próxima do limite inferior aceitável. 
 
2. 
(a) Arredondando, temos X = 0,47 e S=0,55. Vamos calcular os respectivos valores Z: 
• Para o máximo 1,38, temos: 65,1
55,0
47,038,1 =−=Z ; não é discrepante pois zmodo muito 
diferente. A média de todos os valores não é um valor útil, nem confiável; observando o 
histograma, vemos um conjunto de valores concentrados em medidas mais altas, e outro 
grupo em medidas bem menores. É necessária outra amostragem, separando-se as 
medidas das duas máquinas. 
 
5. 
(a) O valor Z para esse dado é 0.679218, ou seja, está no primeiro intervalo da regra 
empírica, o qual concentra a maior parte dos dados. Logo, não é difícil a ocorrência do 
dado 13 novamente. 
(b) O dado 22 é discrepante (valor Z = 3.030357), ou seja, é uma ocorrência anormal. Isso 
nos leva a concluir que é bastante provável que as condições desse dia (o dia em que 
ocorreram 22 erros) não eram as mesmas que a maioria dos outros dias (funcionários 
podem ter faltado, máquinas podem ter quebrado, o prazo para a execução do serviço foi 
pequeno etc). 
(c) 10,16 erros 
(d) 10,16 erros (monte uma equação do 1º grau) 
 
6. Pode-se usar o meio de cada intervalo, e multiplicá-lo pela freqüência respectiva. Ao final, 
divide-se pela soma das freqüências (ou seja, a famosa média aritmética ponderada): 
41124423220178
5,174.45,164.115,154.245,144.425,134.325,124.205,114.175,104.8
+++++++
+++++++=X
158
21861=X � 36,138=X
2.8 Atividade Extra 
 
Pesquisa salarial para diretores e gerentes feita no site 
http://carreiras.empregos.com.br/carreira/administracao/pesquisa_salarial/
informa que tais dados são da Folha de São Paulo, atualizados em setembro de 
2006. Não olhe ainda a tabela! Faça o seguinte exercício individual: 
1º) Se você já é gerente ou diretor em alguma empresa, parabéns! Se você 
não é, faça de conta que é, e imagine o salário que você acha justo para o seu 
29
trabalho (por favor, não exagere... cuidado com o desvio padrão!!!). Mas faça 
isso antes de olhar a tabela! 
2º) Selecione a coluna das médias salariais de gerentes e calcule média e 
desvio padrão (conjunto de dados). 
3º) Tome o salário que você ganha (se já é gerente) ou aquele que você 
gostaria de ganhar (um dia você chega lá!!!), e calcule o valor Z dele. 
4º) Você ficou satisfeito(a) com a sua ambição (ou realidade)? Se sim, ótimo! 
Muitas felicidades e sucesso para você! Se não, vá ao 5º passo. 
5º) Faça o exercício de novo, mas desta vez com a coluna “menor salário” ou 
com a coluna “maior salário”. Espero que você se sinta melhor... e também te 
desejo muitas felicidades e muito sucesso! 
 
DIRETORES E GERENTES (Em Reais – R$) 
OCUPAÇÃO MENOR MAIOR MÉDIA 
Diretores 
 - Adm. E financeiro. . . . . . . . . . . . . . . . . . . . . . 4.826 39.510 16.671 
 - Administrativo. . . . . . . . . . . . . . . . . . . . . . . . 7.055 33.830 16.418 
 - Comercial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.141 51.238 19.293 
 - Financeiro . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.015 29.997 17.932 
 - Industrial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.083 20.356 14.811 
 - Informática. . . . . . . . . . . . . . . . . . . . . . . . . . 9.878 28.367 19.644 
 - Jurídico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.650 24.445 20.040 
 - Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.575 33.582 17.278 
 - Presidente. . . . . . . . . . . . . . . . . . . . . . . . . . . 9.625 46.016 28.615 
 - Rh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.214 37.511 19.309 
 - Suprimentos . . . . . . . . . . . . . . . . . . . . . . . . . 13.371 20.277 16.840 
 - Vendas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.508 29.971 16.988 
 - Vice-presidente. . . . . . . . . . . . . . . . . . . . . . . 8.045 45.545 26.481 
Gerentes 
 - Adjunto de operações. . . . . . . . . . . . . . . . . . . 9.502 25.531 10.674 
 - Adm. de vendas. . . . . . . . . . . . . . . . . . . . . . . 4.447 9.669 7.015 
 - Adm.de pessoal. . . . . . . . . . . . . . . . . . . . . . . 4.691 18.677 8.655 
 - Adm.e financeiro. . . . . . . . . . . . . . . . . . . . . . 4.440 14.727 8.589 
 - Administrativo. . . . . . . . . . . . . . . . . . . . . . . . 2.648 18.114 8.151 
 - Assistência técnica . . . . . . . . . . . . . . . . . . . . 5.480 12.931 8.662 
 - Auditoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.918 13.137 7.664 
 - Comercial . . . . . . . . . . . . . . . . . . . . . . . . . . 3.110 19.233 7.393 
 - Compras . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.140 17.809 9.755 
 - Contabilidade de custos . . . . . . . . . . . . . . . . 5.471 15.110 9.983 
 - Contabilidade geral. . . . . . . . . . . . . . . . . . . . 3.211 16.798 8.168 
 - Contas a pagar . . . . . . . . . . . . . . . . . . . . . . . 6.967 8.606 7.625 
 - Controladoria . . . . . . . . . . . . . . . . . . . . . . . . 3.602 15.735 9.559 
 - Controle de qualidade. . . . . . . . . . . . . . . . . . 4.790 14.620 8.093 
 - Crédito e cobrança . . . . . . . . . . . . . . . . . . . . 4.378 18.805 9.048 
 - Desenv. Rh . . . . . . . . . . . . . . . . . . . . . . . . . 3.710 12.057 8.335 
 - Desenv. sistemas . . . . . . . . . . . . . . . . . . . . . 7.400 11.907 9.611 
 - Desenv. novos produtos . . . . . . . . . . . . . . . . 6.640 13.667 9.617 
 - Distr. E transportes . . . . . . . . . . . . . . . . . . . . 2.565 12.529 7.604 
 - Engenharia e projetos . . . . . . . . . . . . . . . . . . 7.950 14.307 9.836 
 - Fabricação . . . . . . . . . . . . . . . . . . . . . . . . . . 3.663 15.066 9.917 
 - Filial de vendas . . . . . . . . . . . . . . . . . . . . . . 2.083 13.687 4.282 
 - Financeiro . . . . . . . . . . . . . . . . . . . . . . . . . . 2.648 19.095 8.679 
30
- Grupo de produtos . . . . . . . . . . . . . . . . . . . . 5.444 9.714 6.724 
 - Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.303 19.095 11.476 
 - Informática. . . . . . . . . . . . . . . . . . . . . . . . . . 2.750 20.114 9.208 
 - Jurídico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.254 19.095 11.476 
 - Loja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.874 11.343 2.897 
 - Manutenção geral . . . . . . . . . . . . . . . . . . . . . 4.230 13.124 8.318 
 - Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.637 17.926 9.15 
 - Nacional de vendas . . . . . . . . . . . . . . . . . . . . 4.548 20.240 10.166 
 - Pesquisa de mercado . . . . . . . . . . . . . . . . . . 8.221 14.428 10.336 
 - Pesquisa e desenv. . . . . . . . . . . . . . . . . . . . . 7.495 12.158 9.352 
 - Planej. contr. produção . . . . . . . . . . . . . . . . . 2.956 17.556 11.295 
 - Planej. financ. Orçament. . . . . . . . . . . . . . . . . 6.731 15.216 9.283 
 - Processamento de dados . . . . . . . . . . . . . . . . 5.133 8.607 7.378 
 - Produção . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.045 11.761 7.779 
 - Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.634 24.424 9.464 
 - Projetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.102 9.425 8.333 
 - Prop. E prom. vendas . . . . . . . . . . . . . . . . . . . 7.736 12.537 9.471 
 - Recursos humanos . . . . . . . . . . . . . . . . . . . . . 1.893 16.243 7.533 
 - Regional de vendas . . . . . . . . . . . . . . . . . . . . 3.239 13.217 8.657 
 - Relações industriais . . . . . . . . . . . . . . . . . . . . 4.034 7.950 6.921 
 - Remun. e benefícios . . . . . . . . . . . . . . . . . . . . 4.512 14.270 9.425 
 - Serviços gerais . . . . . . . . . . . . . . . . . . . . . . . 2.495 9.945 5.954 
 - Suprimentos . . . . . . . . . . . . . . . . . . . . . . . . . 3.872 15.928 8.918 
 - Técnico de obras . . . . . . . . . . . . . . . . . . . . . . 8.034 12.960 9.756 
 - Tesouraria . . . . . . . . . . . . . . . . . . . . . . . . . . 6.091 17.996 9.917 
 - Treinamento e desenv. . . . . . . . . . . . . . . . . . 4.512 12.537 9.411 
 
COMENTÁRIO DO AUTOR PARA ESTA ATIVIDADE. 
 
Aqui a resposta é individual, mas mesmo assim te façoum desafio: eu, o autor deste texto, 
imaginei um salário normal para mim, já que encontrei o valor Z igual a – 1,20 (desprezei os 
centavos). Qual salário imaginei, usando como média a coluna das médias salariais? 
 
31
CAPÍTULO III 
 
Medidas Estatísticas de Posição 
 
• Quais são as medidas de posição mais significativas? 
• Como interpretar rápida e corretamente um boxplot? 
• Como inserir dados e encontrar medidas e desenhar um boxplot 
com o software R. 
 
3.1 Percentil 
Na verdade, já temos uma medida de posição estudada, que é a mediana. 
Vimos que a mediana é o dado que divide o conjunto ordenado em duas partes 
iguais, com 50% acima e 50% abaixo dela. E se quisermos encontrar a 
porcentagem de dados que se encontra acima e abaixo de um dado qualquer? E se 
quisermos encontrar o dado que divide o conjunto de dados em 20% e 80% do 
total de valores? 
De forma geral, nota-se que a porcentagem de valores que estão antes 
ou depois de determinado dado é uma forma de analisar tais questões e analisar 
diversos problemas. Já vimos que a mediana divide a seqüência em duas partes 
que possuem 50% dos dados, mas agora vamos definir valores que podem 
apresentar quaisquer posições num conjunto ordenado de dados. 
Definição: Sejam X1, X2,...,Xn valores de uma amostra ou população de 
uma variável X, dispostos em ordem crescente (ou decrescente). O p-ésimo 
percentil é o valor X que divide essa seqüência em duas partes, tal que p% das 
medidas são menores que esse valor, e (100-p)% dos valores da variável são 
maiores que esse valor. 
Estamos na seguinte questão: dado um valor, encontrar sua posição relativa 
na seqüência ordenada dos dados. Numa espécie de “regra de três", ao 
desejarmos encontrar a posição de um elemento X dentre os n valores que essa 
variável assume, esse percentil p é dado por: 
%
1
%100
1
p
Xn −=−
Porém, não gastaremos tempo e neurônios com esses cálculos, pois vamos 
usar a tecnologia para responder por tais cálculos, bastando, para isso, que 
saibamos fazer a pergunta certa. 
O conjunto de dados Receitas1.xls contém uma simulação de receitas 
semanais, em reais, oriundos das vendas do refrigerante QuiPutz, da empresa Gole 
da Goela S/C Ltda. 
32
Se quisermos, no Excel, descobrirmos qual valor é o mediano, basta inserir 
a função =MED(...). No intervalo de dados, selecione a coluna B2:B61, 
encontrando o valor R$ 543,50. 
Usar o percentil é muito fácil: se quiseres encontrar o termo que ocupa a 
posição 20%, ou seja, 20% dos dados antes dele (consequentemente 80% depois 
dele, desconsiderando minúcias matemáticas), basta usar o comando 
=PERCENTIL(B2:B61;0,2). O valor R$ 477,60 fornece a idéia desse valor. O 
comando =PERCENTIL(B2:B61;0,85), que retorna o valor R$ 702,90, fornece o 
percentil 85%, ou seja, 85% dos dados abaixo dele. 
 
3.2 Percentis mais famosos: os Quartis 
Porém, os percentis mais famosos e usados em análises mais imediatas são, 
respectivamente: o de 25%, chamado 1º Quartil; o de 50%, chamado 2º Quartil, 
porém mais famoso como mediana; e o de 75%, chamado 3º Quartil. 
Note que esses nomes são sugestivos, pois dividem todo o conjunto de 
dados em quatro partes iguais. Vejamos as definições formais desses três valores: 
Definição: O primeiro quartil, notado por Q1 é o valor para o qual 25% 
dos dados são menores que ele. 
Definição: O segundo quartil, que pode ser notado por Q2, é a
mediana; é o valor central, para o qual há 50% dos dados antes e depois dele. 
Definição: O terceiro quartil, notado por Q3, é o valor para o qual 75% 
dos dados são menores que ele. 
Retomemos o conjunto de dados das 60 receitas semanais observando, 
além desses três valores, o máximo e o mínimo desse conjunto de dados, obtidos 
no excel com a função =QUARTIL(...). 
 
Mínimo 
 
250,00 
1o Quartil 
 
480,00 
Mediana 
 
543,50 
3o Quartil 
 
625,50 
Máximo 
 
920,00 
Para essa função, veja como o Excel pede a informação de qual Quartil você 
precisa: 
33
Note que há 5 possibilidades, que gerarão uma seqüência muito falada em 
livros de Estatística: seqüência ou diagrama dos 5 números. Esses 5 números 
são: Mínimo (extremo inferior), 1º Quartil, Mediana, 3º Quartil e Máximo (extremo 
superior). 
Uma propriedade interessante dos quartis é o fato de que 50% dos dados 
se encontram entre os quartis Q1 e Q3; em nosso exemplo, 50% dos dados estão 
entre R$ 480,00 e R$ 625,50. Dessa forma, o valor R$ 550,00 está situado entre a 
mediana R$ 543,50 e o quartil Q3, o que nos faz concluir que ele não é um valor 
de considerável afastamento da mediana e da média, já que este conjunto de 
dados não é tão assimétrico (a média é R$ 562,07). O tamanho desse segmento, 
ou seja, 625,50 – 480,00 = 145,50 é chamado distância ou amplitude 
interquartil.
Atenção: os próximos 4 parágrafos são explicações técnicas e matemáticas
para certos cálculos; são detalhamentos que não interferem nas análises que 
necessitamos para nosso curso. Portanto, você pode pular esse detalhamento e ir 
direto ao item 3.3, referentes ao interessante diagrama Boxplot.
Definição: Amplitude interquartil, que denotaremos por IQR 
(interquartile range), é a medida da distância entre o menor e o maior quartil, ou 
seja, Q3 - Q1. 
Há fórmulas que podem ser usadas para se achar as posições dos termos 
correspondentes aos quartis (a mediana já foi detalhada no texto 2): 
Q1 = valor correspondente à posição 
4
1+n
.
Q3 = valor correspondente à posição 
4
)1(3 +n
.
Porém, há autores que definem de forma diferente tais cálculos (e 
softwares também!), mas isso não atrapalha a essência de tais valores: pequenas 
diferenças não alteram as análises dos conjuntos de dados. 
34
Por exemplo, o software estatístico R, do qual falaremos um pouco mais à 
frente, realiza o que em Matemática chamamos de interpolação: uma espécie de 
“regra de três” que relaciona, geometricamente, a posição de determinado valor X
de uma variável e sua posição n. No caso do primeiro quartil, cujo percentil é 
25%, vale a relação 
%
1
%100
1
p
Xn −=−
. Omitiremos maiores detalhes dessa relação, 
uma vez que tal procedimento foge aos objetivos deste texto, o qual prevê o uso 
do software R ou do Excel para o cálculo de tais valores, aproveitando nosso 
tempo não para fazer esses cálculos, mas sim interpretá-los. 
3.3 O diagrama Boxplot (ou “diagrama de caixas”) 
 
Dentro desse “espírito” de análise de dados, apresentaremos uma forma de 
se representar graficamente os valores posicionais dos quais estamos trabalhando 
nesta seção: o boxplot. Em português, alguns autores o chamam de “diagramas 
de caixas”; manteremos a expressão no inglês por ser consagrada na literatura, 
além de facilitar-lhe o uso desta opção no software R, do qual conversaremos mais 
adiante. É um esquema gráfico que informa, de maneira rápida, os valores 
posicionais importantes de um conjunto de dados, ou seja, os cinco números 
principais dos quais falávamos: Mínimo, 1º Quartil, Mediana, 3º Quartil e 
Máximo; note que a média aritmética não está inclusa nessa seqüência. 
Em relação ao conjunto das receitas semanais que estávamos 
exemplificando, esses cinco valores podem, assim, ser visualizados nesse 
diagrama. Retomemos os 5 valores, e localize-os no desenho a seguir: 
 
Mínimo 250,00 
1o Quartil 
 
480,00 
Mediana 
 
543,50 
3o Quartil 
 
625,50 
Máximo 
 
920,00 
35
5 1 0 1 5
Interpretando o boxplot: O retângulo da figura anterior, representa três 
valores: o segmento situado no interior do retângulo aponta o valor da mediana 
(R$ 543,50), enquanto que os segmentos paralelos a esse, que são lados do 
retângulo, representam os valores dos quartis Q1 (R$ 480,00) e Q3 (R$ 625,50). 
Note que a distância entre esses segmentos, ou seja, o comprimento do retângulo, 
é a medida da amplitude interquartil (IQR). 
Os segmentos que se encontram nos extremos da linha pontilhada, 
perpendicular ao retângulo, “costumam” indicar os valores extremos. Como assim, 
“costumam”? Se os extremos não estiverem a 1,5×IQRpara cima ou para baixo 
dos quartis, então se considera que não há dados discrepantes, e tais segmentos 
representam os extremos. 
Porém, há dados bem distantes da mediana nesse conjunto de dados, e o 
boxplot indica isso através das “bolinhas”: os valores R$ 250,00 e R$ 920,00 estão 
a “mais de uma caixa e meia distantes da caixa”, para falar em linguagem para lá 
de informal. Quando esses dados não são tão distantes, o boxplot não apresenta 
tais bolinhas, como no desenho a seguir (veja que esse diagrama pode ser 
desenhado tanto na vertical quanto na horizontal). 
 
Portanto, o critério para se chamar de “discrepante” um dado extremo é 
diferente quando se usa o par média & desvio padrão ou o par mediana & 
IQR. Ou seja, valores discrepantes nesse diagrama são aqueles que se situam 
além de 1.5 IQR, para cima ou para baixo. Em nosso curso, valorizaremos o 
primeiro par, uma vez que é a associação de medidas mais largamente usada em 
diversos contextos em que a Estatística está presente.
Em termos de tecnologia, o Excel se torna um pouco trabalhoso para se 
fazer a simulação de um boxplot. Aproveitando este momento, apresentarei a você 
um software estatístico gratuito, chamado R, que também pode ser usado para se 
resolver inúmeros problemas de ordem matemática. Seu uso não será exigido em 
nosso curso, mas vale a pena conhecê-lo, e incluí-lo em seu rol de informações 
“informáticas”... 
 
3.4 O software R 
 
Agora introduziremos alguns comandos desse software, que não possui o 
“design” de uma planilha, e a forma de se introduzir dados é por meio de digitação 
36
numa mesma linha. Para inserir uma seqüência qualquer de números reais, 
escolhemos um nome para a mesma (por exemplo, valores), seguida da 
seqüência entre parênteses, precedida da letra c. Por exemplo, o conjunto de 
dados 1, 2, 3, 4, 5, 6, 7 será digitado assim: 
 
> notas = c(1, 2, 3, 4, 5, 6, 7) 
 
Em caso de valores com decimais, use ponto ao invés de virgulas, uma vez 
que as vírgulas são usadas como separadores de valores. No caso do conjunto de 
dados usado para este capítulo, a seqüência ficou assim (o nome usado foi o 
mesmo - receitas): 
 
receitas=c(620,350,450,334,765,732,546,852,431,541,600,854,750,340,520
,650,610,668,920,250,380,400,580,510,650,660,480,708,606,418,489,702,610,62
0,503,590,558,642,890,768,509,540,568,480,476,490,506,400,368,525,498, 
609,521,480,568,550, 478,511,540,560) 
 
Após digitar a seqüência, basta pressionar enter para que o software 
“grave” tal conjunto de dados. Para os dados quantitativos, podemos gerar um 
histograma com intervalos gerados pelo próprio R (automaticamente), ou então 
definirmos um intervalo a partir de valores extremos. Veja estas duas opções nos 
comandos abaixo, as quais, no caso fornecem o mesmo histograma (dependendo 
do intervalo que você queira ele pode se modificar): 
 
> hist(receitas) 
> hist(receitas,xlim=c(200,1000)) 
 
37
Abaixo você terá comandos para as medidas e representações que já 
estudamos: 
 
> stem(receitas) 
 
2 | 5
3 | 34578 
 4 | 002358888899 
 5 | 00111122344455667789 
 6 | 011112245567 
 7 | 013577 
 8 | 559 
 9 | 2
> mean(receitas) 
[1] 562.0667 
 
> median(receitas) 
[1] 543.5 
 
> sd(receitas) 
[1] 139.1622 
 
> boxplot(receitas) 
 
Veja que “sd” é o desvio padrão (de “standard deviation” ), e o comando 
“boxplot” forneceu o desenho que consta na página 4 deste texto. 
Porém, bastante interessante é o comando summary, que fornece um 
resumo das medidas de posição que aqui desenvolvemos, juntamente com a 
média aritmética: 
 
> summary(receitas) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 250.0 480.0 543.5 562.1 625.5 920.0 
 
Para sair do programa e deixar salvos os arquivos e toda a sessão de 
cálculos e desenhos que você realizou, digite q() . Um site possível para você fazer 
o download desse programa é http://www.r-project.org/
3.5 Exercício 
 
Para se estudar o desempenho de duas corretoras de ações, selecionou-se de cada 
uma delas amostras aleatórias de várias ações negociadas (o mesmo nº de ações 
38
para cada corretora). Para cada ação selecionada, computou-se a porcentagem de 
lucro apresentada durante um período fixado de tempo. 
 
(a) Com base nas informações dadas pelo Excel, faça um esboço dos possíveis 
diagramas do tipo boxplot de ambas corretoras. 
(b) Discorra sobre as vantagens/desvantagens de se escolher a corretora A ou 
a corretora B. 
(c) Observando as informações adicionais a seguir, calcule o valor Z para os 
dados 50 e 59 da corretora B. 
 
(d) Verifique se há dados discrepantes em algum dos conjuntos de dados, 
utilizando o critério do valor Z. 
 
3.6 Resposta do exercício 
 
(a) Seus boxplots não precisavam ficar exatamente como os reais, abaixo indicados, porém, há 
informações relevantes que devem existir na comparação entre ambos: as posições das 
medianas, dos quartis e dos extremos. Se você não colocou as bolinhas no primeiro 
boxplot, não há problema, pois em nosso curso utilizaremos média e desvio padrão para 
dizer se um dado é discrepante ou não. 
 CORRETORA A CORRETORA B
Mínimo 38,00% 50,00% 
1o Quartil 54,25% 53,50% 
Mediana 55,50% 56,50% 
3o Quartil 60,00% 58,00% 
Máximo 70,00% 61,00% 
 CORRETORA A CORRETORA B
Média 56,28% 55,78 % 
Desvio Padrão 7,44% 3,14% 
39
1 2
4
0
4
5
5
0
5
5
6
0
6
5
7
0
(b) Vantagens da corretora A: atingiu o maior valor de porcentagem (70%), e tem 25% de 
dados entre 60% e 70%. Desvantagens da corretora A: possui também o menor valor 
(38%), ou seja, tem a uma amplitude (dispersão) maior dos dados; os 25% dos dados 
menores estão no intervalo [38%,54.25%]. Vantagens da corretora B: os dados são 
mais concentrados, já que todos eles estão no intervalo [50%,61%]. A amplitude menor 
(11%) em relação à corretora A (32%) é vantagem no caso de não se desejar altos riscos. 
Desvantagens da corretora B: pouca expectativa de um rendimento maior que 60%, ao 
contrário de B, que tem 25% dos dados acima desse valor. 
(c) Para 50: Z = -1.84; para 59: Z = 1.03 (valores arredondados). 
(d) Não há dados discrepantes, pois os valores Z dos máximos e dos mínimos dos dois 
conjuntos de dados não são inferiores a – 3 nem superiores a 3 (calcule-os!). 
 
40
CAPÍTULO IV 
 
Probabilidades 
 
• O que é “matematizar” a chance de algo ocorrer? 
• Quais as principais leis de Probabilidades? 
 
4.1 Conceitos e definições iniciais na teoria das probabilidades. 
 
• Experimentos aleatórios: experimentos nos quais é possível listar todas as 
possibilidades. 
Exemplo: 
a) lançamento de um dado cúbico (os resultados possíveis são 
1, 2, 3, 4, 5 e 6) 
b) lançamento de uma moeda (cara, coroa) 
c) retirada de uma peça de um lote para verificar seu estado 
(com defeito, sem defeito) 
d) após certo período, analisar o comportamento de 
determinada ação no mercado financeiro (aumentou, 
diminuiu ou manteve seu valor) 
 
• Eventos simples: são todos os eventos mais básicos de um experimento. 
Ex.: {face 3} no exemplo (a); {coroa} no exemplo (b); {peça com defeito} no 
exemplo (c); {aumentou seu valor} no exemplo (d). 
 
• Definição: Probabilidade de um evento A, denotada por P(A), é um número de 
0 a 1 que mede a chance de A ocorrer. P(A) pode ser entendida como a 
proporção de vezes que A ocorre se o experimento for realizado inúmeras 
vezes. 
 
• Eventos mutuamente exclusivos: quanto um ocorre, o outro não pode 
ocorrer. 
Ex.: no lançamento de um dado, os eventos A={face par} e B={face ímpar} são 
mutuamente exclusivos. 
Ex.: ao se escolher uma carta de um baralho, os eventos C={carta de paus} e 
D={carta de copas} são mutuamente exclusivos, mas os eventos C={carta de 
1ª lei de Probabilidades: para qualquer evento A, tem-se: 
 
1)(0 ≤≤ AP ou %100)(%0 ≤≤ AP
41
paus} e E={carta com número 7} não são mutuamente exclusivos, pois há carta 
que satisfaz ambas características. 
Ex.: de um período para outro, uma ação no mercado financeiro pode aumentar 
seu valor, manter seu valor ou diminuir seu valor; são

Mais conteúdos dessa disciplina