Buscar

Anotacoes de Aula 3 - Amostragem e Descricao de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

© Tânia F Bogutchi – PUC Minas – Revisão 2012 
79 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 O conteúdo dessa Unidade está no capítulo 6 do livro base: 
MONTGOMERY, Douglas C, RUNGER, George C. Estatística aplicada 
e Probabilidade para Engenheiros. 4ª edição. Rio de Janeiro: LTC, 
2009. 
 Você também pode, se preferir, fazer a leitura dos capítulos 4 e 5 
do livro do Mario Triola, Introdução à Estatística, LTC, 2007. 
 As cópias desses capítulos podem ser requisitadas por meio da 
Pasta do Professor (www.pastadoprofessor.com.br), fazendo login 
nessa página e enviando-as para serem impressas na Copiadora 
Set (casa amarela) da Unidade do Coração Eucarístico. 
Não deixem de ler! 
 
Algumas notas de aulas: 
 
Introdução 
 
A grande utilização da Estatística deve-se ao fato de suas técnicas serem capazes de extrair 
informações de uma pequena parte (amostra) de um conjunto com grande número de 
elementos e abstrair desses resultados conclusões válidas para o conjunto como um todo 
(população). 
É o que chamamos de estudos por AMOSTRAGEM. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Através de uma amostra de tamanho n, representativa de uma população de tamanho N, 
podemos estimar uma característica 

, desconhecida, por meio do estudo e análise desses n 
elementos. 
Existem técnicas para calcular o tamanho da amostra suficiente para poder representá-la bem 
como o do planejamento de seleção desses elementos. 
População 
tamanho N 
Amostra 
tamanho n 

Inferência 
 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
80 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Todo elemento da população precisa ter a mesma probabilidade de entrar (ser selecionado) 
para a amostra. 
 
Definições úteis 
• POPULAÇÃO: é uma coleção completa de todos os elementos (valores, pessoas, 
medidas, etc.) a serem estudadas. 
• CENSO: é uma coleção de dados relativos a todos os elementos de uma população. 
• AMOSTRA: é uma subcoleção de dados extraídos de uma população. 
• PARÂMETRO: é uma medida numérica que descreve uma característica de uma 
população. 
• ESTATÍSTICA: é uma medida numérica que descreve uma característica de uma 
amostra. 
 
1. AMOSTRAGEM 
 
O tamanho da amostra depende, dentre outros fatores, do método (tipo) amostral empregado. 
Os estudos podem ser: 
1. Observacionais - os fenômenos são observados no decorrer de sua própria história. 
Dependem da linha do tempo, ou seja, os estudos no: 
a. Tempo presente - chamados de transversais e são usualmente utilizados para 
levantar informações instantâneas, como por exemplo, percentual de peças 
com defeitos durante certo mês; 
b. Tempo passado – chamados de caso-controle e estudam, por exemplo, um tipo 
de defeito já instalado nas peças e buscam no passado o fator de exposição a 
que elas foram submetidas, comparando esse fator com outras peças não 
defeituosas e que também foram expostas. 
c. Coorte – seguimento de algum fator que poderá causar defeito em lotes de 
peças para conhecer por quanto tempo elas serão resistentes. Estudo muito 
comum em motores, nos quais o tempo é acelerado para conhecimento de seu 
tempo de sobrevida, usualmente para efeitos de garantia do fabricante. 
2. Experimentais – o pesquisador altera a história do objeto de estudo, pois interfere nos 
mesmos. Por exemplo, testar resistência de aparelhos por meio de aplicação de fatores 
externos. 
De qualquer maneira, quanto maior a amostra, maior a confiabilidade no resultado estimado. 
Os tipos de amostragem mais usuais: simples, sistemática, estratificada ou por conglomerado. 
 
 AMOSTRAGEM SIMPLES 
 
É realizada a partir de um cadastro, ou seja, de uma lista enumerada dos N elementos da 
população. 
A extração dos n elementos que constituirão a amostra será feita aleatoriamente. 
Uma das formas mais usuais é a utilização da TNA - tabela de números aleatórios (em anexo) 
ou por meio de programas computacionais específicos. 
 
Exemplo: Dados dos pesos (kg) de 30 rolos de fios elétricos identificados (ID) 
 
 
 
 
 
 
 
Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Peso 65 65 58 59 67 68 74 81 66 91 84 63 64 66 72
Id 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Peso 68 69 76 77 80 59 81 64 85 87 76 79 73 82 76
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
81 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Retirar, sem reposição, uma amostra aleatória simples de tamanho n = 5. (também chamada 
de casual ou randômica) 
Solução: Partindo da macro-coluna 3 de uma tabela de números aleatórios (TNA), iremos 
procurar os cinco primeiros números não superiores a 30, lendo os dois últimos algarismos à 
direita (colunas 17 e 18 – lendo da esquerda ). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Teremos a amostra: 
 
 
 
 
Poderíamos ter iniciado a leitura a partir de qualquer outra coluna, ou alternativamente, ter lido 
os dois primeiros algarismos à esquerda… Não importa a escolha, o obrigatório é a indicação do 
processo de início da seleção para eventuais reproduções do estudo. 
 
 AMOSTRAGEM SISTEMÁTICA 
 
Uma amostra sistemática de tamanho n é constituída dos elementos de ordem k, k+r, k+2r,….., 
em que k é um inteiro escolhido aleatoriamente entre 1 e r e r é o inteiro mais próximo da 
fração 
No exemplo anterior temos: N=30 e n=5, então r=6. 
Temos que k é um valor entre 1 e 6. Sorteando aleatoriamente um valor podemos obter, por 
exemplo: k=3. 
Então a amostra seria constituída por: 
 
TNA 26 15 3 7 6
Peso 76 72 58 74 68
k=3;r=6 3 9 15 21 27
Peso 58 66 72 59 79
1 110097 479559 982226 077374 928142 207953 057806 337471 
2 742890 944861 778192 671687 017730 994134 225736 183901 
3 299019 107618 274053 960866 216264 266729 217014 987601 
4 660460 452215 256678 108232 033043 341106 126786 450175 
5 366065 526922 084715 529061 130333 638222 848232 271889 
6 431060 865300 589315 132582 291646 777783 029051 986132 
7 075994 162524 664403 572786 455776 222823 631353 266533 
8 499266 315540 030390 598298 971990 852904 919118 316653 
9 408201 442549 298765 787220 498779 613057 889772 581622 
10 025776 318677 345599 402548 347360 632133 221494 702742 
11 146991 834599 199832 318503 419997 016616 686742 842737 
12 373845 324865 979007 812918 499586 077058 842703 342137 
13 730602 608103 375906 614717 448256 632214 337935 767147 
Tabela 4 - Tabela de números aleatórios
macro-coluna
1 110097 479559 982226 077374 928142 207953 057806 337471 
2 742890 944861 778192 671687 017730 994134 225736 183901 
3 299019 107618 274053 960866 216264 266729 217014 987601 
4 660460 452215 256678 108232 033043 341106 126786 450175 
5 366065 526922 084715 529061 130333 638222 848232 271889 
6 431060 865300 589315 132582 291646 777783 029051 986132 
7 075994 162524 664403 572786 455776 222823 631353 266533 
8 499266 315540 030390 598298 971990 852904 919118 316653 
9 408201 442549 298765 787220 498779 613057 889772 581622 
10 025776 318677 345599 402548 347360 632133 221494 702742 
11 146991 834599 199832 318503 419997 016616 686742 842737 
12 373845 324865 979007 812918 499586 077058 842703 342137 
13 730602 608103 375906 614717 448256 632214 337935 767147 
Tabela 4 - Tabela de números aleatórios
macro-coluna
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
82 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Se o tamanho da população é desconhecido não podemos determinar exatamente o valor para 
r, sendo esseentão escolhido intuitivamente através de um valor razoável. 
Às vezes a amostragem sistemática é preferida à amostragem aleatória simples porque é mais 
fácil de executar. 
Exemplo 2: Escolha a técnica adequada para extrair uma amostra de 50 clientes de um 
supermercado. 
Solução: A amostragem aleatória simples não pode ser empregada nesse caso, pois o 
entrevistador não conhece quem são os clientes. 
Ele pode, entretanto, usar amostragem sistemática (digamos 1 em cada 20 clientes) até obter a 
amostra do tamanho desejado. 
 
 AMOSTRAGEM ESTRATIFICADA 
 
Útil quando os elementos da população podem ser divididos em grupos não-superpostos mais 
homogêneos em relação à característica que se quer medir. 
Os grupos são chamados de estratos e dentro de cada um desses estratos são retiradas 
amostras aleatórias simples. 
O mais comum é utilizar amostra estratificada proporcional que consiste em selecionar os 
elementos da amostra entre os vários estratos em número proporcional ao tamanho de cada 
estrato. 
Exemplo: Sejam considerados: 
 N : número de elementos da população; 
L : número de estratos; 
 Ni : número de elementos do estrato; 
 n : tamanho da amostra a ser selecionada. 
Calcula-se a fração de amostragem dada por: 
 
 
 
 
O número de elementos a serem sorteados em cada estrato será: 
N1 f, N2 f,........, NL f 
Observe que: N = N1+N2+....+NL 
 
Exemplo: Suponha que os dados dos pesos (kg) dos 30 rolos de fios elétricos (ID) sejam de 
24 rolos provenientes de uma obra A e 6 rolos de uma outra obra B. Extrair uma amostra 
estratificada proporcional de tamanho n=8. 
Solução: 
 
 
 
De cada estrato (obra) serão sorteados respectivamente n1 e n2 rolos: 
 
 
 
 
Os rolos de fios seriam sorteados através do auxilio de uma TNA em cada um dos estratos. 
 
 AMOSTRAGEM POR CONGLOMERADO 
 
É uma amostra aleatória simples na qual cada unidade de amostragem é um grupo, ou 
conglomerado, de elementos. 
N
n
f 
27,0
30
8
f 
648,6)24)(27,0(n1 
262,1)6)(27,0(n2 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
83 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
O primeiro passo nesse processo é especificar conglomerados apropriados, que idealmente são 
heterogêneos internamente e semelhantes entre si. 
A seleção de um pequeno número de conglomerados com um grande número de elementos é 
suficiente para representar a população. 
Na amostragem estratificada seleciona-se uma amostra aleatória simples dentro de cada grupo 
(estrato), enquanto que 
Na amostragem por conglomerado selecionam-se amostras aleatórias simples de grupos, e 
todos os itens dentro dos grupos (conglomerados) selecionados farão parte da amostra. 
É recomendada quando: 
a) ou não se tem um sistema de referência listando todos os elementos da população, ou 
a obtenção dessa listagem é dispendiosa; 
b) o custo de obtenção de informações cresce com o aumento da distância entre os 
elementos. 
 
Exemplo: Supondo que se deseje estimar o rendimento médio familiar em uma cidade grande, 
como deve ser escolhida a amostra? 
Solução: 
A amostragem aleatória simples é inviável, pois pressupõe uma listagem de todas as famílias da 
cidade, o que é praticamente impossível de se obter. 
A alternativa da amostragem estratificada é novamente inviável, já que aqui também é 
necessária uma listagem dos elementos por estrato. 
A melhor escolha é a amostragem por conglomerado. 
O sistema de referência pode ser constituído por todos os setores censitários da cidade. Cada 
setor censitário é um conglomerado. 
Extrai-se uma amostra aleatória simples de setores censitários, e neles pesquisa-se a renda 
familiar em todas as casas. 
 
 AMOSTRAGEM POR CONGLOMERADOS EM DOIS ESTÁGIOS 
 
É obtida por meio de uma amostra aleatória simples dos conglomerados no primeiro estágio e 
no segundo estágio, as unidades dentro de cada conglomerado são enumeradas e selecionadas 
por amostragem aleatória simples. 
A fração selecionada de unidades dentro de cada conglomerado deverá ser a mesma para todos 
os conglomerados amostrados no primeiro estágio. 
Nas situações onde o número de unidades dentro de cada conglomerado é variado a 
amostragem é mais complexa pois serão necessários cálculos das frações representadas por 
cada conglomerado. 
Exemplo de amostragem por conglomerado em dois estágios: Suponha que uma empreiteira 
possua cinco obras de construção, com três mestres práticos para o setor elétrico. Suponha que 
se deseja uma amostra de 2 mestres em 3 obras de construção. 
 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
84 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
 
Num primeiro estágio seriam sorteadas as 3 obras dentre as numeradas por: 1, 2, 3, 4, 5. 
No segundo estágio, seriam sorteados 2 mestres dentro de cada obra sorteada no estágio 1, 
numerados por: 1,2,3. 
A dificuldade principal na utilização da amostragem multifásica são as complicações para a 
análise dos dados. 
 
 Vantagens e Desvantagens dos métodos amostrais 
 
 
no aptos
atendidos
1 58
2 44
3 18
1 42
2 53
3 10
1 13
2 18
3 37
1 16
2 32
3 10
1 25
2 23
3 23
3
4
5
Obra Mestres
1
2
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
85 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Uma vez escolhido o tipo de amostragem e feita a coleta de dados, o próximo passo é analisar 
esses dados para não apenas ter verificada sua consistência bem como o conhecimento inicial 
de resultados. 
 
Dependendo do tipo de pesquisa, os dados são analisados com técnicas apropriadas e os 
resultados estimados dessa amostra serão concluídos para a população com certo grau de 
confiabilidade. 
 
Na próxima etapa iremos conhecer as técnicas de descrição e apresentação dos dados levando 
em consideração os seus tipos. 
 
A figura seguinte apresenta o esquema de estudo e estimação: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Tipo Vantagens Desvantagens 
Aleatória 
Simples 
1. Sempre dará igual 
probabilidade a cada possível 
combinação de indivíduos na 
população; 
2. Fácil de compreender. 
1.Estimativa com viés se existirem 
valores extremos na população; 
2.Não recomendável para estudos 
de subgrupos. 
Aleatória 
Sistemática 
1. Fácil e prática de aplicar; 
2. Se listagem está por ordem de 
interesse então tem-se um 
aumento da precisão. 
1. Reduz número de amostras 
possíveis; 
2. Se listagem for cíclica, pode ser 
desastrosa. 
Estratificada 
1. Aumenta a precisão das 
estimativas reduzindo a 
variabilidade; 
2. Tamanho da amostra pode ser 
reduzido. 
1. Se o total de cada estrato é 
desconhecido, pode-se distribuir 
incorretamente a amostra, 
implicando numa estimativa com 
viés; 
2. Super estratificação correndo o 
risco de estratificar pela variável de 
interesse. 
Conglomerado 
1. Custo reduzido; 
2. Unidade amostral não 
identificável exceto por áreas 
1. Precisão reduzida; 
2. Viés na estimativa se 
conglomerados forem muito 
homogêneos. 
AmostraPopulação
ESTATÍSTICA DESCRITIVA:
Consistência dos dados
Interpretações iniciais
INFERÊNCIA ESTATÍSTICA:
Estimação de quantidade desconhecidas
Extrapolação (inferência) dos resultados
Teste de Hipóteses
AmostraPopulação
ESTATÍSTICA DESCRITIVA:
Consistência dos dados
Interpretações iniciais
INFERÊNCIA ESTATÍSTICA:
Estimação de quantidade desconhecidas
Extrapolação (inferência) dos resultados
Teste de Hipóteses
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
86 
 
Estatística e ProbabilidadeUnidade 3: Amostragem e Descrição de dados 
 
2. ESTATÍSTICA DESCRITIVA - ORGANIZAÇÃO E APRESENTAÇÃO DOS DADOS 
 
Antes de iniciarmos qualquer descrição dos dados é necessário conhecer primeiramente o seu 
tipo. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
TIPOS DE DADOS
QUANTITATIVOSQUANTITATIVOS QUALITATIVOS
Exemplos:
Altura (cm);
Peso (kg);
Tempo (min); 
Renda (R$);
Quantidade de veículos por dia;
No. de filhos; 
etc...
Exemplos:
Sexo (F/M); 
Raça (N, M, B, C);
Classe social ( A, B, C, D); 
Classificação de um time futebol;
Estágios de uma tarefa (1, 2, 3....); 
etc...
Numéricos Não Numéricos
QUALITATIVOS (CATEGÓRICOS)
NOMINAISNOMINAIS ORDINAIS
Exemplos:
Sexo: Masculino ou Feminino;
Tipo sangüineo: O, A, B, AB
etc...
Exemplos:
Tamanho de carros;
Classificações do tipo: excelente, 
bom, ruim;
Estágios de uma tarefa;
etc...
Nomenclaturas
(nomes)
Ordenação
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
87 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 APRESENTAÇÃO DOS DADOS 
 
I – Tabelas 
 Definição: Tabela é um quadro que resume um conjunto de dados numéricos 
(quantitativos) ou não-numéricos (qualitativos). 
QUANTITATIVOS
CONTÍNUOSCONTÍNUOS DISCRETOS
Exemplos:
Idade: anos (meses, dias..);
Altura: metros ou cm.
Pressão sangüinea: mmHg;
Produção diária de leite: litros;
etc...
Exemplos:
No. de cartões de crédito; 
No de colônias de bactérias por 
determinado volume: no./ml;
No. de vacas do rebanho;
etc...
Mensurações Contagens
DIFERENÇA ENTRE DADOS
DISCRETOSDISCRETOS CATEGÓRICOS
Exemplos:
No. de filhos: 0, 1, 2, 3, 4, ...
Uma família com 4 filhos tem o 
dobro de uma com 2?
Exemplos:
Classificação de um atleta:
1º., 2º., 3º., 4º.,.. 
Um atleta classificado em 4º. lugar é
duas vezes pior que o do 2º.?
Contagens Categorias ou 
Atribuições
Diferença tem sempre o 
mesmo significado!
Diferença Não tem o mesmo
significado sempre!
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
88 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Exemplo - dados qualitativos 
TABELA 1 
Preferência pelos refrigerantes dos consumidores do mercado XY 
 
 
 
 
 
 
 
 
 
 
 
Fonte: Anderson et alli, pág 23; 2007 
 
OBS.: Usualmente utilizamos somente os títulos: 
Frequência para a Frequência Absoluta 
Percentual para a Frequência Relativa 
 
 Tabelas de distribuições de freqüência 
 
Definição: Uma tabela de distribuição de freqüência é um agrupamento dos dados contínuos, 
ou discretos com grande amplitude de valores, em classes ou faixas de valores, exibindo o 
número e/ou a porcentagem de observações em cada classe ou faixa. 
 
O processo de construção de uma tabela de distribuição de freqüência depende do tipo de 
dados em estudo, ou seja, qualitativos ou quantitativos discretos ou contínuos. 
 
Exemplo – dados quantitativos contínuos: 
 
Tabela 2: Distribuição das notas na prova Estatística 
Nota Freqüência Percentual 
10 a 24 44 8,80% 
25 a 39 70 14,00% 
40 a 54 92 18,40% 
55 a 69 147 29,40% 
70 a 84 115 23,00% 
85 a 99 32 6,40% 
Total 500 100,00% 
Fonte: Dados hipotéticos 
 
As freqüências e os percentuais podem ser simples, contagem para cada classe, ou acumulada 
pelas classes. 
 
 
 
Exemplo: da tabela anterior: 
 
 
 
100,0%50Total
10,0%5Sprite
10,0%5Fanta
26,0%13Pepsi Cola
16,0%8Coca Cola Light
38,0%19Coca Cola
PercentualFreqüênciaRefrigerante
100,0%50Total
10,0%5Sprite
10,0%5Fanta
26,0%13Pepsi Cola
16,0%8Coca Cola Light
38,0%19Coca Cola
PercentualFreqüênciaRefrigerante
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
89 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Tabela 2: Distribuição das notas na prova Estatística 
Nota 
Simples Acumulada 
Frequência Percentual Freq Perc 
10 a 24 44 8,80% 44 8,80% 
25 a 39 70 14,00% 114 22,80% 
40 a 54 92 18,40% 206 41,20% 
55 a 69 147 29,40% 353 70,60% 
70 a 84 115 23,00% 468 93,60% 
85 a 99 32 6,40% 500 100,00% 
Total 500 100,00% 
 Fonte: Dados hipotéticos 
 
 
Exemplo – dados discretos com pequena amplitude dos dados: 
 
 Tabela 3 – Erros digitação, por página, cometidos por um digitador 
Erros Freqüência Percentual 
0 25 50,0% 
1 20 40,0% 
2 3 6,0% 
3 1 2,0% 
4 1 2,0% 
Total 50 100,0% 
Fonte: Dados hipotéticos 
 
 
II – Gráficos 
 
Os gráficos facilitam a visualização dos valores e são amplamente utilizados na apresentação de 
dados estatísticos. Por deixarem de lado as informações originais perde-se informação, por 
outro lado, a interpretação dos dados observados é facilitada. 
 
O tipo do gráfico vai depender do tipo de dados que se quer descrever: 
 
Dados qualitativos ou quantitativos discretos 
 
 Gráfico de setores (“pizza”) – pie chart 
 
 
 
 
 
 
 
 
 
 
 
 
Distr. compras de refrigerantes
Sprite
10,0%
Fanta
10,0%
Coca Cola
38,0%
Coca Cola 
Light
16,0%
Pepsi Cola
26,0%
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
90 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
ou 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Gráfico de barras ou de colunas 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Observe que os dois tipos de gráficos acima apresentam a mesma informação da Tabela 1. Em 
uma apresentação e/ou relatório opta-se por uma dessas apresentações. 
Quando os dados quantitativos discretos forem representados por uma faixa pequena de 
valores, podem ser utilizadas as mesmas técnicas de apresentação dos dados qualitativos. 
Distr. compras de refrigerantes
Pepsi Cola
26,0% Coca Cola 
Light
16,0%
Coca Cola
38,0%Fanta
10,0%
Sprite
10,0%
Distr. compras de refrigerantes
0,0%
5,0%
10,0%
15,0%
20,0%
25,0%
30,0%
35,0%
40,0%
Coca Cola Coca Cola
Light
Pepsi Cola Fanta Sprite
Distr. compras de refrigerantes
0% 5% 10% 15% 20% 25% 30% 35% 40%
Coca Cola
Coca Cola Light
Pepsi Cola
Fanta
Sprite
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
91 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Exemplo: Número de irmãos relatados por 114 estudantes universitários da UFRGS, 1986-
1992 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Descrevendo dados quantitativos contínuos 
 
 Histograma 
 
É um gráfico de barras contíguas com área total 1 (100%). 
As barras são contíguas, pois os dados são contínuos – assumem todos os valores da reta. 
Nesse exemplo, todas as barras possuem a mesma largura: 3. A área de cada barra apresenta 
a densidade dos dados. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Fonte: Bussab-Morettin, 2000 
 
 
 Histograma de classes desiguais 
 
Quando as classes (ou faixas) são de tamanhos desiguais alguns cuidados especiais devem ser 
tomados. 
 
 
 
Exemplo: Números de empregados de empresas de certa região: 
0
5
10
15
20
25
30
35
40
45
01 2 3 4 5 6
no. de irmãos
Fr
eq
. a
bs
ol
ut
a
Salário
Fre
qu
en
cia
25221916131074
12
10
8
6
4
2
0
11
4
66
11
7
Histograma de Salário (SM)
Cia MB
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
92 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: Bussab-Morettin, 2000 
Uma análise superficial pode levar à conclusão que a concentração, freqüência das classes, vai 
aumentando até atingir um máximo na classe 40|-- 60, mas um estudo mais detalhado revela 
que a amplitude da classe 40 |-- 60 é o dobro das amplitudes 
 i
das classes anteriores. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: Bussab-Morettin, 2000 
 
Cuidados a serem tomados ao analisar dados para construção de um histograma: 
 Calcular as amplitudes de cada classe; 
 Calcular as densidades de freqüências em cada classe








 i
in
 – medida que indica qual a 
concentração por unidade da variável. 
 
Após esses cuidados, observa-se que a classe de maior concentração é a 30 |-- 40. 
Analogamente, a densidade relativa apresenta o mesmo resultado (0,016). 
Lembrando que a área total do histograma deve ser igual a 1. 
 
-1,00--250Total
0,00150,060,384015180 |-- 260
0,00150,060,384015140 |-- 180
0,00200,080,504020100 |-- 140
0,00400,081,00202080 |-- 100
0,00600,121,50203060 |-- 80
0,01000,202,50205040 |-- 60
0,01600,164,00104030 |-- 40
0,01400,143,50103520 |-- 30
0,00800,082,00102010 |-- 20
0,00200,020,501050 |-- 10
Densidade 
fi/i
Proporção 
fi
Densidade 
ni/i
Amplitude 
i
Frequencia
(ni)
Número de 
empregados
-1,00--250Total
0,00150,060,384015180 |-- 260
0,00150,060,384015140 |-- 180
0,00200,080,504020100 |-- 140
0,00400,081,00202080 |-- 100
0,00600,121,50203060 |-- 80
0,01000,202,50205040 |-- 60
0,01600,164,00104030 |-- 40
0,01400,143,50103520 |-- 30
0,00800,082,00102010 |-- 20
0,00200,020,501050 |-- 10
Densidade 
fi/i
Proporção 
fi
Densidade 
ni/i
Amplitude 
i
Frequencia
(ni)
Número de 
empregados
-1,00--250Total
0,00150,060,384015180 |-- 260
0,00150,060,384015140 |-- 180
0,00200,080,504020100 |-- 140
0,00400,081,00202080 |-- 100
0,00600,121,50203060 |-- 80
0,01000,202,50205040 |-- 60
0,01600,164,00104030 |-- 40
0,01400,143,50103520 |-- 30
0,00800,082,00102010 |-- 20
0,00200,020,501050 |-- 10
Densidade 
fi/i
Proporção 
fi
Densidade 
ni/i
Amplitude 
i
Freqüência 
(ni)
Número de 
empregados
-1,00--250Total
0,00150,060,384015180 |-- 260
0,00150,060,384015140 |-- 180
0,00200,080,504020100 |-- 140
0,00400,081,00202080 |-- 100
0,00600,121,50203060 |-- 80
0,01000,202,50205040 |-- 60
0,01600,164,00104030 |-- 40
0,01400,143,50103520 |-- 30
0,00800,082,00102010 |-- 20
0,00200,020,501050 |-- 10
Densidade 
fi/i
Proporção 
fi
Densidade 
ni/i
Amplitude 
i
Freqüência 
(ni)
Número de 
empregados
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
93 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Uma utilidade do histograma é que ele permite visualizar a forma da distribuição dos dados, ou 
seja, como se dispersam ou se concentram em torno da sua média. Por exemplo, 
 
M
éd
ia
M
éd
ia
Histograma do No. de Empregados
0
10
20
30
40
50
60
0 |-- 10 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 60 60 |-- 80 80 |-- 100 100 |-- 140 140 |-- 180 180 |-- 260
Faixa de nos. de empregados
Fre
qüê
ncia
Análise errônea -
classe de maior 
frêqüência: 
40|-- 60
Histograma do No. de Empregados
0,0000
0,0020
0,0040
0,0060
0,0080
0,0100
0,0120
0,0140
0,0160
0,0180
0 |-- 10 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 60 60 |-- 80 80 |-- 100 100 |--
140
140 |--
180
180 |--
260
Faixa de nos. de empregados
Den
sid
ade
 rel
ativ
a
Análise correta –
classe de maior 
densidade: 
30 |-- 40
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
94 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Histograma de dados com distribuição assimétrica fortemente inclinada para direita. 
Diz-se inclinação à direita, pois sua cauda se estende bem para a direita. 
 
 
Histograma de dados com distribuição simétrica. 
OBS.: Em dados reais as curvas são aproximadamente simétricas 
 
Outra maneira de apresentação do histograma é por meio da conexão dos pontos médios das 
barras. Obtém-se então o: 
 
 Polígono de freqüência 
 Ligação dos pontos médios das barras de um histograma 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Essa maneira de construção do histograma facilita a visualização dos dados ao serem 
estratificados em grupos de interesse, permitindo uma primeira comparação entre eles. 
 
M
éd
ia
Polígono de freqüências para dois fornecedores de leite in natura
0
2
4
6
8
10
12
14
16
18
20
1,5 1,96 2,42 2,88 3,34 3,8 4,26 4,2 5,18
Matéria gorda (%)
Fre
úê
nc
ia 
ab
so
lut
a (
fi)
Fornecedor C Fornecedor B
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
95 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 Histograma com Percentual Acumulado - Ogiva 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
A ogiva divide o conjunto de dados em 100 partes iguais. Será bastante útil na estimação de 
percentis, que veremos logo mais. 
 
 Gráfico de Ramo-e-folhas 
Exemplo: Uma população de 100 refinarias cuja produção horária de óleo por máquina (em 
litros) é dada por: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
A coluna da direita, com escala em dezenas, é chamada de RAMO e a da direita, das unidades, 
é chamado de FOLHAS. 
Os próprios dados geraram o gráfico! 
 
 
 
 
 
2 6
3
4 011444578
5 01224444478889
6 001135555566788889
7 0000112233334445557
8 0001112234566689
9 000112456788
10 12457789
11 46
12 3
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
96 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 Gráfico de pontos (Dot plot) 
 
 
Permite a visualização da dispersão dos dados. Também pode ser utilizado para comparar 
categorias, como exemplo observar a distribuição do salário estratificado por grau de instrução: 
 
 
 
 
III – Apresentação medidas numéricas 
 
Dados quantitativos contínuos 
 
Os resumos numéricos são de grande importância nos estudos estatísticos, pois permitem 
aplicações de técnicas especiais na estimação dos parâmetros de uma população por meio de 
uma amostra. Essas técnicas serão estudadas na próxima unidade. 
Principais tipos de medidas numéricas de: 
• Posição: média, mediana, moda e percentil; 
• Variabilidade: amplitude, variância, desvio-padrão, desvio interquartílico. 
Também são muito úteis: o coeficiente de variação e o escore padronizado, que são medidas 
relativas entre a média e o desvio-padrão. 
 
1) Medidas de tendência central 
 
• Dados brutos 
• Média aritmética (simples) 
 
Exemplo: Pesos, em quilos, de 10 produtos: 
3,3 3,1 2,8 2,7 2,9 3,1 3,2 3,0 3,5 3,4 
Definição: 
 
 
 
 
 
 
 
n
x
n
x...xx
xn
1i
i
n21




1,3
10
0,31
10
4,35,30,32,31,39,27,28,21,33,3
x 


 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
97 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Dispondo os valores medidos num gráfico (diagrama) de pontos a média surge como um ponto 
de equilíbrio – ou centro – da configuração. 
 
 
 
 
• Média aritmética ponderada 
Definição: 
 
 
 
 
 
 
Em que pi é o peso do valor da observação xi. 
Exemplo 1: A tabela abaixo apresenta as notas de um aluno que participou de um concurso 
publico por prova e peso. Calcular a média desse aluno. 
 
Prova Peso Nota 
Português 3 85 
Matemática 3 75 
História 2 50 
Inglês 2 80 
 Fonte: dados hipotéticos 
Observe que cada prova tem peso diferenciado o qual precisa ser levado em consideração no 
calculo da média geral. 
 
 
 
 
 
OBS.: A média simples é um caso particular da média ponderada em que todos os valores 
possuem um mesmo peso. 
 
• Mediana 
Valor que divide a distribuição do conjunto ao meio. Deixa 50% dos dados nele ou abaixo 
dele e 50% nele ou acima dele. 
Para seu cálculo é preciso: 
1. Ordenar os dados; 
2. Se n for ímpar a mediana é o valor que ocupa a posição (n+1)/2; 
 
 







n
1i
i
n
1i
ii
n21
nn2211
p
p
px
p...pp
px...pxpx
x
74
10
740
2233
)2)(80()2)(50()3)(75()3)(85(
xp 



1 2 5 7 8
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
98 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
3. Se n for par a mediana é a média dos elementos que ocupam as posições n/2 e (n+2)/2. 
 
 
 
 
Exemplo: Mediana dos dados dos 10 pesos (kg) dos produtos 
3,3 3,1 2,8 2,7 2,9 3,1 3,2 3,0 3,5 3,4 
Passo 1: Ordenar os dados 
2,7 2,8 2,9 3,0 3,1 3,1 3,2 3,3 3,4 3,5 
Passo 2: n=10 (par) 
A mediana será a média aritmética entre os elementos que ocupam a 5a. e a 6a. posição 
 
 
 
 
Obs.: A mediana pode ser indicada por med ou 
 
• Moda 
É o valor que apresenta maior freqüência em um conjunto de observações individuais. 
A moda é uma medida mais indicada ao caso de dados agrupados. 
No caso de dados não-agrupados, a moda nem sempre tem utilidade como elemento 
representativo ou sintetizador do conjunto. 
Exemplo: No gráfico de pontos a seguir, 
 
 
 
 
 
 
 
 
De acordo com a definição, a moda é 25. 
 
No entanto, tal valor não tem nenhum caráter representativo ou sintetizador do conjunto de 
dados! 
 
Observações 
i) A mediana e a moda não são fornecidas pelas calculadoras, e, no caso de um grande número 
de dados, seu cálculo exato pode ser extremamente laborioso. 
ii) Não há regra fixa para se escolher uma dessas medidas, pois sua escolha deverá ser aquela 
mais adequada para a situação. 
Exemplo: 
 
 Média: 4,6 - Mediana: 5 
 
Média: 19 - Mediana: 5 
 
a) A média aritmética é a medida sintetizadora mais adequada quando não há valores 
erráticos ou aberrantes. 
b) A mediana de ser usada sempre que possível como medida representativa de 
distribuições fortemente assimétricas, como distribuições de rendas, etc.. 
Aplicação das Medidas de tendência central em tomadas de decisão 
1 2 5 7 8
1 2 5 7 80
1 2 5 7 8 9
1,3
2
1,31,3
med 


x
~
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
99 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Consideremos uma situação em que precisamos fazer uma escolha entre dois bancos. Para 
propiciar essa tomada de decisão, foram coletados dez tempos, em minutos, em filas de espera 
de dois renomados bancos que apresentam as mesmas condições e facilidades comerciais e de 
conforto. A única diferença entre eles é o sistema de gerenciamento de filas. O banco A utiliza o 
sistema de fila única e o banco B o de fila múltipla. Os dados coletados encontram-se no 
quadro a seguir: 
Fila em Bancos 
 A (fila única) B (fila múltipla) 
1 6,5 4,2 
2 6,6 5,4 
3 6,7 5,8 
4 6,8 6,2 
5 7,1 6,7 
6 7,3 7,7 
7 7,4 7,7 
8 7,7 8,5 
9 7,7 9,3 
10 7,7 10,0 
 
 
Calculando as medidas de tendência central obtemos: 
 
Resumo das medidas de tendência central 
 Média Mediana Moda 
Banco A 7,15 7,2 7,7 
Banco B 7,15 7,2 7,7 
 
Considerando essas medidas podemos admitir que o tempo de espera médio, mediano e o mais 
freqüente são praticamente os mesmos para os dois bancos? Mas precisamos tomar uma 
decisão. Qual deles: fila única ou fila múltipla? 
Essa situação nos mostra a necessidade de mais ferramentas para nortear o processo de 
escolha. 
Para visualizarmos melhor esse conjunto de dados vamos dispô-los num formato gráfico. 
Tomaremos dois segmentos de reta (duas linhas) com o mesmo tamanho e divisões e 
desenharemos os pontos referentes a cada tempo de espera de cada banco separadamente – o 
gráfico de pontos a seguir: 
 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
100 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Esse gráfico mostra que os tempos observados são mais agrupados, mais próximos, para o 
Banco A e mais espalhados, mais dispersos, para o Banco B. Percebe-se que os dados do Banco 
B variam mais que os do Banco A. Dessa maneira, fica evidenciada a necessidade de obtenção 
de uma medida que resuma essa variabilidade. 
 
Medidas de dispersão ou de variabilidade 
 
Num primeiro momento, vamos olhar apenas para as duas medidas extremas: a maior e a 
menor. Obtemos então o primeiro valor que nos informa sobre essa variabilidade que é a 
Amplitude. A amplitude (A) é obtida pela diferença entre esses dois extremos. 
 
 Maior valor Menor valor Amplitude 
Banco A 7,7 6,5 1,2 = 7,7 - 6,5 
Banco B 10,0 4,2 5,8 = 10,0 - 4,2 
 
Claramente pode-se observar que a amplitude dos dados do Banco B é maior que a do Banco 
A, quase cinco vezes maior!!!. 
Mas essa medida tem um complicador que é mostrar a existência de variabilidade com a 
utilização apenas dos valores extremos. Ela não informa nada a respeito dos valores 
intermediários. Supondo que não tivéssemos acesso aos dados originais, pouco iríamos saber 
sobre eles, ou seja, considerando os dados do Banco B: será que os valores intermediários 
estão mais próximos de 10,0 ou de 4,2?. Percebemos então a necessidade de uma outra 
medida que utilize todas as informações coletadas. 
Observando o gráfico de pontos, podemos pensar: quanto as observações se distanciam, se 
diferem ou se desviam do valor típico central, a média? Podemos calcular esses desvios das 
observações em relação à média, por meio da subtração desta dos valores (ou escores) das 
observações. A figura a seguir apresenta esse esquema de raciocínio: 
 
Sabemos que essas distâncias ou desvios podem ser quantificados. Sejam as observações, xi e 
sua média, 
x
 . A distância entre elas é calculada pela diferença: 
xx i 
 . Calculando essas 
distâncias para os dados do Banco A obtemos: 
 
 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
101 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Banco A 
i xi 
)xx( i 
 
1 6,5 6,5 – 7,15 = -0,65 
2 6,6 -0,55 
3 6,7 -0,45 
4 6,8 -0,35 
5 7,1 -0,05 
6 7,3 0,15 
7 7,4 0,25 
8 7,7 0,55 
9 7,7 0,55 
10 7,7 0,55 
 
 
Esses desvios das observações nos fornecem tantas informações tanto quanto o numero de 
dados coletados, ou seja, nesse exemplo temos 10 valores indicando os desvios dos 10 tempos 
medidos. Certamente conseguimos contornaressa dificuldade por meio do cálculo da média 
entre elas, obtendo dessa maneira um desvio médio. 
Se considerarmos o sentido da diferença, ou seja, se ela está à direita (maior) ou à esquerda 
(menor) que a média entre elas, esse desvio médio não poderá ser calculado, pois a soma 
dessas diferenças é nula! 
Um contorno nessa situação é obtido quando tomamos o valor absoluto desses desvios, ou 
seja, 
 
Banco A 
i xi 
)xx( i 
 
|)xx(| i 
 
1 6,5 6,5 – 7,15 = -0,65 0,65 
2 6,6 -0,55 0,55 
3 6,7 -0,45 0,45 
4 6,8 -0,35 0,35 
5 7,1 -0,05 0,05 
6 7,3 0,15 0,15 
7 7,4 0,25 0,25 
8 7,7 0,55 0,55 
9 7,7 0,55 0,55 
10 7,7 0,55 0,55 
Total 0,0 4,1 
 
A média dos valores absolutos dos desvios nos fornece o Desvio Médio (DM), que 
genericamente é calculado por: 
n
xx
DM
n
1i
i


 
 
Apesar de essa medida proporcionar um resumo válido para a dispersão, ela é pouco utilizada 
devido aos transtornos matemáticos no seu manuseio para cálculos ou manipulações algébricas 
em processos estatísticos mais avançados. 
Essa dificuldade pode ser contornada se for eliminado o problema do sinal da diferença por 
meio do quadrado delas. A média desses quadrados irá nos fornecer uma medida conhecida 
como VARIÂNCIA. 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
102 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Voltando aos cálculos anteriores para o Banco A temos: 
 
Banco A 
i xi 
)xx( i 
 
)xx( i 
2 
1 6,5 6,5 – 7,15 = -0,65 0,4225 
2 6,6 -0,55 0,3025 
3 6,7 -0,45 0,2025 
4 6,8 -0,35 0,1225 
5 7,1 -0,05 0,0025 
6 7,3 0,15 0,0225 
7 7,4 0,25 0,0625 
8 7,7 0,55 0,3025 
9 7,7 0,55 0,3025 
10 7,7 0,55 0,3025 
Total 0,0 2,0450 
 
Genericamente, calculamos a variância de um conjunto X de dados e denotamos, var(X) como 
 
1n
xx
)Xvar(
n
1i
2
i




 
 
Que é a média do quadrado das distâncias (desvios) das observações em relação à sua média 
(média amostral) 
Nesse ponto, surge mais uma pergunta: a média dos quadrados dos desvios é calculada 
considerando o número de observações (n) menos uma unidade? Essa explicação também se 
deve a motivos associados à Inferência Estatística, ou seja, aos processos estatísticos mais 
avançados... 
 
OBS: Em muitos livros a variância é denotada por s2. 
 
No exemplo, temos que a variância do Banco A é: 0,2272 min2 
 
Pois a unidade de medida do tempo adotada foi em minutos e as diferenças foram elevadas ao 
quadrado! E esse é um problema que dificulta a interpretação da variância pelo fato de ser uma 
unidade de área e que nem sempre tem sentido físico. Por exemplo, se estivermos medindo 
escores de jogos ou de testes, etc... 
Uma solução é extrair a raiz quadrada da variância, obtendo assim uma medida que apresenta 
um resumo da variabilidade na mesma unidade de medida da média. Essa medida é 
amplamente conhecida e utilizada com o nome de DESVIO-PADRÃO. 
Genericamente, o desvio-padrão de um conjunto X de dados é obtido por: 
1n
)xx(
)Xvar()X(dp
n
1i
2
i




 
 
OBS: 
 Assim como em muitos livros a variância é denotada por s2, o desvio–padrão é 
denotado por s. A origem dessa letra é devido ao seu nome em inglês: Standard-
Deviation. 
 Formulas alternativas da variância (derivadas da definição): 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
103 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
1
)var(
2
1
2





n
xnx
X
n
i
i
 ou 
1
)var(
2
1
1
2













n
n
x
x
X
n
i
in
i
i
 
 
 
Como resultado final do exemplo, no Banco A os clientes esperam em média, 7,15 min com um 
desvio-padrão de 0,48 min para serem atendidos por um caixa. 
 
Agora, existe uma maneira de comparar os valores dos tempos em espera dos Bancos A e B 
utilizando também uma medida de variação: 
 
 Média Mediana Moda Desvio-padrão 
Banco A 7,15 7,2 7,7 0,48 
Banco B 7,15 7,2 7,7 1,82 
 
Todas as medidas acima estão representando MINUTOS. 
 
Claramente a variabilidade dos dados do Banco B é maior que a do Banco A, apesar de ser 
menor que a amplitude nos fornece uma medida mais confiável, pois utiliza todas as 
informações coletadas. 
O Banco A pode ser escolhido sem susto.... 
 
Exemplo 2 (Wild e Seber): 
 
A tabela a seguir apresenta as sentenças proferidas por dois juizes para dois conjuntos de 
condenados por furto, em meses. 
 
Juiz A Juiz B 
xi xi 
34 26 
30 43 
31 22 
33 35 
36 20 
34 34 
 
x
 = 33,0 
Var(X = 4,8 
Dp(X) = 2,2 
 
x
 = 30,0 
Var(X) = 78,0 
Dp(X) = 8,8 
 
Analisando os resultados dos dois juizes, verifica-se que o juiz A tem uma média maior que a do 
juiz B, mas seu desvio-padrão é menor. 
Considerando apenas esses dados pode-se concluir que o juiz A é mais rigoroso, porém mais 
justo e que o juiz B é menos rigoroso, porém mais inconsistente. Para um advogado, a melhor 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
104 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
aposta seria o juiz A. Mesmo correndo o risco de uma sentença mais longa, considerando que a 
média é mais alta, ele por certo não arriscaria ver seu cliente submetido às severas sentenças 
que o juiz B costuma proferir. 
Nesse ponto, torna-se necessário aliar a esses dados e resultados os conhecimentos do analista 
da área. Digamos que as longas sentenças proferidas pelo juiz B sejam contra criminosos com 
um passado criminal extenso, e as sentenças breves, contra criminosos primários e 
secundários. A escolha do advogado então dependeria do histórico criminal de seu cliente: se 
seu histórico consistisse apenas em pequenas faltas, ou se ele não tivesse nenhum passado 
criminoso, é claro que ele deveria preferir o juiz B, porque esperaria dele uma sentença mais 
breve do que a do juiz A. Por outro lado, se representasse um criminoso reincidente, seria 
preferível o juiz A, porque ele parece enfocar menos os antecedentes do condenado do que a 
acusação efetiva. 
 
 
Relações entre média e desvio-padrão 
 
No exemplo dos bancos A e B foi possível comprar os desvios-padrão entre eles devido ao fato 
de ambos terem médias iguais. Quando isso não ocorre e for conveniente expressar a 
variabilidade em termos relativos, como por exemplo, um desvio-padrão de 10 pode ser 
insignificante para um conjunto de dados com média 10.000, mas bastante significante para um 
conjunto com média 100, duas medidas utilizadas são o coeficiente de variação e o escore 
padronizado. 
 
1. Coeficiente de variação (CV) 
 
O coeficiente de variação, CV, é uma medida relativa de variabilidade que compara o desvio-
padrão com a média. Pois, por exemplo, um desvio-padrão de 10 
• Pode ser insignificante para um conjunto de dados com média 10.000. 
• Pode ser bastante significante para um conjunto com média 100. 
 
• Coeficiente de variação (CV) 
Compara o desvio-padrão com a média para um conjunto. 
É definido por: 
 
 
 
É um valor adimensional, pois a média e o desvio-padrão possuem a mesma unidade de 
medida. Usualmente é expresso em porcentagem. 
 
Fornece uma medida da homogeneidade do conjunto de dados. 
 
A grande utilidade do CV é permitir a comparação das variabilidades de diferentes conjuntos de 
dados. 
 
Exemplo (Soares): Em cinco testes, um estudante obteve média 63,2 com desvio-padrão 3,1. 
Outro estudante teve média 78,5 com d.p. de 5,5. Qual dos dois é mais consistente?x
)X(dp
CV 
 Média Desvio-padrão CV 
Aluno A 63,2 3,1 0,049 (4,9%) 
Aluno B 78,5 5,5 0,070 (7,0%) 
 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
105 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
Os dois estudantes apresentam resultados homogêneos, mas o aluno A foi mais consistente 
que o B. 
 
Uma sugestão de classificação do CV: 
 
• Baixo - inferior a 0,10 - dados homogêneos 
• Médio – de 0,10 a 0,20 – dados razoavelmente homogêneos 
• Alto – de 0,20 a 0,30 – dados heterogêneos 
• Muito alto – superior a 0,30 – dados bastante heterogêneos 
O coeficiente de variação compara o grupo, mas quando for preciso comparar a unidade do 
grupo, a opção é o: 
 
• Escore padronizado (zi) - (ou escore z) 
Compara os indivíduos de um grupo em relação à média do grupo, padronizado pelo desvio-
padrão. Permite distinguir entre valores usuais e valores raros (ou incomuns). 
A unidade é “desvios-padrão”. 
É definido por: 
 
 
 
Exemplo: Suponha que a altura dos homens americanos sadios seja de 178 cm em média com 
um desvio-padrão de 7,2 cm. O jogador de basquete Michael Jordan ganhou reputação de 
gigante por suas proezas no jogo, mas com seus 201,2 cm ele pode ser considerado 
excepcionalmente alto, comparado com a população geral dos homens adultos americanos? 
 
 
 
Podemos interpretar esse resultado dizendo que a altura de Michael Jordan está a 3,22 desvios-
padrão acima da média. 
 
 
 
 
 
 
 
 
 
 
 
 
 Estatísticas descritivas para dados agrupados 
 
Se os dados estiverem agrupados, as medidas resumo são calculadas por: 
 
 
 
 
 
)(Xdp
xx
z ii


22,3
2,7
1782,201


iz
2 3-3 -2 -1 0 1
Valores IncomunsValores Incomuns Valores Usuais
Valores Raros Valores Raros
2 3-3 -2 -1 0 1
Valores IncomunsValores Incomuns Valores Usuais
2 3-3 -2 -1 0 1
Valores IncomunsValores Incomuns Valores Usuais
Valores Raros Valores Raros
n
fx
x
n
1i
ii

1n
f)xx(
)Xvar(
n
1i
i
2
i




 )Xvar()X(dp 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
106 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Em que, 
• xi é o ponto médio da classe (faixa de intervalo) ou o valor observado; 
• fi é a frequência da classe ou do valor observado 
• n= total geral (soma de todos os fi’s) 
 
Exemplo 1: A tabela a seguir apresenta o número de erros de impressão por página em um 
livro. Calcular a média e o desvio-padrão dos erros de impressão. 
 
 
 
 
 ; ; 
 
 
Exemplo 2: Cálculo da nota média e do desvio-padrão para as notas em Estatística: 
 
 
 
 
 
 ; ; 
 
 
Os alunos obtiveram média 56,95 com desvio-padrão de 20,6 
Se as notas forem consideradas como um bom balizador do aprendizado da disciplina, o 
coeficiente de variação: 
362,0
95,56
6,20
CV
, indica que nesse grupo de alunos o 
aprendizado é processado de forma bastante heterogênea! 
 
Erros (xi) Freqüência (f i) xifi
0 25 0 10,89
1 20 20 2,31
2 3 6 5,39
3 1 3 5,48
4 1 4 11,16
Total 50 33 35,22
ii fxx
2)( 
Faixa de Nota Freq. (fi) xi xifi (xi-56,95)
2fi
10 ⱶ-- 25 44 17,5 770 68.477,31
25 ⱶ-- 40 70 32,5 2.275 41.846,18
40 ⱶ-- 55 92 47,5 4.370 8.215,83
55 ⱶ-- 70 147 62,5 9.188 4.527,97
70 ⱶ-- 85 115 77,5 8.913 48.564,79
85 ⱶ-- 100 32 92,5 2.960 40.441,68
Total 500 28.475 212.073,75
66,0
50
33
n
fx
x
n
1i
ii


 7188,0
49
22,35
1n
f)xx(
)Xvar(
n
1i
i
2
i






8478,0)Xvar()X(dp 
6,20)var()(  XXdp
95,56
500
475.28
x 0,425
499
75,073.212
)var( X
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
107 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
 Medidas separatrizes 
 
São valores que separam os dados ordenados (rol) em quatro (quartis), dez (decis) ou em cem 
(percentis) partes iguais. Note que para a sua correta aplicação, exige-se que os dados estejam 
ordenados, ou seja, organizados num rol. 
 
• Percentis 
 
1. Px , o percentil de ordem x , é o valor que deixa x% dos dados nele e abaixo dele e (1-x)% 
dos dados acima dele. A mediana, por exemplo, é o P50. 
2. Os percentis de ordem 25, 50 e 75 são chamados de Quartis 1, 2 e 3. A mediana é o Q2. 
 
Exemplo: - dados brutos. Sejam os dados, em decibéis, do ruído de certo cruzamento: 
52,0 54,4 54,5 55,7 55,8 55,9 55,9 56,2 56,4 56,4 
56,7 56,8 57,2 57,6 58,9 59,4 59,4 59,5 59,8 60,0 
60,2 60,3 60,5 60,6 60,8 61,0 61,4 61,7 61,8 62,0 
62,1 62,6 62,7 63,1 63,6 63,8 64,0 64,6 64,8 64,9 
65,7 66,2 66,8 67,0 67,1 67,9 68,2 68,9 69,4 77,1 
 
Os dados fornecidos encontram-se ordenados – crescentemente. São 50 valores. Para 
encontrar o valor do percentil 80, precisamos obter as posições que deixam 80% dos dados 
nele ou abaixo dele e 20% nele ou acima dele. Um recurso de cálculo pode ser: 
1) “do menor para o maior” (“→”) – o elemento que ocupa a posição: 
80% de 50 = (0,80)(50) = 40ª. posição. Na tabela, encontramos o valor 64,9. 
2) “do maior para o menor” (“

”) – o elemento que ocupa a posição: 
20% de 50 = (0,20)(50) = 10ª. posição. Na tabela encontramos o valor 65,7 
O percentil 80 é obtido pelo cálculo da média entre esses dois valores: 
3,65
2
7,659,64
P80 


 
Esse valor significa que 80% do ruído do tráfego desse cruzamento é de até 65,7 decibéis, ou, 
de maneira análoga, 20% dos ruídos do trêfego desse cruzamento encontram-se acima de 65,7 
decibéis. 
 
Em dados agrupados, os percentis podem ser estimados: 
 
 Pelos percentuais acumulados: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Nota 
Simples Acumulada 
Freq Perc Freq Perc 
10 Ⱶ 25 44 8,80% 44 8,80% 
25 Ⱶ 40 70 14,00% 114 22,80% 
40 Ⱶ 55 92 18,40% 206 41,20% 
55 Ⱶ 70 147 29,40% 353 70,60% 
70 Ⱶ 85 115 23,00% 468 93,60% 
85 Ⱶ 100 32 6,40% 500 100,00% 
Total 500 100,00% 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
108 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
1. A mediana está na 4ª. Classe (55 a 70) - pois até 70 o percentual acumulado é de 70,6% 
 2. n=500  50% de 500 = 250 (posição do elemento que será o valor da mediana). 
 3. Tamanho da classe: 70 - 55=15 
 4. Freqüência da classe: 147 
 5. Até a classe anterior tem-se 206 elementos. 
 6. x é o valor correspondente ao elemento 250  250-206= 44º. Como se tem 147 
elementos em uma faixa de tamanho 15, cada um deles ocupa 0,102 (=15/147)  x  4,5 
(=44x0,102) 
 
 
 
Esquematicamente: 
 
 
 
 
 7. Mediana: 55+4,5  59,5 
 
 
 Ou pela Ogiva (histograma das frequências relativas (percentuais) acumuladas): 
 
Por exemplo, o percentil 80 (80% dos dados nele e abaixo dele): 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
x
15
102,0
147
15

(distância entre as posições dos 147 elementos)
(posição) 206a 250a 353a
x =(44)(0,102)=4,5
Notas
Per
cen
tua
l Ac
um
ula
do
100857055402510
100
80
60
40
20
0
80
74
Histograma (Ogiva) para Notas
7480P 
Notas
Per
cen
tua
l Ac
um
ula
do
100857055402510
100
80
60
40
20
0
80
74
Histograma (Ogiva) para Notas
7480P 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
109 
 
Estatística eProbabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 Ou pela formula geral para o percentil de ordem 100p ( 0  p  1): 
 
 
 
 
Li = limite inferior da classe que contém o percentil desejado; 
A = np 
B = Freqüência acumulada da classe anterior 
C = freqüência da classe que contem o percentil desejado 
H = Tamanho da classe que contem o percentil 
 
Fazendo os cálculos para a mediana por esse método: 
Li = 55 
n = 500 
p = 0,5 
A = (500)(0,50) = 250 
B = 206 
C = 147 
H = 15 
 
 
 
 
 
 Desvio Interquartílico (DI) 
 
Quando a distribuição é assimétrica e a mediana é considerada a medida de tendência central 
mais recomendada, nesse caso a medida de variação mais indicada é o desvio interquartílico 
(ou amplitude entre quartis, ou desvio entre quartis) definida por: 
DI = Q3 – Q1 
Em que, Q3, Q1 representam o terceiro e o primeiro quartil, respectivamente. 
 
Exemplo: Medidas de Transaminase-glutâmico-pirúvica sérica (TGP) em 95 recém-nascidos 
prematuros de Porto Alegre (fonte: Callegari-Jaqques, pág. 37) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
H
C
BA
LP ip

100
11Desvio interquartílico95Total
18Quartil 35100 ou +
7Quartil 1160 |-- 70
211Máximo150 |-- 60
3Mínimo140 |-- 50
30,6Desvio-padrão430 |-- 40
10Mediana (Quartil 2)1020 |-- 30
20Média3110 |-- 20
95N420 |-- 10
Estatísticas Descritivas
Freq.
TGP 
(U/mL)
11Desvio interquartílico95Total
18Quartil 35100 ou +
7Quartil 1160 |-- 70
211Máximo150 |-- 60
3Mínimo140 |-- 50
30,6Desvio-padrão430 |-- 40
10Mediana (Quartil 2)1020 |-- 30
20Média3110 |-- 20
95N420 |-- 10
Estatísticas Descritivas
Freq.
TGP 
(U/mL)
5,5949,455)15(
147
.206250
5550 




 
P
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
110 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Observe que a distribuição é bastante assimétrica e a mediana está localizada na faixa com 
maior frequência. A média é maior que a mediana. 
 
 
 As “Cinco medidas resumo” 
 
São utilizadas como resumo de um conjunto de dados: 
 
(Mínimo , 1o. Quartil, Mediana, 3o. Quartil, Máximo) 
 
Essas medidas encontram-se representadas graficamente no Box plot. 
 
 
 Outros gráficos: 
 
 Gráfico caixa – Box & Whiskers Plot ou simplesmente Box plot 
 
 
Distribuição TGP (U/mL) em 95 recém nascidos
0
5
10
15
20
25
30
35
40
45
0 |-- 10 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 50 50 |-- 60 60 |-- 70 100 ou +
Faixas de TGP (U/mL)
Fr
eq
uê
nc
ia
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
111 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
Exemplo: Distribuição dos salários dos funcionários da Cia MB, em frações de salário-mínimo 
(SM). 
 
Fonte: Bussab-Morettin, 2000 
 
 
A linha interna da “caixa” é a mediana. Se essa linha estiver bem centralizada, a indicação é de 
dados com distribuição simétrica. 
A base inferior da caixa representa o primeiro quartil e a superior o terceiro quartil. 
 
Esse gráfico também pode fornecer a informação por grupos ou estratos definidos por uma 
variável qualitativa. 
 
 
 
 
Exemplo anterior estratificado por grau de instrução: 
 
 
 
Sa
lá
rio
25
20
15
10
5
Boxplot para Salário (SM) - Cia MB
Grau de instrução
Sa
lá
rio
Superior2o grau1o grau
25
20
15
10
5
Boxplot of Salário vs Grau de instrução - Cia MB
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
112 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
O gráfico apresenta a distribuição dos salários para cada categoria ordinal do grau ou nível de 
instrução. Percebe-se que maiores níveis de instrução se associam com maiores salários. 
 
 
 Alguns aspectos das distribuições de dados 
 
Vimos que o histograma mostra o formato da distribuição dos dados. 
Considerando, agora, as medidas numéricas, uma distribuição de freqüências será: 
• Simétrica: a média, a mediana e a moda serão iguais. 
• Assimétrica à esquerda: a média será menor do que a mediana, que por sua vez, 
geralmente, será menor do que a moda. 
• Assimétrica à direita: a média será maior que a mediana, que por sua vez, será 
geralmente, maior do que a moda. 
Um exemplo de uma distribuição de freqüências perfeitamente simétrica é dada por uma 
distribuição com a forma de sino e apresenta as seguintes particularidades de concentração dos 
dados em torno da média (média como ponto médio do intervalo): 
1. Amplitude de 2 desvios-padrão: 68,3% dos dados; 
2. Amplitude de 4 desvios-padrão: 95,4% dos dados; 
3. Amplitude de 6 desvios-padrão: 99,7% dos dados. 
 
Curva perfeitamente simétrica. Medidas resumo aplicável: média e desvio-padrão. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
113 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Curva assimétrica à direita – exemplo do preço das moradias 
Cauda estende à direita; média > mediana 
Medidas resumo aplicável: mediana e desvio interquartílico. 
 
 
 Tabelas de dupla classificação 
Suponha que se queira conhecer o comportamento de uma determinada característica em 
relação a uma outra suposta sua determinante. 
 
Exemplo: Será que o uso de capacete reduz as lesões na cabeça em acidentes envolvendo 
motocicletas? 
Para responder a essa pergunta foram coletadas informações de 793 acidentados de moto com 
lesões na cabeça e classificados em relação ao uso ou não do capacete. 
Os dados obtidos estão apresentados no formato de uma tabela de dupla classificação: 
 
 
 
 
 
 
 
 
 
 
A leitura dessas informações é feita pelas linhas: dados sobre as lesões na cabeça e; pelas 
colunas: dados do uso de capacete. 
Dessa maneira, tem-se que das 793 pessoas analisadas, 235 delas tiveram lesões na cabeça e 
147 faziam uso do capacete. Esses são as informações de apenas uma das características. 
As interseções entre as linhas e colunas (caselas, ou células) contêm a informação das duas 
características simultaneamente. 
Usualmente as informações são apresentadas em sua forma relativa, ou seja, por meio dos 
percentuais. 
Os percentuais podem ser calculados em três maneiras: 
 
 
Percentual pelo Total Geral: 
 
 
 
 
 
 
 
 
 
Observe que o 100,0% está na casela que informa o total geral da tabela! 
A leitura dos percentuais é feita considerando as duas características simultaneamente, ou seja, 
2,1% dos acidentados tiveram lesão na cabeça E faziam uso de capacete. 
 
 
 
 
100,0%81,5%18,5%Total
70,4%54,0%16,4%Não
29,6%27,5%2,1%Sim
NãoSim
Total
Uso de capacete
Lesão na cabeça
100,0%81,5%18,5%Total
70,4%54,0%16,4%Não
29,6%27,5%2,1%Sim
NãoSim
Total
Uso de capacete
Lesão na cabeça
793646147Total
558428130Não
23521817Sim
NãoSim
Total
Uso de capacete
Lesão na cabeça
793646147Total
558428130Não
23521817Sim
NãoSim
Total
Uso de capacete
Lesão na cabeça
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
114 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Percentual por linha: 
 
 
 
 
 
 
 
 
 
Observe que agora o 100,0% está na total das linhas! 
A leitura dos percentuais é feita considerando apenas a característica da linha, ou seja, dos 
acidentados que tiveram lesão na cabeça, 7,2% faziam uso de capacete.Percentual por coluna: 
 
 
 
 
 
 
 
 
 
Observe que agora o 100,0% está na total das colunas! 
A leitura dos percentuais é feita considerando apenas a característica da coluna, ou seja, dos 
acidentados que faziam uso do capacete, 11,6% tiveram lesão na cabeça. 
 
Para medirmos a associação entre elas precisamos aplicar um teste que será apresentado na 
próxima Unidade. 
 
 
100,0%81,5%18,5%Total
100,0%76,7%23,3%Não
100,0%92,8%7,2%Sim
NãoSim
Total
Uso de capacete
Lesão na cabeça
100,0%81,5%18,5%Total
100,0%76,7%23,3%Não
100,0%92,8%7,2%Sim
NãoSim
Total
Uso de capacete
Lesão na cabeça
100,0%100,0%100,0%Total
70,4%66,3%88,4%Não
29,6%33,7%11,6%Sim
NãoSim
Total
Uso de capacete
Lesão na cabeça
100,0%100,0%100,0%Total
70,4%66,3%88,4%Não
29,6%33,7%11,6%Sim
NãoSim
Total
Uso de capacete
Lesão na cabeça
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
115 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
3. RESOLUÇÃO DE ALGUNS EXERCÍCIOS 
 
1) Você está fazendo um estudo para determinar a opinião de estudantes de sua escola com 
respeito ao controle do porte de armas. Identifique a técnica de amostragem que você irá 
usar se selecionar uma das amostras relacionadas abaixo: 
a) Selecione aleatoriamente uma classe e faça perguntas a cada estudante; 
b) Divida a população estudantil com relação às especialidades estudadas, realize uma 
amostra aleatória e faça perguntas a estudantes de cada especialidade; 
c) Atribua um número a cada estudante e escolha números aleatórios. Você irá então 
questionar a cada estudante cujo número for selecionado ao acaso 
Solução: 
(a) amostra aleatória por conglomerado – a classe é um agrupamento de alunos. 
(b) amostra aleatória estratificada – as especialidades forma grupos. 
(c) amostra aleatória simples. 
 
2) Na execução de uma rede elétrica, uma firma especializada utiliza eletrodutos de dois tipos: 
E e F. Em uma análise do custo do material,foram consideradas 30 faturas representadas a 
seguir pelo preço de 10 m de eletroduto: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a) Retirar, sem reposição, uma amostra estratificada proporcional de tamanho n=8. 
b) Selecionar a amostra. 
 
Solução: 
 
(a) N=30 e n = 8 
Passo 1: calcular a fração da amostra: 
267,0
30
8
f 
 
Eletroduto Ni ni 
E 6 6x0,267=1,6 ≈ 2 
F 24 24x0,267= 6,4≈ 6 
Total 30 8 
 
 
Outra maneira: 
 
820810800795795790790785785770770770Preço
242322212019181716151413Fatura
Eletroduto F
765765765765765760760765750750750750Preço
121110987654321Fatura
Eletroduto F
760755715715710710Preço
654321Fatura
Eletroduto E
820810800795795790790785785770770770Preço
242322212019181716151413Fatura
Eletroduto F
765765765765765760760765750750750750Preço
121110987654321Fatura
Eletroduto F
760755715715710710Preço
654321Fatura
Eletroduto E
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
116 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Eletroduto Ni Fraçãoi (pesoi) ni 
E 6 6/30 = 0,20 8x0,20=1,6 ≈ 2 
F 24 24/30 = 0,80 8x0,80= 6,4≈ 6 
Total 30 1,00 8 
 
Passo 2: selecionar pela TNA (ou por um software) 2 números de fatura entre 1 e 6 para o 
Eletroduto E e 6 números de fatura entre 1 e 24 para o eletroduto F. Escolhendo a ultima 
coluna para o eletroduto E e as duas ultimas colunas da penúltima macro-coluna para o 
Eletroduto F 
Eletroduto Faturas selecionadas 
E 2 1 
Preço 710 710 
 
Eletroduto Faturas selecionadas 
F 11 3 19 9 2 12 
Preço 765 750 790 765 750 765 
 
3) Classifique as variáveis de um determinado banco de dados em qualitativa (ordinal ou 
nominal) ou quantitativa (discreta ou contínua): 
1. Turno: 0 - manhã; 1 - noite; (qualitativa nominal) 
2. Sexo: 0 - feminino; 1 - masculino; (qualitativa nominal) 
3. Idade: em anos; (quantitativa contínua) 
4. Resultados das prova de matemática do vestibular: em 100 pontos; (quantitativa 
contínua) 
5. Dinheiro: valor (em reais) em poder do pesquisado; (quantitativa contínua) 
6. Cartões: número de cartões de crédito; (quantitativa discreta) 
7. Exercícios: 0 – não pratica exercícios físicos (qualitativa ordinal) 
 1 – Pratica exercícios físicos esporadicamente 
 2 – pratica exercícios físicos regularmente 
1. Celular: 0 – não tem; 1 – tem (qualitativa nominal) 
2. Trabalha: 0 – não trabalha; 1 – trabalha. (qualitativa nominal) 
3. Matemática: nota na 1a. avaliação do curso de graduação (em 25 pts) (quantitativa 
contínua) 
 
4) Os gráficos, a seguir, representam a freqüência relativa das respostas de um determinado 
grupo sobre preferências partidárias políticas (PMDB, PT, ..). Qual gráfico está sendo 
utilizado incorretamente? 
 
 
 
 
 
 
 (a) (b) (c) 
Solução: 
PCdoB (32; 32,0%)
PT (38; 38,0%)
Verde ( 5; 5,0%)
PSDB (25; 25,0%)
Partidos Políticos
Graf. Setores 
PCdoB PSDB PT Verde
0
10
20
30
40
Partido
C
ou
nt
 o
f P
ar
tid
o
 
Graf. Barras 
PT PSDB PCdoB PMDB Verde
0
10
20
30
40
Partido Político
Pe
rc
en
tu
al
Histograma 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
117 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Resposta correta: (c) – pois esse gráfico é apropriado para variáveis aleatórias contínuas e a 
variável do exercício “preferência partidária” é qualitativa nominal. 
 
5) Em um posto de controle rodoviário, doze motoristas multados por excesso de velocidade 
estavam dirigindo a: 15, 18, 23, 10, 17, 16, 32, 18, 21, 29, 15 e 24 km/h acima do limite 
regulamentar de velocidade. Calcule: 
a) A média dos excessos de velocidade; 
b) a média das multas que esses motoristas tiveram que pagar se o motorista que 
exceder o limite em menos de 24 km/h for multado em R$ 185,00 e os outros em R$ 
310,00. 
 
Solução: 
(a) média simples: 
8,19
12
238
12
24.....231815
x 


 
 
Conclusão: Os motoristas excederam em média 19,8 km/h 
 
(b) média ponderada 
 
Velocidade Valor da multa (xi) Freqüência (fi) (xi)(fi) 
< 24 km/h 185 9 1.665 
≥ 24 km/h 310 3 930 
Total 12 2.595 
 
25,216
12
595.2
xp 
 
 
 
Conclusão: O valor da multa média é R$ 216,25 
 
 
4. MISCELÂNEA DE EXERCÍCIOS RESOLVIDOS EM ATIVIDADES E PROVAS 
 
 
Questão 1: Cada uma das afirmações abaixo é Verdadeira (V) ou Falsa (F) para a seguinte 
frase: a forma de uma distribuição de freqüência pode ser descrita usando 
a) um gráfico de box-plot ou box-whisker 
b) um histograma; 
c) um gráfico de ramo e folhas; 
d) a média e a variância; 
e) uma tabela de freqüências. 
Respostas: 
a) V 
b) V 
c) V 
d) F 
e) V 
Justificativa da letra d): 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
118 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
- As medidas resumo de uma característica informam apenas sua locação e oscilação 
(espalhamento, dispersão) em torno da média. Para informação sobre a forma da 
distribuição (simetria, assimetria) elas precisam agregar outras medidas, tais como 
os quartis. 
 
Questão 2: Cada uma das afirmações abaixo é Verdadeira (V) ou Falsa (F) para o seguinte 
conjunto de dados: 3, 1, 7, 2, 2 
a) a média é 3; 
b) a mediana é 7; 
c) a moda é 2; 
d) a amplitude é 1; 
e) a variância é 5,5. 
Respostas: 
a) V 
b) Fc) V 
d) F 
e) V 
Justificativa das letras (b) e (d): 
b) mediana = 2, pois ao ordenarmos os dados ele é o valor que separa os dados em 
duas partes iguais (50% para cada lado): 1 2 2 3 7 
d) Amplitude (A) é a diferença entre o maior e o menor valor do conjunto de dados, 
logo, A = 7 – 1 = 6 
 
Questão 3: O histograma abaixo apresenta a distribuição dos valores, em reais, em poder de 
uma amostra de estudantes de certa universidade. Os dados coletados foram armazenados em 
uma variável chamada Dinheiro. Com base nas informações do histograma responda Verdadeiro 
(V) ou Falso (F) para cada uma das frases seguintes: 
 
a) O número de classes é 8 
b) 10 e 20 são os limites da primeira classe 
80706050403020100
30
20
10
0
Dinheiro
Fr
eq
ue
nc
ia
5
4
19
20
24
19
16
13
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
119 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
c) Os limites da classe de maior frequência são: 40 e 50 
d) A classe com maior frequência tem 24 alunos 
e) 40% dos estudantes estavam com até R$ 30,00 no bolso; 
f) A mediana está na 3ª. Classe e é aproximadamente R$ 36,32 
g) A mediana está na 4ª. Classe e é aproximadamente R$ 35,00 
h) A média é aproximadamente R$ 35,00 
Respostas: 
a) V 
b) F 
c) F 
d) V 
e) V 
f) F 
g) V 
h) V 
 
Justificativas das letras (b), (c) e (f): 
 
- Primeiramente, para facilitar a visualização do histograma, vamos transformá-lo em uma 
tabela de dupla entrada: 
nº Classes Ponto xi fi Xi . fi Fi% 
Perc. 
Acum. 
 
1 0 ⊢ 10 5 13 65 10,83 10,83 
2 10 ⊢ 20 15 16 240 13,33 24,16 
3 20 ⊢ 30 25 19 475 15,83 39,99 
4 30 ⊢ 40 25 24 840 20 59,99  mediana 
5 40 ⊢ 50 45 20 900 16,67 76,66 
6 50 ⊢ 60 55 19 1045 15,83 92,49 
7 60 ⊢ 70 65 4 260 3,33 95,82 
8 70 ⊢ 80 75 5 375 4,17 99,99 
 120 4200 99,99 
 
(b) A 1ª classe é 0 ⊢ 10 , logo seus limites são 0 e 10. 
 
(c) A classe de maior frequência é a 4ª classe, com limites 30 e 40 e com 24 alunos. 
 
(f) A mediana está na 4ª classe e é aproximadamente R$ 35,00. Pode-se verificar pelo 
percentual acumulado que até o limite superior dessa classe, 40, tem-se 59,99% dos dados. O 
valor pode ser estimado pela ogiva: 
 
 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
120 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ou calculado por interpolação: 
 
 , 0 < p <1 
 
 
Logo, 
 
 
 
 
Questão 4: Por engano o professor omitiu uma nota no grupo dos 7 alunos que não praticam 
exercícios físicos. As notas dos seis alunos restantes são: 72, 76, 82, 74, 65 e 64. A média das 
7 notas é 72,86. O valor da nota omitida é: 
a) 72,86 
b) 85,07 
c) 77,02 
d) 69,89 
Resposta: C 
Justificativa: vamos supor que ele tenha esquecido a x7 . Temos: 
Li = limite inferior da classe que contem o percentil desejado;
A = np
B = Freqüência acumulada da classe anterior
C = freqüência da classe que contem o percentil desejado
H = Tamanho da classe que contem o percentil
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 10 20 30 40 50 60 70 80
Dinheiro (R$)
Pe
rc
 A
cu
m
ul
ad
o
H
C
BA
LP ip

100
3553010
24
4860
3050 

P
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
121 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
02,77=x
x=43302,510
x+433=02,510
7
x+64+65+74+82+76+72
=86,72
n
x
=x
86,72=x
7
7
7
7
i∑
 
 
Questão 5: Em certo ano, uma universidade pagou a cada um de seus 45 professores 
auxiliares um salário médio mensal de R$1.500,00, a cada um de seus 67 professores 
assistentes R$2.000,00, a cada um de seus 58 professores adjuntos R$2.600,00, e a cada um 
de seus 32 professores titulares R$3.000,00. Qual o salário médio mensal dos docentes dessa 
universidade? 
a) R$2.275,00 
b) R$2.219,31 
c) R$2.000,00 
d) R$1.875,56 
Resposta: B 
Justificativa: A média do salário é ponderada pela categoria do professor. Temos: 
31,2219
202
448300
32586745
)32)(3000()58)(2600()67)(2000()45)(1500(∑





x
p
px
x
i
ii
 
 
Questão 6: Certa marca de lâmpada que dura 1020 horas tem escore padronizado z = 2. 
Sabendo-se que as vidas dessas lâmpadas têm coeficiente de variação (CV) de 14%, a média e 
o desvio-padrão das vidas das lâmpadas, são respectivamente: 
a) 796,88 ; 58,96 
b) 720,85 ; 58,96 
c) 510 ; 14,0 
d) 796,88 ; 111,56 
Resposta: D 
Justificativa: temos as seguintes fórmulas do escore padronizado (z) e do coeficiente de 
variação (CV), respectivamente: 
)(Xdp
xx
z ii


 ; 
x
Xdp
CV
)(

, as quais relacionam as duas 
incógnitas – média (
x
) e desvio-padrão (dp(X)) 
Seja a v.a. X: tempo de vida das lâmpadas, em horas. 
Xi =1020 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
122 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Temos: (3) x0,14dp(X) (2) de 
)(
14,0 )2(
)(
2 )1(










x
Xdp
Xdp
xxi
 
 Levando a equação obtida em (3) em (1) temos: 
796,88x1020x1,28 1020)14,0(2  xx
 Logo, em (3) obtemos dp(X) =111,56 
 
Questão 7: O gráfico a seguir, apresenta as medidas do tórax dos ursos de certa área de 
preservação. Essas medidas são feitas para facilitar a estimação dos pesos dos ursos, em kg, 
por meio de um modelo estatístico. 
 
 
 
Os valores estimados para a mediana e o terceiro quartil são respectivamente: 
a) 87 ; 106 
b) 50 ; 75 
c) 95 ; 130 
d) 75 ; 125 
Resposta: A 
Justificativa: Os valores estimados são obtidos diretamente no gráfico: 
Mediana é o percentil 50, logo traçando uma reta paralela ao eixo das abscissas – tórax -, no 
valor 50% do eixo das ordenadas – percentual acumulado - , até encontrar a curva, e 
projetando esse ponto encontrado, obtemos aproximadamente 87 (vide figura) 
Ogiva: Tórax dos Ursos
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
50 60 70 80 90 100 110 120 130 140
toráx (cm)
P
er
ce
n
tu
al
 A
cu
m
u
la
d
o
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
123 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
 
Analogamente, o terceiro quartil é o percentil 75% - 75% dos dados nele ou abaixo dele. 
Repetindo o mesmo processo para ele, obtemos o ponto aproximado: 106 (vide figura) 
 
 
Questão 8: O gráfico a seguir, apresenta as medidas do tórax dos ursos de certa área de 
preservação. Essas medidas são feitas para facilitar a estimação dos pesos dos ursos, em kg, 
por meio de um modelo estatístico. 
 
Ogiva: Tórax dos Ursos
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
50 60 70 80 90 100 110 120 130 140
toráx (cm)
Pe
rc
en
tu
al
 A
cu
m
ul
ad
o
Ogiva: Tórax dos Ursos
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
50 60 70 80 90 100 110 120 130 140
toráx (cm)
P
er
ce
n
tu
al
 A
cu
m
u
la
d
o
 
 
© Tânia F Bogutchi – PUC Minas – Revisão 2012 
124 
 
Estatística e Probabilidade 
Unidade 3: Amostragem e Descrição de dados 
 
Um urso com 90 cm de tórax está aproximadamente no percentil: 
a) 50

Outros materiais