Buscar

Estatística - Estácio de Sá - Ciência de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 72 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 72 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 72 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Sumário
1. Conceitos Básicos 5
1.1 Função da estatística 6
1.2 Parâmetro e estatística 7
1.3 Variáveis, tipos de dados e níveis de mensuração 8
1.4 População e Amostra 9
1.5 Técnicas de amostragem 11
1.6 Séries estatísticas 15
2. Dados absolutos e relativos 19
2.1 Percentagens 20
2.2 Índices 22
2.3 Coeficientes 23
2.4 Taxas 23
3. Organização de Dados 27
3.1 Organização de Dados 28
3.2 Tabelas para dados qualitativos 29
3.3 Tabelas para dados discretos 30
3.4 Tabelas para dados contínuos 32
3.5 Gráficos 35
3.5.1 Gráfico de setores 35
3.5.2 Diagrama de linha 37
3.5.3 Gráfico em colunas ou barras 38
3.5.4 Cartogramas 39
4. Medidas de Tendência Central 41
4.1 Conceituação 42
4.2 Média Aritmética 42
4.3 Mediana 46
4.4 Moda 51
4.5 Quartil, decil e percentil 53
5. Medidas de Dispersão 57
5.1 Conceituação 58
5.2 Amplitude amostral 58
5.3 Desvio médio 59
5.4 Variância amostral (s2) 59
5.5 Desvio-padrão (s) 60
5.6 Coeficiente de Variação (CV) 61
5.7 Intervalo Interquartílico (IIQ) 61
6. Noções de correlação 69
6.1 Conceituação 70
6.2 Diagrama de dispersão 70
6.3 Coeficiente de correlação 72
6.4 Interpretação do coeficiente de correlação 73
Referências bibliográficas 78
Conceitos Básicos
1
6 capítulo 1
1.1 Função da estatística
A estatística se faz presente no nosso dia a dia. Nos jornais, sempre podemos 
ver pesquisas relacionadas à preferências do consumidor, candidatos eleito-
rais, censo e entre outras. A estatística teve origem na antiguidade. Vários povos 
tinham interesse em saber o número de nascimentos, habitantes e óbitos para 
estimarem as riquezas e cobrar impostos. 
O método estatístico é considerado uma ciência que é responsável por cole-
tar, apurar, organizar, analisar e dar suporte na interpretação dos achados, em 
vários campos do conhecimento, como economia, medicina, social e ambien-
tal. No contexto acadêmico, a estatística está intrinsecamente ligada ao método 
cientifico, ou seja, são os meios empregados para se chegar a uma conclusão, 
geralmente usada em linhas hipotéticas dedutivas.
Dados coletados com qualidade produzem conhecimento que não pode-
riam ser obtidos por especulação, mas nem sempre é possível coletar toda a 
informação disponível, então o ideal, neste caso, é utilizar amostras da popula-
ção em questão e então estimar os parâmetros de interesse populacionais ba-
seados nas estatísticas da amostra.
Há sugestões interessantes para o entendimento e conhecimento da es-
tatística como ciência no cenário mundial, como documentários, livros e fil-
mes. Seguem algumas boas sugestões.
Documentário: O prazer da estatística (documentário-2010) – Mostra as di-
versas aplicações da estatística e sua importância. Apresentado pelo professor 
Hans Hosling. YOUTUBE (Link QR-Code)
Filme: O jogo da imitação – Durante a Segunda Guerra Mundial, o governo 
britânico monta uma equipe que tem por objetivo quebrar o Enigma, o famoso 
código que os alemães usam para enviar mensagens aos submarinos. Um de 
seus integrantes é Alan Turing, um matemático de 27 anos estritamente lógico 
capítulo 1 7
e focado no trabalho, que tem problemas de relacionamento com praticamen-
te todos à sua volta. Seu grande projeto é construir uma máquina que permita 
analisar todas as possibilidades de codificação do Enigma em apenas 18 horas, 
de forma que os ingleses conheçam as ordens enviadas antes que elas sejam 
executadas. 
Livro: Uma senhora toma chá – O estatístico norte-americano David Salsburg 
reconstitui a história social da estatística apresentando-nos uma série de perfis 
em que comenta a vida e a obra dos homens e mulheres responsáveis por essa 
grande mudança na pesquisa científica. Faz isso voltado para o leitor comum, 
que não tem noções de estatística nem de matemática, com o intuito de fazê-lo 
compreender como a ciência se constrói a partir da crítica dos modelos anterio-
res e da interação entre diversas ideias.
1.2 Parâmetro e estatística
Há diferentes definições para informações que são obtidas de uma população e 
outras que são obtidas da amostra.
Parâmetros são os valores reais obtidos de uma população, ou seja, sumari-
za uma característica da população. Já a estatística são valores obtidos na amos-
tra e sumariza a característica da amostra.
Para se generalizar ou inferir os resultados amostrais para a população de 
interesse, trabalha-se com testes de hipóteses e intervalos de confiança. Estas 
ferramentas permitem a generalização dos resultados amostrais para a popu-
lação de interesse.
Quando você vê em um jornal sobre a aceitação de um determinado pro-
duto, com a notícia de que 35% das famílias brasileiras acharam o produto sa-
tisfatório, este resultado faz referência a uma estatística, pois geralmente são 
selecionadas de 2000 a 3000 pessoas para compor uma pesquisa de opinião, 
e não todo o universo das famílias brasileiras. Ou seja, estes 35% das famílias 
brasileiras são uma estimativa da verdadeira porcentagem de famílias que clas-
sificaram o produto como satisfatório no território brasileiro. Espera-se que 
a estatística seja próxima ao parâmetro populacional. Para garantirmos isto, 
8 capítulo 1
utilizamos técnicas para a retirada da amostra, chamadas de métodos de amos-
tragem, com intuito de retirar uma amostra que possa levar à representação do 
verdadeiro valor populacional.
1.3 Variáveis, tipos de dados e níveis de 
mensuração
As variáveis são classificadas em dois tipos: quantitativas ou numéricas e qua-
litativas ou categóricas. Veja o quadro abaixo com as subdivisões dos tipos de 
variáveis:
Quantitativas
Discretas
Contínuas
Qualitativas
Nominais
Ordinais
Figura 1.1
As variáveis quantitativas podem ser subdividas em discretas e contínuas. 
As variáveis discretas são resultado de processo de contagem, por exemplo: nú-
mero de filhos em uma determinada família, quantidade de carros por minuto 
em determinado cruzamento, entre outras, ou seja, são um número finito con-
tável. As variáveis contínuas são resultado de mensurações e podem assumir 
valores em todos os números reais, por exemplo: pressão arterial sistólica me-
dida em mmHg, peso de um indivíduo, altura, entre outros. Geralmente são 
resultados de medições por algum aparelho ou instrumento.
As variáveis qualitativas podem ser subdividas em nominais e ordinais. As 
variáveis nominais são as categorias de nomes, como: Tipo sanguíneo (A, B, AB 
e O), etnia (branca, parda, negra e amarela), sexo (masculino e feminino) entre 
outras. Já as variáveis qualitativas ordinais, são nomes que expressam ordem 
entre si, por exemplo: nível socioeconômico (A, B, C e D), nível de escolaridade 
(fundamental, médio e superior), recidiva de doença (I, II e III), entre outras.
capítulo 1 9
Exemplos: Classificação de variáveis
Classifique as variáveis abaixo como qualitativa (nominal e ordinal) ou 
quantitativa (discreta ou contínua).
a) Altura dos alunos do curso de Economia da Universidade COC.
b) Opinião de consumidores sobre um novo produto alimentício (Ruim, 
Bom ou Excelente).
c) Número de filhos, entre casais divorciados no estado de São Paulo, du-
rante os anos de 2005 à 2010.
d) Temperatura máxima diária na cidade de Porto Alegre, durante todo o 
mês de Julho de 2014.
e) Opinião dos aposentados sobre reformulação dos direitos da previdên-
cia social (a favor ou contra).
Solução
a) Altura é uma variável quantitativa contínua.
b) A opinião é uma variável qualitativa ordinal, pois existe uma ordem nas 
respostas.
c) Número de filhos é uma variável quantitativa discreta.
d) Temperatura máxima é uma variável quantitativa contínua.
e) A opinião, é uma variável qualitativa nominal - não há qualquer ordem 
nas respostas.
1.4 População e Amostra
O conceito de população e amostra é bastante importante para entendermos por 
que utilizamos amostras em vez de estudarmos toda a população de interesse.
População: População estatística é o conjunto de medidas ouarquivo de algumas carac-
terísticas de interesse que correspondem à coleção inteira de informação (população de 
interesse) para as quais a inferência é feita. 
Amostra: Amostra de uma população estatística é o conjunto de medidas que são realmen-
te selecionadas da população no decorrer de uma investigação.
10 capítulo 1
Exemplo: Considere uma panela de sopa. A população é a panela inteira de 
sopa e a amostra é uma colherada de sopa – que, no caso, experimentamos para 
saber se o tempero está de acordo ou não; não é necessário tomar a sopa inteira 
da panela para sabermos sobre seu sabor.
Geralmente, população é um termo usado para descrever grandes conglo-
merados de informações que têm algo em comum para o estudo de interesse, 
como um hospital quando se tem interesse em usar informações de saúde, uma 
universidade quando se tem interesse em estudar as preferências alimentares 
universitárias. A diferença crucial entre população e amostra, é que a amostra 
coletada da população de interesse deve permitir afirmações e conclusões ra-
zoáveis sobre a informação de interesse. Para isto, utilizamos os métodos de 
amostragem que nos permitem extrair uma amostra representativa da popula-
ção de interesse para estudarmos o fenômeno de interesse.
Nota: Nos censos é feita a coleta de toda a população. No Brasil, estes são realizados 
a cada 10 anos pelo Instituto Brasileiro de Geografia e Estatística (IBGE), em que são 
avaliados todos os cidadãos brasileiros. O IBGE é uma fundação pública de administração 
federal, com o objetivo de organizar informações obtidas nos censos para suprir órgãos 
federais, estaduais e municipais. O censo é um processo dispendioso e custoso, mas serve 
para planejar ações públicas e políticas para o futuro.
Exemplos: População e Amostra
Identifique a população de interesse e a amostra para cada situação descrita 
abaixo.
a) O Banco Santander deseja saber a opinião de seus gerentes de negócio 
sobre uma nova proposta para implementar mudanças no plano de carreira. 
Então o Banco disponibiliza um questionário eletrônico e envia por e-mail para 
todos os seus 950 gerentes de negócio.
b) As lojas Renner, pretendem fazer um levantamento de preferência de 
compras entre suas clientes que utilizam o cartão Renner para efetuar suas 
compras. Para isto sorteia 400 clientes, dentre suas 4.550 clientes cadastradas 
que fizeram compras neste ano com o cartão da loja. O interesse é saber sobre 
as vantagens de escolha do cartão, e o questionário é enviado por e-mail.
capítulo 1 11
Solução
a) A população é o conjunto dos gerentes da empresa. Como foram entre-
vistados todos os gerentes, essa é uma pesquisa censitária e não houve seleção 
de amostra.
b) A população de interesse é formada por todos as clientes da loja, mas 
a população de referência, ou seja, a população de onde foi retirada a amostra, 
é formada pelas clientes que compraram com cartão Renner. Então, não estão 
incluídos os clientes que usaram outras formas de pagamento, como cartão de 
débito de outro banco de origem, dinheiro ou cheque.
1.5 Técnicas de amostragem
O processo de amostragem é utilizado para coletar amostras mantendo a rela-
ção existente entre a população e a amostra extraída dessa população. Enquan-
to que um censo envolve a coleta de todos os elementos de uma população, a 
amostragem envolve um estudo de apenas uma parte dos elementos. A amos-
tragem consiste em selecionar parte de uma população e observá-la com o in-
tuito de estimar uma ou mais características da população. 
Na prática, utilizamos amostragem em pesquisas de opinião, controle de 
qualidade industrial, proporção de indivíduos doentes e muitas outras aplica-
ções. As vantagens do processo de amostragem, em relação ao censo, são:
I. Custo;
II. Rápida disponibilização dos resultados;
III. Impossível analisar toda a população em populações grandes;
IV. Tempo versus Custo são otimizados em amostras;
A amostragem define o método de se obter uma amostra e pode ser de 
vários tipos e englobar várias fases, como: identificação da população de refe-
rência, método de composição/seleção da amostra e o tamanho da amostra. 
Serão definidas as técnicas usadas para se obter amostras em determinadas 
situações.
Existem dois grupos de técnicas para selecionar amostras, sendo eles os 
processos de amostragem probabilísticos ou aleatórios e os processos deter-
minísticos ou não aleatórios.
12 capítulo 1
Os processos não aleatórios ocorrem quando os indivíduos, para compor 
a amostra, são determinados por um critério subjetivo, então os elementos da 
população não têm a mesma probabilidade de serem escolhidos.
Tipos de amostras não aleatórias:
I. Amostra intencional: Composta por elementos da população selecio-
nados de forma intencional pelo pesquisador, devido às suas características de 
interesse. Exemplo: amostra de pacientes com uma doença rara. 
II. Amostra por quotas: As amostras são determinadas pelo pesquisador 
para cada entrevistador e obtidas da população por categorias até atingir o nú-
mero preestabelecido (quota) de elementos de cada categoria de modo não ale-
atório. Exemplo: Pesquisa de opinião em que cada entrevistador tem uma cota 
de 20 pessoas para entrevistar durante o dia.
III. Amostra por conveniência: Os elementos são escolhidos por conveni-
ência, ou seja, por facilidade. As amostras obtidas desta forma não são repre-
sentativas da população. Exemplo: Selecionam-se somente os indivíduos que 
estão cadastrados em um determinado laboratório.
Os métodos de amostragem aleatória são caracterizados por todos os elemen-
tos da população terem chance ser selecionados de acordo com uma probabilidade 
predefinida e conhecida. Têm como vantagem a possibilidade de estimar intervalos 
de confiança para as estimativas, mas em contrapartida é um processo mais caro.
Métodos de amostragem aleatória:
I. Amostragem aleatória simples: uma amostra aleatória simples de n 
elementos de uma população de N elementos, é um subconjunto de n elemen-
tos distintos da população, extraídos de modo que qualquer das n amostras 
possíveis tem igual probabilidade de ser selecionada. Este tipo de amostra é 
muito dispendioso, por exigir a listagem e numeração de toda a população pre-
viamente à retirada da amostra. Caso a população seja pequena ou se existirem 
listas com os elementos da população, este método é eficaz e útil.
Exemplo: Temos uma população de 10 sujeitos [S1, S2, S3, S4, S5, S6, S7, 
S8, S9, S10] com características em comum de estudo para uma doença rara. 
Temos o interesse em selecionar somente uma amostra de dois sujeitos para 
fazermos rastreamento do código genético. Cada um destes 10 sujeitos deverá 
ter a mesma probabilidade de ser escolhido (1/10) para compor a amostra.
capítulo 1 13
II. Amostragem sistemática: Este método é baseado em escolher ou sor-
tear um número, no intervalo populacional, que servirá como ponto de partida 
e primeiro elemento da amostra. Adicionando ao primeiro valor obtido uma 
proporção, obtém-se o segundo elemento e assim sucessivamente. 
Exemplo 1: O interesse é analisar 80 prontuários de um serviço de oncolo-
gia. Sabe-se que neste serviço há 800 prontuários registrados de pacientes ati-
vos. Ou seja 10% dos prontuários serão avaliados. Se dividirmos 800 por 80, te-
remos o número 100. Então sorteia o primeiro número, entre 1 e 800, e a partir 
deste número sorteado pega-se o próximo prontuário depois de 100 prontuá-
rios e faz-se este sistema até obter os 80 prontuários. 
Exemplo 2: Imagine que você tem 500 cadastros arquivados em sua empre-
sa e você quer uma amostra de 2% desses cadastros. Como você obteria uma 
amostra sistemática? 
Se você quer uma amostra de 2% dos 500 cadastros, então você quer uma 
amostra de tamanho 10. Para obter a amostra, você pode dividir 500 por 10, 
obtendo assim 50. Sorteie então um número entre 1 e 50. Esse será o núme-
ro do primeiro cadastro da amostra.Depois, a partir desse número, conte 50 
cadastros e retire o último para constituir a amostra. Proceda dessa forma su-
cessivamente, até completar a amostra. Caso o número sorteado para iniciar a 
amostra for 2, então a amostra será constituída pelos seguintes elementos: 2, 
52, 102, 152, 202, 252, 302, 352, 402,452.
III. Amostragem estratificada: este método é usado quando a população 
está dividida em grupos relativamente homogêneos e mutuamente exclusivos, 
chamados estratos. O objetivo é selecionar amostras aleatórias simples e inde-
pendentes em cada estrato, de acordo com a proporção do estrato na popula-
ção. Veja esquema abaixo:
População
Estrato
1
Estrato
2
Estrato
3
Estrato
4
Figura 1.2
14 capítulo 1
Exemplo: O interesse é avaliar as informações segundo os bairros de uma 
determinada cidade. Considere que, em uma pesquisa do Ministério da Saúde, 
se tenha interesse em saber a quantidade de casos incidentes de dengue, se-
gundo os bairros da cidade de Ribeirão Preto, para fazer uma ação de interven-
ção focada em cada bairro. Neste caso, cada bairro é considerado um estrato, 
então devemos selecionar amostras aleatória simples de cada bairro, para esti-
mar a incidência de casos de dengue em cada bairro da cidade.
IV. Amostragem por conglomerados: este método é usado quando a popu-
lação está dividida em grupos. Primeiro, selecionam-se aleatoriamente alguns 
dos grupos e, em seguida, incluem-se na amostra todos os indivíduos perten-
centes aos grupos selecionados. Trata-se de um processo amostral casual sim-
ples, em que cada unidade é o conglomerado como um todo.
Exemplo: Em uma escola tem-se interesse em pesquisar a opinião sobre a 
merenda escolar e tem-se somente a lista das séries (grupos de alunos). Uma 
amostra por conglomerados poderia ser obtida selecionando-se uma amostra 
aleatória das séries. Cada série é um conglomerado, sendo que dentro de cada 
série deve-se entrevistar todos os alunos.
Considerações sobre o tamanho amostral e representatividade
O tamanho amostral, geralmente tem a mensagem de quanto maior melhor. Mas, 
na verdade, o tamanho amostral engloba, questões operacionais de coleta das 
informações, custos diretos e indiretos e a questão da representatividade. O tamanho 
amostral pode ser determinado por critérios e cálculos estatísticos, as fórmulas são 
bem conhecidas e consolidadas para cada objetivo de estudo, mas na prática o 
tamanho amostral está ligado às condições de custo e operacionalização da coleta 
das informações.
A amostra só traz informação sobre a população da qual foi retirada. Não tem sentido 
nos basearmos em estudos internacionais para fazermos generalizações ou afirmações 
a respeito de características do Brasil. A qualidade da amostra está em quanto ela é 
capaz de representar a população de referência. Uma boa amostra de estudo exige 
experiência em pesquisa e também bom senso, além de muitos outros cuidados que vão 
além deste capítulo.
capítulo 1 15
Margem de erro
A média amostral é utilizada como estimativa da média da população . Na prática constru-
ímos um intervalo de confiança em que existe uma probabilidade estabelecida de conter o 
valor da verdadeira média populacional.
Quando se compara a média amostral com a média populacional considerando uma 
quantidade de re-amostragens relativamente grande, a diferença entre essas duas medidas 
é chamada de erro de amostragem ou margem de erro.
Matematicamente, é definida como: ε µ
x
x= −
Exemplo: Nas eleições para prefeito de uma determinada cidade, era comum nos 
telejornais ouvirmos a expressão “margem de erro” de “mais ou menos” 3% ou 2%. Então, 
se o candidato X tinha uma proporção de intenções de voto de 38%, o intervalo para a 
proporção real de intensões reais na população de eleitores, com uma margem de erro de 
3%, ficava entre ficava entre 36% e 41%. Como os resultados eram baseados em amostras 
retiradas da população de eleitores, a margem de erro é a distância máxima permitida entre 
o valor populacional verdadeiro e o valor amostral, medido na amostra em questão.
1.6 Séries estatísticas
Séries estatísticas são as tabela que apresentam a distribuição de um conjunto 
de dados quantitativos em função do tempo, do espaço ou da espécie. Estas sé-
ries podem ser classificas como séries cronológicas, geográficas e específicas.
Quando se constrói uma tabela o objetivo é resumir os valores de uma ou 
mais variáveis de interesse. As tabelas devem fornecer informações rápidas e 
autoexplicativas. A tabela é um quadro que resume um conjunto de observa-
ções e deve ter obrigatoriamente:
CABEÇALHO DA COLUNA 1 CABEÇALHO DA COLUNA 2
Coluna indicadora da variável 
disposta na linha 1
Casela Casela
Coluna indicadora da variável 
disposta na linha 2
Casela Casela
Tabela 1.1 – Título da tabela 
Fonte dos dados: Origem da informação
Rodapé: colocar informações complementares
16 capítulo 1
Abaixo segue o detalhamento de cada componente da tabela:
Corpo: Conjunto de linhas e colunas que contém informações sobre a ca-
racterística estudada;
Cabeçalho: Parte superior que específica o conteúdo das colunas;
Coluna indicadora: parte que nomeia o conteúdo das linhas;
Casela ou célula: espaço determinado para um único número;
Outros itens, considerados secundários, também são observados nas 
tabelas:
Título: espaço localizado no topo da tabela que informa a respeito das va-
riáveis em estudo;
Fonte: A origem da informação mostrada na tabela;
Rodapé: espaço localizado abaixo da tabela para colocar informações 
complementares referentes aos dados;
Notas: São colocadas no rodapé, referindo-se a aspectos das tabelas em 
ordem numerada.
Chamadas: referem-se a um item específico da tabela.
A seguir são apresentados os exemplos de cada tipo de série:
Série cronológica (histórica): descrevem os valores da característica de inte-
resse, em determinado local, segundo o tempo. Exemplo:
Incidência de tuberculose – Estado de São Paulo
2004-2005
ANOS NÚMERO DE CASOS/ 100 MIL HABITANTES
2004 26,2
2005 24,1
2006 23,8
Tabela 1.2
Fonte: Dados Fictícios
capítulo 1 17
Série geográfica: descrevem os valores da característica de interesse, em de-
terminado local, segundo as unidades geográficas. Exemplo:
Incidência de tuberculose – Estados do Brasil
ESTADO NÚMERO DE CASOS/ 100 MIL HABITANTES
São Paulo 28,4
Minas Gerais 22,5
Espírito Santo 26,9
Tabela 1.3
Fonte: Dados Fictícios
Série específica (categórica): descrevem os valores da característica de in-
teresse, em determinado local e tempo, segundo as categorias de interesse. 
Exemplo:
Incidência de tuberculose – Município de São Paulo-2014
TIPO DE TB NÚMERO DE CASOS/ 100 MIL HABITANTES
Pulmonar 34,2
Extra pulmonar 18,2
Tabela 1.4
Fonte: Dados Fictícios
Há também as séries conjugadas, usadas quando há necessidade de mos-
trar, em uma única tabela, a variação de valores de uma ou mais variáveis, ou 
seja, fazer conjugação de duas ou mais séries. Nas séries conjugadas, utiliza-
mos uma tabela de dupla entrada, com duas ordens de classificação, uma em 
função das linhas e outras em função das colunas.
Exemplo:
Quantidade de casos de câncer de pulmão diagnosticado 
entre os tabagistas – Hospital das Clínicas-2013
TABAGISMO
CÂNCER DE PULMÃO
TOTAL
PRESENÇA AUSÊNCIA
Fumante 2.540 3.020 5.560
Não fumante 460 3.980 4.440
Total 3.000 7.000 10.000
Tabela 1.5
Fonte: Dados Fictícios
18 capítulo 1
Dados absolutos e 
relativos
2
20 capítulo 2
2.1 Percentagens
Quando se trabalha com porcentagens, intuitivamente a ideia é simples, pois 
basta relacionar duas quantidades. É interessante trabalharmos em porcenta-
gens quando temos um total e precisamos entender o quanto um valor repre-
senta dentro do total estudado. São exemplos do uso da porcentagem na práti-
ca: percentual de massa magra em um atleta, percentual de aumento no salário 
mínimo e percentual de aumento da gasolina.
Quando se analisam porcentagens, deve-sesaber quais dados originaram 
tais quantidades, pois a informação primária é importante na interpretação 
dos achados e enriquecimento da discussão destes valores.
Veja o exemplo, para ilustrarmos as propriedades do cálculo de medidas 
percentuais.
Exemplo:
Quantidade de alunos com matrículas 
regulares na cidade Y e no ano de 2013.
ENSINO QUANTIDADE DE ALUNOS
Fundamental 15689
Médio 1486
Superior 485
Total 17660
Tabela 2.1
Dados fictícios
Para calcularmos as porcentagens dos alunos em cada nível de ensino, de-
vemos dividir a quantidade de alunos em cada nível de ensino pelo total e mul-
tiplicar por 100%. Então fazemos da seguinte forma:
Ensino Fundamental: 
15689 100
17660
88 84 89
⋅
= =, %
Ensino Médio: 
1486 100
17660
8 41 8
⋅
= =, %
Ensino Superior: 
485 100
17660
2 75 3
⋅
= =, %
capítulo 2 21
As porcentagens relativas de uma determinada quantidade sempre de-
vem somar 100% e recebem o nome de frequência relativa percentual. Após 
o cálculo, pode-se acrescentar uma nova coluna com os respectivos valores 
percentuais:
Quantidade de alunos com matrículas
regulares na cidade Y e no ano de 2013.
ENSINO QUANTIDADE DE ALUNOS FREQUÊNCIA RELATIVA (%)
FUNDAMENTAL 15689 89%
MÉDIO 1486 8%
SUPERIOR 485 3%
TOTAL 17660 100%
Tabela 2.2
Fonte: Dados fictícios
A coluna de percentagem nos informa que temos 89% dos alunos matricu-
lados no ensino fundamental, 8% no ensino médio e 3% no ensino superior. 
Quando temos interesse em destacar alguma informação, ou seja, saber qual a 
categoria é maioria, a porcentagem nos auxilia diretamente neste entendimen-
to dos valores.
Neste segundo exemplo, temos duas cidades e o interesse está em saber as 
quantidades de uma cidade em função da outra em termos comparativos.
Quantidade de alunos com matrículas
regulares nas cidades 1 e 2, no ano de 2013.
ENSINO
QUANTIDADE DE ALUNOS
CIDADE 1
QUANTIDADE DE ALUNOS
CIDADE 2
FUNDAMENTAL 15689 30450
MÉDIO 1486 10500
SUPERIOR 485 1500
TOTAL 17660 42450
Tabela 2.3
Fonte: Dados fictícios
22 capítulo 2
Realizando os cálculos percentuais e acrescentando mais duas colunas à ta-
bela, teremos uma nova tabela com as seguintes informações:
Quantidade de alunos com matrículas
regulares nas cidades 1 e 2, no ano de 2013.
ENSINO
QUANTIDADE DE 
ALUNOS
CIDADE 1
FREQUÊNCIA 
RELATIVA (%)
CIDADE 1
QUANTIDADE DE 
ALUNOS
CIDADE 2
FREQUÊNCIA 
RELATIVA (%)
CIDADE 2
FUNDAMENTAL 15689 89% 30450 72%
MÉDIO 1486 8% 10500 25%
SUPERIOR 485 3% 1500 4%
TOTAL 17660 100% 42450 100%
Tabela 2.3
Fonte: Dados fictícios
A coluna de percentagem nos informa que temos 89% dos alunos matricula-
dos no ensino fundamental, 8% no ensino médio e 3% no ensino superior para 
a cidade 1. Já para a cidade 2 temos 72% dos alunos matriculados no ensino 
fundamental, 25% no ensino médio e 4% no ensino superior. Podemos compa-
rar os valores entre eles, ou seja, a cidade tem mais estudantes matriculados no 
ensino fundamental do que a cidade 2; já no ensino médio a cidade tem mais 
alunos, em relação ao ensino superior, as quantidades são muito próximas.
2.2 Índices
Os índices são divisões entre duas grandezas tais que uma não inclui a outra, 
ou seja, são grandezas mutuamente exclusivas. Geralmente índices são indica-
dores de desempenho de um setor específico, destinado a representar deter-
minado setor pelo índice de referência. Então, um índice serve para medir a 
valorização ou desvalorização de um determinado setor ao longo do tempo.
Cada índice tem sua própria metodologia de composição e cálculo, que são 
determinadas por seu administrador. O interesse em se criarem novos índices 
está em ter medidas que podem discriminar cenários de interesse.
capítulo 2 23
Por exemplo, o Índice de Vulnerabilidade Juvenil–IVJ (Fonte: Fundação 
SEADE), foi criado com o intuito de entender fatores de vulnerabilidade que 
estão ligados à adolescência e poder administrar ações avaliativas para políti-
cas eficientes em jovens. Este índice considera em sua composição os níveis de 
crescimento populacional e a presença de jovens entre a população, frequência 
à escola, gravidez e violência entre os jovens e adolescentes residentes no local. 
Este indicador varia em uma escala de 0 a 100 pontos, em que o zero representa 
o distrito com menor vulnerabilidade, e 100, o de maior.
2.3 Coeficientes 
Os coeficientes são definidos pela razão entre o número de indivíduos que 
apresentam, ou apresentaram determinada característica em certo pe-
ríodo de tempo entre um total de indivíduos específicos na população de 
interesse.
De forma mais simples, são razões entre o número de ocorrências e o núme-
ro total (número de ocorrências e número de não ocorrências). São exemplos de 
coeficientes:
Coeficiente de mortalidade infantil = 
 nº de óbitos em menores de 1 ano 
 nº de nascidos vivos total 
Coeficiente de mortalidade materna = 
 nº de mortes maternas
 nº de nascidos vivos total 
2.4 Taxas
As taxas são os coeficientes multiplicados por uma potência de 10, 100, 1000 ou 
outro, para deixar o resultado mais fácil de entender. Geralmente a potência faz 
referência à quantidade de habitantes ou indivíduos de interesse. 
24 capítulo 2
Por exemplo:
“Mato Grosso do Sul é o sétimo colocado em ranking de mortes por 
acidente com motocicletas. Segundo divulgação do Ministério da Saúde, 
a taxa de mortalidade no estado é de 11,3 para cada 100 mil habitantes, 
quase o dobro da média nacional.”
Fonte: http://g1.globo.com/mato-grosso-dosul/noticia /2015/05/mato 
-grosso-do-sul-e-7-colocado-em-ranking-de-morte-de-motociclistas.html
Arredondamento de números
Quando a divisão entre dois números não retorna números exatos, precisamos 
fazer arredondamentos, mas o arredondamento de casas decimais deve ser fei-
to com cautela, para evitar que a soma da frequência relativa, não seja superior 
ou inferior a 1 ou 100%.
No primeiro momento, é necessário decidir o número de casas decimais 
que iremos utilizar. Geralmente, frequências relativas percentuais são apre-
sentadas com, no máximo, duas casas decimais, então é necessário descartar 
as demais casas decimais. 
Utilizamos a seguinte regra de arredondamento:
Quando o primeiro algarismo a ser eliminado for menor ou igual a 4 (ou 
seja, for igual a 0, 1, 2, 3 ou 4), o último algarismo a ser mantido permanece 
inalterado. 
Quando o primeiro algarismo a ser eliminado for igual a 5, 6, 7, 8 ou 9, o 
último algarismo a ser mantido é acrescido de 1. 
Por exemplo:
SEXO QUANTIDADE CARGOS DE CHEFIA FREQUÊNCIA RELATIVA
Masculino 20 20/60 = 0,33
Feminino 40 40/60 = 0,67
Total 60 1
Tabela 2.3 – Distribuição dos sexos nos cargos de chefia em uma determinada empresa.
capítulo 2 25
Na distribuição de frequências da variável sexo, temos os seguintes resul-
tados: 20/60 = 0,3333 e 40/60 = 0,66666. Nestes dois casos, a divisão resulta em 
dízima periódica. No primeiro caso, o primeiro algarismo a ser eliminado é 3; 
logo, o último algarismo a ser mantido é 3 e não se altera e o resultado é 0,33. No 
segundo caso, o primeiro algarismo a ser suprimido é 6. Logo, o último algaris-
mo a ser mantido é 6 acrescido de 1 unidade e o resultado é 0,67. 
Na apresentação de tabelas de frequências relativas, é possível que as fre-
quências arredondadas não somem 1. Ou seja, ao se somarem as frequências 
relativas, podem-se encontrar resultados como 0,999 ou 1,01. Essas pequenas 
variações são devidas aos arredondamentos e nem sempre é possível evitá-los, 
mas aceita-se implicitamente que a soma das frequências seja 1 ou 100%.
26 capítulo 2
Organização de 
Dados
3
28 capítulo 3
3.1 Organização de Dados
A estatística serve para coletar, apurar, organizar, analisar e gerar informações. 
Essas informações podem ser sobre custos de medicamentos ou adesão ao tra-
tamento, nível estresse de profissionais de saúde, aferição da pressão arterial, 
níveis séricos de colesterol,dentre outras informações que forem de interesse 
do pesquisador responsável pelo trabalho. O objetivo é entender como essas 
informações podem ser organizadas para facilitar a interpretação dos valores.
As informações ou dados são armazenados em prontuários, cadernos, fichas, 
computadores. Para resgatar as informações, é necessária a construção de um 
banco de dados com as informações pelas quais se tem interesse. Em geral, uti-
lizamos programas que trabalham com banco de dados, como Acess ®, Excel ®, 
entre outros, e, quando temos grandes bancos de dados com milhões de informa-
ções, optamos por plataformas que comportem servidores, como SQL-Oracle ®. 
O banco de dados deve vir acompanhado de códigos dos dados, que são 
dicionários das informações armazenadas nos dados. Por exemplo, caso se 
tenha a informação de sexo do indivíduo, podemos utilizar como nomencla-
tura: masculino e feminino; 1 e 2 (1 = masculino e 2 = feminino), homem e 
mulher; 0 e 1 (0 = sexo masculino e 1 = sexo feminino); F e M (F = feminino e 
M = masculino) e outras mais opções possíveis. O objetivo de codificar a infor-
mação é ter a especificação do código utilizado em cada nível de mensuração 
da variável. Quando temos variáveis contínuas, é interessante saber a unidade 
de medida que estamos utilizando. Por exemplo, caso tenhamos registrado a 
altura do indivíduo, esta pode estar em metros, centímetros ou polegadas.
Os dados devem ser organizados de forma que cada linha seja referente à in-
formação de um determinado indivíduo e nas colunas, as variáveis de interesse, 
como: sexo, altura, peso, pressão arterial entre outras. Conforme exemplo a seguir:
Exemplo: Considere as informações principais sobre os pacientes em estu-
do para uma determinada doença.
SEXO ALTURA PAS ENSINO DOENÇA ...
INDIVÍDUO 1 F 165 120 Superior Presença ...
INDIVÍDUO 2 M 182 110 Médio Presença ...
...
INDIVÍDUO N F 169 90 Médio Ausência ...
Tabela 3.1
capítulo 3 29
Para este exemplo, os metadados devem conter:
Variáveis e níveis:
Sexo: F = feminino; M = masculino;
Altura: Altura medida em centímetros;
PAS: Pressão Arterial Sistólica, medida em mmHg;
Ensino: Grau de escolaridade: fundamental, médio e superior;
Doença: Indica presença e ausência da doença em estudo;
Os códigos devem ser apresentados nos metadados para auxiliar no enten-
dimento das informações coletadas sobre o fenômeno de interesse.
3.2 Tabelas para dados qualitativos
Quando observarmos dados do tipo qualitativos, classificamos cada unidade da 
amostra em uma dada categoria. Nosso conhecimento sobre os dados aumenta 
se sabemos a frequência de valores presentes em cada categoria de informação 
da variável de interesse. A ideia é construir uma tabela com a distribuição das 
frequências em cada categoria.
Exemplo: Qual o número de casos da doença X em uma amostra coletada 
no hospital A?
DOENÇA CONTAGEM
Presença 200
Ausência 50
Total 250
Tabela 3.2
Neste caso, a contagem de pacientes com a doença presente ou ausente, 
é chamada de frequência absoluta, e a porcentagem em relação ao total para 
cada categoria dada em porcentagem é chamada de frequência relativa.
Tem-se interesse em saber o percentual de cada categoria (presença ou au-
sência). Então, podemos acrescentar uma terceira coluna com esta informação 
e atribuir os nomes corretos para as colunas:
30 capítulo 3
CLASSE FREQUÊNCIA ABSOLUTA FREQUÊNCIA RELATIVA
Presença 200 200/250 = 0,80
Ausência 50 50/250 = 0,20
Total 250 1,00
Tabela 3.3
3.3 Tabelas para dados discretos
Caso tenhamos dados discretos, o ideal é apresentarmos estes valores segundo 
uma tabela de distribuição de frequências. Quando uma variável quantitativa 
discreta assume poucos valores distintos, é possível construir uma distribuição 
de frequências da mesma forma que fizemos para as variáveis qualitativas. A 
diferença é que, em vez de termos categorias nas linhas da tabela, teremos os 
distintos valores da variável.
Inicialmente, precisamos colocar os valores em ordem crescente e contar a 
quantidade de vezes em que os valores se repetem. Em seguida, organizamos 
estes valores em uma tabela.
Exemplo: Número de filhos nas famílias cadastradas no Programa Bolsa 
Família do governo federal nos anos de 2013 e 2014, em um determinado muni-
cípio. Suponha que o número máximo de filhos por família seja 7. Obteríamos, 
então, a seguinte distribuição de frequências: 
NÚMERO DE FILHOS
CONTAGEM DO NÚMERO DE FILHOS 
POR FAMÍLIA
FREQUÊNCIA RELATIVA
1 2578 9%
2 4878 16%
3 5813 19%
4 3678 12%
5 4698 16%
6 4583 15%
7 3764 13%
Total 29.992 100%
Tabela 3.4
O processo de construção é análogo para dados qualitativos, mas a variável 
quantitativa, permite acrescentar mais uma informação à tabela. 
capítulo 3 31
Suponha, que temos interesse em abordar somente as famílias com até 3 
filhos. Quantas famílias estão neste critério? Para responder a perguntas des-
se tipo, é costume acrescentar à tabela de frequências uma coluna com as 
frequências acumuladas. 
Calculadas da seguinte forma: para cada valor da variável, contamos quan-
tas ocorrências correspondem a valores menores ou iguais a esse valor. 
NÚMERO DE 
FILHOS
CONTAGEM DO 
NÚMERO DE FILHOS 
POR FAMÍLIA
FREQUÊNCIA 
RELATIVA
FREQUÊNCIA 
ACUMULADA ABSOLUTA
FREQUÊNCIA 
ACUMULADA RELATIVA
1 2578 9% 2578 9%
2 4878 16% 7456 25%
3 5813 19% 13269 44%
4 3678 12% 16947 57%
5 4698 16% 21645 72%
6 4583 15% 26228 87%
7 3764 13% 29992 100%
Total 29.992 100% 29.992 100%
Tabela 3.5
As frequências acumuladas podem ser utilizadas em qualquer tabela de 
frequência, independentemente do tipo de variável. O primeiro número da 
frequência acumulada absoluta é exatamente o primeiro valor da frequência 
absoluta; o segundo valor da frequência acumulada absoluta é o primeiro va-
lor da frequência absoluta acumulada (2578), somado ao segundo valor da 
frequência absoluta (4878). Logo, temos:
Primeiro valor: 2578
Segundo valor: 2578 + 4878 = 7456
Terceiro valor: 7456 + 5813 = 13269 e assim sucessivamente até o final da 
tabela.
Para se obter as frequências absolutas, veja o esquema abaixo:
NÚMERO DE FILHOS
FREQUÊNCIA 
ABSOLUTA
FREQUÊNCIA ACU-
MULADA ABSOLUTA
FREQUÊNCIA 
RELATIVA
FREQUÊNCIA ACU-
MULADA RELATIVA
1 2578 2578 9% 9%
2 4878 7456 16% 25%
3 5813 13269 19% 44%
Tabela 3.4
32 capítulo 3
A frequência acumulada absoluta e relativa nos dão ideia a respeito do acú-
mulo de informações nos dados. E podemos representá-las por um gráfico de 
colunas, por exemplo.
A única diferença, neste caso, é que, no eixo horizontal do gráfico, é repre-
sentada a escala da variável quantitativa, que deve ser definida cuidadosamente 
de modo a representar corretamente os valores. 
25
20
15
1 2 3 4 5 6 7
Número de filhos
Fr
eq
uê
nc
ia
 r
el
at
iv
a 
(%
)
10
5
0
Figura 3.1 – Distribuição do número de filhos
3.4 Tabelas para dados contínuos
Os dados contínuos também podem ser agrupados em uma tabela de distri-
buição de frequências. O processo de construção da tabela de frequências para 
dados contínuos segue algumas etapas bem definidas:
1. Encontre o valor máximo e o valor mínimo do seu conjunto de dados;
2. Calcule a amplitude total, dada pela diferença do valor máximo pelo 
valor mínimo Amplitude = Valor máximo – Valor mínimo.
3. Divida a amplitude dos dados pelo número de faixas que quer dividir os 
seus dados. Os limites devem ser estabelecidos com base na natureza, valores e 
unidade de medida dos dados, e essas faixas recebem o nome de classes. 
As classes precisam obedecer a algumas regras:
– Devem ser exaustivas, ou seja, todos os elementos devem obrigatoriamen-
te pertencer a alguma classe.
capítulo 3 33
– Devem ser mutuamente exclusivas, ou seja, cada elemento só pode perten-
cer a uma única classe.
4. O resultado da divisão da amplitude pelo número de classes é igual ao 
intervalo de classes, e, sempre quando este valor não for um número inteiro, 
arredondamos paraum valor mais alto, para facilitar o trabalho.
5. Última etapa é organizar as classes de forma que contemple o menor 
valor observado e o maior valor.
No entanto, para garantir a inclusão dos valores mínimo e máximo, po-
demos, como regra geral, usar o seguinte procedimento: considere o primei-
ro múltiplo do número de classes maior que o valor da amplitude e use esse 
número como a nova amplitude. Por exemplo, se a amplitude for 28 e quiser-
mos trabalhar com cinco classes, vamos considerar 30 como a nova amplitude. 
Dividindo esse valor pelo número de classes, obtemos o comprimento de cada 
classe. Os limites de classe podem ser obtidos somando-se o comprimento de 
classe a partir do valor mínimo dos dados. Continuando com o nosso exemplo, 
o comprimento de classe é 40 ÷ 5 = 8; se o valor mínimo dos dados for 2, então 
os limites de classe serão: 
2 + 8 = 10
10 + 8 = 18
18 + 8 = 26
26 + 8 = 34
34 + 8 = 42
Logo, as classes serão: [2,10) [ 10,18) [18,26) [26,34) [34,42)
Note o tipo de intervalo utilizado: para incluir o valor mínimo, 2, na primei-
ra classe, o intervalo deve ser fechado no extremo inferior: [2. Se fechássemos o 
intervalo no limite superior, o 10 estaria incluído na primeira classe e, portan-
to, não poderia estar na segunda classe. Isso resultaria em [2, 10] como a pri-
meira classe e (10, 18) como a segunda classe. Assim, as duas primeiras classes 
estariam definidas de forma diferente, o que não é conveniente, pois dificulta-
ria a leitura da tabela. É preferível incluir o 10 na segunda classe, o que resulta 
nas classes apresentadas.
34 capítulo 3
Exemplo: Tem-se interesse em estudar o peso em quilogramas, atual dos 
filhos das famílias cadastradas no Programa Bolsa Família do governo federal 
no ano de 2013 e 2014, em um determinado município, com 29.992 filhos de 
famílias cadastradas. Suponha que o menor peso é 23,520 e o maior peso seja 
63,600. Então, temos:
Amplitude total = 63,600 – 23,520 = 40,080 kg
O interesse é dividir em 4 classes, então 40,080/4 = 10,020
Os limites de classe seriam:
23,520 + 10,020 = 33540
33,540 + 10,020 = 43,560
43,560 + 10,020 = 53,580
53580 + 10,020 = 63,600
As classes seriam definidas por:
[23,520; 33,540): incluído o peso 23,520 e excluído 33,540
[33,540;43,560): incluído o peso 33,540 e excluído 43,560
[43,560;53,580): incluído o peso 43,560 e excluído 53,580
[53,580;63,600]: incluído o peso 53,580 e o 63,600
Então, obtemos a seguinte tabela de frequência:
FAIXAS DE PESO
CONTAGEM DO NÚMERO DE FILHOS 
POR PESO
FREQUÊNCIA RELATIVA
23,520 |- 33,540 9.580 32%
33,540 |- 43,560 12.560 42%
43,560 |-53,580 6.487 22%
53,580 |-63,600 1.365 5%
Total 29.992 100%
Tabela 3.6
Caso o interesse esteja em determinar filhos com peso até 53,580 kg, como 
podemos proceder? Neste caso, devemos acrescentar as colunas referentes às 
frequências acumuladas. Veja:
capítulo 3 35
FAIXAS DE PESO
CONTAGEM DO 
NÚMERO DE FILHOS 
POR PESO
FREQUÊNCIA 
RELATIVA
FREQUÊNCIA
ACUMULADA 
ABSOLUTA
FREQUÊNCIA
ACUMULADA 
RELATIVA
23,520 |- 33,540 9.580 32% 9.580 32%
33,540 |- 43,560 12.560 42% 22.140 74%
43,560 |-53,580 6.487 22% 28.627 95%
53,580 |-63,600 1.365 5% 29.992 100%
Total 29.992 100% 29.992 100%
Tabela 3.7
Qual o percentual de filhos com peso até 53,580 kg? Com base na tabela de 
distribuição de frequência acumulada, temos 95% das famílias cadastradas no 
programa com filhos até 53,580 kg.
3.5 Gráficos
O gráfico bem construído dispensa explicações complicadas, e poupa tempo 
no entendimento da informação. A representação gráfica dos dados estatís-
ticos tem por objetivo apresentar de forma rápida e concisa os resultados ob-
tidos, permitindo-se chegar a conclusões sobre a evolução do fenômeno ou 
sobre como se relacionam as variáveis de interesse. Existem várias maneiras 
de representar graficamente os dados estatísticos, de acordo com os tipos de 
variáveis.
Nota: Caso o gráfico esteja difícil de entender e necessite de uma explicação 
ou extensa legenda, ele se torna uma ferramenta inútil.
3.5.1 Gráfico de setores
Para construir e gráficos para séries cronológicas, geográficas e específicas, 
precisamos calcular as frequências relativas das categorias. A frequência relati-
va (fi) de uma categoria é dada por fi
Frequência na categoria
Número total de observações
= . 
36 capítulo 3
O gráfico de setores é um diagrama circular em que os valores de cada cate-
goria estatística representada são proporcionais às respectivas frequências ou 
frequências relativas. Para construir um gráfico de setores, é necessário deter-
minar o ângulo dos setores circulares correspondentes à contribuição percen-
tual de cada valor no total. 
Exemplo: Considere um problema de pesquisa de opinião. Nessa pesquisa, 
280 alunos de uma universidade foram consultados a respeito de suas opiniões 
sobre o desempenho de um professor de estatística. Na tabela a seguir, temos 
as frequências observadas e as frequências relativas para cada categoria de res-
posta (Bom, Regular, Péssimo).
Pesquisa de opinião sobre o desempenho do professor de estatística
RESPOSTA FREQUÊNCIA FREQUÊNCIA RELATIVA
BOM 152 152/280 = 0,543
REGULAR 77 77/280 = 0,275
PÉSSIMO 51 51/280 = 0,182
TOTAL 280 1
Tabela 3.8
Para determinarmos o ângulo proporcional da frequência relativa, vamos 
acrescentar uma nova coluna com os cálculos dos graus, que serão obtidos da 
multiplicação da frequência relativa por 360° (trezentos e sessenta graus), cor-
respondentes ao ângulo de uma circunferência completa:
Pesquisa de opinião sobre o desempenho do professor de estatística
RESPOSTA FREQUÊNCIA FREQUÊNCIA RELATIVA GRAUS
BOM 152 152/280 = 0,543 0,543 · 360º = 195,5º
REGULAR 77 77/280 = 0,275 0,275 · 360º = 99º
PÉSSIMO 51 51/280 = 0,182 0,182 · 360º = 65,52º
TOTAL 280 1 360º
Tabela 3.9
capítulo 3 37
Após obtermos os graus, o próximo passo é desenhar o gráfico de setores 
com os graus correspondentes a cada categoria:
18%
54%
28%
Figura 3.2 – Gráfico de setores: Pesquisa de opinião sobre o desempenho do professor 
de estatística
3.5.2 Diagrama de linha
Este tipo de gráfico se utiliza da linha poligonal para representar a série estatís-
tica. O gráfico em linha deve ser apresentado em um plano cartesiano. O plano 
de coordenadas cartesianas é composto por duas retas perpendiculares: a reta 
na vertical é denominada eixo das ordenadas (ou eixo y), e a reta na horizontal é 
denominadas eixo das abcissas (ou eixo x). Geralmente utilizamos este gráfico 
para expressar evolução em determinado tempo de um mesmo fenômeno.
Exemplo: Considere os casos de incidência de tuberculose no estado de São 
Paulo, entre os anos de 2004 a 2010, por 100 mil habitantes.
Incidência de tuberculose - Estado de São Paulo 2004-2005
ANOS NÚMERO DE CASOS/ 100 MIL HABITANTES
2004 26,2
2005 24,1
2006 23,8
2007 28,9
2008 29,5
2009 30,1
2010 32,5
Tabela 3.9
Fonte: Dados Fictícios
38 capítulo 3
Vamos determinar, graficamente, todos os pontos da série. Usando as co-
ordenadas, ligamos todos esses pontos, dois a dois, por segmentos de reta. 
Unidos, os pontos, nos dão o gráfico em linha, conforme figura abaixo.
25
30
35
20
15
2004 2005 2006 2007 2008 2009 2010
Anos
N
ú
m
e
ro
 d
e
 c
a
s
o
s
/
1
0
0
 m
il
 h
a
b
it
a
n
te
s
10
5
0
Figura 3.3 – Gráfico em linha: Incidência de tuberculose –Estado de São Paulo
3.5.3 Gráfico em colunas ou barras
O gráfico de coluna é exibido em um plano cartesiano e é representado por 
meio de retângulos, dispostos na vertical ou na horizontal. Caso esteja dispos-
to na vertical, os retângulos têm a mesma base, e a altura é proporcional aos 
respectivos valores da frequência relativa dos dados. Quando dispostos na hori-
zontal, os retângulos têm a mesma altura e os comprimentos são proporcionais 
aos respectivos valores da frequência relativa dos dados.
Exemplos: Considere a taxa de incidência da AIDS no município de São 
Paulo, segundo os sexos, para os anos de 2000a 2010.
50
60
70
40
30
20042003200220012000 2005 2006 2007 2008 2009 2010
Anos
In
ci
d
ê
n
ci
a
 A
ID
S
 p
o
r 
1
0
0
 m
il 
h
a
b
.
20
10
0
Feminino Masculino
Figura 3.3 – Gráfico de barras verticais: Incidência de AIDS no município de São Paulo, se-
gundo os sexos, para os anos de 2000 a 2010.
capítulo 3 39
3.5.4 Cartogramas
 O cartograma é a representação sobre uma carta geográfica. Este gráfico é uti-
lizado quando o interesse é o de figurar os dados estatísticos diretamente rela-
cionados com informações geográficas ou políticas.
Há duas aplicações para os cartogramas:
1. Representar dados absolutos em termos populacionais – neste caso uti-
lizamos pontos em número proporcional aos dados, ou com suas localizações 
geográficas.
2. Representar dados relativos – neste caso utilizamos cores ou hachuras.
Exemplo 1: Dados do médico higienista John Snow, em 1854, foi o mapea-
mento dos casos de morte por cólera relacionando-os à localização das bombas 
de abastecimento de água, que até então ficavam nas ruas, no bairro Soho, na 
Inglaterra.
Figura 3.4 – Cartograma: Mapeamento elaborado por John Snow -Epidemia de cólera.
40 capítulo 3
Exemplo 2: Considere a taxa de prevalência de adultos vivendo com o vírus 
da imunodeficiência humana no mundo. (Fonte: UNAIDS)
Figura 3.5 – Cartograma: Taxa de prevalência de adultos vivendo com HIV no mundo
Medidas de 
Tendência Central
4
42 capítulo 4
4.1 Conceituação
A Estatística Descritiva, é o método que descreve, organiza e resume as informa-
ções dos dados. São métodos específicos para resumir informações da amostra 
ou população, disponíveis sobre o comportamento de uma ou mais variáveis de 
interesse.
Dentro das estatísticas descritivas, temos dois grupos de medidas resumo, 
sendo elas medidas de posição (ou localização) e medidas de dispersão (ou varia-
bilidade). Estas medidas reduzem uma série estatística a alguns valores, cuja in-
terpretação fornece uma compreensão sobre o conjunto de dados que as originou.
Definimos medidas estatísticas como valores numéricos calculados sobre 
o conjunto de valores observados em uma amostra para uma variável do tipo 
quantitativa. A interpretação destas medidas fornece informações sobre o com-
portamento da variável naquele conjunto de dados.
As medidas de posição são medidas ao redor das quais as observações ten-
dem a se agrupar. Ex: média, mediana e moda. Já as medidas de dispersão me-
dem a variabilidade dos dados. Ex: variância e desvio-padrão.
Nesta unidade iremos trabalhar os conceitos de medidas de posição, para 
entendermos a aplicação destas ferramentas.
4.2 Média Aritmética
A média aritmética é um conceito bastante familiar e intuitivo. Desde criança 
já temos uma noção de média. Por exemplo, se dermos 4 balas para duas crian-
ças, e pedirmos para elas dividirem de forma igual as quantidades, elas intuiti-
vamente atribuirão duas balas para cada uma.
A média amostral é denotada por x. Considere o exemplo abaixo para discu-
tirmos o conceito de média aritmética.
Exemplo: Considere X como sendo a massa corporal ( em quilogramas) de 
10 escolares de uma sala de aula.
Então X é variável de interesse definida como peso.
x
1
 = 38,0 x
2
 = 40,0 x
3
 = 49,0 x
4
 = 35,0 x
5
 = 38,0 x
6
 = 52,0 x
7
 = 44,0 
x
8
 = 47,0 x
9
 = 50,0 x
10
 = 47,0
capítulo 4 43
Então a média será definida por:
1 38 40 49 35 38 52 44 47 50 47
10
440
10
44 0
1
10
n
x k
i
i
=
∑ =
+ + + + + + + + +
= = , g
A média do peso entre os escolares é de 44,0 kg.
i
i
x
=
∑
1
10
 = Lê-se somatória de todos os pesos variando de 1 a 10 escolares.
Considere dados em que as informações estejam agrupadas em tabelas de 
frequência; neste caso, a média é obtida de outra maneira. Veja o exemplo para 
dados agrupados sem intervalos de classe.
Suponha que temos a variável discreta número de carros por família, em um 
determinado condomínio de prédios.
NÚMERO DE CARROS (x
i
) QUANTIDADE (f
i
)
0 15
1 40
2 30
3 15
4 10
Total 110
Tabela 4.1
Para dados agrupados, a média é definida como:
1
1
n
x
i
i
=
∑ ⋅
n
i
f
Para o nosso exemplo, podemos acrescentar uma coluna com a multiplica-
ção de x
i
 por f
i
.
NÚMERO DE CARROS (x
i
) QUANTIDADE (f
i
) x
i
 · f
i
0 15 0
1 40 40
2 30 60
3 15 45
4 10 40
Total 110 185
Tabela 4.2
44 capítulo 4
Logo, a média será definida por:
1
110
185
110
1 68 2
1
110
i
i i
x f carros
=
∑ ⋅ = = =, ɶ
Como não falamos em 1,68 carros, logo cada morador tem em média 2 carros.
Agora considere dados agrupados com intervalos de classe. Por exemplo, 
considere uma sala com 45 alunos do curso de engenharia da computação. Na 
tabela abaixo está representada a distribuição das notas em cálculo diferencial 
e integral, no primeiro semestre do curso.
NOTAS (0-10) QUANTIDADE DE ALUNOS (f
i
)
0 |-- 2 5
2 |-- 4 8
4 |-- 6 12
6 |-- 8 15
8 |-- 10 5
Total 45
Tabela 4.3
Para dados agrupados, a média é definida por:
1
1
n
x
i
i
=
∑ ⋅
n
i
f
Entretanto, neste caso, não temos os valores de x
i
, pois as notas estão agru-
padas em classes de informações, então x
i
 é obtido calculando-se o ponto mé-
dio de cada intervalo de classe:
x
Li Ls Limite inferior Limite superior
i
=
+
=
+
2 2
Então, temos:
NOTAS (0-10)
QUANTIDADE DE ALUNOS 
(f
i
)
x
i
x
i
 · f
i
0 |-- 2 5 1 5
2 |-- 4 8 3 24
4 |-- 6 12 5 60
6 |-- 8 15 7 105
8 |-- 10 5 9 45
Total 45 239
Tabela 4.4
capítulo 4 45
Em que a média
1
45
293
45
5 31
1
110
i
i i
x f
=
∑ ⋅ = = , pontos
Logo, os alunos de engenharia da computação tiveram em média 5,31 pon-
tos na prova de cálculo integral e diferencial.
Propriedades importantes sobre a média
A média é a medida resumo mais comumente usada. Ela tem algumas propriedades muito 
interessantes que viabilizam e aumentam seu uso.
1. Translação de medida
Exemplo: Considere X, como sendo a mensuração da pressão arterial diastólica em 
6 mulheres.
x
1
 = 160 x
2
 = 120 x
3
 = 110 x
4
 = 140 x
5
 = 130. Neste caso, a média x =132.
Depois de um tempo se verificou que a mensuração havia sofrido um erro de aferição e 
que deveriam ser subtraídas 10 unidades de cada mensuração, levando aos novos valores:
x 
1
= 150 x
2
 = 110 x
3
 = 100 x
4
 = 130 x
5
 = 120. Neste caso, a média x = 122.
Reparem que a média também diminuiu em 10 unidades. E quando há translação da 
medida, ou seja, deslocamento de todos os valores em uma mesma quantidade, a média 
também se desloca na mesma quantidade de unidades.
2. Mudança na unidade de medida
Exemplo: Considere X, como sendo o peso em gramas de 6 ratos da linhagem wistar, 
em um determinado laboratório de pesquisa.
x
1
 = 1400 x
2
 = 1200 x
3
 = 800 x
4
 = 900 x
5
 = 1300 x
6
 = 1600. Neste caso, a 
média x = 1200 gramas.
O responsável pelo laboratório quer a média em quilogramas, e não em gramas. E 
teremos:
x
1
 = 1,400 x
2
 = 1,200 x
3
 = 0,8 x
4
 = 0,9 x
5
 = 1,300 x
6
 = 1,600. Neste caso a 
média x = 1,2 kg
Reparem que a média também sofreu a mudança da unidade de medida, somente 
modificando a casa decimal. Então, quando há mudança na unidade de medida da variável 
de interesse, a média também sofre mudança da casa decimal sem precisar recalcular a 
média novamente.
46 capítulo 4
4.3 Mediana
A mediana é o valor que ocupa exatamente a posição central da série de valores 
ordenados, em que metade dos valores é maior ou igual à mediana, enquanto 
a outra metade é menor ou igual a ela. Em outras palavras, a mediana de um 
conjunto de dados é o valor situado exatamente no meio da distribuição de va-
lores, e separa o conjunto de dados em dois subconjuntos de mesmo número 
de elementos. Considere o exemplo.
Exemplo: Seja X as notas da prova de matemática de uma amostra de n = 13 
adolescentes, do quinto ano do ensino fundamental.
x
1
 = 9x
2
 = 5 x
3
 = 7 x
4
 = 5,5 x
5
 = 6 x
6
 = 7,5 x
7
 = 8 x
8
 = 9 x
9
 = 10 x
10
 = 7 
x
11
 = 8 x
12
 = 10 x
13
 = 7
Para obtermos a mediana, o primeiro passo é ordenar os valores em ordem 
crescente.
3. Ordenar todos os valores
 5 5,5 6 7 7 7 7,5 8 8 9 9 10 10
4. O segundo passo é encontrar exatamente o termo que divide a série de 
valores no meio.
 5 5,5 6 7 7 7 7,5 8 8 9 9 10 10
Neste caso, a mediana será o valor 7,5, denotado por md = 7,5. Ou seja, me-
tade dos valores é maior ou igual a 7,5 e a outra metade é menor ou igual a este 
valor.
Agora vamos supor que nossa amostra foi composta pelas notas da prova de 
matemática de uma amostra de n = 12 adolescentes, do quinto ano do ensino 
fundamental. Então temos a seguinte situação:
x
1
 = 9 x
2
 = 5 x
3
 = 7 x
4
 = 5,5 x
5
 = 6 x
6
 = 7,5 x
7
 = 8 x
8
 = 9 x
9
 = 10 x
10
 = 7 
x
11
 = 8 x
12
 = 10 
capítulo 4 47
1. Ordenar todos os valores.
 5 5,5 6 7 7 7 7,5 8 8 9 9 10
2. Encontrar exatamente o termo que divide a série de valores ao meio.
 5 5,5 6 7 7 7 7,5 8 8 9 9 10
Como se trata de uma amostra com o número de elementos sendo par, a 
mediana é dada pela média aritmética dos termos centrais. Ou seja,
1 7 7 5
2
14 5
2
7 25
1
10
n
x
i
i
=
∑ =
+
= =
, ,
,
Em que a mediana é igual a 7,25 pontos.
Caso os dados estejam agrupados em tabelas de frequência, o cálculo da 
mediana se faz de modo bastante semelhante para quando os dados não estão 
agrupados. Veja o exemplo para dados agrupados sem intervalos de classe.
Suponha que temos a variável discreta número de carros por família, em um 
determinado condomínio de prédios.
NÚMERO DE CARROS (x
i
) QUANTIDADE (f
i
) 
0 15
1 40
2 30
3 15
4 10
Total 110
Tabela 4.5
Para dados agrupados, a mediana é definida como o valor que divide a dis-
tribuição em dois grupos que contenham o mesmo número de elementos. Para 
isto, é necessário sabermos a metade da distribuição de frequências:
1
2
∑fi
48 capítulo 4
Para o nosso exemplo, podemos acrescentar uma coluna com a distribuição 
acumulada, para identificar a metade da distribuição.
NÚMERO DE CARROS (x
i
) QUANTIDADE (f
i
) QUANTIDADE ACUMULADA (f
i
)
0 15 15
1 40 55
2 30 85
3 15 100
4 10 110
Total 110 185
Tabela 4.6
Sendo
 
1
2
110
2
∑ =fi = 55
A classe que tem o valor 55 é classe com o valor de 1 carro por morador.
Neste caso, a mediana é dada por md
x x
i i
=
+ +1
2
, ou seja, a mediana será 
dada pela média aritmética entre o valor da variável correspondente ao valor da 
frequência acumulada e o seguinte intervalo.
Logo,
md = =
+1 2
2
1 5,
Então, a mediana é igual a 1,5 carros por morador no condomínio.
Nota: Caso a 
1
2
∑fi não corresponda a nenhuma classe, então a mediana será exatamente o valor 
da próxima classe de valores.
Exemplo:
NÚMERO DE CARROS (x
i
) QUANTIDADE (f
i
) QUANTIDADE ACUMULADA (f
i
)
0 15 15
1 30 45
2 40 85
3 15 100
4 10 110
Total 110 185
Tabela 4.7
Logo, 
1
2
55∑ =fi , e a menor frequência acumulada após o valor 55, é 85. Então, a mediana é dada 
pelo valor 2 da variável número de carros, em que md = 2.
capítulo 4 49
Agora considere dados agrupados com intervalos de classe. Neste caso, o 
problema está em determinar o ponto do intervalo em que está compreendida 
a mediana. Inicialmente, precisamos determinar a classe mediana, que será 
aquela correspondente à frequência acumulada imediatamente superior a
1
2
∑fi. Depois, o problema se resume em interpolação de valores, supondo que 
os valores se distribuem uniformemente em todo o intervalo de classe.
Por exemplo, considere uma sala com 45 alunos do curso de engenharia da 
computação; na tabela abaixo está representada a distribuição das notas em 
cálculo diferencial e integral, no primeiro semestre do curso.
NOTAS (0-10) QUANTIDADE DE ALUNOS (f
i
)
0 |-- 2 5
2 |-- 4 8
4 |-- 6 12
6 |-- 8 15
8 |-- 10 5
Total 45
Tabela 4.8
Logo, a classe mediana é descoberta por 
1
2
22 5∑ =fi , . Então, a classe me-
diana será:
NOTAS (0-10) QUANTIDADE DE ALUNOS (f
i
) FREQUÊNCIA ACUMULADA (F
i
)
0 |-- 2 5 5
2 |-- 4 8 13
4 |-- 6 12 25
6 |-- 8 15 40
8 |-- 10 5 45
Total 45
Tabela 4.9
Como há 25 valores incluídos nas três primeiras classes e precisamos deter-
minar o valor que ocupa 22,5 posição, este deve estar localizado na terceira classe.
A mediana é obtida considerando-se a seguinte fórmula:
md Li
f F ant h
f*
i
= +
− ( ){ }⋅∑12
Em que:
Li = limite inferior da classe mediana
F(ant) = frequência acumulada da classe 
anterior à classe mediana
f* = frequência simples da classe mediana
h = amplitude do intervalo da classe mediana
50 capítulo 4
Então, para o nosso exemplo, temos md = +
−{ }⋅
=4
22 5 13 2
12
5 58
,
, pontos 
em cálculo diferencial e integral. 
Diferenças importantes entre média e mediana
Na prática de resumo de informações, quando devemos usar média ou mediana para 
sumarizar as informações de uma determinada amostra?
Considere o exemplo:
Exemplo: Em um determinado condomínio residencial, X é a renda per capita de alguns 
condôminos em reais.
x
1
 = 450 x
2
 = 500 x
3
 = 520 x
4
 = 550 x
5
 = 600 x
6
 = 850 x
7
 = 900 x
8
 = 910 
x
9
 = 980 x
10
 = 1000 
Neste caso, a média x = 726 e a mediana Md = 725. Qual a melhor medida para 
descrever essas informações?
Vale notar que temos dois agrupamentos, um com renda per capita que varia de 450 á 
600 reais e outro agrupamento que varia de 850 a 1000 reais. O ideal, neste caso, é tratar 
estas informações subdivididas em grupos. Talvez este grupamento fosse devido à classe 
social ou ao tamanho dos apartamentos. Então, nem a média e nem a mediana seriam uma 
boa medida resumo para estes dados, se eles forem considerados todos juntos.
Outra informação interessante seria que talvez tivéssemos registrado o valor 
x
10
 = 1000 de forma equivocada e, na verdade, este valor fosse x
10
 = 10.000. Qual valor 
mudaria a média ou a mediana?
Neste caso, somente a média mudaria; a mediana continuaria a mesma. Deste 
comportamento deriva outra diferença importante, a média, que é influenciada por valores 
extremos, enquanto a mediana não é influenciada por valores extremos. Então, dizemos que 
a mediana é uma estatística robusta, que não é influenciável por valores atípicos.
capítulo 4 51
4.4 Moda
A moda é definida como a observação mais frequente na amostra. Considere o 
exemplo:
Exemplo 1: Seja Y o número de filhos de cada casal que vive em determi-
nado bairro de São Paulo. Retiramos uma amostra de 8 casais deste bairro e 
observamos a quantidade de filhos.
y
1
 = 2 y
2
 = 1 y
3
 = 3 y
4
 = 2 y
5
 = 2 y
6
 = 3 y
7
 = 1 y
8
 = 2
Neste caso, a moda é igual a 2, denotada por mo = 2 filhos.
Exemplo 2: Seja Y o número de filhos de cada casal que vive em determina-
do bairro de São Paulo. Retiramos uma amostra de 8 casais deste bairro.
y
1
 = 2 y
2
 = 1 y
3
 = 1 y
4
 = 2 y
5
 = 2 y
6
 = 1 y
7
 = 1 y
8
 = 2
Neste caso, temos duas modas, o valor 1 e o valor 2, e chamamos a distribui-
ção de bimodal. Em alguns casos, podemos ter várias modas, então a série de 
valores será bimodal, trimodal, e assim por diante.
Exemplo 3: Seja Y o número de filhos de cada casal que vive em determina-
do bairro de São Paulo. Retiramos uma amostra de 5 casais deste bairro.
y
1
 = 1 y
2
 = 2 y
3
 = 3 y
4
 = 4 y
5
 = 5
Neste caso, alguns autores dizem que a série de valores não tem moda e ou-
tros autores dizem que a série de valores tem 5 modas. Então, não há um con-
senso sobre este tipo de informação.Caso os dados, estejam agrupados em tabelas de frequência, é possível de-
terminar a moda facilmente, pois é só identificar o valor da variável de maior 
frequência.
Considere o exemplo para dados agrupados sem intervalos de classe. 
Suponha que temos a variável discreta número de carros por família, em um 
determinado condomínio de prédios.
52 capítulo 4
Logo, a moda corresponde ao valor do número de carros, pois tem a maior 
frequência.
NÚMERO DE CARROS (x
i
) QUANTIDADE (f
i
)
0 15
1 40
2 30
3 15
4 10
Total 110
Tabela 4.10
Agora considere dados agrupados com intervalos de classe. A classe com 
maior frequência é denominada classe modal. Neste caso, é o valor dominante 
que está compreendido entre os limites do intervalo de classe, da classe mo-
dal. O método mais simples está em determinar a moda com o ponto médio da 
classe modal:
Moda
Li Ls Limite inferior Limite superior
=
+
=
+
2 2
Por exemplo, considere uma sala com 45 alunos do curso de engenharia da 
computação; na tabela abaixo está representada a distribuição das notas em 
cálculo diferencial e integral, no primeiro semestre do curso.
NOTAS (0-10) QUANTIDADE DE ALUNOS (f
i
)
0 |-- 2 5
2 |-- 4 8
4 |-- 6 12
6 |-- 8 15
8 |-- 10 5
Total 45
Tabela 4.8
Na classe modal, o intervalo de classe compreende entre 6 e 8, logo a moda 
é definida por:
Moda pontos=
+
= =
6 8
2
14
2
7
capítulo 4 53
4.5 Quartil, decil e percentil
A média é uma medida que pode ser influenciada por valores extremos. Quan-
do sabemos que a série estatística em estudo não é simétrica, podemos optar 
pelo uso dos quartis, pois, sendo a média influenciada por valores extremos, ela 
pode superestimar ou subestimar as quantidades em estudo. Mas os quartis, os 
decis e os percentis só podem ser obtidos para os dados originais sem tabula-
ção em tabelas em frequência.
Quartis
Os quartis são três valores que dividem a distribuição dos dados em quatro 
partes iguais quanto ao número de elementos de cada uma. Dado um conjunto 
ordenado de valores, definimos então:
a) Primeiro quartil (Q1): 25% das observações são menores que o primeiro 
quartil;
b) Segundo quartil (Q2) ou Mediana: 50% são menores que o segundo 
quartil;
c) Terceiro Quartil (Q3): 75% são menores que o terceiro quartil.
Exemplo: Considere o percentual de gordura medido em 15 atletas fisicul-
turistas, 2 semanas antes de um campeonato internacional.
7,5 4,6 8,2 10 11 5,5 6 6,3 5,6 8,9 
9,2 9,1
7,3 8,2 7,8
1º Passo: Ordenar os valores:
4,6 5,5 5,6 6 6,3 7,3 7,5 7,8 8,2 8,2 
8,9 9,1
9,2 10 11
2º Passo: Determinar exatamente o termo que divide a distribuição dos va-
lores em duas partes iguais, com a mesma quantidade de informação.
4,6 5,5 5,6 6 6,3 7,3 7,5 7,8 8,2 8,2 
8,9 9,1
9,2 10 11
Neste caso, a mediana ou Q2 = 7,8.
54 capítulo 4
Para determinarmos o Q1 e o Q3, respectivamente, é só encontrarmos os 
valores centrais respectivos aos 50% dos valores menores e aos 50% dos valores 
maiores.
Considere somente os 50% valores menores.
4,6 5,5 5,6 6 6,3 7,3 7,5 7,8
Q1 estará entre 6 e 6,3. Então, fazemos uma média destes valores e Q1 = 6,15
Considere somente os 50% valores maiores.
7,8 8,2 8,2 8,9 9,1 9,2 10 11
Q3 estará entre 8,9 e 9,1. Então, fazemos uma média destes valores e Q3 = 9.
Decil
Os decis dividem a distribuição em décimos, ou seja, dado um conjunto or-
denado de valores, definimos:
a) Primeiro decil: 10% das observações são menores que o primeiro decil;
b) Segundo decil: 20% são menores que o segundo quartil, e assim por 
diante, até termos 100% das informações da amostra.
Exemplo: Considere o percentual de gordura medido em 20 atletas fisicul-
turistas, 2 semanas antes de um campeonato internacional.
7,5 4,6 8,2 10 11 5,5 6 6,3 5,6 8,9
7,3 8,2 7,8 10 7,5 6,5 5,9 6,5 7,6 8,5
1º Passo: Ordenar os valores em ordem crescente:
4,6 5,5 5,6 5,9 6 6,3 6,5 6,5 7,3 7,5
7,5 7,6 7,8 8,2 8,2 8,5 8,9 10 10 11
O primeiro decil indica que 10% das observações são menores que ele. Ou 
seja, o primeiro decil será dado pela média aritmética entre 5,5 e 5,6, que será 
5,55. Logo, teremos o segundo decil, dado por 5,95, e o terceiro decil, dado por: 
6,4, e assim sucessivamente.
Percentil
Os percentis são medidos em percentual. Dado um conjunto ordenado de 
valores, definimos:
capítulo 4 55
a) 95% = 95°. Percentil da distribuição da série de valores, ou seja 95% das 
observações são menores que este valor.
Nota: 50° percentil é a mediana, o 25° percentil é o primeiro quartil e o 75° 
percentil é o terceiro quartil (q3).
Em termos gerais, podemos definir uma medida chamada p-quantil indica-
da por q(p), em que p é uma proporção qualquer , dentro de um intervalo de 0 a 
1, ou seja, 0 < p < 1, tal que 100% p das observações sejam menores do que q(p) 
(Bussab e Morettin, 2004).
56 capítulo 4
Medidas de 
Dispersão
5
58 capítulo 5
5.1 Conceituação
Além das medidas de centralidade, é importante conhecer o espalhamento ou 
variabilidade dos dados. Por exemplo, supor que um estudo contenha indivídu-
os menores de 2 anos de idade, conjuntamente com idosos de mais de 70 anos. 
Neste caso, não seria apropriado sumarizar os dados dizendo que a média de 
idade das pessoas afetadas é de 30 anos. Precisamos de uma medida de variabi-
lidade ou espalhamento dos dados.
Somente as medidas de tendência central não são suficientes para caracte-
rizar uma série de dados. Para isto, precisamos saber sobre sua variabilidade 
ou dispersão dos valores. Dispersão refere-se à uniformidade dos valores em 
torno de um valor de tendência central, tomado como ponto de comparação. As 
medidas mais usadas para quantificar a dispersão dos valores são:
Amplitude amostral
Desvio médio
Variância
Desvio-padrão
Coeficiente de variação
Intervalo interquartílico
5.2 Amplitude amostral
A amplitude amostral é dada pela diferença entre o maior e o menor valor de 
um conjunto de dados amostrado. Seu cálculo é bastante simples, pois consi-
dera apenas os dois valores extremos, e é uma medida absoluta, ou seja, carrega 
a unidade de mensuração da variável. É dada por:
Amplitude amostral = x
máx
 – x
mín
Exemplo: Considere como sendo X as notas de matemática em uma sala do 
ensino fundamental com 10 adolescentes.
x
1
 = 7,30 x
2
 = 8,15 x
3
 = 9,50 x
4
 = 10,0 x
5
 = 9,75 x
6
 = 7,05 
x
7
 = 5,50 x
8
 = 6,40 x
9
 = 6,80 x
10
 = 7,25
Amplitude = 10,0 – 5,50= 4,50
capítulo 5 59
5.3 Desvio médio
O desvio médio é dado pela diferença entre cada valor observado e a média da 
amostra, e o desvio médio quadrático é dado pelos desvios médios ao quadra-
do. Esta estatística mostra quanto que os valores se afastam da média.
Exemplo: Considere como sendo X as notas de matemática em uma sala do 
ensino fundamental com10 adolescentes.
NOTAS DOS ALUNOS DESVIO MÉDIO (x
i
 – x)
DESVIO MÉDIO QUADRÁTICO 
(x
i
 – x)2
x
1
 = 7,30 –0,4 0,16
x
2
 = 8,15 0,45 0,2025
x
3
 = 9,50 1,8 3,24
x
4
 = 10,0 2,3 5,29
x
5
 = 9,75 2,05 4,2025
x
6
 = 7,05 –0,65 0,4225
x
7
 = 5,5 –2,2 4,84
x
8
 = 6,40 –1,3 1,69
x
9
 = 6,80 –0,9 0,81
x
10
 = 7,25 0,45 0,2025
Média = 7,77
Tabela 5.1
5.4 Variância amostral (s2)
A variância é dada pela soma dos desvios médios quadráticos, divididos pelo to-
tal de elementos amostrados menos um. É uma medida importante na inferência 
estatística, mas na prática tem a desvantagem de ser expressa em unidades da va-
riável ao quadrado e é uma medida absoluta. É expressa matematicamente como:
VARIÂNCIA AMOSTRAL s2
s2
2
1
1
=
−
−
=
∑( )
( )
x x
n
i
i
n
60 capítulo 5
Exemplo: Considere como sendo X as notas de matemática em uma sala do 
ensino fundamental com 10 adolescentes.
NOTAS DOS ALUNOS (x
i
 – x) (x
i
 – x)2
x
1
 = 7,30 –0,4 0,16
x
2
 = 8,15 0,45 0,2025
x
3
 = 9,50 1,8 3,24
x
4
 = 10,0 2,3 5,29
x
5
 = 9,75 2,05 4,2025
x
6
 = 7,05 –0,65 0,4225x
7
 = 5,5 –2,2 4,84
x
8
 = 6,40 –1,3 1,69
x
9
 = 6,80 –0,9 0,81
x
10
 = 7,25 0,45 0,2025
Média = 7,77 Soma = 21,06
Tabela 5.2
Logo, s2
21 06
10 1
21 06
9
2 33=
−
= =
, ,
, , então a variância é igual a 2,33.
5.5 Desvio-padrão (s) 
O desvio padrão é definido como a raiz quadrada da variância, é amplamente 
utilizado em textos científicos, por ter sua interpretação na mesma unidade de 
mensuração da variável de interesse.
DESVIO-PADRÃO AMOSTRAL s
s= s
2
Exemplo: Considere como sendo X as notas de matemática em uma sala do 
ensino fundamental com 10 adolescentes.
Como S = 2,33, o desvio-padrão é dado por s2 2 33 1 52= =, , .
capítulo 5 61
5.6 Coeficiente de Variação (CV)
O Coeficiente de Variação é a razão entre o Desvio-padrão e a Média Aritmética, 
e é expresso em porcentagem. Trata-se de um número adimensional (sem uni-
dade de medida), caracterizado como uma medida relativa.
Este coeficiente permite comparar a variabilidade de vários conjuntos de 
dados diferentes e com níveis de mensuração diferentes.
%CV
s
x
= ⋅100
Exemplo: Considere como sendo X as notas de matemática em uma sala do 
ensino fundamental com 10 adolescentes.
s = 1,52 e x = 7,77. Então o 
,
,
CV =
1 52
7 77
= 0,19 · 100% = 19%
Exemplo: Suponha que temos o peso e a estatura de 10 adolescentes em 
uma sala de ensino fundamental e queremos saber em que variável existe 
maior variabilidade.
Peso Média = 54 kg Desvio-padrão = 8 kg CV = 15%
Altura Média =162 cm Desvio-padrão =15 cm CV = 9%
Tabela 5.3
Caso fôssemos nos basear somente na média e no desvio-padrão, poderí-
amos afirmar erroneamente que o peso ou a altura têm maior variabilidade, 
pois são variáveis com níveis de mensuração diferentes, pois, o peso é medido 
em quilos, e a altura, em centímetros. Ao utilizarmos o coeficiente de variação, 
como ele é adimensional, podemos afirmar que o peso tem maior variação do 
que a altura dos adolescentes, pois seu coeficiente de variação é maior.
5.7 Intervalo Interquartílico (IIQ)
O Primeiro Quartil (Q1), a Mediana (md ou Q2) e o Terceiro Quartil (Q3) avaliam 
a série de dados em seus 50% da massa de dados central. O intervalo interquar-
tílico é definido como a diferença entre o 3º quartil (Q3 = 75%) e o 1º quartil 
62 capítulo 5
(Q1 = 25%). É análogo à Amplitude amostral, que contém a variação de 100% dos 
dados, enquanto o intervalo interquartil contém a variação dos 50% elementos 
centrais. Suas características mais importantes são:
Medida simples e fácil de ser calculada.
Mede a distribuição da metade central dos dados, em torno da mediana.
É uma estatística robusta, pois não é afetada por valores extremos.
Não é suficiente para avaliar a variabilidade em sua totalidade, pois des-
preza 50% dos dados.
O intervalo interquartílico é utilizado na determinação de pontos discre-
pantes de uma amostra. Normalmente, considera-se um dado como ponto dis-
crepante, quando seu valor se afasta mais de 1,5 a 3 vezes o valor do IIQ, abaixo 
de Q1 ou acima de Q3.
Exemplo: Considere o percentual de gordura medido em 15 atletas fisicul-
turistas, 2 semanas antes de um campeonato internacional.
7,5 4,6 8,2 10 11 5,5 6 6,3 5,6 8,9 9,2 9,1
7,3 8,2 7,8
Obtemos Q1= 6,15; Mediana = 7,80 e Q3 = 9. Então, o IIQ = 9 - 6,15 = 2,85.
Com isto, podemos obter um intervalo em torno da mediana para saber se 
existem pontos discrepantes nos dados estudados:
Limite inferior: Mediana – 1,5 · IIQ = 7,80 – (1,50 · 2,85) = 3,525
Limite superior: Mediana + 1,5 · IIQ = 7,80 + (1,50 · 2,85) = 12,075
Caso haja nos dados um valor menor que 3,525 ou maior que 12,075, este 
valor é considerado um ponto discrepante e pode distorcer os resultados com 
relação à média ou desvio-padrão, pois estas estatísticas são influenciadas por 
pontos atípicos, podendo ser subestimadas ou superestimadas.
Todos os exemplos dos estudos das medidas de dispersão foram efetuadas 
tratando-se somente de dados não agrupados; os próximos exemplos são para 
dados agrupados.
capítulo 5 63
Dados Agrupados Sem Intervalos de Classe
Suponha que temos a variável discreta número de carros por família, em um 
determinado prédio, conforme tabela abaixo.
Número de carros por família
NÚMERO DE CARROS QUANTIDADE
0 15
1 40
2 30
3 15
4 10
Total 110
Tabela 5.4
Cálculo da Amplitude amostral
Considerando que a amplitude amostral é definida pela diferença entre o maior 
valor e o menor valor, podemos obter:
AMPLITUDE AMOSTRAL = Valor máximo (X
máx
) – Valor mínimo (X
min
)
Seguindo o exemplo do número de carros, temos a amplitude amostral de-
finida como:
Maior valor para o número de carros = 4
Menor valor para o número de carros = 0
Então, amplitude amostral = 4 – 0 = 4
Cálculo da Variância amostral
Para calcular a variância em dados agrupados sem ou com intervalos de classe, 
é necessário que os desvios quadráticos d x x
i i
2 2
= −( ) sejam ponderados pela 
frequência (f
i
) com que aparecem na amostra. A formulação matemática para o 
cálculo da Variância em dados agrupados passa a ser:
VARIÂNCIA AMOSTRAL s2
s2
2
1
1
1
=
− ⋅
−
=
∑( )
( )
x x f
n
i
i
n
64 capítulo 5
Etapas para o cálculo da variância:
2. Calcular a média aritmética x. Para isto, é necessário acrescentar uma 
coluna com os valores de x
i
 · f
i
.
3. Subtrair a média x de cada valor x
i
 do conjunto, obtendo-se o que cha-
mamos de desvio d
i
 = (x
i
 – x
i
). É preciso acrescentar uma coluna com os valores 
dos desvios (d
i
).
4. Calcular os desvios quadráticos, d
i
2 = (x
i
 – x
i
)2, e acrescentar os valores de 
d
i
2 em uma nova coluna.
5. Multiplicar cada desvio quadrático pela respectiva frequência (f
i
).
6. Somar os desvios quadráticos ponderados, obtendo o numerador da 
fórmula de cálculo da variância: ( )x x f
i i
− ⋅∑ 2 .
7. Dividir a soma por (n – 1)
Para o nosso exemplo:
NÚMERO DE 
CARROS (x
i
)
QUANTIDADE (f
i
) x
i
 · f
i
d
i
 = x
i
 – x d
1
2 d
1
2 · f
i
0 15 0 -1,68 2,82 42,336
1 40 40 -0,68 0,46 18,496
2 30 60 0,32 0,10 3,072
3 15 45 1,32 1,74 26,136
4 10 40 2,32 5,38 53,824
Total 110 185 143,864
Tabela 5.5
Em que: x = =
185
110
1 68,
E a variância é definida por: s2
143 864
110 1
1 32=
−
=
,
,
Cálculo do Desvio-padrão
O desvio padrão (s) é obtido pela raiz quadrada da variância(s2). Considerando 
nosso exemplo do número filhos, temos: s2 = 1,32 e s = 1,14.
capítulo 5 65
Cálculo do coeficiente de variação
O cálculo do coeficiente de variação, deve ser feito após a determinar a mé-
dia e o desvio-padrão:
CV
s
x
= ⋅100
Para o exemplo do número de filhos, temos:
Média = 1,68
Desvio-padrão = 1,14
Coeficiente de Variação = 67,85%
Dados agrupados com intervalos de classe
Considere uma sala com 45 alunos do curso de engenharia da computa-
ção e suas notas em cálculo diferencial e integral, agrupados em intervalos de 
classes.
NOTAS (0-10) QUANTIDADE DE ALUNOS (f
i
)
0 |-- 2 5
2 |-- 4 8
4 |-- 6 12
6 |-- 8 15
8 |-- 10 5
Total 45
Tabela 5.6
Cálculo da amplitude amostral
A amplitude amostral é definida como: Amplitude = X
máx
 – X
mín
Como não temos acesso aos dados primários das notas de cálculo diferen-
cial e integral, então podemos determinar somente a amplitude da distribui-
ção, em que:
X
máx
 = 10 e X
mín
 = 0, o que resulta em Amplitude = 10 – 0 = 10
Cálculo da Variância amostral
Para calcularmos a variância, precisamos dos valores dos desvios quadráti-
cos d
i
2 = (x
i
 – x)2, ponderados pela frequência f
i
 com que aparecem na amostra. 
A formulação matemática para o cálculo da variância em dados agrupados com 
66 capítulo 5
intervalos é a mesma utilizada para dados agrupados sem intervalos, com uma 
pequena diferença, pois, para estes dados, o x
i
 representa o ponto médio da 
classe.
VARIÂNCIA AMOSTRAL s2
s2
2
1
1
=
− ⋅
−
=
∑( )
( )
x x f
n
i
i
k
i
Etapas para o cálculo da variância:
1. Calcular

Outros materiais