Buscar

EMAT Unidade 02 Medidas descritivas V02

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

UNIDADE 02 
Medidas Estatísticas 
 
 
 
1 - Introdução ............................................................................................................................... 3 
 
2 - Medida de posição central .................................................................................................... 4 
2.1 - Medida de posição central para dados individuais ........................................................... 4 
2.1.1 - Moda .......................................................................................................................... 4 
2.1.2 - Média aritmética simples ........................................................................................... 5 
2.1.3 - Mediana ..................................................................................................................... 6 
2.1.4 - Média ponderada....................................................................................................... 9 
2.1.5 - Outras médias ......................................................................................................... 10 
 Média aparada ............................................................................................................. 10 
 Média geométrica ........................................................................................................ 11 
 Média harmônica ......................................................................................................... 12 
 
2.2 - Medidas de posição central para dados agrupados ....................................................... 14 
2.2.1 - Dados agrupados em tabelas de frequência sem classe ....................................... 14 
2.2.2 - Dados agrupados em tabelas de frequência com classe ....................................... 17 
 
3 - Medidas de Variabilidade .................................................................................................... 22 
3.1 - Medida de variabilidade para dados individuais ............................................................. 23 
3.2 - Medidas de variabilidade para dados agrupados ........................................................... 32 
3.2.1 - Dados agrupados em tabelas de frequência sem classe ....................................... 32 
3.2.2 - Dados agrupados em tabelas de frequência com classe ....................................... 33 
 
3.3 - Algumas aplicações do desvio-padrão ........................................................................... 34 
 
4 - Outras medidas estatísticas ............................................................................................... 36 
4.1 - Medidas separatrizes para dados individuais ................................................................. 36 
4.2 - Medidas separatrizes para dados agrupados ................................................................ 41 
4.2.1 - Dados agrupados em tabelas de frequência sem classe ....................................... 41 
4.2.2 - Dados agrupados em tabelas de frequência com classe ....................................... 42 
 
4.3 - Diagrama de caixa (box plot) .......................................................................................... 44 
4.3 - Medida de assimetria ...................................................................................................... 46 
4.5 - Medida de Curtose ......................................................................................................... 49 
Unidade 02 – Medidas Estatísticas 
 
 3  
1 - Introdução 
As medidas estatísticas, assim como as tabelas e gráficos vistos na unidade anterior, são 
importantes formas de sintetizar um conjunto de dados. Uma medida de tendência central é 
usada para representar o valor típico do conjunto de dados, enquanto que uma medida de 
variabilidade consegue informar o quanto os dados de um conjunto estão afastados deste 
valor típico. Com a medida central e a variabilidade é possível comparar conjuntos diferentes 
de dados. 
 
Como exemplo, veja o caso de uma empresa que trabalha com quatro máquinas de encher 
pacotes de café de 500 gramas. Para cada máquina, foi selecionada uma amostra de pacotes 
de café e o conteúdo de cada um foi pesado. O gráfico de pontos abaixo mostra a distribuição 
dos valores, onde cada ponto no gráfico representa o peso de um pacote de café em gramas. 
 
 
 
 
 
 
 
 
 
 
 
 
Os pacotes de café enchidos pela máquina “A” apresentam um peso típico próximo de 490 
gramas (10 gramas a menos do especificado), enquanto que, na máquina B, os pacotes 
apresentam um peso típico em torno de 510 gramas (10 gramas a mais). Quanto à dispersão 
dos pesos, parece que estão igualmente dispersos em torno dos valores típicos. Podemos 
ainda destacar a presença de um pacote com peso considerado atípico na máquina “A”. 
 
Na máquina “C”, os pesos dos pacotes giram em torno de 500 gramas (igual ao especificado), 
mas a dispersão dos pesos é muito grande, indicando alguma instabilidade na máquina. Na 
máquina “D”, encontramos uma situação ideal, os pesos giram em torno do valor especificado 
(de 500 gramas) e com uma pequena variabilidade. 
 
As medidas que ajudam a descrever uma distribuição são: 
 Medidas de posição central; 
 Medidas de variabilidade (ou dispersão); 
 Medidas separatrizes (posição não central) 
 Medidas de assimetria e de curtose. 
 
525520515510505500495490485480
Máquina A
Máquina B
Máquina C
Máquina D
Peso dos pacotes (em gramas)
atípico 
média 
média 
média 
média 
Unidade 02 – Medidas Estatísticas 
 
 4  
2 - Medida de posição central 
É a medida numérica que representa o valor mais típico ou o mais representativo de uma série 
de valores. As medidas usuais de posição central são: média simples, média ponderada, 
mediana e a moda. 
 
2.1 - Medida de posição central para dados individuais 
Iremos ver a seguir as medidas para dados individuais, ou seja, uma série de números que não 
agrupados em tabelas de frequência. 
2.1.1 - Moda 
A moda, denotada por mo, é o resultado mais frequência em uma série de resultados. Quando 
dizemos que tal roupa está na moda, é porque a vemos com mais frequência. A moda era 
muito usada em uma época que não se dispunha de calculadoras. É a medida central mais 
simples e fácil de calcular e pode ser usada em dados qualitativos ou quantitativos. 
 
Exemplo 1. Abaixo temos as cores das blusas de oito crianças. Qual é a moda das cores? 
 
azul, vermelha, vermelha, branca, preta, amarela, azul, vermelha 
 
Há duas blusas nas cor azul e três na cor vermelha e um de cada nas demais cores (preta, 
amarela e branca) , portanto a moda seria a vermelha. 
 
Exemplo 2. Suponha que em uma sala foi selecionado uma amostra de cinco crianças e a 
idade em anos de cada uma foi registrada. Qual é a moda das idades? 
 
12 9 12 11 10 
 
A moda seria mo = 12 anos, dizemos que é unimodal, pelo fato de ser apenas uma moda. 
Porém, há casos de a série de valores apresentar mais de uma moda, podendo ser bimodal 
(duas modas), trimodal (três modas), multimodal (mais de três modas) ou mesmo não ter 
moda (amodal). 
 
3, 4, 4, 4, 9, 10, 12, 12, 12  mo = 4 e 12 (bimodal) 
3, 4, 4, 4, 9, 10, 12, 12, 12, 10, 10  mo = 4 e 12 (bimodal) 
3, 4, 4, 4, 9, 10, 10, 10, 12, 12, 12  mo = 4, 10 e 12 (multimodal) 
3, 4, 9, 10, 12  amodal, não tem moda 
 
Usando os comandos do programa R1. 
 
x = c(14,23,25,12,10,14,30,25,12,14,23,25) # valores de x 
table(x) # tabela para x 
 
 
 
 
1 O R pode rodar on-line no site www.r-fiddle.org ou você pode baixar do site www.r-project.org e 
instalá-lo em seucomputador/notebook. 
Unidade 02 – Medidas Estatísticas 
 
 5  
2.1.2 - Média aritmética simples 
É a média aritmética simples dos valores em uma série, ou seja, somatório dos valores dividido 
pela quantidade de valores. Quando trabalhamos com uma amostra de n valores, a média é 
denominada de média amostral e denotada pelo símbolo 
x
 (leia-se x barra). 
 
�̅� =
1
𝑛
∑ 𝑥𝑖
𝑛
𝑖=1
 
onde 
xi = i-ésimo valor da variável 
n = tamanho da amostra (quantidade de valores na amostra) 
 
Supondo que para uma amostra de cinco funcionários, a distância percorrida em km por eles 
até à empresa seja 17, 9, 17, 14 e 8. Calcule a média da distância percorrida até a empresa por 
estes funcionários. 
 
A média aritmética simples é: 
 
�̅� =
1
𝑛
∑ 𝑥𝑖
𝑛
𝑖=1
=
1
5
(17 + 9 + 17 + 14 + 8) =
65
5
= 13 𝑘𝑚 
 
Veja esta média na representação do diagrama de pontos 
 
 
 
A média pode ser vista como o ponto de equilíbrio de uma distribuição de valões, como pode 
ser vista nas figuras abaixo. 
 
 
 
 
 
Média populacional 
 
Quando trabalhamos com toda a população de N valores, dizemos que é uma média 
populacional, sendo denotada pela letra grega 𝜇 (mi). 
 
𝜇 =
1
𝑁
∑ 𝑥𝑖
𝑁
𝑖=1
 
 
Usando o programa R. 
 
x = c(17,9,17,14,8) # valores de x 
mean(x) # média de x 
 
 
média 
média 
Unidade 02 – Medidas Estatísticas 
 
 6  
2.1.3 - Mediana 
A mediana de uma série de valores é o valor que está exatamente no centro desta série 
ordenada. Abaixo e acima da mediana temos metade dos valores. A mediana é denotada por 
md ou �̃� (leia-se x til). 
 
Se a série tem uma quantidade ímpar de valores, ou seja, a mediana será o único valor central. 
Caso contrário, se for par, a mediana será a média dos dois valores centrais. 
 
Considerando n igual a quantidade de valores na série. 
 
Se n é ímpar, a mediana será 
... igual ao único valor central. 
Se n é par, a mediana será 
... igual à média dos dois valores centrais. 
x = {8, 10, 15}  md = 10 x = {8, 10, 15, 30}  md = (10+15)/2 = 12,5 
 
Exemplo 3. Considerando as distâncias (em km) percorridas por cinco funcionários até a 
empresa onde trabalham, calcule a medidas das distâncias 
17 ; 9 ; 17 ; 14 ; 8 
 
Série ordenada: 8 9 14 17 17 
 
Como n é ímpar, a série ordenada só tem um único valor central, que é o valor 14. 
 
 
 
 
 
 
 
Para uma série maior de valores, podemos formalizar um procedimento para obter a mediana. 
 
1) Ordene a séria de valores em ordem crescente e calcule a posição 
pos = n/2 da mediana 
2) Se pos não for inteiro, arredonde pos para o maior inteiro mais 
próximo. A mediana será o valor que estará na posição pos. 
3) Se pos for inteiro, então a mediana será a média entre os dois 
valores centrais que estarão na posição pos e pos +1. 
 
No exemplo anterior, a posição da mediana é pos = 5/2 = 2,5. Como esse valor não é inteiro 
deverá ser arredondado para cima (pos = 3), portanto a mediana estará na 3ª posição na série 
ordenada, que é md = 14 km. 
 
Usando o programa R. 
 
x = c(17,9,17,14,8) # valores de x 
med(x) # mediana de x 
 
 
 
 
 
 
Comparação entre a média e a mediana 
Cerca da metade (50%) dos funcionários 
percorrem menos de 9 km para ir até a empresa. 
mediana 
Unidade 02 – Medidas Estatísticas 
 
 7  
Por usar todos os valores do conjunto de dados, a média acaba sendo bastante influenciada 
pelos valores atípicos2, enquanto que a mediana é menos sensível a estes valores. Suponha 
que os valores abaixo correspondem aos salários em reais de seis funcionários de um setor de 
uma empresa. 
800 20000 950 1050 800 1000 
A média amostral destes dados seria 
 
�̅� =
1
𝑛
∑ 𝑥𝑖
𝑛
𝑖=1
=
1
5
(800 + 20000 + 950 + 1050 + 800 + 1000) = 4100 𝑟𝑒𝑎𝑖𝑠 
 
O valor de 4.100 reais esta correto do ponto de vista matemático, mas não é apropriado como 
medida para melhor representar os salários. Você acharia justo dizer que estes funcionários 
recebem em média 4.100 reais, portanto um ótimo salário? Com certeza, cinco funcionários 
desta empresa diriam que não. 
 
O valor atípico de 20.000 reais “puxou” esta média para cima. Uma forma de contornar esta 
situação seria retirar este valor e recalcular a média, o que às vezes não é recomendado, ou 
usar uma medida mais robusta, ou seja, uma medida que seja menos sensível a estes valores 
atípicos, que seria, neste caso, a mediana. 
 
Dados ordenados: 800 800 950 1000 1050 20000 
 
Visto que temos seis valores (n par), a mediana será a média dos dois valores centrais, 
portanto a mediana é (950 + 1000)/2 = 975 reais. 
 
Mesmo com o valor alto de 20.000 reais, a mediana obtida de 975 reais é mais honesta para 
representar os salários destes funcionários. 
 
 
 
 
2 Outlier em estatística. 
Unidade 02 – Medidas Estatísticas 
 
 8  
Comparação entre média, mediana e moda. 
 
 Média Mediana Moda 
Vantagem 
 
. É apenas um único valor 
 
. Fácil das pessoas 
entenderem 
 
. Utiliza todos os valores 
do conjunto de dados 
 
. Há uma fórmula 
matemática para ela o 
que facilita seu uso. 
. É apenas um único valor 
 
. Fácil das pessoas 
entenderem 
 
. Não é afetada por 
valores atípicos. 
 
. Pode ser determinada 
para variável qualitativa 
ordinal ou quantitativa. 
 
. Fácil das pessoas 
entenderem 
 
. Não é afetada por 
valores atípicos. 
 
. Pode ser aplicada para 
qualquer tipo de variáveis 
(qualitativa ou 
quantitativa) 
 
 
Desvantagem 
 
. Muito afetada por 
valores atípicos. 
 
. Precisa de todos os 
valores da série. 
 
. Pode ser usada apenas 
em variáveis 
quantitativas 
 
. Não há uma fórmula 
matemática para ela, o 
que dificulta seu uso. 
 
. Não usa todos os valores 
do conjunto de dados. 
 
. Não há uma fórmula 
matemática para ela, o 
que dificulta seu uso. 
 
. Não usa todos os valores 
do conjunto de dados. 
 
. É possível pode ter mais 
de uma moda ou mesmo 
não ter. 
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 9  
2.1.4 - Média ponderada 
É a média das observações x1, x2, ..., xn levando em consideração seus respectivos pesos w1, 
w2, ..., wn. A média ponderada, denotado por 
px
, é dada por: 
 
�̅�𝑝 =
∑ 𝑤𝑖𝑥𝑖
𝑘
𝑖=1
∑ 𝑤𝑖
𝑘
𝑖=1
=
𝑤1𝑥1 + 𝑤2𝑥2 + ⋯ + 𝑤𝑘𝑥𝑘
𝑤1 + 𝑤2 + ⋯ + 𝑤𝑘
 
 
Exemplo 4. Em uma escola, a nota no bimestre é uma média ponderada das quatro 
avaliações aplicadas aos alunos com os seguintes pesos para cada prova: 1, 2, 4 e 5, 
respectivamente. Determine a nota no bimestre para o Alan que obteve as seguintes notas nas 
quatro provas: 4, 7, 9 e 8. 
 
�̅�𝑝 =
1 ∙ 4 + 2 ∙ 7 + 4 ∙ 9 + 5 ∙ 8
1 + 2 + 4 + 5
=
94
12
= 7,83 
 
Sem levar em consideração os pesos de cada prova, a nota seria 7 pontos, menor que os 7,83 
pontos obtidos pela ponderação. 
 
Uma maneira mais prática de calcular a média ponderada é trabalhar com os dados dispostos 
em uma tabela. 
 
(1) 
x 
(2) 
w 
(3) 
wx 
4 1 4 
7 2 14 
9 4 36 
8 5 40 
- w = 15 wx = 94 
 
Comentário 
 
Se os pesos (w) forem todos iguais, então a média ponderada �̅�𝑝 será igual a média aritmética 
simples �̅�. Por exemplo, se w = a, então: 
 
�̅�𝑝 =
∑ 𝑎𝑥𝑖
𝑘
𝑖=1
∑ 𝑎𝑘𝑖=1
=
𝑎𝑥1 + 𝑎𝑥2 + ⋯ + 𝑎𝑥𝑘
𝑎 + 𝑎 + ⋯ + 𝑎
=
𝑎(𝑥1 + 𝑥2 + ⋯ + 𝑥𝑘)
𝑘𝑎=
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑘
𝑘
=
∑ 𝑥𝑖
𝑘
𝑖=1
𝑘
= �̅� 
 
 
Usando o programa R. 
 
x = c(4,7,9,8) # notas 
w = c(1,2,4,5) # pesos 
sum(w*x) / sum(w) # média ponderada 
 
 
Unidade 02 – Medidas Estatísticas 
 
 10  
2.1.5 - Outras médias 
 Média aparada 
A média aparada (podada ou truncada) é a média aritmética simples dos valores que 
permanecem, quando os maiores e os menores valores são removidos da série de números. A 
média aparada é uma medida de posição central que procura ser, assim como a mediana, 
menos sensível aos valores atípicos. 
 
O procedimento formal para obter a média aparada de k% é: 
1) Ordene o conjunto de dados em ordem crescente; 
2) Calcule T = kn/100, quantidade de valores a serem retirados de cada extremidade; 
3) Arredonde o valor de T para um número inteiro; 
4) Retire os T menores valores e também os T maiores valores; 
5) Calcule a média aritmética simples dos valores que permaneceram 
 
Exemplo 5. Os dados abaixo são as idades de vinte alunos de uma sala de aula. Vamos 
considerar que de fato há um aluno com 55 anos e que o valor 8 foi erro de digitação. Calcule a 
média aparada de 10%. 
 
8, 55, 21, 19, 18, 21, 19, 20, 21, 19, 19, 20, 22, 21, 21, 20, 19, 19, 21, 19 
 
 
Dados ordenados: 
8, 18, 19, 19, 19, 19, 19, 19, 19, 20, 20, 20, 21, 21, 21, 21, 21, 21, 22, 55 
 
Como queremos média aparada de 10%, a quantidade de valores que devem ser retiradas de 
cada extremidade é 
T = 1020/100 = 2 valores (= 10% de 20) 
Os 2 maiores e os 2 menores valores a serem retirados são: 8, 18, 22 e 55. Portanto, a média 
aparada será a média simples dos 16 que permaneceram. 
 
�̅�𝑎𝑝 =
19 + 19 + ⋯ + 21
16
= 19,9375 𝑎𝑛𝑜𝑠 
 
Usando o programa R. 
 
x = c(8,55,21,19,18,21,19,20,21,19,19,20,22,21,21,20,19,19,21,19) # idades 
mean(x, trim = 0.10) # média aparada de 10% 
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 11  
 Média geométrica 
A média geométrica dos n valores (positivos) x1, x2, ..., xn é a n-ésima raiz do produtos destes n 
valores. A média geométrica, denotada por 
gx
, é calculada algebricamente por: 
 
�̅�𝑔 = √𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛
𝑛 
 
 
Por exemplo, a média geométrica dos valores 8, 5, 3, 6 e 10 é: 
 
�̅�𝑔 = √8 ∙ 5 ∙ 3 ∙ 6 ∙ 10
5
= √7200
5
= 5,9084 
 
Usando o programa R. 
 
x = c(8,5,3,6,10) # valores 
n = length(x) # tamanho de x 
prod(x)^(1/n) # média geométrica 
 
 
Aplicação: 
A média geométrica mede a taxa média de variação de uma variável ao longo do tempo, por 
exemplo, um crescimento médio de juros compostos com taxas variáveis ao longo de um 
período ou uma taxa média de retorno de um investimento ao longo do tempo. 
 
Como exemplo, suponha que o faturamento de uma empresa cresceu 30% em 2005, 26% em 
2006, 48% em 2007 e 15% em 2008. Em média, quanto cresceu por ano? 
 
Se houve crescimento de 30%, 26%, 48% e 15% nos faturamentos, então os faturamentos de 
cada ano foram multiplicados por 1,30, 1,26, 1,48 e 1,15, respectivamente. Vamos calcular, 
então, a média geométrica dos valores 1,30, 1,26, 1,48 e 1,15. 
 
 4g 15,148,126,130,1x
2922,178788,24 
 
 
A média geométrica da taxa de crescimento do faturamento no período estudado (2005 a 
2008) é de 29,22%. 
A tabela a seguir mostra a evolução dos faturamentos ao longo do período para o este 
exemplo, partindo de um faturamento hipotético de R$ 100 antes de 2005, 
 
Evolução dos faturamentos partindo de um valor 
inicial de R$ 100 
Ano Taxa Faturamento 
 100,0 reais 
2005 30% 100,0 * 1,30 = 130,0 
2006 26% 130,0 * 1,26 = 163,8 
2007 48% 163,8 * 1,48 = 242,4 
2008 15% 242,4 * 1,15 = 278,8 
 
Se usássemos a média geométrica obtida (29,22%) para cada ano teríamos o mesmo 
faturamento em 2008 
 42008 )2922,1(*100)2922,1(*)2922,1(*)2922,1(*)2922,1(*100F
278,8 reais 
Unidade 02 – Medidas Estatísticas 
 
 12  
Note que chegamos aos mesmos 278,8 em 2008 na tabela anterior. Esta é a finalidade das 
médias - obter o mesmo efeito produzido pelos valores individuais. Caso usássemos a média 
aritmética simples das taxas, a taxa média seria de 29,75% (ligeiramente maior que a média 
geométrica). 
%75,29
4
15482630
x 


 
Estes 29,75% produziriam um faturamento de 283,4 reais em 2008, diferente dos 278,8 reais 
esperados. 
4,283)2975,1(*100 42008 F
 
 Média harmônica 
A média harmônica equivale ao inverso da média aritmética dos inversos de n valores. Se 
temos n valores x1, x2, ..., xn, a média harmônica, denotada por 
hx
, é calculada algebricamente 
por: 
�̅�ℎ =
𝑛
1
𝑥1
+
1
𝑥2
+ ⋯ +
1
𝑥𝑛
=
1
∑
1
𝑥𝑖
𝑛
𝑖=1
 
 
Por exemplo, a média harmônica dos valores 8, 5, 3, 6 e 10 é 
 
�̅�ℎ =
5
1
8 +
1
5 +
1
3 +
1
6 +
1
10
=
5
0,9250
= 5,4054 
 
Usando o programa R. 
 
x = c(8,5,3,6,10) # valores 
n = length(x) #tamanho de x 
n / sum(1/x) # média harmônica 
 
 
Aplicação3: 
Problemas envolvendo média de velocidades, vazões, taxas e frequências são, em geral, 
resolvidos com a média harmônica. Por exemplo, ao percorrer um mesmo trajeto a 60 km/h na 
ida e a 40 km/h na volta, sua velocidade média no percurso não será a média aritmética entre 
as velocidades (50 km/h), mas sim a média harmônica, que é igual a 48 km/h. 
 
 
 
3 José Luiz Pastore Mello, mestre em ensino de matemática pela USP e professor do Colégio Santa Cruz 
Unidade 02 – Medidas Estatísticas 
 
 13  
Alguns comentários 
 
(1) Comparação entre as médias aritmética simples, geométrica e harmônica. 
 
É importante destacar que em todas as médias o resultado sempre estará entre o maior e o 
menor número dado no conjunto e que para os mesmos valores, a média aritmética terá o 
maior valor, seguida da média geométrica e depois a média harmônica. Resumidamente, se 
xmenor e xmaior são, respectivamente, o menor e maior valor do conjunto de dados, então temos 
que: 
𝑥𝑚𝑒𝑛𝑜𝑟 ≤ �̅�ℎ ≤ �̅�𝑔 ≤ �̅� ≤ 𝑥𝑚𝑎𝑖𝑜𝑟 
 
b) Propriedades da média aritmética simples 
Suponha que a série de números x = {x1, x2, ..., xn} têm uma média x : 
(1) Somando-se (ou subtraindo-se) uma constante a de todos os valores desta série, a 
média da “nova” série ficará aumentada (ou diminuída) dessa constante. 
Se 
axy ii 
  
axy 
 
(2) Multiplicando-se (ou dividindo-se) todos os valores da série por uma constante b, a 
média da “nova” série ficará multiplicada (ou dividida) dessa constante. 
Se 
ii bxy 
  
xby 
 
(3) A soma dos desvios de cada valor xi em torno da média é sempre zero, ou seja, 
0

n
1i
id
, onde 
xxd ii 
. 
 
Por exemplo, a série x = {1, 2, 3, 3, 4, 5} tem uma média igual a
x
 = 3. 
 
 A soma dos desvios de cada valor x em relação à média
x
será zero (ver coluna 2) 
 
 Se somar 6 à cada valor x, a nova média será 3 + 6 = 9 (ver coluna 3) 
Se 𝑦 = 𝑥 + 6, então �̅� = �̅� + 6 = 3 + 6 = 9 
 
 Se multiplicar cada valor de x por 6, a nova média será 3*4 = 12 (ver coluna 4) 
Se 𝑦 = 6𝑥, então �̅� = 6�̅� = 6 ∙ 3 = 18 
 
(1) 
xi 
(2) 
𝑥 − �̅� 
(3) 
𝑦 = 𝑥 + 6 
(4) 
𝑦 = 6𝑥 
1 -2 7 6 
2 -1 8 12 
3 0 9 18 
3 0 9 18 
4 1 10 24 
5 2 11 30 
média = 3 soma = 0 média = 9 média = 18 
 
 
Unidade 02 – Medidas Estatísticas 
 
 14  
2.2 - Medidas de posição central para dados agrupados 
2.2.1 - Dados agrupados em tabelas de frequência sem classe 
 MédiaEm tabelas de frequência sem intervalos de classe, as frequências (absoluta ou relativa) de 
cada valor x da variável funcionam como fatores de ponderação, já que elas podem ser vistas 
como indicadores da intensidade de cada valor da variável. 
 
Por esse motivo, o cálculo de uma média amostral é bem parecido com o cálculo da média 
ponderada, tendo as frequências como pesos dos valores. 
 
�̅� =
∑ 𝑥𝑖𝑓𝑖
𝑘
𝑖=1
∑ 𝑓𝑖
𝑘
𝑖=1
 
 
onde 
𝑥𝑖 = cada valor da série 
𝑓𝑖= frequência de cada valor 
 
Exemplo 6. A tabela abaixo mostra a distribuição do número de filhos para uma amostra 
de 20 funcionários. 
 
Número de 
Filhos 
Quantidade de 
funcionários 
0 5 
1 7 
2 5 
3 2 
4 1 
 
Solução -------------------------------------------------------------------------------------------------------------- 
 
O número médio de filhos desses funcionários é obtido acrescentando coluna 𝑥 ∙ 𝑓 que é o 
produto de cada valor x pela sua respectiva frequência f, somando esta coluna e dividindo o 
resultado pela soma das frequências. 
 
x f xf 
0 5 0 
1 7 7 
2 5 10 
3 2 6 
4 1 4 
Total ∑ 𝑓𝑖 = 20 ∑ 𝑥𝑖𝑓𝑖 = 27 
 
 
 
Portanto, 
�̅� =
∑ 𝑥𝑖𝑓𝑖
𝑘
𝑖=1
∑ 𝑓𝑖
𝑘
𝑖=1
=
27
20
= 1,35 filho 
 
Comentário: 
 
Pode parecer estranho dizer 1,35 filho, mas esse 
valor é uma média. Seria estranho dizer que a 
família do Sr. João tem 1,35 filho. 
 
 
Unidade 02 – Medidas Estatísticas 
 
 15  
 Mediana 
 
O cálculo da mediana para dados agrupados é bem semelhante àquele utilizado em dados não 
agrupados. Só vamos acrescentar a coluna com a frequência acumulada (F) para agilizar a 
localização da mediana na tabela. 
 
Procedimento 
 
(1) Coloque a coluna com a frequência absoluta acumulada (F); 
(2) Calcule 
2npos
 que é a posição da mediana (lembre-se: n = f) 
(3) Localize a mediana como sendo o valor, cuja com frequência acumulada (F) é 
imediatamente superior à posição pos da mediana; 
 
Exemplo 7. A tabela abaixo mostra a distribuição do número de filhos para uma amostra 
de 20 funcionários. 
 
Número de 
Filhos 
Quantidade de 
funcionários 
0 5 
1 7 
2 5 
3 2 
4 1 
 
Solução -------------------------------------------------------------------------------------------------------------- 
 
x f F 
0 5 5 
1 7 12 
2 5 17 
3 2 19 
4 1 20 
 
A posição da mediana é pos = n/2 = 20/2 = 10. Pela última coluna, a frequência acumulada 12 
é imediatamente superior a pos = 10, portanto a mediana é o valor 1 filho. 
 
Comentário 
 
No caso de existir uma frequência acumulada F exatamente igual a pos = n/2, a mediana será 
igual a média entre dois valores da variável. Um destes valores corresponderá a frequência 
acumulada F e o outro valor corresponderá à frequência acumulada F seguinte. 
 
Com exemplo, a mediana da variável X abaixo é a média dos valores 1 e 2, ou seja, md = 1,5. 
 
X f F 
0 4 5 
1 6 10 
2 7 17 
3 2 19 
4 1 20 
 
A posição da mediana é pos = n/2 = 20/2 = 10. Como 
existe uma F = 10, então: 
 
md = (1+2)/2 = 1,5 filho 
 
Portanto, a mediana é md = 1,5 filho 
 
Unidade 02 – Medidas Estatísticas 
 
 16  
 Moda 
 
A moda é o valor da variável com maior frequência (absoluta ou relativa). 
 
Exemplo 8. A tabela abaixo mostra a distribuição do número de filhos para uma amostra 
de 20 funcionários. Calcule a moda do número de filhos. 
 
Número de 
Filhos 
Quantidade de 
funcionários 
0 5 
1 7 
2 5 
3 2 
4 1 
 
Solução -------------------------------------------------------------------------------------------------------------- 
 
Da tabela, vemos que a moda é o valor 1, visto que ele apresenta a maior frequência absoluta 
(f = 7). Portanto, a moda é Mo = 1 filho. 
 
Outra forma 
 
Uma forma fácil de calcular a média e mediana é expandir os valores da variável X e calcular a 
média e mediana da mesma forma como foi visto para dados individuais. A mediana abaixo 
será igual a média entre os dois valores centrais 1 e 2. 
 
0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 4 
 
Unidade 02 – Medidas Estatísticas 
 
 17  
2.2.2 - Dados agrupados em tabelas de frequência com classe 
 Média 
 
Em tabelas de frequência com classe, as frequências (absoluta ou relativa) também funcionam 
como fatores de ponderação dos valores da variável. Mas é aí que está o problema, qual valor 
do intervalo deverá ser usado? 
 
Como estamos trabalhando com intervalos, temos de decidir qual valor usar para a variável em 
cada classe. Se optar por trabalhar com o limite inferior das classes, a média tende a ser 
subestimada (ser menor do que realmente é), por outro lado, se optar por trabalhar com o 
limite superior das classes, a média tende a ser superestimada (ser maior do que realmente é). 
Para evitar a subestimação e superestimação da média, assumimos que os valores estão 
distribuídos de forma uniforme dentro da classe e calculamos o ponto médio x de cada classe. 
O cálculo da média é: 
 
�̅� =
∑ 𝑥𝑖𝑓𝑖
𝑘
𝑖=1
∑ 𝑓𝑖
𝑘
𝑖=1
 
 
onde: 
x e f são o ponto médio e a frequência absoluta de cada classe 
 f = n é o tamanho da amostra 
 
Exemplo 9. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para 
uma amostra de 20 funcionários. Cacule o salário médio desses funcionários. 
 
Salários 
(em SM) 
Quantidade de 
funcionários 
2,0 | 3,5 6 
3,5 | 5,0 7 
5,0 | 6,5 4 
6,5 | 8,0 2 
8,0 | 9,5 1 
 
Solução -------------------------------------------------------------------------------------------------------------- 
 
Acrescente uma coluna com o ponto médio de cada classe (x) e uma coluna com o produto x∙f. 
 
Salários 
Ponto 
médio 
x 
f xf 
2,0 | 3,5 2,75 6 16,50 
3,5 | 5,0 4,25 7 29,75 
5,0 | 6,5 5,75 4 23,00 
6,5 | 8,0 7,25 2 14,50 
8,0 | 9,5 8,75 1 8,75 
Total ---  = 20  = 92,50 
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 18  
Da tabela temos  f = 20 e  x∙f = 92,50. Portanto, a média é: 
 
�̅� =
∑ 𝑥𝑖𝑓𝑖
𝑘
𝑖=1
∑ 𝑓𝑖
𝑘
𝑖=1
=
92,5
20
= 4,63 𝑆𝑀 
 
 
 Mediana 
 
Para obter a mediana em dados agrupados com classe, o procedimento é o seguinte: 
 
(1) Determine a frequência absoluta acumulada (F); 
(2) Calcule a posição da mediana 
2npos
 (lembre-se: n =  f) 
(3) Localize a classe mediana como sendo a classe com a frequência acumulada (F) 
imediatamente superior à posição pos da mediana; 
(4) Calcule a mediana usando: 
𝑚𝑑 = ℓ +
(
𝑛
2 − 𝐹𝑎𝑛𝑡)
𝑓
(𝐿 − ℓ) 
 
onde, 
ℓ 𝑒 𝐿 
L
 = limites inferior e superior da classe mediana, respectivamente. 
𝑓 = frequência absoluta da classe mediana, 
antF
 = frequência absoluta acumulada anterior à classe mediana. 
 
 
 
 
 
 
 
 
 
 
Comentário: 
 
No caso de existir uma frequência acumulada F exatamente igual a 
2npos
, a mediana será 
o limite superior da classe correspondente. 
 
 
 
Classe f F 
... 
ℓ | f F 
... 
 
 classe mediana 
Unidade 02 – Medidas Estatísticas 
 
 19  
Exemplo 10. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para 
uma amostra de 20 funcionários. Cacule a mediana dos salários desses funcionários. 
 
Salários 
(em SM) 
Quantidade de 
funcionários 
2,0 | 3,5 6 
3,5 | 5,0 7 
5,0 | 6,5 4 
6,5 | 8,0 2 
8,0 | 9,5 1 
 
Solução -------------------------------------------------------------------------------------------------------------- 
 
Para calcular amedida dos salários dos funcionários do exemplo anterior, vamos criar uma 
coluna com a frequência acumulada (F). 
 
Salários f F 
2,0 | 3,5 6 6 
3,5 | 5,0 7 13 
5,0 | 6,5 4 17 
6,5 | 8,0 2 19 
8,0 | 9,5 1 20 
 
A posição da mediana é pos = n/2 = 20/2 = 10. A classe mediana é a classe 3,5 | 5,0, pois a 
sua frequência acumulada é 13 (imediatamente superior a pos = 10). 
 
Então, da tabela temos: 

 = 3,5 
L
 = 5,0 
if
= 7 e 
antF
= 6 
 
𝑚𝑑 = ℓ +
(
𝑛
2 − 𝐹𝑎𝑛𝑡)
𝑓
(𝐿 − ℓ) = 3,5 +
(
20
2 − 6)
7
(5 − 3,5) = 4,36 𝑆𝑀 
 
O ponto médio da classe mediana (5,0 + 3,5)/2 = 4,25 é denominada de mediana bruta. 
 
 
 
 
 
 
 
 
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 20  
 Moda 
 
A moda em uma tabela de frequência com classe, provavelmente estará dentro da classe com 
a maior frequência. Essa classe é denominada de classe modal. 
 
 
 
 
 
 
 
 
Após identificar, a classe modal, calcule a moda usando um dos dois métodos abaixo: 
 
moda bruta: 𝑚𝑜 =
ℓ + 𝐿
2
 
 
método de Czuber: 𝑚𝑜 = ℓ +
𝑓 − 𝑓𝑎𝑛𝑡
(𝑓 − 𝑓𝑎𝑛𝑡) + (𝑓 − 𝑓𝑝𝑜𝑠𝑡)
(𝐿 − ℓ) 
 
método de King: 𝑚𝑜 = ℓ +
𝑓𝑝𝑜𝑠𝑡
𝑓𝑎𝑛𝑡 + 𝑓𝑝𝑜𝑠𝑡
(𝐿 − ℓ) 
 
método de Pearson4 𝑚𝑜 = 3𝑚𝑑 − �̅� 
 
onde, 
x
 e md = média e mediana amostral; 

 e 
L
 = limite inferior e superior da classe modal; 
f = frequência absoluta da classe modal; 
𝑓𝑎𝑛𝑡 = frequência absoluta da classe anterior à classe modal; 
𝑓𝑝𝑜𝑠𝑡 = frequência absoluta da classe posterior à classe modal. 
 
 
 
 
 
 
 
4 O método de Pearson fornece boa aproximação para o cálculo da moda quando a distribuição 
analisada apresenta uma razoável simetria em torno da média. Algumas outras relações também são 
interessantes, a partir desse método. Por exemplo, 
  3x2MoMd 
 ou 
  2MoMd3x 
. 
Classe f F 
... 
ℓ | f F 
... 
 
 classe modal 
Unidade 02 – Medidas Estatísticas 
 
 21  
Exemplo 11. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para 
uma amostra de 20 funcionários. Cacule a moda dos salários desses funcionários. 
 
Salários 
(em SM) 
Quantidade de 
funcionários 
2,0 | 3,5 6 
3,5 | 5,0 7 
5,0 | 6,5 4 
6,5 | 8,0 2 
8,0 | 9,5 1 
 
Solução -------------------------------------------------------------------------------------------------------------- 
A classe modal é segunda classe, 8 | 12, pois ela apresenta a maior frequência absoluta (f = 
7). 
 
Salários f 
2,0 | 3,5 6 
3,5 | 5,0 7 
5,0 | 6,5 4 
6,5 | 8,0 2 
8,0 | 9,5 1 
 
Da tabela temos: 
 

 = 3,5 ; 
L
 = 5,0 ; f = 7 ; 𝑓𝑎𝑛𝑡 = 6 ; 𝑓𝑝𝑜𝑠𝑡 = 4 
 
Vamos usar todos os métodos para obter a moda. 
 
Moda bruta 
𝑚𝑜 =
ℓ + 𝐿
2
=
3,5 + 5
2
= 4,25 𝑆𝑀 
 
Método de Czuber 
𝑚𝑜 = ℓ +
𝑓 − 𝑓𝑎𝑛𝑡
(𝑓 − 𝑓𝑎𝑛𝑡) + (𝑓 − 𝑓𝑝𝑜𝑠𝑡)
(𝐿 − ℓ) = 3,5 +
7 − 6
(7 − 6) + (7 − 4)
(5 − 3,5) = 3,88 𝑆𝑀 
 
Método de King 
𝑚𝑜 = ℓ +
𝑓𝑝𝑜𝑠𝑡
𝑓𝑎𝑛𝑡 + 𝑓𝑝𝑜𝑠𝑡
(𝐿 − ℓ) = 3,5 +
4
6 + 4
(5,0 − 3,5) = 4,10 𝑆𝑀 
 
Método de Pearson 
𝑚𝑜 = 3𝑚𝑑 − �̅� = 3(4,36) − 4,63 = 3,82 𝑆𝑀 
 
Lembre-se de que md = 4,36 e 
x
= 4,63 foram obtidos nos exemplos anteriores. 
 
 
Unidade 02 – Medidas Estatísticas 
 
 22  
3 - Medidas de Variabilidade 
As medidas de posição central (média, mediana, etc) vistas anteriormente, não conseguem 
sozinhas descrever bem a distribuição de uma série de valores. Por exemplo, considere a 
quantidade de gols feitos por dois times nos últimos sete campeonatos nacionais. 
 
 
Time A: 80, 78, 80, 85, 75, 85, 80 
 
 
 
Time B: 50, 78, 67, 85, 88, 94, 98 
 
 
Cada time fez, em média, 80 gols em cada ano, nos levando a crer que ambos os times tiveram 
desempenhos semelhante no que se refere ao número de gols nos últimos sete campeonatos. 
Analisando a quantidade de gols marcados pelos times, notaremos que essa quantidade varia 
de 75 a 85 gols no time ‘A’, enquanto que a do time ‘B’ varia de 50 a 98 gols, e com base nesta 
variação na quantidade de gols marcados podemos ver que o desempenho de ambos os times 
é bem distinto. 
 
A medida de dispersão ou de variabilidade informa o quanto os valores de uma série de 
valores estão afastados ou dispersos em relação a uma medida central, que normalmente é a 
média aritmética. As medidas de variabilidade permitem quantificar a variação presente em 
um conjunto de dados. As medidas usuais são: 
 
Medidas de dispersão absoluta 
Desvio-padrão 
Variância 
Amplitude 
Desvio médio absoluto 
 
Medidas de dispersão relativa 
Coeficiente de variação 
 
 
 
 
 
 
 
 
 
12111098765432
Distância percorrida
Dotplot of X
30 40 50 60 70 80 90 100 
 
12111098765432
Distância percorrida
Dotplot of X
30 40 50 60 70 80 90 100 
 
Unidade 02 – Medidas Estatísticas 
 
 23  
3.1 - Medida de variabilidade para dados individuais 
As medidas abaixo se referem aos dados brutos, ou seja, uma série de valores que não 
agrupados em tabelas de freqüência. 
 
 Amplitude 
 
A amplitude é diferença entre o maior e o menor valor em uma série de números. 
 
MínimoMáximoAt 
 
 
Para o conjunto x = {9, 4, 5, 10, 7} a amplitude será: 
6410 tA
 
 
A amplitude será sempre maior ou igual a zero e nunca negativa. Uma maior amplitude 
indicaria que os valores estão mais afastados uns dos outros. É a medida mais simples de 
dispersão, mas ela deixa a desejar quando trabalhamos com grande conjunto de dados, pois 
desconsidera os valores entre o mínimo e o máximo. 
A duas séries abaixo têm a mesma amplitude, porém pelo gráfico de pontos vemos que a 
variabilidade é diferente em ambos. 
 
x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} 
 
x = {7, 7, 4, 7, 10} At = 6 
 
 
y = {9, 4, 5, 10, 7} At = 6 
 
 
A amplitude consegue medir bem a variabilidade, quando se tem uma amostra pequena. Por 
isto, tem grande aplicação na área de controle de qualidade, onde se deseja uma rápida 
medida de variabilidade. 
 
 Desvio médio absoluto 
 
O grande inconveniente da amplitude é que ela usa apenas os valores extremos dos dados, 
deixando de lado os demais valores. Uma medida que considera todos os valores do conjunto 
seria mais interessante e mais justa para representar a variabilidade dos dados. 
 
O desvio médio absoluto, representado por DMA, é uma das medidas de dispersão que leva 
em consideração todos os valores do conjunto. O DMA analisa a dispersão dos dados em torno 
de um valor central, representado pela média aritmética. O desvio médio absoluto é dado pela 
fórmula abaixo: 
𝐷𝑀𝐴 =
∑ |𝑥𝑖 − �̅�|
𝑛
𝑖=1
𝑛
 
onde 
x = cada um dos valores da série 
n = número de valores (tamanho da amostra) 
|𝑥𝑖 − �̅�| = módulo do desvio do valor x em relação à média 
 
 
12111098765432
Distância percorrida
Dotplot of X
 
12111098765432
Distância percorrida
Dotplot of X
 
Unidade 02 – Medidas Estatísticas 
 
 24  
Como se vê, o desvio médio absoluto pode ser visto como uma média do afastamento dos 
valores em relação à média do conjunto. Quanto maior o DMA, mais afastados os valores 
estarão da média, portanto maior será a variabilidade. O DMA é uma medida sempre maior ou 
igual à zero, NUNCA negativa. 
 
Exemplo 12. Considerando as duas séries de notas em dois testes (X e Y), calculeo desvio 
médio absoluto das notas. 
 
x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} 
 
Solução ------------------------------------------------------------------------------------------------------------------ 
 
Um modo prático de se calcular o desvio médio absoluto é colocar os valores em forma de 
tabela e calcular o módulo dos desvios em torno da média. Veja abaixo como ficariam os 
cálculos. 
 Teste X Teste Y 
x 
Desvio 
𝑥𝑖 − �̅� 
|𝑥𝑖 − �̅�| 
 
y 
Desvio 
𝑦𝑖 − �̅� 
|𝑦𝑖 − �̅�| 
7 0 0 9 2 2 
7 0 0 4 -3 3 
4 -3 3 5 -2 2 
7 0 0 10 3 3 
10 3 3 7 0 0 
-  = 0  = 6 -  = 0  = 10 
 
𝐷𝑀𝐴𝑋 =
∑ |𝑥𝑖 − �̅�|
𝑛
𝑖=1
𝑛
=
6
5
= 1,2 𝐷𝑀𝐴𝑌 =
∑ |𝑦𝑖 − �̅�|
𝑛
𝑖=1
𝑛
=
10
5
= 2,0 
 
Usando o programa R. 
 
x = c(7,7,4,7,10) # valores 
d = abs(x - mean(x)) # modulo dos desvios 
sum(d) / length(x) # DMA 
 
 
Como o 𝐷𝑀𝐴𝑌 = 2,0 foi maior que o 𝐷𝑀𝐴𝑋 = 1,2, conclui-se que as notas do teste Y 
apresenta maior variabilidade do que as notas do teste X. 
O DMA usa todos os valores da série e resolver o problema apresentado pela amplitude, mas 
apresenta alguns pontos fracos, dentre eles: 
 
 O DMA é bastante influenciado pelos valores atípicos (outliers); 
 Pelo fato de trabalhar com o módulo, certas propriedades estatísticas do DMA são 
difíceis de serem verificadas5. 
 
 
 
5 Característica de um bom estimador: não ser viciado e ter menor variabilidade. 
Unidade 02 – Medidas Estatísticas 
 
 25  
 Variância amostral (s2) e desvio-padrão amostral (s) 
A variância amostral, representada por s2, é uma medida de variabilidade baseada nos desvios 
de cada valor em torno da média. Como esses desvios podem assumir valores positivos e 
negativos, a soma de todos eles serão sempre zero. Para evitar que a soma dê sempre zero, a 
variância trabalha com os desvios elevados ao quadrado6. A variância é dada pela fórmula 
abaixo: 
𝑠2 =
∑ (𝑥𝑖 − �̅�)
2𝑛
𝑖=1
𝑛 − 1
=
(𝑥1 − �̅�)
2 + (𝑥2 − �̅�)
2 + ⋯ +(𝑥𝑛 − �̅�)
2
𝑛 − 1
 
A variância é aproximadamente uma média dos desvios ao quadrado. Quanto maior a 
variância, mais afastados os valores estarão da média, portanto maior será a variabilidade 
destes valores. A variância é uma medida sempre maior ou igual a zero e NUNCA negativa. 
 
Exemplo 13. Como exemplo, vamos calcular o desvio médio absoluto das notas em dois 
testes (X e Y). 
x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} 
 
Solução ------------------------------------------------------------------------------------------------------------------- 
 
Voltando ao exemplo dos dois testes, vamos calcular a variância das notas obtidas em ambos 
os testes. 
x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} 
Teste X 
𝑠2 =
∑ (𝑥𝑖 − �̅�)
2𝑛
𝑖=1
𝑛 − 1
=
(7 − 7)2 + (7 − 7)2 + ⋯ + (10 − 7)2
5 − 1
=
18
4
= 4,5 𝑝𝑜𝑛𝑡𝑜𝑠2 
 
Teste Y 
𝑠2 =
∑ (𝑦𝑖 − �̅�)
2𝑛
𝑖=1
𝑛 − 1
=
(9 − 7)2 + (4 − 7)2 + ⋯ + (7 − 7)2
5 − 1
=
26
4
= 6,5 𝑝𝑜𝑛𝑡𝑜𝑠2 
Assim como foi feito para o DMA, o modo mais prático é formar uma tabela com os valores, 
 
 Teste X Teste Y 
x 
Desvio 
𝑥𝑖 − �̅� 
(𝑥𝑖 − �̅�)
2 
 
y 
Desvio 
𝑦𝑖 − �̅� 
(𝑦𝑖 − �̅�)
2 
7 0 0 9 2 4 
7 0 0 4 -3 9 
4 -3 9 5 -2 4 
7 0 0 10 3 9 
10 3 9 7 0 0 
-  = 0  = 18 -  = 0  = 26 
 
𝑆𝑥
2 =
∑ (𝑥𝑖 − �̅�)
2𝑛
𝑖=1
𝑛 − 1
=
18
5 − 1
= 4,5 𝑆𝑦
2 =
∑ (𝑦𝑖 − �̅�)
2𝑛
𝑖=1
𝑛 − 1
=
26
5 − 1
= 6,5 
 
 
6 O DMA calcula o módulo de cada desvio, em vez de elevar cada desvio ao quadrado. 
Unidade 02 – Medidas Estatísticas 
 
 26  
Como a variância de Y (6,5) foi maior que a variância de X (4,5), conclui-se que os valores no 
teste Y estão mais afastados da média do que as valores do teste X, ou seja, os valores de x 
estão mais homogêneos em torno da média do que os valores de Y 
Pelo fato de trabalhar com os desvios elevados ao quadrado, a unidade de medida da variância 
é também elevada ao quadrado também. Por exemplo, se os valores de X se referir à idade 
(em anos) de cinco crianças, então a variância seria igual a 4,5 anos2. Se o conjunto se referir 
ao salário (em mil reais) de cinco funcionários, então a variância será igual a 4.500 reais2 e, por 
fim, se o conjunto se referir ao número de filhos de cinco famílias, então a variância será igual 
4,5 filhos2. 
Fica difícil ter alguma interpretação prática para a variância, já que sua unidade de medida não 
é a mesma dos dados originais. Para resolver essa pequena inconveniência, a solução foi 
simplesmente tirar a raiz quadrada do valor da variância, surgindo assim, o desvio-padrão. 
O desvio-padrão amostral, representada por s ou dp, é apenas a raiz quadrada da variância. 
Portanto sua fórmula é dada por: 
𝑠 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = √
∑ (𝑥𝑖 − �̅�)2
𝑛
𝑖=1
𝑛 − 1
 
 
Continuando com o exemplo anterior, o desvio-padrão seria: 
 
Teste X: O desvio-padrão do conjunto x é 
 5,4s
x
2,12 pontos 
 
Teste Y: O desvio-padrão do conjunto y é 
 5,6s
y
2,55 pontos 
Quanto maior o valor do desvio-padrão, mais afastados os valores estarão da média, portanto 
maior será a variabilidade dos valores. A unidade de medida do desvio-padrão é a mesma 
unidade dos dados originais. Por exemplo, se conjunto x do exemplo anterior se referir à idade 
(em anos) de cinco crianças, então o desvio-padrão será igual a 2,12 anos e, por fim, se o 
conjunto se referir ao salário (em mil reais) de cinco funcionários, então o desvio-padrão será 
igual a 2.120 reais. 
 
Usando o programa R. 
 
x = c(7,7,4,7,10) # valores de x 
y = c(9,4,5,10,7) # valores de y 
var(x) ; var(y) # variância de x e y 
sd(x) ; sd(y) # desvio-padrão de x e y 
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 27  
O que de fato vem a ser o desvio-padrão? 
Essa é uma pergunta muito comum. O desvio-padrão é a medida de variabilidade mais comum 
na estatística. Sua aplicação se torna mais fácil de entender, quando ele é usado para 
comparar a variabilidade entre dois ou mais conjuntos de valores. 
Outra forma de explicar o desvio-padrão é dizer que ele pode ser usado como uma medida de 
distância de cada valor em relação à média. Um valor que está a apenas meio desvio-padrão 
da média significa que está bem perto da média (podendo estar acima ou abaixo), ao passo 
que um valor que está três desvios-padrão da média significa que está muito distante da 
média. 
Isto é possível, porque sabemos que em uma distribuição normal (distribuição simétrica e em 
forma de sino), 68,3% dos valores estarão distantes de um desvio-padrão abaixo e acima da 
média, 95,5% dos valores estarão distantes dois desvios-padrão e 99,7% dos valores estarão 
distantes três desvios-padrão. 
 
A média e o desvio-padrão do Enem (Exame Nacional do Ensino Médio) é 500 e 100, 
respectivamente. Então, podemos esperar que 95,4% das pessoas que fazem o Enem tenham 
uma nota de 500  2∙(100) = 500  200 = [300 ; 700] pontos. 
Variância e desvio-padrão de uma população 
 
Quando trabalhamos com os dados de uma população, a variância passa a ser denominada de 
variância populacional e é denotada pelo símbolo 2 (leia-se sigma ao quadrado). Na 
realidade, o cálculo é semelhante ao cálculo da variância amostral, com exceção de que no 
denominador não há a subtração do valor 1. A fórmula da variância populacional é: 
 
𝜎2 =
∑ (𝑥𝑖 − 𝜇)2𝑁
𝑖=1
𝑁
 
onde 
𝑥𝑖 = cada valor da série 
 = média populacional 
N = tamanho da população 
O desvio-padrão populacional é denotado por  é calculado por: 
𝜎 = √
∑ (𝑥𝑖 − 𝜇)2
𝑁
𝑖=1
𝑁
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 28  
Por que na variância amostral a divisão é por n - 1 e não por n? 
 
Quando temos os dados de toda a população, o cálculo da variância é feito dividindo a soma 
dos desvios ao quadrado pelo tamanho da população N, obtendo, então, uma média desses 
desvios. Entretanto, na estatística, frequentemente trabalhamos com apenas uma amostra e o 
desejo é usar essa amostra para obter estimativas de parâmetros da população, entre eles a 
variância populacional (2). 
Ao calcular a variância amostral (s2) usando n no denominador, o valor obtido de s2 estará 
subestimando a real variância (2). Então, para melhorar a estimativa da real variância (2), 
calculamos a variância usando o n – 1 no denominador, em vez de n. 
 
Fórmula alternativa de calcular a variância e/ou o desvio-padrão 
 
A fórmula alternativa abaixo permite calcular a variância amostral sem precisar calcular a 
média antes. 
𝑠2 =
𝑛(∑ 𝑥𝑖
2) − (∑ 𝑥𝑖)
2
𝑛(𝑛 − 1)
 
 
onde: 
n
n
i
i xxxx 

21
1
 e 
22
2
2
1
1
2
n
n
i
i xxxx 


 
 
 
Por exemplo, considerando a série y = {9, 4, 5, 10, 7} usando a fórmula acima. 
 
 ∑ 𝑦𝑖 = 9 + 4 + 5 + 100 + 7 = 35 
 
 ∑ 𝑦𝑖
2 = 92 + 42 + 52 + 102 + 72 = 271 
 
𝑠2 =
𝑛(∑ 𝑦𝑖
2) − (∑ 𝑦𝑖)
2
𝑛(𝑛 − 1)
=
5(271) − 352
5(5 − 1)
= 6,5 
 
Usando o programa R. 
 
y = c(9,4,5,10,7) # valores de y 
n = length(y) # tamanho de y 
a = sum(y^2) # soma dos quadrados 
b = sum(y)^2 # quadrado das somas 
(n*a - b) / (n*(n-1)) 
 
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 29  
Propriedades do desvio-padrão 
 
Suponha que os dados do conjunto x = {x1, x2, ... ,xn} têm um desvio-padrão sx. 
 
(1) Somando-se (ou subtraindo-se) uma constante a a todos os valores de uma variável, o 
desvio-padrão do conjunto não se altera. 
 
Se 
axy ii 
  
xy ss 
 
(2) Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante b, o 
desvio-padrão do conjunto fica multiplicado (ou dividido) dessa constante. 
 
Se 
ii bxy 
  
xy bss 
 
 
(3) Combinando as propriedades (1) e (2), temos: 
 
Se 
abxy ii 
  
xy bss 
 
 
Exemplo 14. Considere a série x = {1, 2, 3, 3, 4, 5}, cujo desvio-padrão sx = 1,4142 é 
conhecido. Calcule o desvio-padrão dos novos valores, se: 
 
(a) For adicionado o valor 6 a cada valor do x. 
(b) For multiplicado por 4 cada valor de x. 
 
Solução ------------------------------------------------------------------------------------------------------------------- 
 
(a) Será igual ao desvio-padrão anterior, 1,4142. 
 
Se yi = xi + 6, então 
xy
ss 
 = 1,4142 (veja a coluna 2 da tabela abaixo) 
 
(b) Será igual a 4 vezes o desvio-padrão anterior, ou seja, será 5,6568. 
 
Se yi = 4*xi, então 
xy
s4s 
 = 4*1,4142 = 5,6568 (veja a coluna 3 da tabela abaixo) 
 
(1) 
x 
(2) 
y = x + 6 
(3) 
y = 4*x 
1 7 4 
2 8 8 
3 9 12 
3 9 12 
4 10 16 
5 11 20 
sx = 1,4142 sy = 1,4142 sy = 5,6569 
 
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 30  
Exemplo 15. Sabendo que X é uma variável com com média 50 e desvio-padrão sx = 15. 
Calcule a média, o desvio-padrão e a variância da nova variável 
  610
5
4
 XY
. 
Solução ------------------------------------------------------------------------------------------------------------------- 
 
Vamos primeiro desenvolver o Y. 
 
  2
5
4
68
5
4
610
5
4
5
4
610
5
4
 XXXXY
 
 
Portanto, 
2
5
4
 XY
 
Aplicando a propriedade da média: 
38250
5
4
2
5
4
 xy
. 
Aplicando a propriedade do desvio-padrão: 
1215
5
4
5
4
 xy ss
. 
A variância de Y será (12)2 = 144 
 
 Coeficiente de variação (CV) 
 
O coeficiente de variação, representado por CV, é uma medida relativa de dispersão, pois leva 
em consideração a média do conjunto de dados. Ele é a razão entre o desvio-padrão s e a 
média 
x
, isto é: 
 
x
s
CV 
 
 
Como se pode ver, o CV é adimensional (não tem unidade de medida) e multiplicando o valor 
obtido por 100, ele será expresso em percentual (%). O coeficiente de variação é indicado para 
comparar variabilidade de variáveis com unidades diferentes ou comparar variabilidade entre 
conjuntos com grandezas diferentes. 
 
Considere o quadro resumo a seguir com peso e altura da mãe o bebê, 
 
QUADRO RESUMO 
X = Peso de recém-
nascidos (em kg) 
Y = Peso da mãe dos 
recém-nascidos (em kg) 
Z = Altura da mãe dos 
recém-nascidos (em 
cm) 
Q = Altura do pai dos 
recém-nascidos (em 
cm) 
média = 5 kg 
dp = 0,82 kg 
CV = 16,3% 
média = 67 kg 
dp = 6,78 kg 
CV = 9,4% 
média = 171 cm 
dp = 8,08 cm 
CV = 4,7% 
média = 175 cm 
dp = 10,8 cm 
CV = 6,2% 
dp = desvio-padrão 
 
 
Unidade 02 – Medidas Estatísticas 
 
 31  
Comparando variabilidade entre as variáveis X e Y 
 
 As unidades de medidas são as mesmas para ambas as variáveis, porém o peso médio da 
mãe (67 kg) é muito diferente do peso médio da criança (5 kg). Nesse caso, a melhor forma de 
comparar a variabilidade é usar o coeficiente de variação (CVX = 16,3% e CVY = 9,4%). 
Comparando os resultados, vê-se que a variação relativa dos pesos7 é maior para os recém-
nascidos do que para as mães. 
 
Comparando variabilidade entre as variáveis Y e Z 
 
 As unidades de medidas são bem diferentes (kg para peso e cm para altura). Nesse caso, a 
única forma de comparar a variabilidade é usando o coeficiente de variação (CVY = 9,4% e CVZ 
= 9,4%). Comparando os resultados, vê-se que a variação relativa é maior para os pesos das 
mães. 
 
Comparando variabilidade entre as variáveis Z e Q 
 
 As unidades de medidas são as mesmas e as médias são bem parecidas (171 cm das mães e 
175 cm dos pais). Nesse caso, podemos usar tanto o desvio-padrão quanto o coeficiente de 
variação. Comparando os resultados, vê-se que há uma maior variabilidade nas alturas dos 
pais (dp = 10,8 cm e CV = 6,2%) do que nas alturas das mães (dp = 8,08 cm e CV = 4,7%). 
 
 
 
7Variação em torno da média. 
Unidade 02 – Medidas Estatísticas 
 
 32  
3.2 - Medidas de variabilidade para dados agrupados 
3.2.1 - Dados agrupados em tabelas de frequência sem classe 
Se os dados estão agrupados em tabela sem classe, a fórmula da variância será: 
 
𝑠2 =
1
𝑛 − 1
∑[(𝑥𝑖 − �̅�)
2𝑓𝑖]
𝑖
 𝑜𝑢 𝑠2 =
𝑛(∑ 𝑥𝑖
2𝑓𝑖) − (∑ 𝑥𝑖𝑓𝑖)
2
𝑛(𝑛 − 1)
 
 
Onde, xi será o valor da variável e fi será a frequência deste valor, como foi no cálculo da 
média. 
 
Exemplo 16. A tabela abaixo mostra a distribuição do o número de filhos para uma amostra 
de 20 funcionários. Calcule a variância e o desvio-padrão do número de filhos dos funcionários. 
 
Número de 
Filhos 
Quantidade de 
funcionários 
0 5 
1 7 
2 5 
3 2 
4 1 
Solução ------------------------------------------------------------------------------------------------------------------ 
 
Complete a tabela acrescentando uma coluna com o produto 𝑥𝑓 e outra com o produto 𝑥2𝑓 . 
 
 
 x f 𝑥𝑓 𝑥2𝑓 
0 5 0 0 
1 7 7 7 
2 5 10 20 
3 2 6 18 
4 1 4 16 
Total 20 27 61 
 
Databela ao lado temos: ∑ 𝑓 = 20, ∑ 𝑥𝑓 = 27, ∑ 𝑥2𝑓 = 61 
 
Variância: 
 











20
27
61
120
1
s
2
2
 = 1,29 (filho)2 
 
Desvio-padrão: 
29,1s 
= 1,14 filho 
 
 
Unidade 02 – Medidas Estatísticas 
 
 33  
3.2.2 - Dados agrupados em tabelas de frequência com classe 
Se os dados estão agrupados em tabela sem classe, a fórmula da variância será: 
 
𝑠2 =
1
𝑛 − 1
∑[(𝑥𝑖 − �̅�)
2𝑓𝑖]
𝑖
 𝑜𝑢 𝑠2 =
𝑛(∑ 𝑥𝑖
2𝑓𝑖) − (∑ 𝑥𝑖𝑓𝑖)
2
𝑛(𝑛 − 1)
 
 
Onde, x será o ponto médio de cada classe e f será a frequência da classe, como foi no cálculo 
da média. 
 
Exemplo 17. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para 
uma amostra de 20 funcionários. Calcule o salário médio desses funcionários. 
 
 
Salários 
(em SM) 
Quantidade de 
funcionários 
2,0 | 3,5 6 
3,5 | 5,0 7 
5,0 | 6,5 4 
6,5 | 8,0 2 
8,0 | 9,5 1 
Solução ------------------------------------------------------------------------------------------------------------------ 
 
Complete a tabela acrescentando uma coluna com o ponto médio de cada classe (xi), uma 
coluna com o produto 𝑥𝑓 e outra com o produto 𝑥2𝑓 . 
 
Salários x f 𝑥𝑓 𝑥2𝑓 
2,0 | 3,5 2,75 6 16,50 45,38 
3,5 | 5,0 4,25 7 29,75 126,44 
5,0 | 6,5 5,75 4 23,00 132,25 
6,5 | 8,0 7,25 2 14,50 105,13 
8,0 | 9,5 8,75 1 8,75 76,56 
Total --- = 20  = 92,50 = 485,75 
 
Variância amostral 
 
𝑠2 =
𝑛(∑ 𝑥𝑖
2𝑓𝑖) − (∑ 𝑥𝑖𝑓𝑖)
2
𝑛(𝑛 − 1)
=
20(485,75) − (92,50)2
20(19)
= 3,05 
 
Desvio-padrão amostral: 
05,3s
= 1,75 SM 
 
 
 
 
 
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 34  
3.3 - Algumas aplicações do desvio-padrão 
a) Regra empírica 
 
A regra abaixo é válida para dados com distribuição simétrica em formato de sino. 
 
 Cerca de 68,3% dos valores estarão dentro de uma distância de  1 desvio-padrão em 
torno da média (ou seja, média  1*dp). 
 
 Cerca de 95,4% dos valores estarão dentro de uma distância de  2 desvios-padrões 
em torno da média (ou seja, média  2*dp). 
 
 Cerca de 99,7% dos valores estarão dentro de uma distância de  3 desvios-padrões 
em torno da média (ou seja, média  3*dp). 
 
Como exemplo, no Enem (Exame Nacional do Ensino Médio), as notas dos candidatos têm uma 
média de 500 pontos e um desvio-padrão de 100 pontos. Assumindo que estas notas se 
distribuem simetricamente em torno da média em forma de sino, podemos dizer que: 
 
Cerca de 95,4% dos candidatos têm notas dentro do intervalo 500  (2*100) = 500  200, ou 
seja, de 300 a 700 pontos (nove de cada dez têm notas de 300 a 700 pontos). 
 
A regra acima deve ser usada em conjunto de dados distribuídos simetricamente em torna da 
média em forma de sino. Veja as figuras abaixo que mostra uma distribuição simétrica e 
assimétrica. 
 
Simétricos em forma de sino Assimétricos (não simétricos em torno da média) 
 
 
Quando os dados não forem normalmente distribuídos, pode-se usar a desigualdade de 
Chebychev. 
 
 
b) Desigualdade de Chebychev 
 
Este teorema permite fazer afirmações acerca da proporção de valores que devem estar 
contidos em um número específico de desvios-padrão a partir da média. È um teorema que 
pode ser aplicado à qualquer conjunto de dados. 
 
“No mínimo 1 − (1/𝑘2) dos dados de uma amostra caem dentro de k desvios-padrão da 
média, onde k é um número real positivo maior que um. ” 
 
Por exemplo, considerando três desvios-padrão (k = 3), temos 1 – ( 1 / k2 ) = 1 – (1 / 32) = 8/9 
= 88,8%. Ou seja, “no mínimo 89% dos valores de qualquer distribuição devem estar dentro de 
três desvios-padrão da média”. 
 
 
Unidade 02 – Medidas Estatísticas 
 
 35  
c) Escore z (ou z-escore) 
 
O escore z de um valor x é o número de desvios-padrão que este valor x está acima ou abaixo 
da média. O escore z pode ser obtido pela fórmula abaixo: 
 
dp
médiavalor
z


 onde dp = desvio-padrão 
 
Usando o escore z para classificar um valor como não usual 
 
O escore z pode ser usado para classificar um valor como atípico (valor não usual ou outlier) ou 
típico (valor usua). Para conjunto de dados simétricos em torno da média podemos usar a 
regra abaixo: 
 
 z < 2  valor atípico (considerado valor muito pequeno) 
 z > +2  valor atípico (considerado como muito grande) 
2  z  +2  valor usual (considerado como valor comum) 
 
Exemplo 18. Os homens adultos, em geral, têm uma altura média de 175 cm com um 
desvio-padrão de 6 cm. Qual será o escore z do jogador de basquetebol norte-americano 
Michael Jordan tem uma altura de 1,98 metro? Esta altura é atípica na população em geral? 
 
Solução ------------------------------------------------------------------------------------------------------------------ 
 
8,3
6
175198
Jordan Michael 




dp
médiavalor
z
 
 
Como z = 3,8 é maior que 2, então podemos concluir que a altura de Michael Jordan não é 
comum em homens adultos em geral (esta altura seria um valor não usual). 
 
Usando o escore z para fazer comparações entre valores 
 
O escore z também pode ser usado comparar valores vindos de diferentes conjuntos de dados. 
 
Por exemplo, suponha que uma prova foi aplicada aos alunos de duas turmas (A e B). Na turma 
A, a nota média foi de 10 pontos com desvio-padrão de 5 pontos. Na turma B, a nota média foi 
de 15 pontos com desvio-padrão de 10 pontos. Vamos comparar as notas da aluna Carla, da 
turma A, com 18 pontos e da aluna Ana, da turma B, com 25 pontos. 
 
O escore z da Carla foi z = 1,6, significando que sua nota está 1,6 desvio-padrão acima da 
média da turma A. Enquanto que o escore z da Ana foi z = 1,0, significando que sua nota está 1 
desvio-padrão acima da média da turma B. 
 
6,1
5
1018


Carlaz
 
0,1
10
1525


Anaz
 
 
Usando o escore z podemos concluir que a Carla teve um desempenho melhor dentro da sua 
turma do que a aluna Ana. Apesar de a Ana ter tirado 25 pontos. 
 
Unidade 02 – Medidas Estatísticas 
 
 36  
4 - Outras medidas estatísticas 
As medidas de posição central (média, mediana, moda) e as medidas de dispersão (desvio-
médio absoluto, variância, desvio-padrão) desempenham um papel importante na estatística, 
pois conseguem descrever as duas principiais características de uma distribuição de valores: o 
valor central e a variabilidade. A mediana, além de representar o valor central de uma 
distribuição, também apresenta uma característica interessante que é a de dividir a 
distribuição em duas partes iguais quanto ao número de elementos em cada parte. 
Usando essa última ideia da mediana podemos também dividir a distribuição em quatro, dez 
ou cem partes iguais quanto ao número de elemento. As medidas que dividem a distribuição 
em quatro, dez e cem partes iguais são denominados de quartil, decil e percentil, 
respectivamente. No geral, essas medidas são conhecidas como medidas separatrizes (ou 
medidas de posição não central). 
4.1 - Medidas separatrizes para dados individuais 
As medidas separatrizes abaixo se referem aos dados brutos, ou seja, dados não agrupados em 
tabelas de frequência. 
 
 Quartil 
 
Há três quartis (Q1, Q2, Q3), que juntos, dividem a distribuição em quatro partes iguais com 
cerca de um quarto (ou seja, 25%) dos elementos em cada parte. 
 
Primeiro Quartil 
 
O primeiro Quartil, simbolizado por Q1, é o valor que separa os 25% menores valores dos 
demais (75%) (ver figura a). 
 
Segundo QuartilO segundo Quartil, simbolizado por Q2, é o valor que separa o conjunto ordenado de valores 
em duas partes, 50% abaixo e 50% acima. Note que o segundo quartil é a própria mediana, ou 
seja, Q2 = md (ver figura b). 
 
Terceiro Quartil 
 
O terceiro Quartil, simbolizado por Q3, é o valor que separa os 25% maiores valores dos 
demais (75%) (ver figura c). 
 
 
 
 
 
 
 
 
25% 75% 25% 75% 50% 50% 
Q1 Q2 = md Q3 
 ( a ) ( b ) ( c ) 
Unidade 02 – Medidas Estatísticas 
 
 37  
Abaixo mostramos um desenho esquematizando a divisão de uma distribuição em quatro 
partes com 25% dos elementos em cada grupo. Note que de Q1 a Q3 temos metade (ou 50%) 
dos valores. 
 
 
Não há um consenso mundial sobre um procedimento único para obter os quartis. Abaixo, 
apresento dois seguintes procedimentos. 
 
Procedimento 1 
 
Ordene o conjunto de dados em ordem crescente e calcule 𝑝𝑜𝑠 = 𝑘 ∙ 𝑛/4 que é a posição do 
Quartil k (k = 1, 2 ou 3); 
 
 Se pos não for inteiro, arredonde pos para o maior inteiro mais próximo, e o Quartil Qk será 
o valor que está na posição pos. 
 Se pos for inteiro, então o Quartil Qk será a média entre os valores que estão na posição 
pos e pos +1. 
 
Procedimento 2 
 
 Ordene o conjunto de dados em ordem crescente e encontre a mediana do conjunto. 
 Considerando apenas os valores abaixo da mediana, encontre novamente a mediana. Este 
valore será o 1º quartil Q1. 
 Considerando apenas os valores acima da mediana, encontre novamente a mediana. Este 
valore será o 3º quartil Q3. 
 
 
Unidade 02 – Medidas Estatísticas 
 
 38  
Exemplo 19. Os dados abaixo se referem à distância percorrida até a empresa para uma 
amostra de 20 funcionários. Calcule o 1º e 3º quartis e interprete-os. 
 
8, 7, 6, 2, 9, 8, 15, 15, 16, 3, 18, 8, 8, 3, 9, 18, 2, 6, 6, 2 
 
Solução ------------------------------------------------------------------------------------------------------------------ 
 
Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20 
 
Primeiro quartil 
 
k = 1 posição  
54201 pos
 (o Q1 será a média entre 5º e 6º valores 
 
km5,4
2
63
Q1 


 
 
Terceiro quartil (Q3) 
 
k = 3 posição  
154203 pos
 (o Q3 será a média entre 15º e 16º valores 
 
km0,12
2
159
Q3 


 
 
 
Usando o procedimento 2. 
 
Como temos um número par de valores, a mediana será a média dos dois valores centrais (8 e 
8), então a mediana é 8. 
 
2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 
 
O primeiro quartil será a mediana da primeira metade, ou seja, a média dos dois valores 
centrais (3 e 6). Então, Q1 = (3 + 6)/2 = 4,5. 
 
O terceiro quartil será a mediana da segunda metade (azul), ou seja, a média dos dois valores 
centrais (9 e 15). Então, Q1 = (9 + 15)/2 = 12. 
 
 Decil 
 
Há nove decis (D1, D2, ..., D9), que juntos dividem a distribuição em dez partes iguais com cerca 
de 10% dos elementos em cada parte. Lembre-se de que a divisão em partes iguais se refere 
ao número de elementos em cada parte. 
 
O Decil k, simbolizado por Dk, é o valor que divide o conjunto ordenado de valores em duas 
partes, tais que (10*k)% dos valores sejam menores do que ele e os restantes sejam maiores. 
 
 
 
 
 
 
Cerca de 25% dos funcionários percorrem menos de 4,5 km até a empresa e 
os restantes (75%) percorrem mais de 4,5 km. 
Cerca de 75% dos funcionários percorrem menos de 12 km até a empresa e 
os restantes (25%) percorrem mais de 12 km. 
Unidade 02 – Medidas Estatísticas 
 
 39  
Por exemplo: 
 
Decil 7 (D7) - É o valor que divide em duas partes, tais que 70% dos valores sejam menores do 
que ele e os 30% restantes sejam maiores. 
 
Decil 5 (D5) - É o valor que divide em duas partes, tais que 50% dos valores sejam menores do 
que ele e os 50% restantes sejam maiores. 
 
O procedimento que vamos usar é o mesmo usado para o cálculo dos quartis. 
 
Ordene o conjunto de dados em ordem crescente e calcule 𝑝𝑜𝑠 = 𝑘 ∙ 𝑛/10 que é a posição do 
Decil k (k = 1, 2, ... , 9); 
 
 Se pos não for inteiro, arredonde pos para o maior inteiro mais próximo, e o Decil Dk será o 
valor que está na posição pos. 
 Se pos for inteiro, então o Decil Dk será a média entre os valores que estão na posição pos e 
pos +1. 
 
Exemplo 20. Os dados abaixo se referem a distância percorrida até a empresa para uma 
amostra de 20 funcionários. Calcule e interprete o Decil 9. 
 
8, 7, 6, 2, 9, 8, 15, 15, 16, 3, 18, 8, 8, 3, 9, 18, 2, 6, 6, 2 
 
Solução ------------------------------------------------------------------------------------------------------------------ 
 
Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20 
 
Decil 9 (D9) 
k = 9 posição  
1810209 pos
 (o D9 será a média dos valores que estão na 18ª e 19ª 
posição no conjunto ordenado) 
 
km17
2
1816
D9 


 
 
 Percentil 
 
Há 99 percentis (P1, P2, ..., P99), que juntos dividem a distribuição em cem partes iguais com 
cerca de 1% dos elementos em cada parte. 
 
O Percentil k, simbolizado por Pk, é o valor que divide o conjunto ordenado de valores em 
duas partes, tais que k% dos valores sejam menores do que ele e os restantes sejam maiores. 
Por exemplo: 
 
Percentil 70 (P70) 
É o valor que divide em duas partes, tais que 70% dos valores sejam menores do que ele e os 
30% restantes sejam maiores. 
 
Percentil 50 (P50) 
É o valor que divide em duas partes, tais que 50% dos valores sejam menores do que ele e os 
50% restantes sejam maiores. Note que o P50 é a mediana. 
 
Cerca de 90% dos funcionários percorrem menos de 17 km até a 
empresa e os 10% restantes percorrem mais de 17 km. 
Unidade 02 – Medidas Estatísticas 
 
 40  
O procedimento que vamos usar é o mesmo usado para o cálculo dos quartis. 
 
Ordene o conjunto de dados em ordem crescente e calcule 𝑝𝑜𝑠 = 𝑘 ∙ 𝑛/10 que é a posição do 
Percentil k (k = 1, 2, ... , 09); 
 
 Se pos não for inteiro, arredonde pos para o maior inteiro mais próximo, e o Percentil Pk 
será o valor que está na posição pos. 
 Se pos for inteiro, então o Percentil Pk será a média entre os valores que estão na posição 
pos e pos +1. 
 
Exemplo 21. Os dados abaixo se referem a distância percorrida até a empresa para uma 
amostra de 20 funcionários. Calcule e interprete o Percentil 25 e o Percentil 72. 
 
8, 7, 6, 2, 9, 8, 15, 15, 16, 3, 18, 8, 8, 3, 9, 18, 2, 6, 6, 2 
 
Solução ------------------------------------------------------------------------------------------------------------------ 
 
Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20 
   
 
Percentil 25 (P25) - k = 25 posição  
51002025 pos
 
 
Como 5 é um valor inteiro, então o percentil P25 será a média dos 5º e 6º valores no conjunto 
ordenado. Ou seja, 
 
km
3
P25 4,5 
2
6



 
 
Percentil 72 (P72) - k = 72 posição  
4,141002072 pos
 
 
Como o 14,4 não é um valor inteiro, devemos arredondá-lo para cima. Neste caso, o percentil 
P74 será o valor que está na 15ª posição no conjunto ordenado, ou seja, 
 
km9P72 
 
 
 
Relação entre Quartil, Decil e Percentil 
 
Relação entre Decile Percentil. 
 
D1 = P10 D2 = P20 ... D5 = P50 = mediana ... D9 = P90 
 
Relação entre Quartil, Percentil e Mediana. 
 
Q1 = P25 Q2 = P50 = D5 = mediana Q3 = P75 
 
 
Cerca de 25% dos funcionários percorrem até 4,5 km até a empresa 
e os 75% restantes percorrem mais de 4,5 km. 
Cerca de 72% dos funcionários percorrem até 9 km até a empresa e os 28% restantes 
percorrem mais de 9 km. 
Unidade 02 – Medidas Estatísticas 
 
 41  
4.2 - Medidas separatrizes para dados agrupados 
O cálculo do quartil, decil e percentil para dados agrupados em tabelas de frequência (com ou 
sem intervalo de classe) segue o mesmo raciocínio empregado no cálculo da mediada. Como 
há uma relação entre o percentil e o quartil e decil, os cálculos que serão vistos a seguir serão 
feitos apenas para o percentil. 
 
4.2.1 - Dados agrupados em tabelas de frequência sem classe 
Etapas a serem seguidas 
 
 Determine a frequência absoluta acumulada (F); 
 Calcule 
100)nk( pos
que é a posição do Percentil Pk (lembre-se: n =  f) 
 Localize o Percentil Pk como sendo o valor cuja frequência acumulada (F) é imediatamente 
superior à posição pos do Percentil. 
 
Observação: 
No caso de existir uma frequência acumulada Fi exatamente igual a pos = kn/100, o percentil 
será a média aritmética entre o valor da variável correspondente a essa frequência acumulada 
é a seguinte. 
 
Exemplo 22. A tabela abaixo mostra a distribuição do o número de filhos para uma amostra 
de 20 funcionários. Calcule o percentil 75. 
 
Número de 
filhos 
Quantidade de 
funcionários 
0 5 
1 7 
2 5 
3 2 
4 1 
Solução ------------------------------------------------------------------------------------------------------------------ 
Para facilitar os cálculos vamos acrescentar a frequência acumulada F. 
 
 Número de filhos 
x 
 f F 
0 5 5 
1 7 12 
2 5 17 
3 2 19 
4 1 20 
 
Percentil 75 (P75) 
151002075 pos
 (terceira linha da tabela, pois é F = 17 é imediatamente superior a 15) 
 
Então, o valor do Percentil 75 é P75 = 2 filhos 
 
Unidade 02 – Medidas Estatísticas 
 
 42  
4.2.2 - Dados agrupados em tabelas de frequência com classe 
Para obter o percentil em dados agrupados com classe, o procedimento é o seguinte: 
 
 Determine a frequência absoluta acumulada (F; 
 Calcule 
100)nk( pos
 que é a posição da percentil (lembre-se: n =  f) 
 Localize a classe do percentil como sendo a classe com a frequência acumulada (F) 
imediatamente superior à posição pos da percentil; 
 Calcule a percentil usando o método da interpolação linear abaixo: 
 
𝑃𝑘 = ℓ +
(
𝑘𝑛
100 − 𝐹𝑎𝑛𝑡)
𝑓
(𝐿 − ℓ) 
 
onde, 
 

 e 
L
 = limite inferior e superior da classe percentil, respectivamente. 
f = frequência absoluta da classe percentil. 
Fant = frequência absoluta acumulada anterior à classe percentil. 
 
 
 
 
 
 
 
 
 
Comentário 
 
No caso de existir uma frequência acumulada F exatamente igual a 
100)nk( pos
, o percentil 
será o limite superior da classe correspondente. 
 
Exemplo 23. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para 
uma amostra de 20 funcionários. Calcule o 3º Decil. 
 
Salários 
(em SM) 
Quantidade de 
funcionários 
2,0 | 3,5 6 
3,5 | 5,0 7 
5,0 | 6,5 4 
6,5 | 8,0 2 
8,0 | 9,5 1 
Solução ------------------------------------------------------------------------------------------------------------------ 
 
Vamos acrescentar a frequência acumulada F à tabela. 
 
Salários f F 
2,0 | 3,5 6 6 
3,5 | 5,0 7 13 
5,0 | 6,5 4 17 
6,5 | 8,0 2 19 
8,0 | 9,5 1 20 
Total 20 -- 
 
Classe f F 
... 
ℓ | f F 
... 
 
 classe percentil 
Unidade 02 – Medidas Estatísticas 
 
 43  
Calcular D4 
 
Basta lembrar que D4 = P40 
81002040pos 
 (P40 está na quarta classe, pois F = 13 é imediatamente superior a 8) 
 
Da tabela temos: 
5,3
, 
0,5L
, 
7f
 e 
6antF
. 
 
𝑃40 = 3,5 +
(
40 ∙ 20
100 − 6)
7
(5,0 − 3,5) = 3,93 𝑆𝑀 
 
Então, o salário que corresponde ao 4º quartil é D4 = 3,93 SM. 
 
 
 
Unidade 02 – Medidas Estatísticas 
 
 44  
4.3 - Diagrama de caixa (box plot) 
O diagrama de caixa é uma representação gráfica que descreve as principais características de 
uma distribuição de dados: medida de posição central, medida de dispersão, desvio da 
simetria e identificação de valores atípicos ou extremos. 
 
NA construção do diagrama de caixa, todo valor que não pertence ao intervalo 
[𝑄1 − 1,5𝐷 ; 𝑄3 + 1,5𝐷], onde 𝐷 = 𝑄3 − 𝑄1 é considerado um valor atípico e é identificado 
no gráfico com um símbolo, por exemplo, um asterisco (*). 
 
 
 
 
 
 
 
 
 
 
 
 
As linhas verticais em Q1 - 1,5D e Q3 + 1,5D não precisam estar no gráfico, elas só foram 
colocadas para ajudar a visualizar os limites máximo e mínimo dos valores considerados 
“comuns” (que não são valores extremos). 
 
Quanto maior o comprimento da caixa maior será a variabilidade dos dados, portanto a 
amplitude interquartil (D) pode ser vista também como uma medida de dispersão, tal como 
são a variância e o desvio-padrão. 
Abaixo temos um exemplo de um diagrama de caixa para a pressão sistólica de um grupo de 
pacientes. 
 
A linha se estende até o menor 
valor, desde que ele seja maior 
que Q1  1,5D 
 Q1  1,5D Q1 Q2 Q3 Q3 + 1,5D 
 D = Q3 – Q1 
A linha se estende até o maior 
valor, desde que ele seja 
menor que Q3 +1,5D 
* 
Valor atípico 
Valores atípicos 
* * 
 1º quartil = 114 
 2º quartil = 128 
 3º quartil = 142 
 outlier 
maior valor 
(dentre os valores típicos) 
menor valor 
(dentre os valores típicos) 
Unidade 02 – Medidas Estatísticas 
 
 45  
Usando vários gráficos de caixas para comparação 
A figura abaixo usa o diagrama de caixa para comparar as notas finais em três turmas. A 
inspeção dos gráficos revela que existe uma grande variação nas notas dos alunos na turma B e 
uma pequena variação nas notas na turma A. Para comparar o desempenho geral da turma, 
devemos olhar a linha do 2º quartil, assim sendo o desempenho foi melhor na turma A. Existe 
um valor extremo (um aluno com uma nota muito grande) na turma A e um aluno com nota 
muito pequena na turma C. Não existe nenhum valor extremo em B. 
Os gráficos abaixo comparam as notas finais de uma disciplina em três turmas. A inspeção dos 
gráficos revela que existe uma grande variabilidade nas notas dos alunos na turma B e uma 
pequena variabilidade nas notas na turma A8. O desempenho foi melhor na turma A e pior na 
turma C9. 
Existe um valor extremo (um aluno com uma nota muito grande) na turma A e um aluno com 
nota muito pequena na turma C. Não existe nenhum valor extremo em B. 
 
 
 
 
 
 
 
 
 
 
 
8 Observe que a caixa, na turma B, é mais comprida (maior D =amplitude interquartil), enquanto que, na turma A, a caixa é menor 
em comprimento. 
9 Observe a linha do meio (a linha da mediana), ela está em torno de 80 pts, na turma A, e em torno de 60 pts na turma C. 
Turma CTurma BTurma A
100
90
80
70
60
50
40
30
No
ta
s 
fin
ai
s
Unidade 02 – Medidas Estatísticas 
 
 46  
4.3 - Medida de assimetria 
Em algumas situações é

Outros materiais