Buscar

2.3_DESCRITIVA_MEDIDAS DESCRITIVAS

Prévia do material em texto

Luana de Melo Pereira 
 
Disciplina: Estatística Básica 
Universidade Federal de Pelotas 
Centro das Engenharias 
2.3. MEDIDAS DESCRITIVAS 
MEDIDAS DESCRITIVAS 
Medidas de localização, posição ou 
tendência central 
Medidas separatrizes 
Medidas de variação ou dispersão 
Medidas de formato 
 
2 
Introdução e Conceitos 
3 
Uma outra maneira de se resumir os dados de uma 
variável numérica, além de tabelas e gráficos, é apresentá-
los na forma de valores numéricos, denominados medidas 
descritivas, as quais devem fornecer toda a informação 
relevante a respeito dos dados e desse modo auxiliar na 
análise do comportamento dos mesmos. 
 
 
 
4 
Os processos de análise procuram responder a algumas 
questões, tais como: 
 
 Serão os dados quase todos iguais? 
 Serão muito diferentes uns dos outros? 
 De que modo são diferentes? 
 Existem alguns dados muito diferentes da maior parte? 
5 
Medidas de Localização ou Tendência Central 
 Descrevem valores que caracterizam o centro da 
distribuição; 
 Fazem parte dessas medidas a média, mediana e a 
moda. 
6 
Medidas Separatrizes 
 São valores que indicam limites para proporções de 
observações em um conjunto de dados ordenados; 
 São medidas intuitivas, de fácil compreensão e frequentemente 
resistentes; 
 Fazem parte dessas medidas os quartis, percentis e também 
a mediana. 
7 
Medidas de Variação 
 São valores que informam sobre a variabilidade dos dados; 
 São, juntamente com as medidas de posição, indispensáveis 
para descrever um conjunto de dados; 
 Fazem parte dessas medidas a amplitude total, a variância, o 
desvio padrão e o coeficiente de variação. 
8 
Maior variação 
Medidas de Formato 
 São quantidades que informam sobre o modo como os 
valores se distribuem; 
 Fazem parte dessas medidas os coeficientes de assimetria e 
curtose. 
9 
Média 
aritmética 
Mediana 
Moda 
Quartis 
Percentis 
Amplitude 
total 
Variância 
Desvio 
padrão 
Coeficiente 
de variação 
Coeficiente 
de assimetria 
Coeficiente 
de curtose 
MEDIDAS DE 
POSIÇÃO 
MEDIDAS 
SEPARATRIZES 
MEDIDAS DE 
FORMATO 
MEDIDAS DE 
VARIAÇÃO 
10 
Existe uma grande variedade de medidas descritivas 
Como escolher a mais adequada? 
 Com que objetivo a medida está sendo obtida? 
 É fácil de interpretar? 
 Existem valores atípicos que podem afetá-la 
exageradamente? 
 O propósito da análise é meramente descritivo ou 
planeja-se fazer inferências? 
11 
Jogadores de 
basquete 
2,08 
1,98 
1,95 
2,03 
2,10 
1,93 
1,58 
12 
Valores Atípicos ou Discrepantes 
Jóqueis 
 
1,58 
1,62 
1,65 
1,55 
1,57 
1,60 
1,98 atípico atípico 
Estatura (m) 
Média aritmética 
 É a mais utilizada; 
 Apresenta facilidade de cálculo e de compreensão; 
 propriedades matemáticas e estatísticas. 
13 
Medidas de Localização ou Tendência Central 
Definição: é uma combinação linear de todas as observações. 
 
Conjunto de observações: x1, x2 ,..., xn 
Conjunto de coeficientes: c1, c2 ,..., cn 
 
combinação linear: c1 x1 + c2 x2 +... + cn xn = 
 
 
 ii xc
Simples 
Ponderada 
Todos os valores participam do 
cálculo com o mesmo peso. 
Pelo menos um dos valores 
participa com peso diferente. 
Média aritmética 
14 
 Os coeficientes são pesos (pi ) 
p1 = p2 = ... = pn = p 
px1 + px2 +... + pxn = 
 ii xp
 ipx
p1x1 + p2x2 +...+ pnxn = 
Média aritmética simples 
x
soma de todos os valores 
total de valores somados n  i
x
A média de um conjunto de n valores x1, x2 ,..., xn é 
definida como: 





n
i i
n xnn xxX 11 1...
 
15 
Exemplo 
16 
Os valores que seguem são os tempos de uso 
(horas/semana) de um modelo profissional de motosserras. 
Calcule o tempo médio de uso semanal. 
12 9 11 7 9 14 10 
 
1411
7
10149711912
,

X 
10,3 h/semana 
Em média, as motosserras são 
usadas 10,3 horas por semana. 
Média aritmética ponderada 
px
soma de produtos de valores e pesos 
soma dos pesos 
 ip
 ii p x
Algumas vezes associa-se a cada observação xi um peso pi, 
onde esse peso representa a importância atribuída a cada 
observação. Nesse caso a média ponderada é calculada como: 






n
1=i
i
n
 x
....
....
p
p
pp
xpxp
pX i
ii
n
nn 1
1
11
17 
Exemplo 
18 
Um exame de seleção é composto de três provas 
onde as duas primeiras tem peso 1 e a terceira tem peso 
2. Um candidato com notas 70 75 e 90 terá média 
final: 
2581
4
902751701
,
)()()(


X 
 
70.(1) + 75.(1) + 90.(2) 
Propriedades da média aritmética 
1a propriedade: A média de um conjunto de dados que 
não varia, ou seja, cujos valores são uma constante, é a 
própria constante. 
Verificação numérica: 
 4 4, 4, 4, 4,xi 
4x 
19 
2a propriedade: Ao somar uma constante c por todos os 
valores de um conjunto de dados, sua média também é 
somada por esta constante. 
xi = 9, 7, 5, 10, 4 7x 
xi+2 = 11, 9, 7, 12, 6 
n
2)(x
x
i
2x
 
 9
5
45
5
6127911



Somar c=2 
cxx
27x
cx
2x




Verificação numérica: 
20 
3a propriedade: Ao multiplicar uma constante c por todos os 
valores de um conjunto de dados, sua média também é 
multiplicada por esta constante. 
xi = 9, 7, 5, 10, 4 7x 
Verificação numérica: 
2xi = 18, 14, 10, 20, 8 
n
2x
x
i
2x

 14
5
70
5
820101418



Multiplicar por c=2 
xcx
72x
cx
2x


21 
i xi 
)x(xi 
 
1 9 
2 7 
3 5 
4 10 
5 4 
 35 
 
xi = 9, 7, 5, 10, 4 
7x 
4a propriedade: A soma de todos os desvios em relação à 
média de um conjunto de valores é nula. 
  0)x(x i
desvio 
diferença entre a observação e a média aritmética 
2 
0 
-2 
3 
-3 
0 
Verificação numérica: 
22 
7xc 
5a propriedade: A soma dos quadrados dos desvios em 
relação a uma constante c é mínima quando c = . 
x
  2i c)(x
é mínima quando c = 
x i xi 
)x(xi 
 
2
i )x(x 
 
2
i 5)(x 
 
2
i 10)(x 
 
1 9 2 
2 7 0 
3 5 -2 
4 10 3 
5 4 -3 
 35 0 
 
4 
0 
4 
9 
9 
26 
16 
4 
0 
25 
1 
46 
1 
9 
25 
0 
36 
71 
Verificação numérica: 
5c 10c
23 
 No cálculo da média participam todos os valores 
observados. 
 É uma medida de fácil interpretação e presta-se muito bem 
a tratamentos estatísticos adicionais. 
 É uma medida que sempre existe e é única. 
 É o ponto de equilíbrio de uma distribuição, sendo tão 
mais eficiente quanto mais simétrica for a distribuição dos 
valores ao seu redor. 
características 
24 
4 5 7 9 10 
x
Md
4 5 7 9 15 
x
4 5 7 9 25 
x
10 
8 
10 
8 
7 
7 
7 
Md
Md
7 
Desvantagem: 
 É uma medida altamente influenciada por valores 
atípicos ou discrepantes (não resistente). 
25 
É a medida que divide um conjunto de dados 
ordenado em duas partes aproximadamente iguais: 50% 
dos valores ficam abaixo e 50% ficam acima da mediana. 
Mediana (Md) 
Para obter a mediana: 
1. Ordenar os dados em ordem crescente2. Determinar a posição (p) da mediana 
Md 
50% 50% x(1) x(n) 
26 
Os valores abaixo se referem ao 
peso (Kg) colocado sobre a 
extremidade de um cabo de aço. 
xi = 5, 9, 7, 4, 12, 10 
Exemplo 
27 
n = 6 (par) 
1. Ordenar os dados 
x(i) = 4, 5, 7, 9, 10, 12 
2. Determinar a posição (p) da mediana 
2
1n
p

 3,5
2
16



2
xx
Md
(4)(3) 
 8
2
97



kg 8Md 
p1=3 
 
p2=4 
50% dos pesos colocados sobre a 
extremidade do cabo de aço é inferior a 8kg. 
 Define exatamente o centro de uma distribuição, mesmo 
quando os valores se distribuem assimetricamente em torno 
da média; 
 É determinada mesmo sem utilizar todos os valores do 
conjunto de dados; 
 É uma medida que sempre existe e é única; 
 É uma medida resistente, ou seja, não sofre influência de 
valores discrepantes. 
 Desvantagem: 
 É uma medida que não se presta a cálculos 
matemáticos. 
características 
28 
Moda (Mo) 
 É o valor de maior ocorrência num conjunto de dados. 
 É a única medida que pode não existir e, existindo, pode não ser única. 
1. Interpretação para variáveis discretas: 
xi = 9, 5, 4, 5, 7, 1, 2, 2 
xi = 5, 7, 3, 7, 9, 5, 9, 3 não existe Mo (conjunto amodal) 
Mo = 2 e 5 (conjunto bimodal) 
Mo = 8 xi = 12, 8, 7, 5, 7, 4, 8, 8, 9 
29 
Exemplos 
X=número de unidades defeituosas em um lote de produção. 
2. Interpretação para variáveis contínuas: 
30 
Y= percentuais de retenção de enxofre em 42 vertentes do nordeste dos EUA. 
 Valores de variáveis contínuas, 
em geral, não se repetem. 
 
 A moda tem importância apenas 
conceitual, estando relacionada 
com o pico da distribuição: 
 classe modal: maior frequência 
 
 Moda é o ponto da distribuição 
onde temos a maior frequência. 
Y=percentuais de retenção de enxofre em 
42 vertentes do nordeste dos EUA. 
 É uma medida que têm existência real dentro do conjunto 
de dados e em grande número de vezes; 
 Não exige cálculo, apenas uma contagem; 
 Pode ser determinada também para variáveis categóricas. 
características 
 Desvantagem: 
 É uma medida que não se presta a cálculos matemáticos. 
 Deixa sem representação todos os valores do conjunto de 
dados que não forem iguais a ela. 
Pode não existir. 
31 
 Exercício 
Uma amostra de 20 operários de uma companhia apresentou os seguintes 
salários recebidos durante certa semana, já dispostos em ordem crescente: 
 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 155 ; 155; 
 165 ; 165 ; 180 ; 180 ; 190 ; 200 ; 205 ; 225 ; 230 ; 240 
Determinar: 
(a) a média (b) a mediana (c) a moda. 
(d) Indicar qual medida utilizaria para apresentar os dados, e explicar em 
que sentido cada valor poderia ser considerado, supondo que você 
estivesse em cada uma das seguintes posições: 
 (I) Vice-Presidente da companhia encarregado da negociação coletiva. 
 (II) Presidente do grupo negociador dos empregados. 
(e) Se for dado um aumento de 20% para todos os funcionários, qual será o 
novo salário médio? 
(f) Se for dado um aumento de R$25,00 a todos os funcionários, como fica a 
média dos salários? 
32 
a) =R$ 170,50 b) Md= R$ 160,00 c) Mo = R$ 140,00 
 
e) Como vice-presidente trabalharia com o valor médio dos 
salários, pois foi o mais alto em relação as demais medidas, 
já como presidente negociador dos empregados utilizaria a 
moda como medida de maior ocorrência para lutar por 
melhores salários. 
 
e) = 170,50 x 0,2 = R$ 204,60 
 
f) = 170,50 + 25 = R$ 195,50 
Respostas 
x
x
x
33 
34 
Quartis  dividem o conjunto ordenado em quatro partes 
Decis  dividem o conjunto ordenado em dez partes 
Percentis  dividem o conjunto ordenado em cem partes 
Mediana  divide o conjunto ordenado em duas partes 
 Buscam dividir os valores ordenados de uma variável 
em proporções aproximadamente iguais. 
Medidas Separatrizes 
q=nº de divisões, logo q=2: duas divisões, q=4: quatro divisões,..., q 
50% 25% 
p=1/q é a proporção aproximada de valores contidos dentro de cada divisão 
35 
 São três medidas que dividem um conjunto de dados 
ordenado em quatro partes aproximadamente iguais. 
Md 25% 
Q1 
Primeiro quartil (Q1): 25% dos valores abaixo e 75% acima dele 
25% 
Q2 
Segundo quartil (Q2): 50% dos valores abaixo e 50% acima dele 
25% 25% 
Q3 
Terceiro quartil (Q3): 75% dos valores abaixo e 25% acima dele 
x(1) x(n) 
Quartis (Qi) 
36 
 Para obter os quartis: 
1. Ordenar os dados 
2. Determinar a posição (p) de cada quartil 
Dois casos: 
n ímpar n par 
4
1n
p1


Posição do Q1  
4
1)2(n
p2


Posição do Q2  
4
1)3(n
p3


Posição do Q3  
4
2n
p1


Posição do Q1  
4
22n
p2


Posição do Q2  
4
23n
p3


Posição do Q3  
37 
i i (p )
Q x
Se p não for inteiro, tomamos os dois inteiros mais próximos. 
7,5pi 
Exemplo: 
7 
8 
2
xx
Q
(8)(7)
i 


O quartil será a média 
aritmética dos dois valores que 
ocupam essas duas posições. 
38 
Foram registrados os tempos de uso (horas/mês) de um 
modelo profissional de motosserras. Os valores obtidos 
foram: 
69 58 70 80 46 61 65 74 75 55 67 
56 70 72 61 66 58 68 70 68 58 
 
Para o conjunto de valores, calcule os quartis e interprete 
esses valores. 
Q1 = 58 
Q2 = 67 
Q3 = 70 
Exercício 
39 
2 Média 
Medidas de Variação 
2 2 
Garrafas PET entrando em enchedora 
http://superenvase.blogspot.com.br 
i xi yi zi 
1 2,0 1,7 1,9 
2 1,8 1,9 2,0 
3 2,1 2,2 2,1 
4 1,9 2,0 2,1 
5 2,2 2,2 1,9 
 10 10 10 
 
 
40 
Objetivo  indicar quanto os valores diferem entre si ou 
quanto eles se afastam da média 
Medidas de variação mais utilizadas: 
 Complementam as medidas de tendência central 
 Amplitude total 
 Amplitude interquartílica 
 Variância 
 Desvio padrão 
 Coeficiente de variação 
41 
at 
(1)(n)t xxa 
EIESat 
ES: extremo superior do conjunto de dados ordenado 
EI: extremo inferior do conjunto de dados ordenado 
EI=x(1) ES=x(n) 
Amplitude total (at) 
 Fornece uma ideia inicial de variação; 
 É obtida pela diferença entre o maior valor e o menor 
valor de um conjunto de dados 
42 
kg9312 EIESat 
Significado: todos os valores do conjunto de dados diferem, no 
máximo, em 9 kg. 
Desvantagens 
 extremamente influenciada por valores discrepantes 
 pouco precisa 
Os valores abaixo se referem ao 
peso (Kg) colocado sobre a 
extremidade de um cabo de aço. 
xi = 3, 3, 4, 6, 7, 9, 9, 11, 12 
Exemplo 
variabilidade at 
43 
1 3 q QQa 
Q1 : primeiro quartil 
Q3 : terceiro quartil 
EI ES Q3 Q1 
aq 
 É obtida pela diferença entre o terceiro e o 
primeiro quartis 
Amplitude interquartílica (aq) 
44 
Os valores abaixo se referem ao peso (Kg) 
colocado sobre a extremidade de um cabo de aço. 
 xi = 3, 3, 4, 6, 7, 9, 9, 11, 12 
kg6,53,510 
Significado: pelo menos 50% das observações diferem, no 
máximo, em 6,5 kg 
Vantagem 
 medida resistente (não é afetada por valores discrepantes) 
1 3 q QQa 
Q1 = 3,5 kg e Q3 = 10 kg 
2,5
4
19
4
1n
p1 




   
7,5
4
193
4
1n3
p3 




Exemplo 
variabilidade aq 
45 
  Medidas de dispersão baseadas na média 
O elemento básico dessa dispersão é o desvio: 
mede quanto cada valor varia em 
relação à média )x(xi 
Desvio:46 
 0,20,2
xi = 2,0 – 1,8 – 2,1 – 1,9 – 2,2 
Exemplo: 
 0,28,1
 0,21,2
 0,29,1
 0,22,2
variação do xi em 
relação à média 
2,0Lx 
)x(xi 
0 
-0,2 
0,1 
-0,1 
0,2 
0
  )x(xi
Média dos desvios  variação média do conjunto de valores 
soma de todos os desvios 
47 
Solução: elevar os desvios ao quadrado  desvios negativos 
ficam positivos e podem ser somados 
  2i )x(x
soma dos quadrados dos desvios 
quadrados 
dos desvios 
 0,20,2
 0,28,1
 0,21,2
 0,29,1
 0,22,2
)x(xi 
0,0 
-0,2 
0,1 
-0,1 
0,2 
  2i )x(x
0,00 
0,04 
0,01 
0,01 
0,04 
0,1
  2i )x(x
x
48 
Variância (s2) 
 Medida de variação mais utilizada: 
  facilidade de compreensão 
  propriedades estatísticas importantes para a 
inferência 
 Considera o desvio da média como unidade básica 
da variação: 
 Definida como a média dos quadrados dos desvios 
1-n
)x(x
s
2
i2  
49 
• Porque este denominador confere à variância melhores 
propriedades estatísticas (importante na inferência estatística). 
Por que utilizar n-1 como denominador? 
n
)x(x
s
2
i2
n
 

 Quando o objetivo for apenas descrever a variação de 
um conjunto de valores, podemos usar o denominador n. 
1-n
)x(x
s
2
i2  
 Quando o objetivo for estimar a variação de uma 
população por meio da variação de um conjunto de 
valores (amostra), devemos usar o denominador n-1. 
50 
Os valores abaixo se referem ao 
peso (Kg) colocado sobre a 
extremidade de um cabo de aço. 
xi = 9, 7, 5, 10, 4 kg 7x 
1n
)x(x
s
2
i2




6,5
4
26
4
99404



15
7)(47)(107)(57)(77)(9 22222



22 kg6,5s 
unidade de medida fica 
elevada ao quadrado 
Exemplo 
51 
 Propriedades da variância 
1a propriedade: A variância de um conjunto de dados que 
não varia, ou seja, cujos valores são uma constante, é zero. 
xi = 7, 7, 7, 7, 7 
0
15
7)(77)(77)(77)(77)(7
s
22222
2 



7x 
Verificação numérica: 
52 
2ª propriedade: Ao somar uma constante c a todos os 
valores de um conjunto de dados, a variância destes dados 
não se altera. 
xi = 9, 7, 5, 10, 4 
xi+2 = 11, 9, 7, 12, 6 
Somar c=2 
2kg 6,5
4
26
4
99404



15
9)(69)(129)(79)(99)(11
s
22222
2
2x



6,5s2 
7x 
9x 2x  cxx cx 
 
Verificação numérica: 
22
cx ss 6,5s
2
2x 
 
53 
3ª propriedade: Ao multiplicar todos os valores de um 
conjunto de dados por uma constante c, a variância destes 
dados fica multiplicada pelo quadrado desta constante. 
xi = 9, 7, 5, 10, 4 
Multiplicar por c=2 
6,5s2 
7x 
Verificação numérica: 
2xi= 18, 14, 10, 20, 8 
2kg 26
4
104
4
363616016



15
14)(814)(2014)(1014)(1414)(18
s
22222
2
2x



14x2x 
6,522 
 
xcxcx 
26s22x 
222
xc scs 
 
54 
 Desvantagens da variância: 
2. Como a unidade de medida fica elevada ao 
quadrado, a interpretação da variância se torna 
mais difícil. 
1. Como a variância é calculada a partir da 
média, é uma medida pouco resistente, ou seja, 
muito influenciada por valores atípicos. 
• Para solucionar o problema de interpretação da 
variância surge outra medida: o desvio padrão. 
55 
22 L 025,0s 
L 2x 
2ss  20,025Ls 
L16,0s 
 É definido como a raiz quadrada positiva da variância 
 
2ss 
Desvio padrão (S) 
xi = 2,0 – 1,8 – 2,1 – 1,9 – 2,2 
Exemplo: 
56 
16,02
sx 
Apresentação do desvio padrão: 
Volume médio de 2L com 
uma variação média de 0,16L 
acima e abaixo da média. 
Significado: variação média em torno da média 
aritmética. 
Exemplo 
57 
2L Média 2L 2L 
i xi yi zi 
1 2,0 1,7 1,9 
2 1,8 1,9 2,0 
3 2,1 2,2 2,1 
4 1,9 2,0 2,1 
5 2,2 2,2 1,9 
 10 10 10 
 
 
Desvio 
padrão 
0,16L ? ? 
Variância 0,025 ? ? L2 
= 0,045 
Exemplo 
58 
0,18
4 
L 2x xi = 1,7 – 1,9 – 2,2 – 2,0 – 2,2 
  2i )x(x
= 0,09 – 0,01 – 0,04 – 0,00 – 0,04 
2ss  20,045Ls 
L21,0s 
2L
1-n
)x(x
s
2
i2  
Exemplo 
59 
0,04 0,01
4 
L 2x xi = 1,9 – 2,0 – 2,1 – 2,1 – 1,9 
  2i )x(x
= 0,01 – 0,00 – 0,01 – 0,01 – 0,01 
2ss  20,01Ls 
L1,0s 
2L
1-n
)x(x
s
2
i2  
60 
Garrafas PET entrando em enchedora 
http://superenvase.blogspot.com.br 
i xi yi zi 
1 2,0 1,7 1,9 
2 1,8 1,9 2,0 
3 2,1 2,2 2,1 
4 1,9 2,0 2,1 
5 2,2 2,2 1,9 
 10 10 10 
 
 
Solução 
2L Média 2L 2L 
Desvio 
padrão 
0,14L 0,21L 0,10L 
Variância 0,02 0,045 0,01 L2 L2 L2 
61 
Os valores abaixo se referem ao 
peso (Kg) colocado sobre a 
extremidade de um cabo de aço. 
Exemplo 
22 kg 6,5s 
kg 7x 
xi = 9, 7, 5, 10, 4 
2ss  2kg 6,5s 
kg 2,55s 
62 
Coeficiente de Variação (CV) 
 O coeficiente de variação é definido como a proporção 
(ou percentual) da média representada pelo desvio padrão. 
100% 
x
s
CV 
xi = 9, 7, 5, 10, 4 
kg 2,55s 
kg 7x 
100% 
x
s
CV  100% 
kg 7
kg 2,55

36,4% 
Exemplo 
Os valores ao lado se referem ao peso 
(Kg) colocado sobre a extremidade de 
um cabo de aço. 
63 
Vantagens: 
 Esta comparação não deve ser feita através de 
qualquer medida de variação em duas situações: 
  quando as médias dos conjuntos comparados são 
 muito desiguais 
  quando as unidades de medida são diferentes 
Nessas situações devemos usar o CV. 
 O CV é não tem unidade de medida (expresso em %); 
 O CV é uma medida relativa, pois relaciona o desvio 
padrão com a sua respectiva média aritmética; 
 O CV é a medida mais utilizada para comparar 
variabilidades de diferentes conjuntos de dados; 
64 
Um engenheiro está analisando as espessuras de peças fabricadas 
em duas máquinas de corte. Consideremos que x1i e x2i são 
conjuntos de valores referentes as medidas de espessura (mm) 
das peças produzidas pela máquina A e pela máquina B, para as 
quais foram obtidas as seguintes medidas: 
máquina A (X1): máquina B (X2): mm 51x1 
s1 = 12mm 
72mmx2 
s2 = 16mm 
Exemplo 1 
65 
CV1 = 23,53% 
O maior desvio padrão, quando comparado à 
sua média, representou menor variação. 
Quando as médias são diferentes, devemos usar o CV. 
Qual grupo varia mais em relação à espessura das peças? 
CV2 = 22,22% 
mm 51x1 
s1 = 12mm 
72mmx2 
s2 = 16mm máquina A (X1) máquina B (X2) 
66 
 
Consideremos, agora, que xi e yi são conjuntos de valores 
referentes a estaturas (em cm) e pesos (em kg) de um grupo de 
estudantes, para os quais foram obtidas as seguintes medidas: 
CVX = 15,73% 
CVY = 16,13% 
cm178x 
sX = 28 cm Estatura (X): 
kg62y 
sY = 10 kg Peso (Y): 
Peso e altura não são grandezas comparáveis. 
Quando as unidades de medida são diferentes, 
devemos usar o CV. 
Exemplo 2 
67 
Contou-se o número de defeitos de solda em determinado lote 
de carrocerias durante os sete dias de uma semana, com os 
seguintes resultados: 
 14 20 20 20 15 16 18 
 a) Determine a média, a mediana e a moda. 
 b) Calcule a variância, o desvio padrão e o coeficiente de 
variação. 
Exercício 
2
x=17,6
Md=18
Mo=20
s =6,62
s=2,57
CV=14,64%
68 
 O formato é um aspecto importante de uma 
distribuição. Está relacionado com as ideias de 
simetria e curtose. 
 
Medidasde Formato 
Medidas 
de assimetria 
Medidas 
de curtose 
69 
cauda cauda 
centro 
 A simetria em torno de um eixo indica que o formato da 
distribuição à esquerda e à direita desse eixo é o mesmo. 
 
 A curtose está relacionada com o grau de concentração 
das observações no centro e nas caudas da distribuição. 
70 
22
3
3
mm
m
a 
 Informam se a maioria dos valores se localiza à esquerda, 
ou à direita, ou se estão distribuídos uniformemente em 
torno da média aritmética. 
 Uma das medidas de assimetria mais precisas é o 
coeficiente de assimetria (a3), calculado a partir do segundo 
e do terceiro momentos centrados na média: 
 Indica o grau e o sentido do afastamento da simetria. 
Medidas de assimetria 
n
)x(x
m
2
i
2
 

n
)x(x
m
3
i
3
 

71 
Se a3=0, a distribuição é classificada como simétrica, 
indicando que os valores estão uniformemente 
distribuídos em torno da média. 
 Classificação quanto à simetria 
MoMdx 
72 
Se a3>0, a distribuição é classificada como assimétrica 
positiva, indicando que a maioria dos valores são 
menores ou se localizam à esquerda da média (cauda 
para direita). 
xMdMo 
73 
Se a3<0, a distribuição é classificada como assimétrica 
negativa, indicando que a maioria dos valores são 
maiores ou se localizam à direita da média (cauda para 
esquerda). 
MoMdx 
74 
Interpretação teórica populações 
 Se a3<0 assimétrica negativa 
 Se a3=0 simétrica 
 Se a3>0 assimétrica positiva 
Interpretação prática amostras 
 Se a3< -0,5 assimétrica negativa 
 Se -0,5< a3 >0,5 simétrica 
 Se a3> 0,5 assimétrica positiva 
75 
Uma distribuição simétrica possui muitas vantagens: 
 Não há ambigüidade na indicação do centro. Numa 
distribuição unimodal a simetria implica que a média, 
mediana e moda coincidam ou, em termos amostrais, 
estejam muito próximas. 
 Em geral, a interpretação e as aplicações são mais 
simples. 
 Muitos procedimentos usuais pressupõem uma 
distribuição normal, que é uma distribuição simétrica. 
 Em muitas situações onde o modelo não é normal, os 
procedimentos são robustos e é suficiente que a 
distribuição seja simétrica, podendo-se utilizar 
procedimentos matemáticos capazes de converter os 
dados para a simetria. 
76 
 Indicam o grau de achatamento de uma distribuição; 
 A curtose não tem interpretação tão intuitiva quanto a 
simetria, por isso, em geral, é discutida apenas para 
distribuições simétricas; 
 O coeficiente de curtose é calculado a partir do segundo 
e do quarto momentos centrados na média. 
Medidas de curtose 
2
2
4
4
m
m
a 
n
)x(x
m
2
i
2
 

n
)x(x
m
4
i
4
 

A classificação é feita 
tendo por base a 
curtose que ocorre na 
distribuição normal 
(mesocúrtica). 
77 
 Classificação quanto à curtose 
Se a4=3  mesocúrtica  concentração das observações 
ocorre de forma semelhante à da distribuição normal. 
Distribuição normal mesocúrtica 
78 
Se a4<3  platicúrtica  baixa concentração de valores 
no centro, tornando a distribuição mais achatada que a 
distribuição normal. 
79 
Se a4>3  leptocúrtica  alta concentração de valores no 
centro e nas caudas, o que provoca um pico maior que o 
da distribuição normal. 
APRESENTAÇÃO DOS DADOS 
Dados não 
agrupados 
80 
Dados agrupados 
em classe 
São os dados 
apresentados em rol 
São os dados 
apresentados em tabela de 
distribuição de frequências 
Medidas 
Descritivas 
Dados não agrupados – todas as medidas vistas. 
Dados agrupados em classe – média, classe mediana, 
classe modal, variância, desvio padrão, CV, coeficientes 
de assimetria e curtose. 
n
Fc
x
jj
p


Média 
81 
Mediana e Moda 
Variância 
 
1n
xcF
s
2
pjj2




Desvio padrão 
2ss 
Coeficiente 
de variação 
100%
x
s
CV 
MEDIDAS PARA DADOS AGRUPADOS 
2
2
4
4
m
m
a 
Coeficiente de assimetria 
 
n
xcF
m
2
pjj2  
 
n
xcF
m
4
pjj4  
Coeficiente de curtose 
22
3
3
mm
m
a 
 
n
xcF
m
2
pjj2  
 
n
xcF
m3
3
pjj 

Classe modal: classe com a maior Fj. 
Classe mediana: é a primeira classe da F’j que 
compreende a posição da mediana. 
j Classes jF 
1 3,11 | 16,00 8 
2 16,00 | 28,89 20 
3 28,89 | 41,78 6 
4 41,78 | 54,67 8 
5 54,67 | 67,56 3 
6 67,56 | 80,45 1 
7 80,45 || 93,34 4 
  50 
 
3,11 8,88 9,26 10,81 12,69 
13,78 15,23 15,62 17,00 17,39 
18,36 18,43 19,27 19,50 19,54 
20,16 20,59 22,22 23,04 24,47 
24,58 25,13 26,24 26,26 27,65 
28,06 28,08 28,38 32,03 36,37 
38,98 38,64 39,16 41,02 42,97 
44,08 44,67 45,40 46,69 48,65 
50,39 52,75 54,80 59,07 61,22 
70,32 82,70 85,76 86,37 93,34 
 
Dados agrupados em classe Dados não agrupados 
um supermercado registrou o valor 
gasto pelos primeiros 50 clientes que 
passaram em determinado caixa. 
82 
Exemplo 
j Classes jc jF 
1 3,11 | 16,00 9,555 8 
2 16,00 | 28,89 22,445 20 
3 28,89 | 41,78 35,335 6 
4 41,78 | 54,67 48,225 8 
5 54,67 | 67,56 61,115 3 
6 67,56 | 80,45 74,005 1 
7 80,45 || 93,34 86,895 4 
   50 
 
n
x
x
i

 não estão disponíveis 
Pressuposição 
Distribuição simétrica 
dentro dos intervalos 
Medidas para dados agrupados em classe 
83 
j Classes jc jF jc jF 
1 3,11 | 16,00 9,555 8 
2 16,00 | 28,89 22,445 20 
3 28,89 | 41,78 35,335 6 
4 41,78 | 54,67 48,225 8 
5 54,67 | 67,56 61,115 3 
6 67,56 | 80,45 74,005 1 
7 80,45 || 93,34 86,895 4 
   50 
 
9,555 x 8 = 76,44 
22,445 x 20 = 448,90 
35,335 x 6 = 212,01 
n
Fc
x
jj
p


 jjFc
Média 
48,225 x 8 = 385,80 
61,115 x 3 = 183,345 
74,005 x 1 = 74,005 
86,895 x 4 = 347,58 
= 1.728,08 
 
1728,08
34,56 reais
50
gasto no supermercado 
84 
j Classes 
jc
 
jF
 
jF
 
jc jF
 
1 3,11 | 16,00 9,555 8 8 76,44 
2 16,00 | 28,89 22,445 20 28 448,90 
3 28,89 | 41,78 35,335 6 34 212,01 
4 41,78 | 54,67 48,225 8 42 385,80 
5 54,67 | 67,56 61,115 3 45 183,35 
6 67,56 | 80,45 74,005 1 46 74,01 
7 80,45 || 93,34 86,895 4 50 347,58 
   50  1.728,08 
 
Classe modal 
Classe mediana 
Posição da Mediana  

 
n 1
p 25,5
2
25 
26 
Classe modal: classe com a maior frequência absoluta. 
Classe mediana: é a primeira classe da frequência absoluta 
acumulada que compreende a posição da mediana.. 
Mediana e Moda 
85 
86 
j Classes 
jc
 
jF
 
2
jj )( xcF 
 
3
jj )( xcF 
 
4
jj )( xcF 
 
1 3,11 | 16,00 9,555 8 
2 16,00 | 28,89 22,445 20 
3 28,89 | 41,78 35,335 6 
4 41,78 | 54,67 48,225 8 
5 54,67 | 67,56 61,115 3 
6 67,56 | 80,45 74,005 1 
7 80,45 || 93,34 86,895 4 
   50 
 
reais34,56xp 
Variância e momentos 
8 (9,555- 34,56)2 = 5.002,00 
20 (22,445- 34,56)2 = 2.935,46 
6 (35,335- 34,56)2 = 3,60 
24062,15 
 
1n
xcF
s
2
jj2




-125075,01 
-35563,15 
2,79 
20413,57 
56177,21 
61372,79 
573372,26 
550700,46 
3127500,75 
430847,59 
2,16 
278951,39 
1491785,83 
 
2420849,78 
30007437,16 
37757374,66 
. . . 
. . . 
. . . 
. . . 
 
0092,11014
50
550700,46
n
xcF
m
3
pjj
3 



 
49,755147
50
637757374,6n
xcF
m
4
pjj
4 


 
243,481
50
24062,15
n
xcF
m
2
pjj
2 



87 
 
2
2
jj2 reais491,06
49
24062,15
1n
xcF
s 




reais22,16491,06ss 2 
reais 22,1634,56
sx


64,12%100%
34,56
22,16
100%
x
s
CV 
variância 
Desvio padrão 
Coeficiente de variação 
Coeficiente de assimetria 
Coeficiente de curtose 
043,1
15,10557
0092,11014
243,481243,481
0092,11014
mm
m
a
22
3
3 


26,3
825,231594
49,755147
243,481
49,755147
m
m
a
22
2
4
4 
a3>0 = assimétrica positiva 
a4>3 = leptocúrtica 
88 
 DDaaddooss nnããoo aaggrruuppaaddooss DDaaddooss aaggrruuppaaddooss eemm ccllaassssee 
x
= 34,78 reais 
 
x
= 34,56 reais 
Md = 27,31 reais 
 
Classe mediana: [16,00 ; 28,89) 
Mo não existe 
 
Classe modal: [16,00 ; 28,89) 
s
2
 = 471,32 reais
 2 
 
s
2
 = 491,06 reais
2
 
s = 21,71 reais 
 
s = 22,16 reais 
CV = 62,42% 
 
CV = 64,12% 
 
89 
Próxima aula 
 - 2.4. Análise exploratória de dados 
Resumo de cinco números 
Gráfico de caixas 
Diagrama de ramo e folhas

Continue navegando