Buscar

Medidas de Dispersão

Prévia do material em texto

04/09/2017
1
Medidas de Dispersão
2º semestre/2017
Medidas de Posição ou Tendência Central
 Medidas de localização:
 descrevem um aspecto dos dados numéricos 
que é a posição do “centro” da distribuição
 Não descrevem um outro aspecto importante, 
que é a variabilidade, ou seja, a medida de 
afastamento dos dados em relação a um valor 
central.
Medidas de Variação ou Dispersão
 Medidas de posição indicam um valor 
importante, mas não devem ser usadas 
isoladamente para sintetizar um conjunto de 
dados
 A dispersão dos dados em torno deste valor 
central é outra estatística fundamental para 
acompanhar as medidas de tendência central
Medidas de Variação ou Dispersão
 As estatísticas usadas para mensurar essa 
variabilidade são chamadas de medidas de 
dispersão ou de variação
 As mais comuns são: amplitude total dos 
dados, distância interquartis, desvio médio, 
variância, desvio padrão e o coeficiente de 
variação 
Exemplo: Notas de cinco alunos no ano 
letivo 
Observa-se que para os cinco alunos a média das notas
durante o ano é 5. No entanto, percebe-se que o aluno
E apresenta notas mais dispersas que os demais.
Alunos 1º Bim 2º Bim 3º Bim 4º Bim
A 5 5 5 5
B 4 4 6 6
C 3 5 7 5
D 0 5 5 10
E 0 0 10 10
Amplitude
 A amplitude total, At, é uma indicação 
aproximada da dispersão ou variabilidade. É 
definida como a diferença entre o maior e o 
menor valor do conjunto de dados
At = valor máximo – valor mínimo
04/09/2017
2
Amplitude
 No exemplo anterior a amplitude total para os cinco 
conjuntos de observações é:
AtA = 0 AtB = 2 AtC = 4 
AtD = 10 AtE = 10 
 A amplitude total é fácil de calcular, mas tem a 
desvantagem de levar em conta apenas dois valores, 
desprezando a informação das outras observações do 
conjunto. Isso torna a amplitude total uma medida 
muito sensível à presença de valores extremos;
 Em trabalhos científicos, é bastante comum
apresentar a medida de tendência central
acompanhada do valor mínimo e máximo entre
parênteses e não a amplitude
Intervalo Interquartil
 Distância interquartil = Q3 – Q1 = diferença 
entre o terceiro e o primeiro quartis
 Medida de amplitude modificada, não considera 
os extremos somente, mas 50% dos dados que 
estão no centro do conjunto
Intervalo Interquartil
 Definição: IIQ = Q3 – Q1
Exemplo: X={11 13 8 9 7 4}
1. Ordenando os dados: 4 7 8 9 11 13
2. Mediana = 8,5
3. Dividindo em dois subconjuntos: 4 7 8 9 11 13
 Q1 e Q3 correspondem às medianas desses conjuntos → 
Q1=7; Q3 = 11
 IIQ = Q3 – Q1 = 4
 Interpretação: A variação máxima entre 50% das observações 
mais próximas da mediana é de 4. O IIQ é uma medida muito 
mais robusta do que a amplitude dos dados.
 Útil para representar a distribuição de uma variável 
quantitativa contínua 
 Apresenta a posição da mediana, 1º e 3º quartis, e 
outros pontos que estejam mais distanciados do 
cento do conjunto de dados
 Identificação de pontos extremos (outliers) de um 
conjunto de dados
 Permite avaliar facilmente os valores típicos, a 
assimetria, a dispersão e os dados discrepantes de 
conjuntos de dados referentes à variáveis 
QUANTITATIVAS
Diagrama de Caixas – Box Plot
Diagrama de Caixas – Box Plot
 Esquema dos 5 números:
 Mediana, 1º Quartil,3º Quartil e os extremos inferior e 
superior do conjunto são identificados
 Traçam-se dois retângulos (duas caixas): uma representa a 
“distância” entre a Mediana e o 1º Quartil, e o outro a 
“distância” entre o 3º Quartil e a Mediana. A partir dos 
Quartis são desenhadas linhas verticais até os últimos valores 
não discrepantes, tanto abaixo quanto acima.
 Valores discrepantes (“outliers”) são aqueles que são:
 MENORES do que 1º Quartil - 1,5 x (3ºQ – 1ºQ) ou
 MAIORES do que 3º Quartil + 1,5 x (3ºQ – 1ºQ)
Diagrama de Caixas – Box Plot
*
*
*
*
Discrepantes superiores
Discrepantes inferiores
Md
1º Q
3º Q
3º Q + 1,5 x (3ºQ – 1ºQ)
1º Q - 1,5 x (3ºQ – 1ºQ)
04/09/2017
3
Diagrama de Caixas – Box Plot (Exemplo)
 Valores típicos: 
 5,5; 6,25; 8,5
 Assimetria: 
 Adm Mat: assimétrica
 Dispersão:
 Maior na Adm Mat, 
seguida por Adm Not
 Valores discrepantes:
 Somente inferiores Adm
Not e Med
Diagrama de Caixas – Box Plot (Exemplo)
Box plots indicating overweight (a), obesity (b) and combined (c) trends in Indian 
children and adolescents (1981-2013)
The box plot included the 25th and 75th percentiles and data labels plotted were 
median values with the minimum and maximum. 
Ranjani H, Mehreen TS, Pradeepa R, et al. Epidemiology of childhood overweight & obesity in India: 
A systematic review. The Indian Journal of Medical Research. 2016;143(2):160-174. 
doi:10.4103/0971-5916.180203.
Desvio
 Outra forma de medir ou quantificar a 
dispersão das observações é calculando-se os 
desvios de cada observação em relação à 
medida de tendência central (geralmente a 
média)
 O desvio, d, é definido como a diferença entre o
valor observado e a medida de tendência
central do conjunto de observações de uma
variável xxd ii 
Desvio
 Dadas as idades de 5 crianças, calcule os 
desvios em relação à média (𝒙ഥ)
 𝒙ഥ = 30/5 = 6
Idade (x) Desvio (𝒙 − 𝒙ഥ)
3 3 – 6 = -3
6 6 – 6 = 0
5 5 – 6 = -1
7 7 – 6 = 1
9 9 – 6 = 3
Desvio
 Problema: O somatório dos desvios de todas
as observações em relação à média é “zero”,
pela própria característica desta medida de
centro, que representa o ponto de equilíbrio,
anulando os desvios em relação a média
 => trabalhar com o módulo ou o quadrado 
dos desvios 
Desvio Quadrático
 Dadas as idades de 5 crianças, calcule os 
desvios em relação à média (𝒙ഥ)
 𝒙ഥ = 30/5 = 6
Idade (x) Desvio (𝒙 − 𝒙ഥ) Desvio 
Quadrático 
(𝒙 − 𝒙ഥ)2
3 3 – 6 = -3 (-3) 2 = 9
6 6 – 6 = 0 02 = 0
5 5 – 6 = -1 (-1) 2 = 1
7 7 – 6 = 1 12 = 1
9 9 – 6 = 3 32 = 9
04/09/2017
4
Variância
 A Variância de um conjunto de x1, x2, ... , xn
de observações de uma amostra é denotada 
por s2 e definida por:
Obs.: Se estamos trabalhando com dados populacionais, não amostrais, 
divide-se por n e não (n-1)
)1(
)(
2
1
1
2
2









 

n
n
x
x
xs
n
i
in
i
i
   
)1()1(
)( 1
2
1
2
2







n
xx
n
d
xs
n
i
i
n
i
i
Fórmula 
alternativa
Desvio Quadrático
 Dadas as idades de 5 crianças, calcule os 
desvios em relação à média (𝒙ഥ)
 𝒙ഥ = 30/5 = 6
Idade (x) Desvio (𝒙 − 𝒙ഥ) Desvio 
Quadrático 
(𝒙 − 𝒙ഥ)2
3 3 – 6 = -3 (-3) 2 = 9
6 6 – 6 = 0 02 = 0
5 5 – 6 = -1 (-1) 2 = 1
7 7 – 6 = 1 12 = 1
9 9 – 6 = 3 32 = 9
 
5
4
20
15
91109
)1(
1
2
2 







n
xx
s
n
i
i
Desvio Padrão (Sempre usado!)
 Como a variância é uma medida que 
expressa um desvio quadrático médio, sua 
unidade é o quadrado da unidade dos 
dados, e isto pode causar dificuldades de 
interpretação 
 Portanto, costuma-se usar a raiz quadrada da 
variância, o que é denominado desvio padrão. 
O desvio padrão é mais adequado porque tem a 
mesma unidade dos dados
Desvio Padrão
 O desvio padrão, s, de um conjunto de x1, x2, ... , xn
observações é definido por:
 
1
1
2
2





n
xx
ss
n
i
i
24,25
:exemplo No
s
Desvio Padrão
 O desvio padrão, isoladamente, tem
interpretação limitada sobre a variabilidade
de um conjunto de dados
 É difícil avaliar separadamente se o desvio
padrão é grande ou pequeno
Coeficiente de Variação
 O coeficiente de variação, CV, é uma medida
de variabilidade relativa definido como a
razão percentual entre o desvio padrão e a
média, sendo assim uma medida
adimensional, e expressaem percentual
𝐶𝑉 = ௦
௫̅
× 100 ,
s = desvio padrão 
�̅� = média
No exemplo:
𝐶𝑉 =
5
6 × 100 = 37,3%
04/09/2017
5
CVidade =11,6/58,8*100 = 19,7%
Cvtempo de diag =7,3/9,0*100 = 81,1%
CVimc =5,2/28,3*100 = 18,4%
CVidade-casos =13,0/56,7*100 = 22,9%
CVidade-controles =11,9/53,1*100 = 22,4%
CVimc-casos =4,6/27,5*100 = 16,7%
CVimc-controles =4,9/26,1*100 = 18,8%
Exemplo
Nota Desvio
Desvio 
Quadrático
A 8
B 5
C 5
D 8
E 4
Soma 30
Média 6
Exemplo
Nota Desvio
Desvio 
Quadrático
A 8 2 4 
B 5 -1 1 
C 5 -1 1 
D 8 2 4 
E 4 -2 4 
Soma 30 0 14 
Média 6
Variância = 14/4 =3,5
Desvio Padrão =1,9
Coef. de Variação = 31%
Exemplo
Idade Desvio
Desvio 
Quadrático
A 56 5,2 27,0 
B 68 17,2 295,8 
C 32 -18,8 353,4 
D 45 -5,8 33,6 
E 27 -23,8 566,4 
F 65 14,2 201,6 
G 77 26,2 686,4 
H 33 -17,8 316,8 
I 60 9,2 84,6 
J 45 -5,8 33,6 
Soma 508 0,0 2.599,6 
Média = 50,8 Var = 288,84 
dp = 17,00

Continue navegando