Buscar

Aula_5_VD_MedidasTeD

Prévia do material em texto

AULA 5: Visualização de dados – Medidas 
características dos dados
Cap. 6 do livro-texto do curso: 
Amostragem aleatória e descrição de dados
Prof. Thiago Rezende 
Depto. Estatística - UFMG
Estatística e Probabilidade
http://www.est.ufmg.br/lst/
http://www.est.ufmg.br/lst/
Roteiro:
1. Análise exploratória de dados;
2. Síntese de dados usando medidas;
3. Medidas de síntese numérica e variabilidade para dados quantitativos.
Descrição e Apresentação de Dados
950875800725650575
95% Confidence Interval for Mu
785775765755745735
95% Confidence Interval for Median
Variable: Leite
734,823
 92,320
739,141
Maximum
3rd Quartile
Median
1st Quartile
Minimum
N
Kurtosis
Skewness
Variance
StDev
Mean
P-Value:
A-Squared:
783,000
114,478
770,276
969,000
825,500
761,000
677,250
553,000
168
-7,7E-01
9,36E-03
10445,8
102,205
754,708
0,184
0,520
95% Confidence Interval for Median
95% Confidence Interval for Sigma
95% Confidence Interval for Mu
Anderson-Darling Normality Test
Descriptive Statistics
Análise descritiva consiste na organização e
descrição dos dados, na identificação de valores
que traduzem o elemento típico e na quantificação
da variabilidade presente nos dados
Elementos Básicos
◘ Sínteses Numéricas
◘ Tabelas
◘ Gráficos 
Descrição e Apresentação de Dados
Variável deve ser entendida como a
quantificação ou categorização da
característica de interesse do estudo
Tipos de Variáveis
◘ Categóricas
◘ Quantitativas
Nominais
Ordinais
Discretas
Contínuas
Aspectos Gerais
Dentro do objetivo definido nos capítulos anteriores para a estatística descritiva,
quanto maior a facilidade em transmitir as informações sobre a população em
estudo para quem as estiver recebendo, mais eficiente será o meio de
transmissão.
Ainda, entendendo que essa transmissão é auxiliada pela síntese das
informações, conclui-se que, dentro de limites de qualidade lícitos, quanto mais
condensada vier a informação, mais fácil ir-se-á tornar a assimilação das
características da população em questão (veja a Fig., no próximo slide).
Fig.
Aspectos Gerais
Assim, a busca de valores típicos que caracterizem a população é uma
tentativa de melhorar o entendimento do receptor da informação a
respeito dela.
O primeiro valor típico ou representativo que pode ser imaginado é um
valor que seja o mais parecido possível com os demais valores do
conjunto. Desse modo, está-se procurando um valor central, ou um
valor que tende ao centro.
As Medidas de Tendência Central, então, são uma primeira
caracterização dos conjuntos populacionais ou amostrais.
Aspectos Gerais
Médias (“mean”)
- Média aritmética simples, MAS Valores
- Média geométrica, G
- Média harmônica, H
MTCs
Mediana, (“median”) Ordem
Moda, (“mode”) Freqüência
Medidas de Tendência Central
Quadro. Medidas de Tendência Central
Aspectos Gerais
Tratamento de dados simples
A média aritmética (arithmetic mean)
Dado o conjunto de n valores da variável X, X = {x1, x2, ..., xn}, a média
aritmética simples desse conjunto pode ser obtida a partir da expressão:
A média (mean)
 𝑥 =
 𝑖=1
𝑛 𝑥𝑖
𝑛
.
A média aritmética (cont.)
No caso de um conjunto com m valores diferentes, x1, x2, ..., xm, que aparecerem
no conjunto com freqüências iguais a f1, f2, ..., fm, a média pode ser calculada
usando-se a expressão:
n
fx
f
fx
x
m
i
ii
m
i
i
m
i
ii 








 1
1
1
Somando os m valores, incluindo as repetições, obtém-se o total de
n =f, que seria o número total de elementos do conjunto.
EXEMPLO 
 33 32, 33, 30, 34, X
cm 4,32
5
33323330341 




n
x
x
n
i
i
a) Seja X o conjunto dos perímetros cefálicos, em centímetros, de 5 recém-
nascidos.
b) Dado o número de casos de certa moléstia nas idades i1, i2, i3 com
diferentes freqüências, o cálculo correto da idade média de incidência
deverá considerar o peso do número de casos verificados em cada uma
das 3 idades (repetições).
Então, o perímetro cefálico médio dos cinco RN’s resulta:
A média aritmética ponderada
Em alguns casos, um dos dados do conjunto possui particular
importância, de modo que o pesquisador deseja evidenciar esse fato
ressaltando seu efeito.
Nesse caso, é possível adotar um peso diferente (maior) para esse
dado em relação aos outros. A média calculada com pesos
diferenciados é denominada Média Ponderada, e pode ser calculada
fazendo:






m
i
i
m
i
ii
p
p
px
x
1
1
em que pi = pesos arbitrados para cada dado ou valor.
Propriedades da média aritmética simples
• A soma algébrica dos desvios de um conjunto X com n números em
relação à média aritmética é sempre igual a zero.
• A soma dos quadrados dos desvios de um conjunto de números xi, em
relação a qualquer número A, é um mínimo quando A = média e
somente neste caso.
• Se f1 números têm média m1, f2 números têm média m2, ..., fk números
têm média mk, a média de todos os números é dada por:
• A média de um conjunto de números é também igual à média de cada
um destes números menos uma constante, somada depois a essa
mesma constante.
n
fm
f
fm
x
k
i
ii
k
i
i
k
i
ii 








 1
1
1
A média geométrica, G
Outro critério de cálculo da média é o que leva à denominada Média
Geométrica, G. A média geométrica pode ser calculada
empregando-se as expressões:
n
n
nn
i
i xxxxxG 





 

...321
1
1
A média geométrica tem aplicação quando se deseja calcular a média de valores
expressos em uma escala não-linear, como mostra o Exemplo 4.4 (pág. 95).
Exemplo: média geométrica
Um experiência com 25 indivíduos consistiu em determinar a Concentração
Mínima Inibitória (CMI) de determinado antibiótico para um certo tipo de
bactéria. Calcule a média geométrica.
CMI (µg/ml) Número
1,0000 1
0,5000 2
0,2500 6
0,1250 4
0,0625 3
0,0313 9
Total 25
Exemplo: Média geométrica
A CMI normal para este tipo de bactéria é de 0,1001 (µg/ml). Se tivesse sido empregada a
média aritmética, o resultado seria aproximadamente 0,18 (µg/ml).
log( ) 0,9994
1 og(1) 2 og(0,5) 9 og(0,03125)
log( ) 0,9994
25
10 10 0,1001.G
G
x
G
l l l
x
x 
     
  
  
A média harmônica, H
Um outro conceito de média é o da Média Harmônica, H, que pode ser
calculada:
 
n
n
i
i
xxx
n
xnH
1
...
11
21
1
1
1












A média harmônica tem aplicação quando se deseja calcular a média dos valores
de uma variável por unidade de tempo.
EXEMPLO 
Considere que uma lesão provocada por um determinado tipo de bactéria tenha
se ampliado em 10 centímetros a partir da origem da lesão. Suponha que, até
atingir os primeiros 5 cm, deslocou-se a uma velocidade de 1 cm/dia e, a partir
deste local, a lesão começa a se ampliar a uma velocidade de 2 cm/dia. Qual
seria a velocidade média de crescimento da lesão na área afetada?
EXEMPLO 
33,1
5,1
2
2
1
1
1
2
1
...
11
21





nxxx
n
H
SOLUÇÃO:
Tempo para a lesão atingir os primeiros 5 cm = 5 (cm)/1 (cm/dia) = 5 dias.
Tempo para a lesão atingir os restantes 5 cm = 5 (cm)/2 (cm/dia) = 2,5 dias.
Então, a velocidade média de expansão da lesão na área afetada foi:
expansão da lesão/tempo total = 10 (cm)/7,5 (dias) = 1,33 (cm/dia).
Empregando a média harmônica das velocidades, obtém-se o mesmo resultado. Veja:
1.2.3 A mediana (median)
A média não é a única medida de tendência central. Utilizando outros
critérios para selecionar um valor representativo e central de um conjunto
numérico, é possível obter outras medidas.
Um desses critérios consiste em imaginar que, estando os valores que
compõem o conjunto de observações ordenado de forma crescente ou
decrescente, o valor que ocupa a posição eqüidistante dos extremos é o valor
representativo do conjunto.
Quanto ao caráter central deste número não há o que discutir, toda vez que
ele é o próprio centro. Quanto à sua representatividade, equivale a pegar o
meio da fila, que, estando ordenada, pressupõe umaescolha adequada.
A mediana (median)
A medida de tendência central definida nestes termos recebe o nome de
Mediana, e será denotada daqui em diante pela letra minúscula
correspondente ao conjunto que representa a variável, acompanhada do
símbolo “chapéu”. Assim
𝑋 = 𝑥1, 𝑥2, … , 𝑥𝑛 , 𝑐𝑜𝑚 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛
A mediana (median)
A mediana possui uma característica importante quando se trata de conjuntos
que possuem um valor atípico ou excepcional (extremamente grande ou
pequeno “outlie”), pois, dependendo de como o cálculo é feito, ele irá pender a
um dos extremos, sem afetar o resultado final.
Em outras palavras, quando se calcula a mediana, os valores extremos não
afetam o resultado final.
Para compreender melhor esta asserção, veja o Exemplo 4.6 (pág. 97).
EXEMPLO 
 
  4ˆ (impar) 5 ,8 5, 4, 3, 2, 
4x̂ 4 5, 3, 8, 2, 
3
2
15







 
xxxnX
X
OR
a) Seja
b) Seja  
 
5,3
2
43
22
ˆ
 (par) 6 ,8 5, 4, 3, 2, 0,
5,3x̂ 0 4, 5, 3, 8, 2, 
43
1
2
6
2
6





















xx
xx
x
nX
X
OR
Outras Medidas de Ordem
A mediana foi definida como a separatriz de um conjunto na sua metade.
Podem ser definidas também outras separatrizes de ordem de um conjunto,
como a divisão em quatro, dez ou cem partes. Estas medidas recebem o nome
de:
Quartil (quartis)  Q1, Q2, Q3 e Q4.
Decil (decis)  D1, D2, ... , D10.
Percentil (percentis)  P1, P2, P3, ... , P99, P100.
Observe que: Mediana = Q2 = D5 = P50, assim como Q1 = P25, etc.
O cálculo dessas medidas é análogo ao da mediana.
VEREMOS ISSO MAIS 
ADIANTE!!
moda (mode)
Outro critério para a escolha do valor típico de um atributo de uma população ou
amostra dela é tomar o valor mais freqüente deste conjunto.
Em outras palavras: o valor mais representativo é aquele que aparece o maior
número de vezes.
O valor resultante da adoção deste critério é conhecido como Moda ou Valor
Modal do conjunto.
Assim, para o conjunto de valores:
EXEMPLO
Para o conjunto
Pois os números 0, 1 e 2 aparecem, respectivamente, com freqüências 3, 2 e 1.
Observação: Note que moda igual a zero não significa que a moda não exista.
Significa que o valor mais freqüente é o zero.
A moda (mode) (cont.)
No exemplo anterior, existe uma única freqüência máxima. Entretanto, em outros
casos, as freqüências máximas podem ser duas ou mais de duas, gerando assim
distribuições ditas:
Ver o Exemplo 4.9 (pág. 100).
• Amodais: quando todas as freqüências são iguais;
• Bimodais: quando existem duas freqüências máximas;
• Multimodais: quando existem várias freqüências máximas.
EXEMPLO 
a. Distribuição amodal
b. Distribuição bimodal
c. Distribuição multimodal
Dados Números de ovos:
• Número de ovos do Aedes aegypti em dez ovitrampas durante uma
semana em um região sanitária do RJ.
29 81 64 59 133 57 56 154 180 57
Encontre as seguintes medidas de síntese numérica: - a 
média aritmética simples, mediana e moda. 
Média:
1 29 81 64 59 133 57 56 154 180 57 870
87 .
10 10
nx x
x ovos
n
          
   
n = 10 é o tamanho amostral, a media aritmética simples é dada por:
Moda:
• A moda é 57.
Mediana:
29 56 57 57 59 64 81 133 154 180
[ /2] [( /2) 1] 59 64 123
61,50 .
2 2 2
n nx x
md ovos
 
   
Dados ordenados:
n = 10 é par, a mediana é dada por:
Interpretação: o valor 61,50 ovos deixa 50% dos dados abaixo dele. 
Resultados Usando um Software Estatístico
EXERCÍCIOS
Dados Números de ovos:
• Número de ovos do Aedes aegypti em cinco ovitrampas durante uma
semana de observação em um região de BH.
Encontre as seguintes medidas de síntese numérica: - a 
média aritmética simples, mediana e moda. 
30 80 64 64 100
Percentis e Escore Padronizado
mais medidas de posição 
Descrição e Apresentação de Dados
950875800725650575
95% Confidence Interval for Mu
785775765755745735
95% Confidence Interval for Median
Variable: Leite
734,823
 92,320
739,141
Maximum
3rd Quartile
Median
1st Quartile
Minimum
N
Kurtosis
Skewness
Variance
StDev
Mean
P-Value:
A-Squared:
783,000
114,478
770,276
969,000
825,500
761,000
677,250
553,000
168
-7,7E-01
9,36E-03
10445,8
102,205
754,708
0,184
0,520
95% Confidence Interval for Median
95% Confidence Interval for Sigma
95% Confidence Interval for Mu
Anderson-Darling Normality Test
Descriptive Statistics
Análise descritiva consiste na organização e
descrição dos dados, na identificação de valores
que traduzem o elemento típico e na quantificação
da variabilidade presente nos dados.
Elementos Básicos
◘ Sínteses Numéricas
◘ Tabelas
◘ Gráficos 
Exemplos:
Dados Números de ovos:
• Número de ovos do Aedes aegypti em dez ovitrampas durante uma
semana em um região sanitária do RJ.
29 81 64 59 133 57 56 154 180 57
Encontre os percentis de ordem 25, 50 e 75. 
29 56 57 57 59 64 81 133 154 180
25 [ ] [3] 57 .LP x x ovos  
Dados ordenados:
A posição é:
Interpretação: 25% dos dados são menores ou iguais ao valor 57 
ovos. 
Percentil 25:
25
10 2,5 3
100 100
k
L n
   
      
   
O Percentil de ordem 25 é dada por:
29 56 57 57 59 64 81 133 154 180
[ ] [ 1] [5] [6]
50
59 64
61,50 .
2 2 2
L Lx x x x
P ovos
  
   
Dados ordenados:
A posição é:
Interpretação: 50% dos dados são menores ou iguais ao valor 
61,50 ovos. 
Percentil 50:
50
10 5
100 100
k
L n
   
     
   
O Percentil de ordem 50 é dada por:
29 56 57 57 59 64 81 133 154 180
75 [ ] [8] 133 .LP x x ovos  
Dados ordenados:
A posição é:
Interpretação: 75% dos dados são menores ou iguais ao valor 133 
ovos. 
Percentil 75:
75
10 7,5 8
100 100
k
L n
   
      
   
O Percentil de ordem 75 é dada por:
Resultados Usando um Software Estatístico
Escore Padronizado:
EXERCÍCIO 01
Percentil
Exercício 1: Dados Números de ovos
• Número de ovos do Aedes aegypti em cinco ovitrampas durante uma
semana de observação em um região de BH.
30 80 64 64 100
Encontre os percentis de ordem 25, 50 e 75. 
Resumos no software R
Resultados:
 
Percentiles 
5 10 25 50 75 90 95 
Weighted 
Average(Definition 1) 
Num.Ovos.BH 
30,0000 30,0000 47,0000 64,0000 90,0000 . . 
Tukey's Hinges Num.Ovos.BH 64,0000 64,0000 80,0000 
 
EXERCÍCIO 02
Escore Padronizado
Exercício 02:
Um determinado aluno de uma turma teve o seguinte
desempenho nos testes de salto em extensão e conhecimento
desportivo, respectivamente:
- 108 cm (turma media = 88 cm, s = 11cm);
- 64 pontos (turma media = 75 pontos, s = 6 pontos).
Em qual teste ele teve o melhor desempenho?
FIM DA AULA
• Ver os Exemplos:
• Exercícios resolvidos 1 e 2 (págs. 125 a 128).
• Resolver os problemas propostos de 1 a 8 (pág. 138).
 4.1 na pág. 92;
 4.2 na pág. 93;
 4.3 na pág. 94;
 4.4 na pág. 95;
 4.5 na pág. 96;
 4.6 na pág. 97;
 4.8 na pág. 99;
 4.9 na pág. 100.
Atividades de complementação do ensino:
Medidas Características dos dados
“Medidas de dispersão ou variabilidade, MD’s. Medidas de 
assimetria”
Descrição e Apresentação de Dados
950875800725650575
95% Confidence Interval for Mu
785775765755745735
95% Confidence Interval for Median
Variable: Leite
734,823
 92,320
739,141
Maximum
3rd Quartile
Median
1st Quartile
Minimum
N
Kurtosis
Skewness
Variance
StDev
Mean
P-Value:
A-Squared:
783,000
114,478
770,276
969,000
825,500
761,000
677,250
553,000
168
-7,7E-01
9,36E-03
10445,8
102,205
754,708
0,184
0,520
95% Confidence Interval for Median
95% Confidence Interval for Sigma
95% Confidence Interval for Mu
Anderson-Darling Normality Test
Descriptive Statistics
Análise descritiva consiste na organização e
descrição dos dados, na identificação de valores
que traduzem o elemento típico e na quantificação
da variabilidade presente nos dados
Elementos Básicos
◘ Sínteses Numéricas
◘ Tabelas
◘ Gráficos 
Descrição e Apresentação de Dados
Variáveldeve ser entendida como a
quantificação ou categorização da
característica de interesse do estudo
Tipos de Variáveis
◘ Categóricas
◘ Quantitativas
Nominais
Ordinais
Discretas
Contínuas
Medidas de Variabilidade
Aspectos gerais
Entende-se por dispersão ou variabilidade a diferença observada entre os
valores de um conjunto de dados.
Evidentemente, quanto maior for essa diferença, maior será a dispersão ou
variabilidade do conjunto, sendo válido o raciocínio inverso.
Desse modo é possível, por simples observação, caracterizar um conjunto
qualitativamente em termos de dispersão.
Entretanto, para evitar o julgamento subjetivo associado à aferição qualitativa
da dispersão, resulta conveniente construir um índice que permita efetuar uma
análise quantitativa da variabilidade dos dados.
Variabilidade ou dispersão
Mensuração da dispersão ou da variabilidade
MD’s
Amplitude Total, AT (range)
Soma dos Desvios Absolutos, SDA
Desvio Médio, DM
Lineares
Soma dos Quadrados dos Desvios, SQD
Variância, VAR[X] ou 2 (variance)
Desvio Padrão,  (standard deviation)
Quadráticas
Taxa de anormalidade Ordem
Medidas
A Amplitude Total, AT
nn xxxxxxX  ... com },...,{ 2121
1xxAT n 
Uma das formas mais óbvias e simples de se medir a dispersão consiste em
calcular a Amplitude Total do conjunto que está sendo observado.
A amplitude total é obtida do seguinte modo:
Seja
Então
Apesar de ter a vantagem da simplicidade, a amplitude total é considerada um
indicador inadequado para a mensuração da variabilidade.
As razões apontadas são as seguintes:
• A amplitude total não considera a totalidade dos dados do conjunto e
sim apenas dois deles (o maior e o menor). Dessa forma, o indicador
não é sensível à posição que os “n-2” valores restantes ocupam no
conjunto.
• No caso de dados agrupados em tabelas, os limites abertos não
permitem o cálculo da amplitude total.
A razão apontada em primeiro lugar pode levar a erros na avaliação da
dispersão, como mostra o exemplo no próximo slide.
A Amplitude Total, AT
EXEMPLO
Sejam os conjuntos:
A = {1, 7, 7, 8, 8, 8, 9, 9, 12, 15}
B = {3, 3, 4, 4, 8, 11, 13, 13, 14, 14}
Dispersão [A] = ATA = 15 – 1 = 14
Dispersão [B] = ATB = 14 – 3 = 11
Entretanto, uma simples análise visual dos valores dos dois conjuntos,
devidamente desenhados em uma escala graduada, mostra que a amplitude
total reflete mal a dispersão dos conjuntos, tal como definido anteriormente.
Observe a Fig. 4.5, no próximo slide.
EXEMPLO
Embora tenha-se mostrado
que a amplitude total do
conjunto A é maior que a do
conjunto B (ATA > ATB),
percebe-se uma dispersão
menor dos valores do
conjunto A em relação à do
conjunto B.
Fig. 4.5 Comparação da
dispersão dos conjuntos A e
B.
Como a falha da amplitude total na avaliação da dispersão decorre do fato de
considerar apenas os valores extremos do conjunto, a providência lógica a ser
tomada é pensar em um indicador que reflita as diferenças de todos os valores
do conjunto.
xxd ii 



n
i
i
n
i
i dxxSDS
11
)(
A Soma dos Desvios Simples
Tais diferenças são denominadas Desvios. Os desvios simples podem ser
calculados fazendo:
Uma das medidas que emprega esse critério é denominada Soma dos
Desvios Simples, SDS, que pode ser generalizada pela expressão:
A Soma dos Desvios Simples (cont.)
Embora esse índice apresente coerência quanto à sua
formulação, ele resulta inoperável, uma vez que, para
qualquer conjunto numérico, a soma das diferenças de seus
valores com respeito à média é sempre nula.
O Desvio Médio parte do mesmo princípio da SDS, apenas forçando o valor
positivo dos desvios pela adoção do valor modular destes. Dessa maneira, tem-se
a Soma dos Desvios Absolutos, SDA.
n
xx
n
d
n
SDA
DM
n
i
i
n
i
i 


 11



n
i
i
n
i
i dxxSDA
11
O Desvio Médio
Ainda com a finalidade de saber qual seria a variabilidade em média, adota-se o
quociente entre a SDA e o número de valores do conjunto, n. Desse modo, tem-
se o Desvio Médio, que pode ser posto:
A Soma dos Quadrados dos Desvios é uma outra forma de resolver o problema de
a Soma dos Desvios Simples resultar sempre nula. De fato, tomando cada desvio
ao quadrado, o resultado será sempre positivo.
A Soma dos quadrados dos desvios (desvio quadrático)
A idéia de tomar os desvios ao quadrado é preferível à dos desvios absolutos, pois
penaliza relativamente mais os desvios maiores.



n
i
i
n
i
i xxdSQD
1
2
1
2 )(
A Soma dos quadrados dos desvios (desvio quadrático)
Fig. Comparação entre desvios absolutos (lineares) e desvios quadráticos.
Assim como no caso do Desvio Médio, resulta interessante calcular a média da
Soma dos Quadrados dos Desvios, com a finalidade de obter o desvio quadrático
médio, ou, como é comumente conhecido, a Variância.
Variância e desvio padrão
Denotando a variância por VAR[X], ou 2, tem-se:
n
xx
n
d
n
SQD
DQM
n
i
i
n
i
i 


 1
2
1
2 )(
n
xx
S
n
i
i


 1
2
2
)(
Entretanto, pelo seu resultado ser obtido somando-se valores elevados ao
quadrado, a Variância expressa a variabilidade dos dados como uma grandeza
também ao quadrado (por exemplo, a variância das alturas de um grupo de
pessoas, medidas em centímetros, será expressa em cm2).
Para solucionar esse incômodo, basta extrair a raiz quadrada da Variância,
obtendo-se assim um outro indicador de variabilidade, denominado Desvio
Padrão.
Variância e desvio padrão (cont.)
n
xx
SS
n
i
i


 1
2
2
)(
Desvio Padrão
Correção
1
)(
 ; 
1
)(
1
2
21
2
2








n
xx
ss
n
xx
s
n
i
i
n
i
i
Variância e desvio padrão (cont.)
EXEMPLO 
 33 32, 33, 30, 34, X
cm 52,13,2
cm 3,2
15
)4,3233(...)4,3230()4,3234(
1
)(
2
2
222
1
2
2










ss
n
xx
s
n
i
i
Seja X o conjunto dos perímetros cefálicos, em centímetros, de 5
recém-nascidos.
Obs.: Note as unidades resultantes das duas operações (cm2 e cm).
Então, a variância e o desvio padrão (amostral) dos perímetros cefálicos dos
cinco RN resulta:
Quando se trata de comparar a dispersão de dois atributos diferentes de uma
população, é conveniente normalizar os indicadores.
Tal procedimento busca evitar erros nas conclusões a esse respeito.
Para resolver esse problema, é utilizado um outro indicador da variabilidade
de dados, denominado Coeficiente de Variação, que pode ser obtido usando-
se as expressões:
Coeficiente de variação, cv
x
s
cv
x
cv  ou 

Perceba-se que, ao dividir o desvio padrão pela média, é obtido um valor
adimensional e normalizado.
Valor Referência: 25%.
EXEMPLO 
Recém-nascido 1 2 3 4 5 6 7 8 9 10
Comprimento (cm) 52 48 45 49 51 54 47 50 46 51
Peso (g) 3.300 3.200 2.950 3.150 3.350 3.450 2.900 3.300 3.150 3.250
Imagine uma amostra composta por dez crianças recém-nascidas, das quais
são conhecidos o peso (em gramas) e o comprimento (em centímetros).
Pode ser efetuada a comparação das variabilidades dos pesos e dos
comprimentos para saber em qual dos casos há um maior afastamento dos
valores normais. Nesse sentido, seriam calculados os desvios padrões do peso,
P, e do comprimento, H, usando-se as expressões indicadas anteriormente.
Obtêm-se assim:
MédiaH = 49,3 cm VariânciaH = 7,24 cm2 Desvio padrãoH = 2,69 cm 
MédiaP = 3.200 g VariânciaP = 26.500,58 g2 Desvio padrãoP = 162,79 g
EXEMPLO 
A comparação dos desvios padrões dos pesos e dos comprimentos pelo seu
valor absoluto supõe ilusória conclusão de que a variabilidade dos pesos
(162,79 g) é muito maior que a das alturas (2,69 cm). Essa conclusão, além de
totalmente incorreta, constitui um absurdo, uma vez que estão sendo
comparadas grandezas completamente diferentes (centímetro e grama).
Entretanto, usando o cv:
Os resultados invertem a conclusão baseada na errônea comparação das
variabilidades pelos desvios padrões, uma vez que o coeficiente de variação dos
comprimentos é maior que o dos pesos, o que indica uma dispersãomaior em
torno do valor normal.
É importante frisar que o desvio padrão e a variância são muito mais utilizados
e conhecidos que o coeficiente de variação e que este é recomendado em casos
particulares, como o deste exemplo.
cvH = 0,0545 cvP = 0,0509
Define-se Taxa de Anormalidade, A, como o número relativo de casos cujos valores
se encontram fora de um intervalo de referência (normalidade) previamente
definido.
Dessa forma
A taxa de anormalidade, A
n
V
A A
em que VA corresponde ao número de valores fora do intervalo mencionado.
Do ponto de vista conceitual, a taxa de anormalidade difere das outras medidas
de dispersão porque seu cálculo se baseia na ordem dos elementos de um
conjunto e não no seu valor (como no caso do desvio padrão). Dessa forma, a
taxa de anormalidade é uma medida de variabilidade ordinal (veja o Exemplo
4.11, na pág. 112).
Quando A informa que um certo percentual de casos é anormal, não se refere
a qual o tipo de anormalidade, e muitas vezes essa informação é importante.
Ao se falar em tipo de anormalidade, está-se referindo à predominância da
anormalidade, que pode estar abaixo, acima ou em ambos os lados do
intervalo de normalidade.
Por exemplo: do ponto de vista clínico, é de fundamental importância saber onde
predomina a anormalidade: 20% de taxas de ferro sérico anormais acima de 150 mg/dl
não são iguais a 20% abaixo de 45 mg/dl.
Considerando esses aspectos, é possível definir a Taxa de Anormalidade de
Risco, Ar, como o número relativo de valores anormais de um conjunto
numérico, que implicam nocividade quando relacionados à variável que
representam. Assim,
A taxa de anormalidade de risco, AR
n
V
AR AR
Medidas de Simetria 
E Curtose
Simetria 
Grau de Achatamento
Assimetria
Entende-se por simetria a identidade de comportamento de uma curva a ambos
os lados de um “eixo de simetria” ou “plano de simetria”. Assimetria seria a falta
de simetria.
A assimetria à esquerda é também chamada de assimetria negativa em oposição,
a assimetria à direita é dita assimetria positiva.
Assimetria
Coeficiente de assimetria de Pearson, P
Conceito
𝑃 =
( 𝑥 − 𝑚𝑑)
𝑠
Coeficientes
Ilustração da assimetria
Curtose
Métodos
A curtose de uma distribuição de probabilidade de uma variável aleatória é
definida em termos do segundo e quarto momentos.
OBS.: Polígono de frequências ou 
histograma em forma de “curva de sino”.
Ilustração da Curtose 
(Excesso de Curtose)
K = 3
Exemplo: Escore padronizado (n= 
3284 obs.)
Exemplo: Petro 3 (3284 obs. diárias)
Escores leptocúrticos!! 
Cauda Pesada!! 
Escores assimétricos 
(negativa)!! 
Escore médio positivo!! 
Cálculo no software R!
Exemplos:
Dados Números de ovos:
• Número de ovos do Aedes aegypti em dez ovitrampas durante uma
semana em um região sanitária do RJ.
29 81 64 59 133 57 56 154 180 57
Encontre as seguintes medidas de variabilidade: -
amplitude total, variância, desvio padrão e coeficiente de 
variação. 
Amplitude:
Amplitude = Máximo – Mínimo 
= 180 – 29 = 151 ovos.
Variância e desvio padrão:
87 .x ovos
n = 10 é o tamanho amostral, a media aritmética simples é dada por:
i X
1 29 -58 3364
2 56 -31 961
3 57 -30 900
4 57 -30 900
5 59 -28 784
6 64 -23 529
7 81 -6 36
8 133 46 2116
9 154 67 4489
10 180 93 8649
22728
2525,333
50,253
( )iX X
2( )iX X
10
2
1
( )i
i
X X


10
2
2 1
( )
10 1
i
i
X X
S 




2S S
Coeficiente de variação:
50,253
57,76%.
87
S
CV
X
  
O coeficiente de variação é dada por:
Resumos no software R
Resultados Usando um Software Estatístico
Descriptives
87,00 15,891
51,05
122,95
85,06
61,50
2525,333
50,253
29
180
151
82
,973 ,687
-,431 1,334
Mean
Lower Bound
Upper Bound
95% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Num.Ovos
Statistic Std. Error
Variância
Desvio padrão
Amplitude
EXERCÍCIOS
Dados Números de ovos:
• Número de ovos do Aedes aegypti em cinco ovitrampas durante uma
semana de observação em uma região de BH.
Encontre as seguintes medidas de dispersão dos dados: 
amplitude, variância, desvio padrão e coeficiente de 
variação. 
30 80 64 64 100
Resumos no software R
Resultados Usando um Software
Estatístico
 Descriptives 
 
 Statistic Std. Error 
Num.Ovos.BH Mean 67,6000 11,49609 
95% Confidence 
Interval for Mean 
Lower Bound 35,6817 
Upper Bound 
99,5183 
5% Trimmed Mean 67,8889 
Median 64,0000 
Variance 660,800 
Std. Deviation 25,70603 
Minimum 30,00 
Maximum 100,00 
Range 70,00 
Interquartile Range 43,00 
Skewness -,425 ,913 
Kurtosis ,945 2,000 
 
ASSISTA O VÍDEO DE COMO FAZER ESTATÍSTICAS
DESCRITIVAS NO R (VISUALIZAÇÃO DE DADOS)
Links: https://youtu.be/jZvQ4N0nuDY
Gráficos:
https://youtu.be/TmOqfmsyrnE
https://youtu.be/jZvQ4N0nuDY
https://youtu.be/jZvQ4N0nuDY
https://www.r-project.org/
https://youtu.be/TmOqfmsyrnE
Mais informações e materiais podem ser encontrados 
no website, Face e Youtube do LST:
http://www.est.ufmg.br/lst/
https://www.facebook.com/lst.dest.ufmg/
https://www.youtube.com/channel/UCYiPLUzm_5vMX2NekzeIUUQ
http://www.est.ufmg.br/lst
https://www.facebook.com/lst.dest.ufmg/
https://www.youtube.com/channel/UCYiPLUzm_5vMX2NekzeIUUQ
https://www.facebook.com/lst.dest.ufmg/
https://www.youtube.com/channel/UCYiPLUzm_5vMX2NekzeIUUQ

Continue navegando