Estatísticas descritivas _III_b

•

PUC-RIO

Luan Felipe

18/10/2013

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Introd Anal Estatistica Dados

4 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1
dados numéricos: 
intervalar e razão - III
2
Propriedades e Medidas
Propriedades
Numéricas
Tendência 
Central
FormaVariação
Média
Mediana
Moda
Amplitude
Interquartil
Variância
Desvio Padrão
Coeficiente de Variação
Assimetria
CurtoseAmplitude
3
Medidas de dispersão
A média, mediana e moda sumarizam apenas um dos aspectos da 
distribuição de dados que é a medida de localização, ou posição 
central.
 Existem outras medidas que abordam outros aspectos importantes 
da distribuição de dados, como por exemplo:
 a dispersão ou variabilidade dos dados, possivelmente em 
torno de uma medida central.
 a simetria dos dados em torno de uma medida central
 a maior concentração de observações extremas em relação
a uma distribuição de referência, a normal (curtose).
 Nesta seção iremos abordar medidas de dispersão.
4
Medidas de dispersão
 Medidas de dispersão aumentam em valor com o aumento da 
dispersão (espalhamento) dos dados.
 Se não há dispersão, variação ou espalhamento estas medidas são 
nulas.
 Medidas de dispersão geralmente possuem unidade. 
Muitas vezes as medidas de dispersão são padronizadas, divindo-se 
o seu valor pelo seu valor máximo, de forma que o valor 1 representa 
o valor máximo da medida:
Ex: valor máximo da dispersão= D
dispersão* = dispersão / D 
É possível também padronizar a dispersão dividindo-a por uma 
medida de localização ou tendência central (média, mediana etc).
5
É a diferença entre a menor e a maior observação.
amplitude = X(n) – X(1)
(range)
 ignora a maneira como os dados são distribuídos
 é extremamente sensível a outliers
ambos possuem a mesma amplitude = X(10) – X(1)
7 8 9 10 7 8 9 10
amplitude
6
 Amplitude interquartílica: é a diferença entre o terceiro (75%) e o 
primeiro quartil (25%).
(interquartile range) 
 se anula qdo não há dispersão
 é resistente a outliers.
 Desvio quartílico (quartile deviation) 
 ambas dependem da unidade de medida da variável X
medidas de variação baseada em quantis
(4) (4)
3 1=Q - QIQR
]/ 2(4) (4)3 1=[Q - QDQ
7
 Coeficiente de variação quartílica: versão padronizada do IQR
(coefficient of quartile variation)
 é adimensional
]
]
(4) (4)
3 1
(4) (4)
3 1
[Q - Q
=
[Q + Q
CQV
8
Box-plot (box-and-whisker diagram): procedimento gráfico que 
sintetiza a distribuição de um conjunto de observações utilizando 
5 sumários:
serve para detectar outliers.
serve para comparar populações de uma maneira fácil e direta
informando o centro e a dispersão dos dados.
(1)
( )
2
3
:
:
:
25% :
75% :
n
mínimo X
máximo X
mediana
quantil
quantil
(4)
(4)
1
(4)
Q
Q
Q
9
(4) (4) (4)
1 2 3
(4) (4)
3 1
(4) (4)
1 3
(
2
- primeiro calcule: Q (25%), Q (mediana) e Q (75%).
 
- calcule o IQR= Q - Q .
- construa uma caixa(vertical), onde a aresta de baixo é
Q , e a de cima é Q .
indique onde a mediana (Q 4) )está localizada dentro da caixa utilizando
uma linha ou um símbolo.
- a média também pode ser indicada dentro da caixa utilizando 
um outro símbolo.
construindo um box-plot
10
(4) (4)
3 1
(4)
3
(4)
1
- calcule 1,5*IQR (IQR= Q - Q ).
- utilize a seguinte regra para detectar outliers (fracos) (são simbolizados por círculos vazios): 
> Q + 1,5*IQR
< Q - 1,5*IQR
 estes limites defin
(4)
1
em as cercas internas (inner fences)
indique a localização do menor valor que não é um outlier (< Q - 1,5*IQR)
conectando-o à caixa (por baixo) utilizando uma linha (bigode).
indique a localização (4)3 do maior valor que não é um outlier (> Q + 1,5*IQR)
conectando-o à caixa (por cima) utilizando uma linha (bigode).
- outliers fortes seguem a seguinte regra (são simbolizados por círculos cheios)
> (4)3
(4)
1
Q + 3*IQR
< Q - 3*IQR
 estes limites definem as cercas externas (outer fences)
11
12
-4
-3
-2
-1
0
1
2
3
4
Simétrico
 numa distribuição simétrica a média e a mediana coincidem e os 
quartis de 25% e 75% são simétricos em relação à mediana.
X~ Normal(0,1) 
13
0
2
4
6
8
10
12
14
Assimetria positiva
 numa distribuição assimétrica positiva, a maior concentração de dados è a 
esquerda da mediana, e assim o quantil de 25% (aresta inferior da caixa) é 
mais perto da origem dos dados e da mediana, enquanto o quantil de 75% é 
mais distante da mediana. A presença de muitos outliers indica que a cauda 
é longa à direita da mediana.
X ~ [Normal(0,1)]2 = 
2
(1)χ
14
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Assimetria Negativa
 numa distribuição assimétrica negativa, a maior concentração de dados è a 
direita da mediana, e assim o quantil de 25% (aresta inferior da caixa) é mais 
distante da origem dos dados e da mediana, enquanto o quantil de 75% é mais 
perto da mediana.
X ~ 1- Beta(2,5)
15
comando no Stata: iqr renfampc
Ex: renda familiar per capita na região Sudeste (PNAD 2008)
16
0
500,000
1,000,000
1,500,000
2,000,000
2,500,000
3,000,000
3,500,000
PRECO
0
400,000
800,000
1,200,000
1,600,000
2,000,000
PRECO
0
500,000
1,000,000
1,500,000
2,000,000
2,500,000
3,000,000
3,500,000
PRECO
todos os apts apts sem vista apts com vista
Ex: preço de apts (em R$) na zona sul do Rio de Janeiro.
17
 a distribuição de preços dos apartamento (todos, sem vista e com 
vista) é assimétrica positiva: 
a maioria dos apts tem preço concentrado em uma
determinada faixa, e a proporção de apts com preço superior
a esta faixa decresce com o aumento do preço do apt.
 apenas para o preço de todos os apartamentos aparecem outliers 
fortes, localizados além da cerca externa.
 enqto o apt de preço aprox. de 3,5 milhões é outlier forte em apts 
de todos os preços, torna-se outlier fraco para apts. com vista.
18
desvio médio e desvio médio absoluto
Primeiro vamos formalizar o conceito de desvio em relação a média
aritmética
O desvio médio em relação à media aritmética:
n n
i i
i=1 i=1
1 1
= d = (X - X) =0
n n
desvio médio
i d X -X , i=1,...,ni
então este desvio não faz sentido para a média, pois se anula, por 
construção.
19
 é nulo qdo todas as observações forem iguais, i.e, qdo a
dispersão for nula:
mostra, a distância média das observações em relação à
média, ignorando-se o sinal do desvio.
 difícil de generalizar para duas variáveis.
 não é mínima para a média, apenas para a mediana.
Para evitar o cancelamento, podemos tomar o módulo do desvio:
n n
i i
i=1 i=1
1 1
= |d |= |X - X|
n n
(mean absolute deviation)
desvio médio absoluto
jX =X =X, i,j X=X.i
20
 são nulos qdo todas as observações forem iguais, i.e., qdo a
dispersão for nula.
 o desvio padrão tem a mesma unidade da variável X.
 por razões técnicas geralmente substituímos no denominador, n
por n-1.
 são facilmente contaminados por outliers.
 Agora para evitar o cancelamento, tomamos o quadrado do desvio:
2 2
2
ivariância
desvio padrão=s= 
n n n
2 2
i i
i=1 i=1 i=1
n
i
i=1
1 1
= = d = (X - X) = X /n -X
n n
1
(X - X)
n
2s
variância e desvio padrão (standard deviation)
21
coeficiente de variação (cv)
Facilita a comparação da magnitude do desvio padrão entre
variáveis:
s1= 100 é o dp de X1
s2= 10 é o dp de X2
 necessariamente X2 não é mais dispersa do que X1 pois o dp
depende da unidade de medida de cada variável.
2 ,cv
n n
i i
i=1 i=1
s 1 1
 = .100%, s = (X - X) X = X
n nX
 o cv, sendo adimensional, permite a comparaçãoda variabilidade 
entre variáveis medidas em unidades distintas. 
22
variável
(média)
s 
(desvio 
padrão)
cv
peso (em Kg) 75, 50 10,0 13,2
salário (em R$) 4.350,00 500,00 11,5
X
Ex.
 embora, em termos absolutos a variação do salário seja maior do 
que a do peso, ao padronizarmos via cv, observa-se que salário tem 
menor variabilidade (relativa) do que peso.
23
momentos
A média e a variância (amostral) são casos especiais de medidas
estatísticas denominadas de momentos (amostrais).
Os momentos descrevem diversos aspectos da distribuição de
dados: localização, dispersão, simetria, largura de cauda etc.
As definições dos momentos são dadas a seguir
késimo momento késimo momento central
(em torno de zero)
n
k
i
i=1
k
(X -X)
m = 
n
n
k
i
i=1
k
X
m' = 
n
24
 É fácil de ver que:
 média = 1º momento em torno de zero
 variância= 2º momento central
 Os interesses geralmente estão concentrados em relação aos
momentos centrais.
 Iremos abordar os momentos centrais de ordem 3 e 4 na sua forma
padronizada, os quais são conhecidos como coeficientes de
assimetria e de curtose, respectivamente.
25
coeficiente de assimetria (skewness)
3
3
`3/23
2
/
m
 
s
n
n
i
i=1
n
i
i=1
(X -X)
S =
1
(X - X)
n
 O coeficiente de assimetria de uma variável (aleatória) com 
distribuição simétrica em relação à média é nulo.
 Entretanto, na prática, para os dados amostrais obtidos de uma 
distribuição simétrica este coeficiente não será exatamente zero, 
devido a flutuações estatísticas. 
poderá assumir também valores positivos e negativos
acentuados. 
26
27
coeficiente de curtose (kurtosis)
4
4
24
2
/
m
 
s
n
n
i
i=1
n
i
i=1
(X -X)
K =
1
(X - X)
n
 O coeficiente de curtose mede o nível de achatamento da densidade
de uma variável (aleatória) em relação à densidade normal, e assim
caracteriza o decaimento das caudas deste densidade.
 Para uma distribuição/densidade normal a curtose é exatamente 3.
 Somente poderá assumir valores positivos:
K =3, mesocúrtica
K > 3, leptocúrtica
K <3, platikúrtica
28
 O “excesso de curtose” é medido em relação à curtose da normal.
 Para uma distribuição normal a curtose é exatamente 3. Entretanto 
para os dados amostrais obtidos de uma distribuição normal este 
coeficiente “flutuará” em torno de 3. 
K<3 K=3 K>3
4
2
2
/
3
n
n
i
4 i=1
4 n
i
i=1
(X -X)
m
K* =(K -3) = -3
s 1
(X - X)
n
29
generate n_normal= 100 + invnormal(uniform( ))*5
histograma obtido de 248 números gerados de uma distribuição N(100, 25) 
0
.0
2
.0
4
.0
6
.0
8
.1
D
en
si
ty
80 90 100 110
n_normaldistribuição amostra
curtose 3 3,208
assimetria 0 -0.07533
30
0
20
40
60
80
P
er
ce
nt
0 2000 4000 6000 8000 10000
renfampc
PNAD 2008. Região Sudeste
distribuição da renda familiar per capita (até R$ 10 mil per capita)
claramente a distribuição é assimétrica positiva e
apresenta excesso de curtose.
31
assimetria positiva
leptocurtose
cv = 125,3%
32
-20
-10
0
10
20
30
500 1000 1500 2000 2500
Ret_Bras Ret_Chile
Bolsa de valores do Brasil (Ibovespa) e Chile (IGPA)
- retornos aritméticos (fechamento) de 31/12/93 a 21/12/04
33
0
200
400
600
800
1,000
1,200
1,400
-10 0 10 20 30
Series: RET_BRAS
Sample 1 2863
Observations 2862
Mean 0.147919
Median 0.061118
Maximum 28.81763
Minimum -17.22924
Std. Dev. 2.630744
Skewness 0.583923
Kurtosis 13.58185
Jarque-Bera 13515.74
Probability 0.000000
0
100
200
300
400
500
600
-3.75 -2.50 -1.25 0.00 1.25 2.50 3.75 5.00
Series: RET_CHILE
Sample 1 2863
Observations 2862
Mean 0.029044
Median 0.000000
Maximum 5.168977
Minimum -4.401663
Std. Dev. 0.745669
Skewness 0.080978
Kurtosis 7.988942
Jarque-Bera 2971.206
Probability 0.000000
>> o Ibovespa apresenta maior curtose 
do que o IGPA, refletindo a maior 
ocorrência de retornos extremos no
mercado brasileiro do que no mercado
chileno.
>> ambas as distribuições são não normais,
com leptocurtose ou excesso de curtose
( a curtose da normal é 3).