Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 dados numéricos: intervalar e razão - III 2 Propriedades e Medidas Propriedades Numéricas Tendência Central FormaVariação Média Mediana Moda Amplitude Interquartil Variância Desvio Padrão Coeficiente de Variação Assimetria CurtoseAmplitude 3 Medidas de dispersão A média, mediana e moda sumarizam apenas um dos aspectos da distribuição de dados que é a medida de localização, ou posição central. Existem outras medidas que abordam outros aspectos importantes da distribuição de dados, como por exemplo: a dispersão ou variabilidade dos dados, possivelmente em torno de uma medida central. a simetria dos dados em torno de uma medida central a maior concentração de observações extremas em relação a uma distribuição de referência, a normal (curtose). Nesta seção iremos abordar medidas de dispersão. 4 Medidas de dispersão Medidas de dispersão aumentam em valor com o aumento da dispersão (espalhamento) dos dados. Se não há dispersão, variação ou espalhamento estas medidas são nulas. Medidas de dispersão geralmente possuem unidade. Muitas vezes as medidas de dispersão são padronizadas, divindo-se o seu valor pelo seu valor máximo, de forma que o valor 1 representa o valor máximo da medida: Ex: valor máximo da dispersão= D dispersão* = dispersão / D É possível também padronizar a dispersão dividindo-a por uma medida de localização ou tendência central (média, mediana etc). 5 É a diferença entre a menor e a maior observação. amplitude = X(n) – X(1) (range) ignora a maneira como os dados são distribuídos é extremamente sensível a outliers ambos possuem a mesma amplitude = X(10) – X(1) 7 8 9 10 7 8 9 10 amplitude 6 Amplitude interquartílica: é a diferença entre o terceiro (75%) e o primeiro quartil (25%). (interquartile range) se anula qdo não há dispersão é resistente a outliers. Desvio quartílico (quartile deviation) ambas dependem da unidade de medida da variável X medidas de variação baseada em quantis (4) (4) 3 1=Q - QIQR ]/ 2(4) (4)3 1=[Q - QDQ 7 Coeficiente de variação quartílica: versão padronizada do IQR (coefficient of quartile variation) é adimensional ] ] (4) (4) 3 1 (4) (4) 3 1 [Q - Q = [Q + Q CQV 8 Box-plot (box-and-whisker diagram): procedimento gráfico que sintetiza a distribuição de um conjunto de observações utilizando 5 sumários: serve para detectar outliers. serve para comparar populações de uma maneira fácil e direta informando o centro e a dispersão dos dados. (1) ( ) 2 3 : : : 25% : 75% : n mínimo X máximo X mediana quantil quantil (4) (4) 1 (4) Q Q Q 9 (4) (4) (4) 1 2 3 (4) (4) 3 1 (4) (4) 1 3 ( 2 - primeiro calcule: Q (25%), Q (mediana) e Q (75%). - calcule o IQR= Q - Q . - construa uma caixa(vertical), onde a aresta de baixo é Q , e a de cima é Q . indique onde a mediana (Q 4) )está localizada dentro da caixa utilizando uma linha ou um símbolo. - a média também pode ser indicada dentro da caixa utilizando um outro símbolo. construindo um box-plot 10 (4) (4) 3 1 (4) 3 (4) 1 - calcule 1,5*IQR (IQR= Q - Q ). - utilize a seguinte regra para detectar outliers (fracos) (são simbolizados por círculos vazios): > Q + 1,5*IQR < Q - 1,5*IQR estes limites defin (4) 1 em as cercas internas (inner fences) indique a localização do menor valor que não é um outlier (< Q - 1,5*IQR) conectando-o à caixa (por baixo) utilizando uma linha (bigode). indique a localização (4)3 do maior valor que não é um outlier (> Q + 1,5*IQR) conectando-o à caixa (por cima) utilizando uma linha (bigode). - outliers fortes seguem a seguinte regra (são simbolizados por círculos cheios) > (4)3 (4) 1 Q + 3*IQR < Q - 3*IQR estes limites definem as cercas externas (outer fences) 11 12 -4 -3 -2 -1 0 1 2 3 4 Simétrico numa distribuição simétrica a média e a mediana coincidem e os quartis de 25% e 75% são simétricos em relação à mediana. X~ Normal(0,1) 13 0 2 4 6 8 10 12 14 Assimetria positiva numa distribuição assimétrica positiva, a maior concentração de dados è a esquerda da mediana, e assim o quantil de 25% (aresta inferior da caixa) é mais perto da origem dos dados e da mediana, enquanto o quantil de 75% é mais distante da mediana. A presença de muitos outliers indica que a cauda é longa à direita da mediana. X ~ [Normal(0,1)]2 = 2 (1)χ 14 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Assimetria Negativa numa distribuição assimétrica negativa, a maior concentração de dados è a direita da mediana, e assim o quantil de 25% (aresta inferior da caixa) é mais distante da origem dos dados e da mediana, enquanto o quantil de 75% é mais perto da mediana. X ~ 1- Beta(2,5) 15 comando no Stata: iqr renfampc Ex: renda familiar per capita na região Sudeste (PNAD 2008) 16 0 500,000 1,000,000 1,500,000 2,000,000 2,500,000 3,000,000 3,500,000 PRECO 0 400,000 800,000 1,200,000 1,600,000 2,000,000 PRECO 0 500,000 1,000,000 1,500,000 2,000,000 2,500,000 3,000,000 3,500,000 PRECO todos os apts apts sem vista apts com vista Ex: preço de apts (em R$) na zona sul do Rio de Janeiro. 17 a distribuição de preços dos apartamento (todos, sem vista e com vista) é assimétrica positiva: a maioria dos apts tem preço concentrado em uma determinada faixa, e a proporção de apts com preço superior a esta faixa decresce com o aumento do preço do apt. apenas para o preço de todos os apartamentos aparecem outliers fortes, localizados além da cerca externa. enqto o apt de preço aprox. de 3,5 milhões é outlier forte em apts de todos os preços, torna-se outlier fraco para apts. com vista. 18 desvio médio e desvio médio absoluto Primeiro vamos formalizar o conceito de desvio em relação a média aritmética O desvio médio em relação à media aritmética: n n i i i=1 i=1 1 1 = d = (X - X) =0 n n desvio médio i d X -X , i=1,...,ni então este desvio não faz sentido para a média, pois se anula, por construção. 19 é nulo qdo todas as observações forem iguais, i.e, qdo a dispersão for nula: mostra, a distância média das observações em relação à média, ignorando-se o sinal do desvio. difícil de generalizar para duas variáveis. não é mínima para a média, apenas para a mediana. Para evitar o cancelamento, podemos tomar o módulo do desvio: n n i i i=1 i=1 1 1 = |d |= |X - X| n n (mean absolute deviation) desvio médio absoluto jX =X =X, i,j X=X.i 20 são nulos qdo todas as observações forem iguais, i.e., qdo a dispersão for nula. o desvio padrão tem a mesma unidade da variável X. por razões técnicas geralmente substituímos no denominador, n por n-1. são facilmente contaminados por outliers. Agora para evitar o cancelamento, tomamos o quadrado do desvio: 2 2 2 ivariância desvio padrão=s= n n n 2 2 i i i=1 i=1 i=1 n i i=1 1 1 = = d = (X - X) = X /n -X n n 1 (X - X) n 2s variância e desvio padrão (standard deviation) 21 coeficiente de variação (cv) Facilita a comparação da magnitude do desvio padrão entre variáveis: s1= 100 é o dp de X1 s2= 10 é o dp de X2 necessariamente X2 não é mais dispersa do que X1 pois o dp depende da unidade de medida de cada variável. 2 ,cv n n i i i=1 i=1 s 1 1 = .100%, s = (X - X) X = X n nX o cv, sendo adimensional, permite a comparaçãoda variabilidade entre variáveis medidas em unidades distintas. 22 variável (média) s (desvio padrão) cv peso (em Kg) 75, 50 10,0 13,2 salário (em R$) 4.350,00 500,00 11,5 X Ex. embora, em termos absolutos a variação do salário seja maior do que a do peso, ao padronizarmos via cv, observa-se que salário tem menor variabilidade (relativa) do que peso. 23 momentos A média e a variância (amostral) são casos especiais de medidas estatísticas denominadas de momentos (amostrais). Os momentos descrevem diversos aspectos da distribuição de dados: localização, dispersão, simetria, largura de cauda etc. As definições dos momentos são dadas a seguir késimo momento késimo momento central (em torno de zero) n k i i=1 k (X -X) m = n n k i i=1 k X m' = n 24 É fácil de ver que: média = 1º momento em torno de zero variância= 2º momento central Os interesses geralmente estão concentrados em relação aos momentos centrais. Iremos abordar os momentos centrais de ordem 3 e 4 na sua forma padronizada, os quais são conhecidos como coeficientes de assimetria e de curtose, respectivamente. 25 coeficiente de assimetria (skewness) 3 3 `3/23 2 / m s n n i i=1 n i i=1 (X -X) S = 1 (X - X) n O coeficiente de assimetria de uma variável (aleatória) com distribuição simétrica em relação à média é nulo. Entretanto, na prática, para os dados amostrais obtidos de uma distribuição simétrica este coeficiente não será exatamente zero, devido a flutuações estatísticas. poderá assumir também valores positivos e negativos acentuados. 26 27 coeficiente de curtose (kurtosis) 4 4 24 2 / m s n n i i=1 n i i=1 (X -X) K = 1 (X - X) n O coeficiente de curtose mede o nível de achatamento da densidade de uma variável (aleatória) em relação à densidade normal, e assim caracteriza o decaimento das caudas deste densidade. Para uma distribuição/densidade normal a curtose é exatamente 3. Somente poderá assumir valores positivos: K =3, mesocúrtica K > 3, leptocúrtica K <3, platikúrtica 28 O “excesso de curtose” é medido em relação à curtose da normal. Para uma distribuição normal a curtose é exatamente 3. Entretanto para os dados amostrais obtidos de uma distribuição normal este coeficiente “flutuará” em torno de 3. K<3 K=3 K>3 4 2 2 / 3 n n i 4 i=1 4 n i i=1 (X -X) m K* =(K -3) = -3 s 1 (X - X) n 29 generate n_normal= 100 + invnormal(uniform( ))*5 histograma obtido de 248 números gerados de uma distribuição N(100, 25) 0 .0 2 .0 4 .0 6 .0 8 .1 D en si ty 80 90 100 110 n_normaldistribuição amostra curtose 3 3,208 assimetria 0 -0.07533 30 0 20 40 60 80 P er ce nt 0 2000 4000 6000 8000 10000 renfampc PNAD 2008. Região Sudeste distribuição da renda familiar per capita (até R$ 10 mil per capita) claramente a distribuição é assimétrica positiva e apresenta excesso de curtose. 31 assimetria positiva leptocurtose cv = 125,3% 32 -20 -10 0 10 20 30 500 1000 1500 2000 2500 Ret_Bras Ret_Chile Bolsa de valores do Brasil (Ibovespa) e Chile (IGPA) - retornos aritméticos (fechamento) de 31/12/93 a 21/12/04 33 0 200 400 600 800 1,000 1,200 1,400 -10 0 10 20 30 Series: RET_BRAS Sample 1 2863 Observations 2862 Mean 0.147919 Median 0.061118 Maximum 28.81763 Minimum -17.22924 Std. Dev. 2.630744 Skewness 0.583923 Kurtosis 13.58185 Jarque-Bera 13515.74 Probability 0.000000 0 100 200 300 400 500 600 -3.75 -2.50 -1.25 0.00 1.25 2.50 3.75 5.00 Series: RET_CHILE Sample 1 2863 Observations 2862 Mean 0.029044 Median 0.000000 Maximum 5.168977 Minimum -4.401663 Std. Dev. 0.745669 Skewness 0.080978 Kurtosis 7.988942 Jarque-Bera 2971.206 Probability 0.000000 >> o Ibovespa apresenta maior curtose do que o IGPA, refletindo a maior ocorrência de retornos extremos no mercado brasileiro do que no mercado chileno. >> ambas as distribuições são não normais, com leptocurtose ou excesso de curtose ( a curtose da normal é 3).
Compartilhar