Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Universidade de Bras´ılia Departamento de Estat´ıstica Campus Universita´rio Darcy Ribeiro, Pre´dio de Cieˆncia da Computac¸a˜o e Estat´ıstica - CIC/EST, CEP:70910-900 - Bras´ılia/DF Probabilidade e Estat´ıstica Roberto Vila 11/08/2017 1 Medidas de resumo Objetivo: Resumir, ainda mais, os dados apresentando um (ou mais) valor(es) que sejam represen- tativos da serie toda. 1.1 Medida de centralidade ou localizac¸a˜o Uma medida de centralidade e´ um valor t´ıpico em torno do qual se situam os valores da varia´vel em estudo. Sejam x1, x2, . . . , xn os valores observados da varia´vel em considerac¸a˜o. Definimos x := x1 + x2 + · · ·+ xn n = ∑n i=1 xi n (me´dia aritme´tica ou me´dia). Se tivermos n observac¸o˜es da varia´vel, dos quais n1 sa˜o iguais a x1, n2 sa˜o iguais a x2, . . ., nk sa˜o iguais a xk, enta˜o x = n1x1 + n2x2 + · · ·+ nkxk n = ∑k i=1 nixi n = k∑ i=1 (ni n ) xi = k∑ i=1 fixi. Sejam x(1), x(2), . . . , x(n) (estat´ısticas de ordem) os mesmos valores que compo˜em o conjunto de dados, pore´m dispostos em ordem crescente, definimos md := q2 = { x(n+12 ) , sen e´ ı´mpar 1 2 [ x(n2 ) + x( n 2+1) ] , sen e´ par (mediana). A moda dos dados e´ aquele valor do conjunto de dados que ocorre com maior frequeˆncia. Observac¸a˜o 1.1. 1. A mediana e´ calculada (somente) para varia´veis quantitativas. 2. Para as varia´veis ordinais (caso n ı´mpar), ale´m da moda, podemos usar tambe´m a mediana. 3. Para as varia´veis nominais somente podemos trabalhar com a moda. Probabilidade e Estat´ıstica Exemplo 1.2. Continuando com o exemplo das cargas, t´ınhamos as seguintes observac¸o˜es: 73 78 81 83 83 84 85 85 87 89 90 91 91 93 93 94 94 95 95 96 96 98 99 100 102 102 102 103 105 118 Veja que n = 30 (e´ par), logo x = ∑30 i=1 xi 30 = 2785 30 = 92, 83 e md = 93 + 94 2 = 93, 5, ou seja, a metade dos valores das 30 observac¸o˜es fica abaixo de 93,5 enquanto a outra metade fica acima desse valor, e moda = 102. 1.2 Medida de dispersa˜o Uma medida de dispersa˜o e´ um indicador do grau de espalhamento dos valores da amostra em torno da medida de centralidade. Sejam x1, x2, . . . , xn os valores observados da varia´vel considerada X, definimos dm(X) := ∑n i=1 |xi − x| n (desv´ıo me´dio) var(X) := ∑n i=1(xi − x)2 n = 1 n n∑ i=1 x2i − x2 (variaˆncia) No caso de k observac¸o˜es repetidas, note que var(X) = n1x 2 1 + n2x 2 2 + · · ·+ nkx2k n − x2 = ∑k i=1 nix 2 i n − x2 = k∑ i=1 (ni n ) x2i − x2 = k∑ i=1 fix 2 i − x2. Definimos tambe´m dp(X) := √ var(X) (desv´ıo padra˜o) O dm(X) e o dp(X), em me´dia, nos indica qual sera´ o erro cometido ao tentar substituir cada observac¸a˜o pela me´dia do conjunto de dados. Observac¸a˜o 1.3. A me´dia, dm(X) e o dp(X), de forma exagerada, sa˜o afeitados por valores extre- mos. Por exemplo, seja X uma varia´vel cujos valores sa˜o: 10 14 35 40, note que x = (10 + 35 + 14 + 40)/4 = 99/4 = 24, 75. md(X) = (14 + 35)/2 = 24, 5. dm(X) = (|10− 24, 75|+ |14− 24, 75|+ |35− 24, 75|+ |40− 24, 75|) /4 = 12, 75 dp(X) = √ {(10− 24.75)2 + (14− 24.75)2 + (35− 24.75)2 + (40− 24.75)2}/4 = √ 12, 9 = 3, 59. 2/4 Probabilidade e Estat´ıstica 2 Quantis emp´ıricos Para p ∈ (0, 1) defina a medida p-quantil ou quantil de ordem p como: q(p) ≈ tem p valores dos dados abaixo dele e 1− p dos valores acima dele. q(0, 25) = q1 : 1 oquartil = 25o Percentil q(0, 5) = q2 = md : mediana = 2 o quartil = 50o Percentil q(0, 75) = q3 : 3 oquartil = 75o Percentil q(0, 40) : 4odecil q(0, 95) : 95opercentil. Uma medida alternativa ao dp(X) e´ a distaˆncia interquartil: dq := q3 − q1. Exemplo 2.1. Seja X uma varia´vel cujos valores sa˜o: 2 5 8 12 19 20 27 31 55. Como n = 9 (e´ ı´mpar), temos que md(X) = 19, q1 = 5 + 8 2 = 6, 5, q3 = 27 + 31 2 = 29 e x = 19, 9. Da´ı 2 5 (6, 5) 8 12 19 20 27 (29) 31 55. Exemplo 2.2 (No histograma da varia´vel sala´rio, veja Figura 1). Usando proporcionalidade, veja que q2 − 8 4 = 22% 33% ⇒ q2 = 88 33 + 8 = 10, 67. q1 − 4 4 = 25% 28% ⇒ q1 = 100 28 + 4 = 7, 57. q3 − 12 4 = 14% 22% ⇒ q3 = 56 22 + 12 = 12, 55. Logo, dq = q3 − q1 = 14, 91− 7, 57 = 7, 34. Figura 1: Note que q2 corresponde ao valor da abscissa que divide a a´rea do histograma em duas partes iguais. 3/4 Probabilidade e Estat´ıstica Definic¸a˜o 2.3. Uma medida (de centralidade ou de dispersa˜o) e´ resistente quando for pouco afetada por mudanc¸as de uma poca porc¸a˜o de dados. Exemplo 2.4. A mediana e´ uma medida resistente, a me´dia na˜o. Esse fato pode ser visto se consi- deramos as varia´veis X e Y X : 3 7 8 11 15 19 21 94 Y : 3 7 8 11 15 19 21 md(X) = 11+152 = 13 md(Y ) = 11 x = 22, 25 y = 12. 4/4
Compartilhar