Buscar

medidas de centralidade ou localização

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Universidade de Bras´ılia
Departamento de Estat´ıstica
Campus Universita´rio Darcy Ribeiro, Pre´dio de Cieˆncia da Computac¸a˜o e Estat´ıstica - CIC/EST, CEP:70910-900 - Bras´ılia/DF
Probabilidade e Estat´ıstica
Roberto Vila
11/08/2017
1 Medidas de resumo
Objetivo: Resumir, ainda mais, os dados apresentando um (ou mais) valor(es) que sejam represen-
tativos da serie toda.
1.1 Medida de centralidade ou localizac¸a˜o
Uma medida de centralidade e´ um valor t´ıpico em torno do qual se situam os valores da varia´vel em
estudo.
Sejam x1, x2, . . . , xn os valores observados da varia´vel em considerac¸a˜o. Definimos
x :=
x1 + x2 + · · ·+ xn
n
=
∑n
i=1 xi
n
(me´dia aritme´tica ou me´dia).
Se tivermos n observac¸o˜es da varia´vel, dos quais n1 sa˜o iguais a x1, n2 sa˜o iguais a x2, . . ., nk sa˜o
iguais a xk, enta˜o
x =
n1x1 + n2x2 + · · ·+ nkxk
n
=
∑k
i=1 nixi
n
=
k∑
i=1
(ni
n
)
xi =
k∑
i=1
fixi.
Sejam x(1), x(2), . . . , x(n) (estat´ısticas de ordem) os mesmos valores que compo˜em o conjunto de dados,
pore´m dispostos em ordem crescente, definimos
md := q2 =
{
x(n+12 )
, sen e´ ı´mpar
1
2
[
x(n2 ) + x(
n
2+1)
]
, sen e´ par
(mediana).
A moda dos dados e´ aquele valor do conjunto de dados que ocorre com maior frequeˆncia.
Observac¸a˜o 1.1. 1. A mediana e´ calculada (somente) para varia´veis quantitativas.
2. Para as varia´veis ordinais (caso n ı´mpar), ale´m da moda, podemos usar tambe´m a mediana.
3. Para as varia´veis nominais somente podemos trabalhar com a moda.
Probabilidade e Estat´ıstica
Exemplo 1.2. Continuando com o exemplo das cargas, t´ınhamos as seguintes observac¸o˜es:
73 78 81 83 83 84 85 85 87 89 90 91 91 93 93
94 94 95 95 96 96 98 99 100 102 102 102 103 105 118
Veja que n = 30 (e´ par), logo
x =
∑30
i=1 xi
30
=
2785
30
= 92, 83 e md =
93 + 94
2
= 93, 5,
ou seja, a metade dos valores das 30 observac¸o˜es fica abaixo de 93,5 enquanto a outra metade fica
acima desse valor, e moda = 102.
1.2 Medida de dispersa˜o
Uma medida de dispersa˜o e´ um indicador do grau de espalhamento dos valores da amostra em torno
da medida de centralidade.
Sejam x1, x2, . . . , xn os valores observados da varia´vel considerada X, definimos
dm(X) :=
∑n
i=1 |xi − x|
n
(desv´ıo me´dio)
var(X) :=
∑n
i=1(xi − x)2
n
=
1
n
n∑
i=1
x2i − x2 (variaˆncia)
No caso de k observac¸o˜es repetidas, note que
var(X) =
n1x
2
1 + n2x
2
2 + · · ·+ nkx2k
n
− x2 =
∑k
i=1 nix
2
i
n
− x2 =
k∑
i=1
(ni
n
)
x2i − x2 =
k∑
i=1
fix
2
i − x2.
Definimos tambe´m
dp(X) :=
√
var(X) (desv´ıo padra˜o)
O dm(X) e o dp(X), em me´dia, nos indica qual sera´ o erro cometido ao tentar substituir cada
observac¸a˜o pela me´dia do conjunto de dados.
Observac¸a˜o 1.3. A me´dia, dm(X) e o dp(X), de forma exagerada, sa˜o afeitados por valores extre-
mos. Por exemplo, seja X uma varia´vel cujos valores sa˜o:
10 14 35 40,
note que
x = (10 + 35 + 14 + 40)/4 = 99/4 = 24, 75.
md(X) = (14 + 35)/2 = 24, 5.
dm(X) = (|10− 24, 75|+ |14− 24, 75|+ |35− 24, 75|+ |40− 24, 75|) /4 = 12, 75
dp(X) =
√
{(10− 24.75)2 + (14− 24.75)2 + (35− 24.75)2 + (40− 24.75)2}/4 =
√
12, 9 = 3, 59.
2/4
Probabilidade e Estat´ıstica
2 Quantis emp´ıricos
Para p ∈ (0, 1) defina a medida p-quantil ou quantil de ordem p como:
q(p) ≈ tem p valores dos dados abaixo dele e 1− p dos valores acima dele.
q(0, 25) = q1 : 1
oquartil = 25o Percentil
q(0, 5) = q2 = md : mediana = 2
o quartil = 50o Percentil
q(0, 75) = q3 : 3
oquartil = 75o Percentil
q(0, 40) : 4odecil
q(0, 95) : 95opercentil.
Uma medida alternativa ao dp(X) e´ a distaˆncia interquartil:
dq := q3 − q1.
Exemplo 2.1. Seja X uma varia´vel cujos valores sa˜o:
2 5 8 12 19 20 27 31 55.
Como n = 9 (e´ ı´mpar), temos que
md(X) = 19, q1 =
5 + 8
2
= 6, 5, q3 =
27 + 31
2
= 29 e x = 19, 9.
Da´ı
2 5 (6, 5) 8 12 19 20 27 (29) 31 55.
Exemplo 2.2 (No histograma da varia´vel sala´rio, veja Figura 1). Usando proporcionalidade, veja que
q2 − 8
4
=
22%
33%
⇒ q2 = 88
33
+ 8 = 10, 67.
q1 − 4
4
=
25%
28%
⇒ q1 = 100
28
+ 4 = 7, 57.
q3 − 12
4
=
14%
22%
⇒ q3 = 56
22
+ 12 = 12, 55.
Logo, dq = q3 − q1 = 14, 91− 7, 57 = 7, 34.
Figura 1: Note que q2 corresponde ao valor da abscissa que divide a a´rea do histograma em duas
partes iguais.
3/4
Probabilidade e Estat´ıstica
Definic¸a˜o 2.3. Uma medida (de centralidade ou de dispersa˜o) e´ resistente quando for pouco afetada
por mudanc¸as de uma poca porc¸a˜o de dados.
Exemplo 2.4. A mediana e´ uma medida resistente, a me´dia na˜o. Esse fato pode ser visto se consi-
deramos as varia´veis X e Y
X : 3 7 8 11 15 19 21 94 Y : 3 7 8 11 15 19 21
md(X) = 11+152 = 13 md(Y ) = 11
x = 22, 25 y = 12.
4/4

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando