Buscar

Aula 02 - Escores padronizados, quantis

Prévia do material em texto

Escores padronizados
Mede a distância de um indivíduo em relação à média em desvios padrão
Considere as notas de dois alunos na disciplina de Estatística, ambos com nota 25, 
mas oriundos de turmas diferentes. Qual deles teve melhor desempenho em relação 
ao grupo
3
5
Desvio Padrão
1,6720B
120A
zMédiaTurma
s
xxZ )( −=
O escore padronizado indica a posição do individuo dentro do grupo. 
A variável padronizada tem média zero e desvio padrão igual a 1. 
Geralmente a padronização de variáveis é feita para a construção de 
indicadores. 
Exemplo
9606,42424,676267,42Média
8972451628712
5865,84276,173090,41D.P.
5589432543311
6754297329410
227512737089
675418734238
467938538077
346721554326
1439720351295
874574364554
185971103135723
1735938987762
1768956498931
PatrimônioGanho 
líquido
Ganho 
bruto
Empresa
-0,110,100,01
-0,680,03-0,27
111
000
-0,49-0,46-0,96
-1,25-1,08-0,83
-0,49-0,86-0,92
-0,84-0,14-0,80
-1,05-0,76-0,27
0,82-0,80-0,37
-0,151,150,06
1,532,462,36
1,32-0,130,81
1,380,501,17
z3z2z1
Coeficiente de variação
É uma medida de variação que independe da unidade de medida
x
sCV =
Diz o quanto o desvio padrão representa em relação à média. È usualmente 
expresso como porcentagem. 
Um pesquisador, desejando estudar a qualidade de vida nos 120 
bairros de uma cidade, mediu quatro variáveis em cada um.
10
100
100
1100
Maximo
50%010284Número de praças públicas
19,74%6040157076Porcentagem de casas
com saneamento básico
10%604088080Porcentagem de casas
com energia elétrica
28,57%1001000200350700Renda domiciliar per 
capita (em reais)
CVMinimoAmplitudeD.P.MedianaMédiaVariáveis
Com relação à qual variável os bairros são mais homogêneos?
E mais heterogêneos?
Quantis
A mediana divide o conjunto de dados em duas partes de mesmo tamanho.
Para dividirmos um conjunto de dados em 4 partes precisamos de 3
números – os quartis
Para dividirmos um conjunto de dados em 10 partes precisamos de 9 
números – os decis
Para dividirmos um conjunto de dados em 100 partes precisamos de 99 
números – os percentis
De modo geral chamamos estas quantidade de quantis da distribuição de 
frequências.
q(p) – quantil de ordem p
pelo menos 100 p% dos valores são menores ou iguais a q(p)
pelo menos 100 (1-p)% dos valores são maiores ou iguais a q(p)
q(0,25), q(0,50), q(0,75) – (1º, 2º e 3º. Quartis)
q(0,10), q(0,20), q(0,30),...., q(0,90) – decis
q(0,01), q(0,02),........., q(0,99) – percentis
Como calcular um quantil?
q(0,75) = ?
36 x 0,75 = 27
36 x 0,25 = 09
pelo menos 27 observações menores ou iguais a q(0,75)
pelo menos 09 observações maiores ou iguais a q(0,75)
q(0,75) = (13,85+14,69)/2 = 14,27
Se o número resultante da multiplicação de n (tamanho 
do conjunto de dados) por p (ordem do quantil) for inteiro, 
o quantil será a média da observação de ordem np com a 
observação de ordem np +1 
Diagrama de Ramo e 
Folhas para Salário
4|00 56
5|25 73
6|26 66 86
7|39 44 59
8|12 46 74 95
9|13 35 77 88
10|53 76
11|06 59
12|00 79
13|23 60 85
14|69 71
15|99
16|22 61
17|26
18|75
19|40
20|
21|
22|
23|30
Como calcular um quantil?
q(0,20) = ?
36 x 0,20 = 7,2
36 x 0,25 = 28,8
pelo menos 7,2 observações ≤ a q(0,75) 8
pelo menos 28,8 observações ≥ a q(0,75) 29
q(0,20) = 7,39
Se o número resultante da multiplicação de n (tamanho 
do conjunto de dados) por p (ordem do quantil) for 
fracionário, o quantil será a observação cuja ordem ígual
ao valor np arredondado para cima. 
Diagrama de Ramo e 
Folhas para Salário
4|00 56
5|25 73
6|26 66 86
7|39 44 59
8|12 46 74 95
9|13 35 77 88
10|53 76
11|06 59
12|00 79
13|23 60 85
14|69 71
15|99
16|22 61
17|26
18|75
19|40
20|
21|
22|
23|30
Os quartis junto com os valores mínimos e máximos podem ser usados 
para construir um gráfico esquemático da distribuição de freqüências 
chamado de diagrama de caixas ou boxplot
2422201816141210864
7
6
5
4
3
2
1
0
Salario
F
r
e
q
u
e
n
c
y
Histogram of Salario
25155
Salario
Boxplot of Salario
25155
Salario
Boxplot of Salario
Min. Q1 Q2 Q3 Max.
O tamanho da caixa é
chamado de distância 
Interquartílica (DQ) é usado 
como medida de variação. 
Observações atípicas são observações destoantes no conjunto de dados 
encontradas nos extremos da distribuição. Todas observações que encontram-
se a uma distância maior do que 1,5 DQ abaixo do primeiro quartil ou a uma 
distância maior do que 1,5 DQ acima do terceiro quartil são suspeitas de serem 
atípicas. 
A regra acima pode ser incluída na construção do boxplot. Os asteriscos 
indicam os valores identificados como atípicas. 
Considere os salários (em SM) de 30 homens e 30 mulheres
25.022.520.017.515.012.510.07.55.02.50.0
40
30
20
10
0
SalarioF
P
e
r
c
e
n
t
Histograma de salários - sexo feminino
454035302520151050
30
20
10
0
SalárioM
P
e
r
c
e
n
t
Histograma de salários - sexo masculino
MF
40
30
20
10
0
SEXO
S
a
l
á
r
i
o
Média ponderada: Consiste numa média onde as observações possuem 
pesos diferentes.
Um pesquisador deseja medir a variação nos preços do café da manha. Para 
isto ele pretendo construir um índice. Considerando que uma cesta de café da 
manha é composta por pães, café, leite e derivados.
No último mês ele observou a seguinte variação nos preços.
1,07Leite e derivados
1,05Variação média
1,05pão
1,03café
Variação mensal nos preços
Preço atual/Preço anterior
Produto
Na média calculada acima todos os produtos tem o mesmo peso. 
As contribuições de cada um dos produtos no custo da cesta de cafés são 
diferentes. Assuma que do valor gasto com a cesta de café 10% é gasto com 
café, 40% com pães e 50% com leite e derivados.
Então ao calcular a média das variações de preço devemos dar pesos 
diferentes aos produtos, isto é calcular uma média ponderada
058,1
10,04,010,0
1,07) x (0,50 1,05) x (0,40 1,03) x 10,0(
xw =++
++
=
Para o exemplo
∑
∑
=
=
=
n
1i
i
n
1i
ii
w
w
xw
x

Outros materiais

Perguntas Recentes