Buscar

Parte 2 (Aulas 3 e 4) Medidas Descritivas

Prévia do material em texto

31/10/2015
1
Profa. Lidia Rodella
UFPE-CAA
� São funções de valores de uma variável
numérica. Descrição numérica dos dados.
� Objetivo: reduzir um conjunto de dados
numéricos a um pequeno grupo de valores
que deve fornecer toda a informação
relevante a respeito desses dados.
31/10/2015
2
CaracterísticaCaracterísticaCaracterísticaCaracterística InterpretaçãoInterpretaçãoInterpretaçãoInterpretação
Tendência central Onde os dados estão concentrados? Quais
são, aparentemente, os valores típicos ou
centrais dos dados? Existe tendência central?
Dispersão Quanta dispersão existe nos dados? Como os
dados estão espalhados? Existem dados
incomuns?
Forma Os dados estão distribuídos de forma
simétrica? Assimétrica? Existe um pico
pronunciado? Achatado?
� Medidas de localização ou tendência central
◦ Media, Mediana, Moda
� Medidas de variação ou dispersão
◦ Amplitude total, variância, desvio padrão
� Forma
◦ Assimetria, Curtose
� Medidas de posição
◦ Quartis, Percentis
� Medidas de associação
◦ Covariância, coeficiente de correlação
31/10/2015
3
� Medida mais conhecida e utilizada:
◦ Facilidade de cálculo e compreensão;
◦ Propriedades matemáticas e estatísticas.
Média Aritmética
Simples:
Ponderada:
todos os valores participam do cálculo
com o mesmo peso.
pelo menos um dos valores participa 
com peso diferente.
� Para um conjunto de valores da variável :
� Ponderada - Para um conjunto de valores e 
um conjunto de pesos: 
n X
nxxx ,...,, 21
n
x
X
n
i
i∑
== 1
nxxx ,...,, 21
nppp ,...,, 21
∑
∑
==
i
n
i
ii
p
px
X 1
31/10/2015
4
• É o valor que ocupa a posição central da série 
de observações, quando estão ordenadas em 
ordem crescente.
• Para obter a mediana:
1. Ordenar os dados;
2. Determinar a posição (p) da mediana.
• Também para variáveis qualitativas ordinaisordinaisordinaisordinais
)1(x )( nx
Md
%50 %50
• Formalmente:
• Ex: 
– A = { 3, 4, 7, 8, 8}
– B = {3, 4, 7, 8, 8, 9 } 
)()1()2()1( ... nn xxxx ≤≤≤≤ −
2
1
22





 +





+
nn
xx
=)(Xmd





 +
2
1n
x se n ímpar;
se n par.
Md = 7
Md = (7+8)/2 = 7,5
31/10/2015
5
• É o valor mais frequente do conjunto de
valores observados.
• É a única medida que pode não existir e,
existindo, pode não ser única.
• Única para variáveis qualitativas nominaisnominaisnominaisnominais....
• Ex:
– C = { 2, 3, 5, 6, 7, 10 }
– D = { 1, 2, 2, 3, 4 }
– E = { 1,1, 2, 3, 4, 4}
Não tem moda.
Moda = 2
M1 = 1 e M2 = 4
� Distribuição bimodal ou distribuição
multimodal
◦ Quando populações diferentes são combinadas em
uma única amostra.
31/10/2015
6
� Exercício:
Para o conjunto de valores abaixo, calcule a
média, a mediana e a moda.
25 10 9 12 21 16 18 23 13 5 23 22 9 
20 17 9
Média = 15,75
Mediana = 16,5
Moda = 9
� Qual é a melhor?
EstatísticaEstatísticaEstatísticaEstatística FórmulaFórmulaFórmulaFórmula PrósPrósPrósPrós ContrasContrasContrasContras
Média Medida familiar e
usa toda a
informação da
amostra
Influenciada por
valores extremos
Mediana Valor do meio dos
valores ordenados
Medida robusta a
valores extremos
nos dados
Ignora valores
extremos e pode
ser afetada por
lacunas nos
valores dos dados
Moda Valor dos dados
que ocorre com
maior frequência
Útil para dados por
atributo ou dados
discretos com um
intervalo de
variação pequeno.
Pode ser única e
não é útil para
dados contínuos.
n
x
X
n
i
i∑
== 1
31/10/2015
7
� Indicam a variabilidade de um conjunto de
dados.
� Conjuntos de dados:
◦ A = { 3, 4, 5, 6, 7 }
◦ B = { 3, 5, 5, 5, 7 }
◦ C = { 5, 5, 5, 5, 5 }
◦ D = { 3, 5, 5, 7 }
◦ E = { 3, 5, 5, 6, 6 }
(variável X)
(variável Y)
(variável Z)
(variável V)
(variável W)
0,5===== VWZYX
� É a diferença entre o maior e menor valor
observado.
� Ex:
A = { 3, 4, 5, 6, 7 }
B = { 3, 5, 5, 5, 7 }
C = { 5, 5, 5, 5, 5 }
D = { 3, 5, 5, 7 }
E = { 3, 5, 5, 6, 6 }
437 =−=tA
437 =−=tA
055 =−=tA
437 =−=tA
336 =−=tA
Não é uma boa medida de dispersão. Um boa medida de 
dispersão deve levar em consideração todos os dados. 
31/10/2015
8
� É a soma dos quadrados dos desvios dividido 
pelo número de observações menos 1.
� Ex:
◦ A = { 3, 4, 5, 6, 7 }
5=xMédia:
Desvios ( ):xx i − 2,1,0,1,2 −−
Quadrado dos desvios :( )2xxi − 4,1,0,1,4
População
Amostra
( ) 1041014
5
1
2
=++++=−∑
=i
i xx
É mais conveniente exprimir as medidas como médias para evitar
problemas na comparação de conjuntos de dados com quantidades
diferentes de observações.
31/10/2015
9
� É a raiz quadrada positiva da variância.
� Ex:
◦ A = { 3, 4, 5, 6, 7 }
� s2 = 2,5 *O desvio padrão indica em média qual
será o “erro” (desvio) cometido ao tentar
substituir cada observação pela média do
conjunto de dados.
*Mesma unidade de medida dos dados.
� Para uma amostra-piloto sobre a idade dos
funcionários da Cia. A, calcule: média,
mediana, moda, variância e desvio padrão.
35, 27, 21, 55, 18, 27, 30, 21, 24
Média = 28,67
Mediana = 27
Moda = 21 e 27
Variância = 124,25
Desvio padrão = 11,14
iiii xxxxiiii xxxxiiii ---- xxxx (x(x(x(xi i i i –––– x)x)x)x)2222
_ _
31/10/2015
10
� Para qualquerqualquerqualquerqualquer conjuntoconjuntoconjuntoconjunto dededede dadosdadosdadosdados, a
porcentagem de observações que se situam
dentro de k desvios padrão da média deve
ser pelopelopelopelo menosmenosmenosmenos



 −
2
1
1100
k
Para qualquer população com média e desvio padrão :µ σ
2=k pelo menos 75% dos valores estarão no intervalo σµ 2±
3=k pelo menos 88,9% dos valores estarão no intervalo σµ 3±
4=k pelo menos 93,8% dos valores estarão no intervalo σµ 4±
� Exemplo:
� Apesar de aplicáveis q qualquer conjunto de
dados, esses limites tendem a ser grandes.
� Com mais informações, podemos fazer
afirmações mais precisas.
72=µ
8=σ
Pelo menos 75% dos valores estarão dentro do intervalo:
( )8272± [ ]88;56ou
31/10/2015
11
� Se um conjunto de dados tem distribuiçãodistribuiçãodistribuiçãodistribuição normalnormalnormalnormal
(histograma em forma de sino), então:
◦ Aproximadamente 68% de todas as observações
estarão dentro de
◦ Aproximadamente 95% de todas as observações
estarão dentro de
◦ Aproximadamente 99,7% de todas as observações
estarão dentro de
.σµ ±
.2σµ ±
.3σµ±
� Forma de distribuição
31/10/2015
12
� A curtose refere-se ao comprimento relativo
das caudas e ao grau de concentração no
centro. Grau de “achatamento” de uma
distribuição de frequência.
� Variação dentro da qual se espera que
coeficientes de curtose estejam em 90% das
vezes quando a população for normal:
MesocúrticaPlaticúrtica Leptocúrtica
Limite inferior Limite superior
31/10/2015
13
nnnn 5% inferior5% inferior5% inferior5% inferior 5% superior5% superior5% superior5% superior
40 -0,89 1,35
50 -0,82 1,23
60 -0,76 1,13
70 -0,72 1,04
80 -0,68 0,98
90 -0,65 0,92
100 -0,62 0,88
150 -0,53 0,71
200 -0,47 0,62
300 -0,40 0,50
� Fornecem informações sobre a posição de
valores particulares em relação ao conjunto
de dados.
� Indicam limites para proporções de
observações em um conjunto.
Mediana
Quartis
Decis
Percentis
Divide o conjunto ordenado em duas partes.
Dividem o conjunto ordenado em quatro partes.
Dividem o conjunto ordenado em dez partes.
Dividem o conjunto ordenado em cem partes.
31/10/2015
14
◦ O Pi percentil é o valor para o qual P por cento são
menores do que aquele valor e (100 – P)% são
maiores do que aquele valor.
� Ex: O P25 é o valor para o qual 25% dos valoresdo
conjunto de dados são menores do que ele e 75% são
maiores.
◦ Percentis são os noventa e nove valores que
dividem um conjunto de dados ordenado em 100
partes iguais.
◦ É importante notar que P25 = Q1, P50 = Md e
P75 = Q3.
� Para se obter os percentis:
1. Ordenar os dados;
2. Determinar a posição (p) de cada percentil.
100
)1(
P
nLp +=
Onde Lp é a localização do pº percentil.
31/10/2015
15
� Ex: 
0 1 2 3 3 5 5 5 6 7 7
100
)1(
P
nLp +=
1º quartil = 25º percentil:
100
25
)111( += 3= (localização)
2251 == PQ
3º quartil = 75º percentil:
9
100
75
)12(
100
)1(75 ==+=
P
nL 6753 == PQ
� Ex2: 
2 3 5 6 7 7
75,1
100
25
)16(25 =+=L
1º quartil = 25º percentil:
3º quartil = 75º percentil:
123 =− 75,075,01 =×
75,275,021 =+=Q
25,5
100
75
)16(75 =+=L
7073 =+=Q
077 =− 025,00 =×
1. Subtração dos dados nas 
posições próximas;
2. Multiplica pelo valor nas 
casas decimais (distância);
3. O valor será da posição 
indicada pelo inteiro + o 
resultado da multiplicação 
acima.
31/10/2015
16
◦ São três medidas que dividem um conjunto de
dados ordenado em quatro partes iguais.
)1(x )( nxMd
%25%25%25%25
1Q 2Q 3Q
5052 PDQMd ===
13 QQd q −=Distância interquartil:
* É uma medida de dispersão;
•Mede o spread de 50% das observações.
•Um dq alto , indica alto nível de variação.
� Para o conjunto de valores abaixo, calcule: 
variância, desvio padrão, Q1 e Q3.
13 16 15 14 20 18
Variância = 6,8
Desvio padrão = 2,6076
Q1 = 13,75
Q3 = 18,5
iiii xxxxiiii xxxxiiii ---- xxxx (x(x(x(xi i i i –––– x)x)x)x)2222
_ _

Continue navegando