Buscar

Análise Multivariada

Prévia do material em texto

1
AnAnálise Multivariadaálise Multivariada
Lúcia P. Barroso
IME - USP
lbarroso@ime.usp.br
Rinaldo Artes
Ibmec / SP
rinaldoa@ibmec.br
2
TópicosTópicos
• Análise de Agrupamentos
• Análise de Componentes Principais
• Análise Fatorial
• Análise Discriminante
• Outliers Multivariados
Análise de Análise de 
AgrupamentosAgrupamentos
Cluster Analysis
4
Objetivos da técnicaObjetivos da técnica
Formar grupos homogêneos de unidades 
amostrais
Dados: cadastro com informações sobre 
uma série de variáveis
5
Definir critérios para Definir critérios para 
agrupamentoagrupamento
♠ ♣ ♥ ♦
10 10 10 10
J J J J
Q Q Q Q
K K K K
Cor?
Naipe?
Valor?
6
Problema Problema 11
Uma empresa deseja conhecer o perfil de 
seus consumidores.
• Consumidores têm perfil homogêneo?
• É possível identificar grupos?
• Quantos grupos existem?
7
Problema Problema 22
Pesquisa Emprego-Desemprego 
DIEESE/SEADE
Idéia: formar grupos homogêneos de 
municípios ou distritos administrativos 
para sortear uma amostra estratificada.
8
Problema Problema 33
Dados sobre a localização de restos de 
cerâmica em um sítio arqueológico.
Objetivo: conhecer a organização 
espacial da tribo
Há locais com alta concentração de 
peças? Quantos?
9
Exemplo 1Exemplo 1
Taxa de delitos por 100.000 habitantes
Variáveis: 
X1: Homicídio doloso
X2: Furto
X3: Roubo
X4: Roubo e furto de veículo
10
Ocorrências PoliciaisOcorrências Policiais
SP
GSP
SJC
Campinas
RP
Santos
Sorocaba
Bauru
SJRP
Taxa Taxa de de delitos pordelitos por
100.000 100.000 habitanteshabitantes
Homicídio Roubo e furto
Deinter doloso Furto Roubo de veículos
SJRP 10,85 1500,80 149,35 108,38
RP 14,13 1496,07 187,99 116,66
Bauru 8,62 1448,79 130,97 69,98
Campinas 23,04 1277,33 424,87 435,75
Sorocaba 16,04 1204,02 214,36 207,06
12
Exemplo 1Exemplo 1
Taxa de delitos por 100.000 habitantes
Deseja-se formar 4 grupos de regiões
Variáveis: 
X1: Homicídio doloso
X2: Furto
13
1.100 ,00
1.200 ,00
1.300 ,00
1.400 ,00
1.500 ,00
1.600 ,00
0 100 200 300 400 500
Homicídios dolosos
F
u
r
t
o
s
GR1
14
1.100 ,00
1.200 ,00
1.300 ,00
1.400 ,00
1.500 ,00
1.600 ,00
0 100 200 300 400 500
Homicídios dolosos
F
u
r
t
o
s
GR2
15
GR1b
1.100 ,00
1.200 ,00
1.300 ,00
1.400 ,00
1.500 ,00
1.600 ,00
0 100 200 300 400 500
Homicídios dolosos
F
u
r
t
o
s
16
-1,5
-1
-0,5
0
0,5
1
1,5
2
-1,5 -1 -0,5 0 0,5 1 1,5 2
Homicídios dolosos
F
u
r
t
o
s
GR3
17
GR3b
-1,5
-1
-0,5
0
0,5
1
1,5
2
-1,5 -1 -0,5 0 0,5 1 1,5 2
Homicídios dolosos
F
u
r
t
o
s
18
-1,5
-1
-0,5
0
0,5
1
1,5
2
-1,5 -1 -0,5 0 0,5 1 1,5 2
Homicídios dolosos
F
u
r
t
o
s
GR4
19
Etapas de AplicaçãoEtapas de Aplicação
1. Escolha do critério de parecença
2. Definição do número de grupos
3. Formação dos grupos
4. Validação do agrupamento
5. Interpretação dos grupos
20
1. Escolha do critério de 1. Escolha do critério de 
parecençaparecença
Definir se as variáveis devem ou não ser 
padronizadas e o critério que será 
utilizado na determinação dos grupos
(distância euclidiana)
21
2. Definição do número de 2. Definição do número de 
gruposgrupos
• Definido a priori (3 espécies de insetos)
• Conveniência de análise (segmentação 
de mercado – 2 grupos)
• Definido a posteriori (com base nos 
resultados da análise)
22
3. Formação dos grupos3. Formação dos grupos
Nesta etapa deve-se definir o algoritmo 
que será utilizado na identificação dos 
grupos
23
4. Validação do 4. Validação do 
agrupamentoagrupamento
Deve-se garantir que de fato as variáveis 
têm comportamento diferenciado nos 
diversos grupos. 
Aplicação de técnicas inferenciais
24
5. Interpretação dos grupos5. Interpretação dos grupos
Ao final do processo de formação de 
grupos é importante caracterizar os 
grupos formados.
Uso de estatísticas descritivas
25
Medidas de parecençaMedidas de parecença
Medidas de similaridade: quanto maior o 
valor, maior a semelhança entre os 
objetos
Medidas de dissimilaridade: quanto maior 
o valor, mais diferentes são os objetos
26
Pesquisa com clientes de uma loja de Pesquisa com clientes de uma loja de 
equipamentos automotivosequipamentos automotivos
• Idade (em anos completos).
• Número de carros.
• Classe social: A, B, C ou D.
• Potência do motor: Baixa, Média ou Alta.
• Combustível: Gasolina ou Álcool.
• Modelo: Esporte, Luxo ou Standard.
27
DadosDados
Cliente
Idade do 
usuário
N. de 
carros
Classe 
social
Potência 
do motor Combustível Modelo
1 20 1 A Baixa Gasolina Esporte
2 37 3 A Alta Gasolina Luxo
3 22 2 B Média Gasolina Esporte
4 26 2 B Alta Gasolina Esporte
5 45 2 C Média Álcool Standard
6 42 1 D Baixa Álcool Standard
Variáveis 
quantitativas
Variáveis 
nominais
Variáveis 
ordinais
Variáveis quantitativasVariáveis quantitativas
29
Medida de DissimilaridadeMedida de Dissimilaridade
( )
q
x-x
 j)d(i,
q
1k
2
jkik∑
=
=
( )
q
x-x
 j)(i,d
q
1k
2
jkik
2
∑
=
=
Cliente Q1 Q2 Cliente Q1 Q2
1 20 1 2 37 3
Distância 
euclidiana média
Distância euclidiana 
média ao quadrado
30
Medida Medida de de DissimilaridadeDissimilaridade
Distância Manhattan
ou Quarteirão
∑
=
−=
p
j
kjijik XXd
1
)1( ||
31
A
B
Variáveis NominaisVariáveis Nominais
(escalas)(escalas)
33
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
Combustível N1
Gasolina 1
Álcool 0
Cliente Combustível N1
1 Gasolina 1
2 Gasolina 1
3 Gasolina 1
4 Gasolina 1
5 Álcool 0
6 Álcool 0
34
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
Modelo N2 N3
Esporte 1 0
Luxo 0 1
Standard 0 0
Cliente Modelo N2 N3
1 Esporte 1 0
2 Luxo 0 1
3 Esporte 1 0
4 Esporte 1 0
5 Standard 0 0
6 Standard 0 0
35
Variáveis NominaisVariáveis Nominais
Combustível
Cliente N1 N2 N3
1 1 1 0
2 1 0 1
3 1 1 0
4 1 1 0
5 0 0 0
6 0 0 0
Modelo
Variáveis OrdinaisVariáveis Ordinais
(escalas)(escalas)
37
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
A B C
O1 O2 O3
D 0 0 0
C 0 0 1
B 0 1 0
A 1 0 0
Classe Social
Cliente Classe social O1 O2 O3
1 A 1 0 0
2 A 1 0 0
3 B 0 1 0
4 B 0 1 0
5 C 0 0 1
6 D 0 0 0
38
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
Média Alta
O4 O5
Baixa 0 0
Média 1 0
Alta 0 1
Potência do 
Motor
Cliente Potência de motor O4 O5
1 Média 0 0
2 Alta 0 1
3 Média 1 0
4 Alta 0 1
5 Média 1 0
6 Baixa 0 0
39
Variáveis OrdinaisVariáveis Ordinais
O1 O2 O3 O4 O5
1 1 0 0 0 0
2 1 0 0 0 1
3 0 1 0 1 0
4 0 1 0 0 1
5 0 0 1 1 0
6 0 0 0 0 0
Cliente
Classe Social Potência
40
Medidas de ParecençaMedidas de Parecença
1 0
1 2 1 3
0 2 3 5
Total 4 4 8
cliente 1
cliente 2
Total
cliente N1 N2 N3 O1 O2 O3 O4 O5
1 1 1 0 1 0 0 0 0
2 1 0 1 1 0 0 0 1
Variáveis Nominais Variáveis Ordinais
41
Medidas de SimilaridadeMedidas de Similaridade
1 0
1 a b a+b
0 c d c+d
Total a+c b+d a+b+c+d
cliente j cliente i 
Total 1 0
1 2 1 3
0 2 3 5
Total 4 4 8
cliente 1 cliente 2 Total
Coeficiente de Concordância Simples 
dcba
dajis
+++
+
=),( 625,0
8
5)2,1( ==s
42
Medidas de DissimilaridadeMedidas de Dissimilaridade
1 0
1 a b a+b
0 c d c+d
Total a+c b+d a+b+c+d
cliente j cliente i 
Total 1 0
1 2 1 3
0 2 3 5
Total 4 4 8
cliente 1 cliente 2 TotalDistância Euclidiana ao Quadrado Média
dcba
cbjid
+++
+
=),( 375,0
8
3)2,1( ==s
Esse método apresenta deficiências no 
que se refere às variáveis ordinais
Classe Social
s(A,B) < s(A,D)
A e B são mais próximos do que 
A e D
44
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
A B C
O1* O2* O3*
D 0 0 0
C 0 0 1
B 0 1 1
A 1 1 1
Classe Social
Cliente Classe social O1*O2*O3*
1 A 1 1 1
2 A 1 1 1
3 B 0 1 1
4 B 0 1 1
5 C 0 0 1
6 D 0 0 0
45
Matriz de Similaridades (CS)Matriz de Similaridades (CS)
Indiv. 1 2 3 4 5 6
1 -
2 0,50 - Simétrica
3 0,75 0,50 -
4 0,62 0,62 0,87 -
5 0,37 0,37 0,62 0,50 -
6 0,37 0,12 0,37 0,25 0,75 -
46
Matriz de Dissimilaridades Matriz de Dissimilaridades 
(1(1-- CS)CS)
Indiv. 1 2 3 4 5 6
1 -
2 0,50 - Simétrica
3 0,25 0,50 -
4 0,38 0,38 0,13 -
5 0,63 0,63 0,38 0,50 -
6 0,63 0,88 0,63 0,75 0,25 -
Variáveis Quantitativas
48
DadosDados
Indiv. Idade do 
usuário N. de carros
1 20 1
2 37 3
3 22 2
4 26 2
5 45 2
6 42 1
Min 20 1
Max 45 3
Indiv. Q1 Q2
1 0 0
2 0,68 1
3 0,08 0,5
4 0,24 0,5
5 1 0,5
6 0,88 0
Min 0 0
Max 1 1
20-45
20-IdadeQ1 =
1 Q 0 1 ≤≤
1-3
1-carros de N.Q2 =
1 Q 0 2 ≤≤
49
Medida de DissimilaridadeMedida de Dissimilaridade
( )
q
x-x
 j)d(i,
q
1k
2
jkik∑
=
=
( )
q
x-x
 j)(i,d
q
1k
2
jkik
2
∑
=
=
( ) ( ) 0,86
2
1-00,68-0
 j)d(i,
22
=
+
=
( ) ( ) 0,73
2
1-00,68-0
 j)(i,d
22
2
=
+
=
Indiv. Q1 Q2 Indiv. Q1 Q2
1 0 0 2 0,68 1
Distância 
euclidiana média
Distância euclidiana 
média ao quadrado
50
Matriz de dissimilaridadeMatriz de dissimilaridade
distância euclidiana média ao quadradodistância euclidiana média ao quadrado
Indiv. 1 2 3 4 5 6
1 -
2 0,73 - Simétrica
3 0,13 0,31 -
4 0,15 0,22 0,01 -
5 0,63 0,18 0,42 0,29 -
6 0,39 0,52 0,44 0,33 0,13 -
51
Matriz de similaridadeMatriz de similaridade
1 1 -- (distância euclidiana média ao quadrado)(distância euclidiana média ao quadrado)
Indiv. 1 2 3 4 5 6
1 -
2 0.27 - Simétrica
3 0.87 0.69 -
4 0.85 0.78 0.99 -
5 0.37 0.82 0.58 0.71 -
6 0.61 0.48 0.56 0.67 0.87 -
Coeficiente CombinadoCoeficiente Combinado
53
DadosDados
Indiv.
Idade do 
usuário
N. de 
carros
Classe 
social
Potência 
do motor Combustível Modelo
1 20 1 A Baixa Gasolina Esporte
2 37 3 A Alta Gasolina Luxo
3 22 2 B Média Gasolina Esporte
4 26 2 B Alta Gasolina Esporte
5 45 2 C Média Álcool Standard
6 42 1 D Baixa Álcool Standard
54
Matriz combinada de similaridadeMatriz combinada de similaridade
Nn : número de variáveis nominais
No: número de variáveis ordinais
Nq: número de variáveis quantitativas
Sn : matriz de similaridades das variáveis nominais
So: matriz de similaridades das variáveis ordinais
Sq: matriz de similaridades das variáveis 
quantitativasMatriz combinada de similaridade
S = wn Sn + wo So + wq Sq
Por exemplo: S = Nn Sn + No So + Nq Sq
55
Indiv. 1 2 3 4 5 6
1 -
2 0,27 - Simétrica
3 0,87 0,69 -
4 0,85 0,78 0,99 -
5 0,38 0,82 0,58 0,71 -
6 0,61 0,48 0,56 0,67 0,87 -
Indiv. 1 2 3 4 5 6
1 -
2 0,86 - Simétrica
3 0,86 0,71 -
4 0,71 0,86 0,86 -
5 0,71 0,57 0,86 0,71 -
6 0,43 0,29 0,57 0,43 0,71 -
Indiv. 1 2 3 4 5 6
1 -
2 0,60 - Simétrica
3 1,00 0,60 -
4 1,00 0,60 1,00 -
5 0,20 0,20 0,20 0,20 -
6 0,20 0,20 0,20 0,20 1,00 -
Sn So
Sq
Indiv. 1 2 3 4 5 6
1 -
2 3,45 - Simétrica
3 5,46 4,02 -
4 5,12 4,47 5,69 -
5 2,58 3,19 3,27 3,25 -
6 2,48 1,93 2,65 2,60 5,16 -
S=2Sn+2So+2Sq
56
Matriz combinada de dissimilaridadeMatriz combinada de dissimilaridade
Nn : número de variáveis nominais
No: número de variáveis ordinais
Nq: número de variáveis quantitativas
Dn : matriz de dissimilaridades das variáveis nominais
Do: matriz de dissimilaridades das variáveis ordinais
Dq: matriz de dissimilaridades das variáveis 
quantitativas
Matriz combinada de dissimilaridade
D =wn Dn + wo Do + wq Dq
Por exemplo: D =Nn Dn + No Do + Nq Dq
57
Dn Do
Dq
Indiv. 1 2 3 4 5 6
1 -
2 0,40 - Simétrica
3 0,00 0,40 -
4 0,00 0,40 0,00 -
5 0,80 0,80 0,80 0,80 -
6 0,80 0,80 0,80 0,80 0,00 -
Indiv. 1 2 3 4 5 6
1 -
2 0,14 - Simétrica
3 0,14 0,29 -
4 0,29 0,14 0,14 -
5 0,29 0,43 0,14 0,29 -
6 0,57 0,71 0,43 0,57 0,29 -
Indiv. 1 2 3 4 5 6
1 -
2 0,73 - Simétrica
3 0,13 0,31 -
4 0,15 0,22 0,01 -
5 0,63 0,18 0,42 0,29 -
6 0,39 0,52 0,44 0,33 0,13 -
D=2Dn+2Do+2Dq
Indiv. 1 2 3 4 5 6
1 -
2 2,55 - Simétrica
3 0,54 1,98 -
4 0,88 1,53 0,31 -
5 3,42 2,81 2,73 2,75 -
6 3,52 4,07 3,35 3,40 0,84 -
Métodos hierárquicos Métodos hierárquicos 
aglomerativosaglomerativos
59
• cada objeto é um grupo (n grupos)
• agrupam-se os dois objetos mais 
parecidos (n-1 grupos) 
• agrupam-se os dois grupos mais 
parecidos (n-2 grupos) 
• até que se tenha todos os objetos 
juntos em um único grupo 
60
Método HierárquicoMétodo Hierárquico
Adotar um critério de parecença
Expressar através de uma medida o 
quanto uma unidade amostral se 
parece ou difere de outra.
61
Métodos HierárquicosMétodos Hierárquicos
• Método do vizinho mais próximo (single)
• Método do vizinho mais longe (complete)
• Método das médias das distâncias
• Método da centróide
• Método de Ward
62
Variáveis padronizadasVariáveis padronizadas
Deinter Z1 Z2
SJRP -0.66 0.85
RP -0.07 0.81
Bauru -1.07 0.47
Campinas 1.53 -0.79
Sorocaba 0.27 -1.33
Média 0.00 0.00
DP 1.00 1.00
63
MatrizMatriz de de distânciadistância
Deinter SJRP RP B C S
SJRP 0,00
RP 0,59 0,00
B 0,55 1,05 0,00
C 2,74 2,27 2,89 0,00
S 2,37 2,17 2,24 1,37 0,00
Deinter’s mais parecidas
Aqui os métodos se 
diferenciam
Método do Vizinho mais Longe
d [(SJRP, B) e RP] = 
max { d [SJRP e RP] e d [B e RP]}
= max {0,59 e 1,05} = 1,05
65
Passo 1 Passo 1 -- juntar SJRP e Bjuntar SJRP e B
Redefinir a matriz de distâncias 
considerando as Deinter’s mais parecidas 
como se fossem um único grupo.
Redefinir a matriz de distância - por 
exemplo:
d(BF, A) = max [d(B,A), d(F,A)]
66
Passo 2Passo 2
Deinter SJRP, B RP C S
SJRP, B 0,00
RP 1,05 0,00
C 2,89 2,27 0,00
S 2,37 2,17 1,37 0,00
Mais parecidas, 
unir SJRP, B e RP
67
Passo 3Passo 3
Deinter SJRP, B, RP C S
SJRP, B, RP 0,00
C 2,89 0,00
S 2,37 1,37 0,00
Mais 
parecidas, unir 
C e S.
68
Passo 4Passo 4
Deinter SJRP, B,
RP
C, S
SJRP, B,
RP
0,00
C, S 2,89 0,00
69
Quadro resumoQuadro resumo
Passo Grupo Distância
1 SJRP, B 0,55
2 SJRP, B, RP 1,05
3 C, S 1,37
4 Todos 2,89
70SJR
P
Bauru RP Campina
s
Sorocab
a
1,0
0
2,0
0
3,0
0
d
i
s
t
â
n
c
i
a
GR5
Método Método de Wardde Ward
A medida de homogeneidade baseia-se 
na partição da soma de quadrados total. 
Por exemplo, para a variável X1
SQT(1) = SQE(1) + SQD(1)
2
1
1
1
2
11
1
2
1
1
1 )()()( j
k
j Gi
ij
k
j
j
k
j Gi
i XXXXnXX
jj
−+−=− ∑∑∑∑∑
= ∈== ∈
Primeiro passoPrimeiro passo
Agrupamento Grupos SQD(1) SQD(2) SQDP
1 (SJRP, RP), (B), (C), (S) 0,174 0,001 0,175
2 (SJRP, B), (RP), (C), (S) 0,081 0,073 0,154
3 (SJRP, C), (RP), (B), (S) 2,410 1,347 3,757
4 (SJRP, S), (RP), (B), (C) 0,437 2,375 2,812
5 (SJRP), (RP, B), (C), (S) 0,492 0,060 0,552
6 (SJRP), (RP, C), (B), (S) 1,287 1,290 2,577
7 (SJRP), (RP,S), (B), (C) 0,059 2,300 2,359
8 (SJRP), (RP), (B, C), (S) 3,372 0,793 4,165
9 (SJRP), (RP), (B, S), (C) 0,893 1,616 2,509
10 (SJRP), (RP), (B), (C, S) 0,795 0,145 0,940
Método de WardMétodo de Ward
Passo 2 Grupos SQD(1) SQD(2) SQDP
1
2
3
4
5
6
(SJRP, B, RP), (C), (S)
(SJRP, B, C), (RP), (S)
(SJRP,B, S), (RP), (C)
(SJRP, B), (RP, C), (S)
(SJRP, B), (RP, S), (C)
(SJRP, B), (RP), (C, S)
0,498
3,908
0,940
1,368
0,140
0,875
0,089
1,475
2,709
1,363
2,373
0,218
0,587
5,383
3,649
2,731
2,513
1,093
Passo 3 Grupos SQD(1) SQD(2) SQDP
1
2
3
(SJRP, B, RP, C), (S)
(SJRP, B, RP, S), (C)
(SJRP, B, RP), (C, S)
3,908
1,068
1,292
1,782
3,213
0,234
5,690
4,281
1,527
Passo 4 Grupos SQD(1) SQD(2) SQDP
1 (SJRP, B, RP, C, S) 4 4 8
Resumo Resumo -- Método Método de Wardde Ward
Passo União SQDP (SQDP)1/2
1 SJRP, B 0,154 0,392
2 SJRP, B, RP 0,587 0,766
3 C, S 1,527 1,236
4 SJRP, B, RP, C, S 8,000 2,828
75SJR
P
Bauru RP Campina
s
Sorocab
a
1,0
0
2,0
0
3,0
0
SQDP GR7
76
Comparação Comparação dos dos métodosmétodos
• Vizinho mais longe: tende a formar 
grupos mais homogêneos do que o 
método do vizinho mais perto
• Ward: é atraente por basear-se em uma 
medida com forte apelo estatístico e 
gerar grupos com alta homogeneidade
Análise de Agrupamento Análise de Agrupamento 
Métodos de PartiçãoMétodos de Partição
78
DescriçãoDescrição
• Premissas básicas: particionar as 
unidades amostrais formando 
conglomerados (grupos) com alta 
coesão interna e isolados.
• Número de grupos fixados a priori.
79
Exemplo de PartiçõesExemplo de Partições
Objetos: A, B, C, D
Partição 1: {A}, {B}, {C}, {D}
Partição 2: {AB}, {C}, {D}
Partição 3: {AC}, {B}, {D}
Partição 4: {AD}, {B}, {C}
Partição 5: {BC}, {A}, {D}
Partição 6: {BD}, {A}, {C}
Partição 7: {CD}, {A}, {B}
Partição 8: {A}, {BCD}
Partição 9: {B}, {ACD}
Partição 10: {C}, {ABD}
Partição 11: {D}, {ABC}
Partição 12: {AB}, {CD}
Partição 13: {AC}, {BD}
Partição 14: {AD}, {BC}
Partição 15:{ABCD}
80
Qual é a melhor partição?Qual é a melhor partição?
Notação: n: número de objetos 
g: número de grupos
O processo busca a formação de grupos 
homogêneos segundo um conjunto de 
variáveis.
Como medir a homogeneidade dos 
grupos?
81
Caso ParticularCaso Particular
Considere a existência de uma única 
variável: X1.
Medida de heterogeneidade intragrupo, para 
a variável X1:
( )∑∑
= =
−=
g
1j
n
1i
2
jij
j
xxSQD(1)
Medida de heterogeneidade intergrupos, 
para a variável X1: ( )∑
=
−=
g
1j
2
jj xx nSQE(1)
nj: tamanho do grupo j
j grupo do média :x j
82
Caso ParticularCaso Particular
Critério de qualidade: a melhor partição é 
aquela que minimiza a soma de 
quadrados dentro dos grupos
( )∑∑
= =
+=−=
g
1j
n
1i
2
ij
j
SQD(1)SQE(1)xxSQT(1)
ANOVA:
83
Caso GeralCaso Geral
Variáveis: X1, X2, …, Xp
SQD(k): soma de quadrados residual da 
variável Xk.
Critério de qualidade: A melhor partição 
é aquela que minimiza a soma de todas 
as SQD, denominada soma de 
quadrados residual da partição.
∑
=
=
p
1k
SQD(k) ão)SQD(Partiç
84
Método para AgrupamentoMétodo para Agrupamento
Para minimizar o trabalho computacional 
deve-se, inicialmente, escolher o 
número de grupos que será formado.
O método das k-médias tentará formar 
grupos visando obter uma soma de 
quadrados residual da partição 
pequena.
Método das kMétodo das k--médiasmédias
k-means
86
1. Determinar o número de grupos (g) a 
serem formados. 
2. Escolher casos para serem as 
sementes geradoras dos grupos 
iniciais.
Para o exemplo:
g=2
sementes = SJRP e RP.
Passo 1: Definições iniciaisPasso 1: Definições iniciais
87
Passo 2: Formar os grupos iniciaisPasso 2: Formar os grupos iniciais
Determinar a distância euclidiana entre 
cada ponto e cada uma das sementes.
Cada ponto será incorporado ao grupo 
que contém a semente mais próxima.
88
SJRP -0.66 0.85 RP -0.07 0.81
Grupo1 Grupo 2
Sementes
Deinter d(ponto,1) d(ponto,2) Grupo mais próximo
Bauru 0,55 1,05 1
Campinas 2,74 2,27 2
Sorocaba 2,37 2,17 2
Distâncias entre os pontos e as sementesDistâncias entre os pontos e as sementes
Partição (grupos) formada (os)Partição (grupos) formada (os)
Grupo 1: SJRP, Bauru
Grupo 2: RP, Campinas, Sorocaba
89
Deinter Z1 Z2 Deinter Z1 Z2
SJRP -0.66 0.85 RP -0.07 0.81
Bauru -1.07 0.47 Campinas 1.53 -0.79
Sorocaba 0.27 -1.33
n 2 2 3 3
Média -0.86 0.66 0.73 0.01
Variância 0.08 0.07 1.29 1.29
Grupo1 Grupo 2
Avaliação da qualidade da partição (dos grupos)Avaliação da qualidade da partição (dos grupos)
SQD(Z1) = 2,65
SQD(Z2) = 2,65
Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição
SQD(part) = SQD(Z1) + SQD(Z2) = 6,30
90
Passo 3: Checagem do grupo ePasso 3: Checagem do grupo e
realocaçãorealocação de objetosde objetos
Verificar se os grupos estão bem 
formados, ou seja, se a partição possui 
a menor SQD(part).
Verificar se cada ponto está no melhor 
grupo possível.
91
0.66 0.01
Centróides
Grupo1 Grupo 2
-0.86 0.73
Distâncias em relação aos centróidesDistâncias em relação aos centróides
Deinter d(ponto,1) d(ponto,2) Grupo ao qual pertence
Grupo mais 
próximo
SJRP 0,28 1,63 1 1
RP 0,81 1,14 2 1
Bauru 0,28 1,85 1 1
Campinas 2,80 1,14 2 2
Sorocaba 2,29 1,42 2 2
Conclusão: A Deinter RP está mais próxima do 
centro do grupo 1 do que do centro de seu próprio 
grupo. Está no grupo errado?
92
Deinter Z1 Z2 Deinter Z1 Z2
SJRP -0.66 0.85 Campinas 1.53 -0.79
Bauru -1.07 0.47 Sorocaba 0.27 -1.33
RP -0.07 0.81
n 3 3 2 2
Média -0.60 0.71 0.90 -1.06
Variância 0.25 0.04 0.79 0.14
Grupo 2Grupo 1
Realocar o município DRealocar o município D
Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição
SQD(part) = 1,52
Anterior = 6,30
Decisão: mudar RP para 
o grupo 1
SQD(Z1) = 1,29
SQD(Z2) = 0,23
93
Passo 4: Repetir o passo anterior até Passo 4: Repetir o passo anterior até 
que nenhuma troca seja necessáriaque nenhuma troca seja necessária
Todos os pontos estão bem alocados
Grupo 1: SJRP, RP e Bauru
Grupo 2: Campinas e Sorocaba
94
Método dasMétodo das kk--medóidesmedóides
• Baseado em uma matriz de distâncias 
entre objetos
• Medóide: membro do grupo que possui
a menor distância euclidiana média em
relação aos demais membros
95
Critério Critério de de qualidadequalidade
∑
=
=
n
j
jCC
1
),(min jmdC ij =
d(mi, j) é a distância entre a medóide mi e a observação j
Primeiro passoPrimeiro passo
Admita que desejamos formar 2 grupos
O primeiro passo consiste em um chute 
inicial para as duas medóides
Medóides: Campinas e Bauru
Distância Grupo
Deinter Campinas Bauru mínima alocado
SJRP 2,74 0,55 0,55 2
RP 2,27 1,05 1,05 2
Bauru 2,89 0,00 0,00 2
Campinas 0,00 2,89 0,00 1
Sorocaba 1,37 2,24 1,37 1
C 2,97
Medóide
Inicialmente, mantemos Campinas e 
substituímos Bauru
Distância Grupo
Deinter Campinas SJRP mínima alocado
SJRP 2,74 0,00 0,00 2
RP 2,27 0,59 0,59 2
Bauru 2,89 0,55 0,55 2
Campinas 0,00 2,74 0,00 1
Sorocaba 1,37 2,37 1,37 1
C 2,51
Distância Grupo
Deinter Campinas RP mínima alocado
SJRP 2,74 0,59 0,59 2
RP 2,27 0,00 0,00 2
Bauru 2,89 1,05 1,05 2
Campinas 0,00 2,27 0,00 1
Sorocaba 1,37 2,17 1,37 1
C 3,01
Distância Grupo
Deinter CampinasSorocaba mínima alocado
SJRP 2,74 2,37 2,37 2
RP 2,27 2,17 2,17 2
Bauru 2,89 2,24 2,24 2
Campinas 0,00 1,37 0,00 1
Sorocaba 1,37 0,00 0,00 2
C 6,78
Medóide
Medóide
Medóide
A escolha de SJRP em lugar de Bauru 
diminui o valor de C (manter SJRP e 
substituir Campinas)
Distância Grupo
Deinter SJRP Bauru mínima alocado
SJRP 0,00 0,55 0,00 1
RP 0,59 1,05 0,59 1
Bauru 0,55 0,00 0,00 2
Campinas 2,74 2,89 2,74 1
Sorocaba 2,37 2,24 2,24 2
C 5,57
Distância Grupo
Deinter SJRP RP mínima alocado
SJRP 0,00 0,59 0,00 1
RP 0,59 0,00 0,00 2
Bauru 0,55 1,05 0,55 1
Campinas 2,74 2,272,27 2
Sorocaba 2,37 2,17 2,17 2
C 4,99
Distância Grupo
Deinter SJRP Sorocaba mínima alocado
SJRP 0,00 2,37 0,00 1
RP 0,59 2,17 0,59 1
Bauru 0,55 2,24 0,55 1
Campinas 2,74 1,37 1,37 2
Sorocaba 2,37 0,00 0,00 2
C 2,51
Medóide
Medóide
Medóide
Não observamos nenhuma melhora no 
valor de C. O Valor é o mesmo para 
Campinas e SJRP ou Sorocaba e SJRP.
Nos dois casos os grupos são os mesmos:
Grupo 1: Campinas e Sorocaba
Grupo 2: SJRP, Bauru e RP
101
ComparaçãoComparação dos dos métodosmétodos
K-médias: 
• os objetos podem ser realocados
• mais sensível a dados aberrantes
Hierárquicos: 
• não necessita número de grupos a priori
• aplicação proibitiva para muitos dados
102
Validação Validação dos dos gruposgrupos
• Testes Univariados
• MANOVA
• Análise Discriminante
• Correlação Cofenética
• Gráfico da Silhueta
103
Correlação CofenéticaCorrelação Cofenética
• medida de validação usada nos 
métodos hierárquicos principalmente
• Idéia: realizar uma comparação entre 
as distâncias observadas e as previstas
104
MatrizMatriz CofenéticaCofenética
Deinter SJRP RP B C S
SJRP 0,00
RP 1,05 0,00 Simétrica
B 0,55 1,05 0,00
C 2,89 2,89 2,89 0,00
S 2,89 2,89 2,89 1,37 0,00
Correlação Cofenética: 0,95
105
Gráfico da SilhuetaGráfico da Silhueta
Objetivos
• Verificar a qualidade dos agrupamentos
• Verificar se um ponto está mais próximo
dos elementos de seu grupo ou de um
grupo vizinho
106
Gráfico da SilhuetaGráfico da Silhueta
• a(i) = distância média do objeto i para os 
elementos de seu próprio grupo
• b(i) = distância média do objeto I para os 
elementos do grupo mais próximo
)}(),(max{
)()()(
ibia
iaibis −=
107
Gráfico da SilhuetaGráfico da Silhueta
• Valor próximo de 1 - boa alocação
• Valores negativos - má alocação
1)(1 ≤≤− is
108
0 0,2 0,4 0,6 0,8 1
Sorocaba
Campinas
RP
Bauru
SJRP
109
Interpretação Interpretação dos dos GruposGrupos
• Caracterização dos grupos
• Ressaltar diferenças e semelhanças
• Técnicas descritivas
• Representações gráficas
110
G1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
X1 X2 X3 X4
G2
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
X1 X2 X3 X4
G3
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
X1 X2 X3 X4
111
Aplicação Aplicação 11
• 40 agricultores uruguaios (Salto)
• cultura de tomate e pimentão em estufa
• área plantada em 1990, 1992 e 1994
Deseja-se formar grupos homogêneos
segundo o padrão da área cultivada ao longo 
do tempo
Parecença: coeficiente de correlação
112
 Distância reescalonada 
 
 0 5 10 15 20 25 
 Agricultor +---------+---------+---------+---------+---------+ 
 
 32 -+ 
 39 -+ 
 8 -+-+ 
 2 -+ I 
 4 -+ I 
 12 -+ +-----------+ 
 40 -+ I I 
 19 -+ I I 
 1 ---+ I 
 9 -+ I 
 20 -+ +---------------------------------+ 
 22 -+-+ I I 
 5 -+ I I I 
 15 -+ I I I 
 27 -+ I I I 
 29 -+ I I I 
 25 -+ +-----------+ I 
 33 -+ I I 
 34 -+ I I 
 37 -+ I I 
 38 -+ I I 
 14 -+-+ I 
 26 -+ I 
 3 -+ I 
 35 -+---------------------+ I 
 6 -+ I I 
 28 -+ I I 
 31 -+ +-------------------------+ 
 23 -+---------+ I I 
 10 -+ I I I 
 36 -+ +-----------+ I 
 30 -+ I I 
 13 -+-+ I I 
 21 -+ +-------+ I 
 17 ---+ I 
 16 ---+-----------------------------+ I 
 24 ---+ +---------------+ 
 11 -+-+ I 
 18 -+ +-----------------------------+ 
 7 ---+ 
113
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
1990 1992 1994
Ano
Á
r
e
a
114
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
1990 1992 1994
Ano
Á
r
e
a
115
0
2000
4000
6000
8000
10000
12000
1990 1992 1994
Ano
Á
r
e
a
116
0
2000
4000
6000
8000
10000
12000
A1990 A1992 A1994
G1
G2
G3
117
Aplicação Aplicação 22
Cultura Organizacional: mecanismos de 
adaptação e comportamento adotados 
para lidar com os problemas de ajuste 
ao ambiente externo e de integração 
interna. Está ligada ao clima existente 
no ambiente de trabalho
118
Tipos Tipos de de Cultura OrganizacionalCultura Organizacional
• Cultura Grupal
• Cultura Sistêmica
• Cultura Hierárquica
• Cultura Racional
Ambiente saudável: as quatro culturas 
co-existem de maneira intensa
119
Aplicação Aplicação 22
• 13 empresas do setor Têxtil
• 478 funcionários
• questionário: percepção da presença 
das quatro culturas
Objetivo: identificar grupos de
funcionários com percepções
semelhantes
120
KK--médiasmédias
Quantos grupos devemos fixar?
Ganho relativo na soma de quadrados 
dentro dos grupos ao se aumentar o 
número de grupos de k para k+1
)1(
)1()(
+
+−
=
kSQDP
kSQDPkSQDPG
121
0
0,2
0,4
0,6
0,8
1
1,2
0 1 2 3 4 5 6 7 8 9
Número de Grupos
G
122
0
10
20
30
Grupal
Sistêmica
Hierarquica
Racional
G1
G2
G3
G4

Continue navegando