Buscar

Analise_de_Agrupamentos_FCF

Prévia do material em texto

Análise de Análise de 
AgrupamentosAgrupamentos
Cluster Analysis
Objetivos da técnicaObjetivos da técnica
Formar grupos homogêneos de unidades
amostrais
2
Dados: cadastro com informações sobre
uma série de variáveis
Definir critérios para Definir critérios para 
agrupamentoagrupamento
♠ ♣ ♥ ♦
10 10 10 10
Cor?
3
10 10 10 10
J J J J
Q Q Q Q
K K K K
Naipe?
Valor?
Problema 1Problema 1
Um laboratório farmacêutico deseja
conhecer o perfil de seus
consumidores.
4
consumidores.
• Consumidores têm perfil homogêneo?
• É possível identificar grupos?
• Quantos grupos existem?
Problema 2Problema 2
Pesquisa Emprego-Desemprego 
DIEESE/SEADE
5
Idéia: formar grupos homogêneos de 
municípios ou distritos administrativos 
para sortear uma amostra estratificada.
Problema 3Problema 3
Dados sobre a localização de restos de 
cerâmica em um sítio arqueológico.
6
Objetivo: conhecer a organização 
espacial da tribo
Há locais com alta concentração de 
peças? Quantos?
Exemplo 1Exemplo 1
Taxa de delitos por 100.000 habitantes
Variáveis:
X : Homicídio doloso
7
X1: Homicídio doloso
X2: Furto
X3: Roubo
X4: Roubo e furto de veículo
Ocorrências PoliciaisOcorrências Policiais
SJC
Campinas
RP
SJRP
8
SP
GSP
SJC
Santos
Sorocaba
Bauru
Taxa de delitos porTaxa de delitos por
100.000 habitantes100.000 habitantes
Homicídio Roubo e furto
Deinter doloso Furto Roubo de veículosDeinter doloso Furto Roubo de veículos
SJRP 10,85 1500,80 149,35 108,38
RP 14,13 1496,07 187,99 116,66
Bauru 8,62 1448,79 130,97 69,98
Campinas 23,04 1277,33 424,87 435,75
Sorocaba 16,04 1204,02 214,36 207,06
Exemplo 1Exemplo 1
Taxa de delitos por 100.000 habitantes
Deseja-se formar 4 grupos de regiões
10
Variáveis:
X1: Homicídio doloso
X2: Furto
1.400,00
1.500,00
1.600,00
F
u
rt
o
s
11
1.100,00
1.200,00
1.300,00
0 100 200 300 400 500
Homicídios dolosos
F
u
rt
o
s
1.400,00
1.500,00
1.600,00
F
u
rt
o
s
12
1.100,00
1.200,00
1.300,00
0 100 200 300 400 500
Homicídios dolosos
F
u
rt
o
s
1.400,00
1.500,00
1.600,00
F
u
rt
o
s
13
1.100,00
1.200,00
1.300,00
0 100 200 300 400 500
Homicídios dolosos
F
u
rt
o
s
0
0,5
1
1,5
2
F
u
rt
o
s
14
-1,5
-1
-0,5
0
-1,5 -1 -0,5 0 0,5 1 1,5 2
Homicídios dolosos
F
u
rt
o
s
0,5
1
1,5
2
F
u
rt
o
s
15
-1,5
-1
-0,5
0
-1,5 -1 -0,5 0 0,5 1 1,5 2
Homicídios dolosos
F
u
rt
o
s
0
0,5
1
1,5
2
F
u
rt
o
s
16
-1,5
-1
-0,5
0
-1,5 -1 -0,5 0 0,5 1 1,5 2
Homicídios dolosos
F
u
rt
o
s
Etapas de AplicaçãoEtapas de Aplicação
1. Escolha do critério de parecença
2. Definição do número de grupos
3. Formação dos grupos
17
3. Formação dos grupos
4. Validação do agrupamento
5. Interpretação dos grupos
1. Escolha do critério de 1. Escolha do critério de 
parecençaparecença
Definir se as variáveis devem ou não ser 
padronizadas e o critério que será 
utilizado na determinação dos grupos
18
utilizado na determinação dos grupos
(distância euclidiana)
2. Definição do número de 2. Definição do número de 
gruposgrupos
• Definido a priori (3 espécies de insetos)
• Conveniência de análise (segmentação 
19
• Conveniência de análise (segmentação 
de mercado – 2 grupos)
• Definido a posteriori (com base nos 
resultados da análise)
3. Formação dos grupos3. Formação dos grupos
Nesta etapa deve-se definir o algoritmo 
20
que será utilizado na identificação dos 
grupos
4. Validação do 4. Validação do 
agrupamentoagrupamento
Deve-se garantir que de fato as variáveis 
têm comportamento diferenciado nos 
diversos grupos. 
21
diversos grupos. 
Aplicação de técnicas inferenciais
5. Interpretação dos grupos5. Interpretação dos grupos
Ao final do processo de formação de 
grupos é importante caracterizar os 
grupos formados.
22
grupos formados.
Uso de estatísticas descritivas
Medidas de parecençaMedidas de parecença
Medidas de similaridade: quanto maior o 
valor, maior a semelhança entre os 
objetos
23
objetos
Medidas de dissimilaridade: quanto maior 
o valor, mais diferentes são os objetos
Métodos hierárquicos Métodos hierárquicos 
aglomerativosaglomerativos
• cada objeto é um grupo (n grupos)
• agrupam-se os dois objetos mais 
parecidos (n-1 grupos) 
• agrupam-se os dois grupos mais 
25
• agrupam-se os dois grupos mais 
parecidos (n-2 grupos) 
• até que se tenha todos os objetos 
juntos em um único grupo 
Método HierárquicoMétodo Hierárquico
Adotar um critério de parecença
Expressar através de uma medida o
quanto uma unidade amostral se
26
quanto uma unidade amostral se
parece ou difere de outra.
Métodos HierárquicosMétodos Hierárquicos
• Método do vizinho mais próximo (single)
• Método do vizinho mais longe (complete)
• Método das médias das distâncias
27
• Método das médias das distâncias
• Método da centróide
• Método de Ward
Variáveis padronizadasVariáveis padronizadas
Deinter Z1 Z2
SJRP -0.66 0.85
RP -0.07 0.81
Bauru -1.07 0.47
28
Bauru -1.07 0.47
Campinas 1.53 -0.79
Sorocaba 0.27 -1.33
Média 0.00 0.00
DP 1.00 1.00
Matriz de distânciaMatriz de distância
Deinter SJRP RP B C S
SJRP 0,00
RP 0,59 0,00
B 0,55 1,05 0,00
29
B 0,55 1,05 0,00
C 2,74 2,27 2,89 0,00
S 2,37 2,17 2,24 1,37 0,00
Deinter’s mais parecidas
Aqui os métodos se 
diferenciam
Método do Vizinho mais Longe
d [(SJRP, B) e RP] = d [(SJRP, B) e RP] = 
max { d [SJRP e RP] e d [B e RP]}
= max {0,59 e 1,05} = 1,05
Passo 1 Passo 1 -- juntar SJRP e Bjuntar SJRP e B
Redefinir a matriz de distâncias
considerando as Deinter’s mais parecidas
como se fossem um único grupo.
Redefinir a matriz de distância - por
31
Redefinir a matriz de distância - por
exemplo:
d(BF, A) = max [d(B,A), d(F,A)]
Passo 2Passo 2
Deinter SJRP, B RP C S
SJRP, B 0,00
RP 1,05 0,00
C 2,89 2,27 0,00
S 2,37 2,17 1,37 0,00
32
S 2,37 2,17 1,37 0,00
Mais parecidas, 
unir SJRP, B e RP
Passo 3Passo 3
Deinter SJRP, B, RP C S
SJRP, B, RP 0,00
C 2,89 0,00
S 2,37 1,37 0,00
33
S 2,37 1,37 0,00
Mais 
parecidas, unir 
C e S.
Passo 4Passo 4
Deinter SJRP, B,
RP
C, S
SJRP, B,
RP
0,00
34
RP
C, S 2,89 0,00
Quadro resumoQuadro resumo
Passo Grupo Distância
1 SJRP, B 0,55
2 SJRP, B, RP 1,05
35
2 SJRP, B, RP 1,05
3 C, S 1,37
4 Todos 2,89
2,0
0
3,0
0
d
is
tâ
n
c
ia
36
SJRP Bauru RP Campinas Sorocaba
1,0
0
d
is
tâ
n
c
ia
Método de WardMétodo de Ward
A medida de homogeneidade baseia-se 
na partição da soma de quadrados total. 
Por exemplo, para a variável X1
SQT(1) = SQE(1) + SQD(1)
2
1
1
1
2
11
1
2
1
1
1 )()()( j
k
j Gi
ij
k
j
j
k
j Gi
i XXXXnXX
jj
 
  
Primeiro passoPrimeiro passo
Agrupamento Grupos SQD(1) SQD(2) SQDP
1 (SJRP, RP), (B), (C), (S) 0,174 0,001 0,175
2 (SJRP, B), (RP), (C), (S) 0,081 0,073 0,154
3 (SJRP, C), (RP), (B), (S) 2,410 1,347 3,757
4 (SJRP, S), (RP), (B), (C) 0,437 2,375 2,812
5 (SJRP), (RP, B), (C), (S) 0,492 0,060 0,5525 (SJRP), (RP, B), (C), (S) 0,492 0,060 0,552
6 (SJRP), (RP, C), (B), (S) 1,287 1,290 2,577
7 (SJRP), (RP,S), (B), (C) 0,059 2,300 2,359
8 (SJRP), (RP), (B, C), (S) 3,372 0,793 4,165
9 (SJRP), (RP), (B, S), (C) 0,893 1,616 2,509
10 (SJRP), (RP), (B), (C, S) 0,795 0,145 0,940
Método de WardMétodo de Ward
Passo 2 Grupos SQD(1) SQD(2) SQDP
1
2
3
4
(SJRP, B, RP), (C), (S)
(SJRP, B, C), (RP), (S)
(SJRP, B, S), (RP), (C)
(SJRP, B), (RP, C), (S)
0,498
3,908
0,940
1,368
0,089
1,475
2,709
1,363
0,587
5,383
3,649
2,7314
5
6
(SJRP, B), (RP, C), (S)
(SJRP, B), (RP, S), (C)
(SJRP, B), (RP), (C, S)
1,368
0,140
0,875
1,363
2,373
0,218
2,731
2,513
1,093
Passo 3 Grupos SQD(1) SQD(2) SQDP
1
2
3
(SJRP, B, RP, C), (S)
(SJRP, B, RP, S), (C)
(SJRP, B, RP), (C, S)
3,908
1,068
1,292
1,782
3,213
0,234
5,690
4,281
1,527
Passo 4 Grupos SQD(1) SQD(2) SQDP
1 (SJRP, B, RP, C, S) 4 4 8
Resumo Resumo -- Método de WardMétodo de Ward
Passo União SQDP (SQDP)1/2
1 SJRP, B 0,154 0,392
2 SJRP, B, RP 0,587 0,7662 SJRP, B, RP 0,587 0,766
3 C, S 1,527 1,236
4 SJRP, B, RP, C, S 8,000 2,828
2,00
3,0
0
SQDP
41
SJRP Bauru RP Campinas Sorocaba
1,0
0
Comparação dos métodosComparação dos métodos
• Vizinho mais longe: tende a formar 
grupos mais homogêneos do que o 
método do vizinho mais perto
42
método do vizinho mais perto
• Ward: é atraente por basear-se em uma 
medida com forte apelo estatístico e 
gerar grupos com alta homogeneidade
Análise de Agrupamento Análise de Agrupamento 
Métodos de PartiçãoMétodos de PartiçãoMétodos de PartiçãoMétodos de Partição
DescriçãoDescrição
• Premissas básicas: particionar as
unidades amostrais formando
conglomerados (grupos) com alta
44
conglomerados (grupos) com alta
coesão interna e isolados.
• Número de grupos fixados a priori.
Exemplo de PartiçõesExemplo de Partições
Objetos: A, B, C, D
Partição 1: {A}, {B}, {C}, {D}
Partição 2: {AB}, {C}, {D}
Partição 3: {AC}, {B}, {D}
Partição 4: {AD}, {B}, {C}
Partição 9: {B}, {ACD}
Partição 10: {C}, {ABD}
Partição 11: {D}, {ABC}
Partição 12: {AB}, {CD}
45
Partição 4: {AD}, {B}, {C}
Partição 5: {BC}, {A}, {D}
Partição 6: {BD}, {A}, {C}
Partição 7: {CD}, {A}, {B}
Partição 8: {A}, {BCD}
Partição 12: {AB}, {CD}
Partição 13: {AC}, {BD}
Partição 14: {AD}, {BC}
Partição 15:{ABCD}
Qual é a melhor partição?Qual é a melhor partição?
Notação: n: número de objetos 
g: número de grupos
O processo busca a formação de grupos
46
O processo busca a formação de grupos
homogêneos segundo um conjunto de
variáveis.
Como medir a homogeneidade dos
grupos?
Caso ParticularCaso Particular
Considere a existência de uma única
variável: X1.
Medida de heterogeneidade intragrupo, para 
a variável X1:
n : tamanho do grupo j
47
 
 

g
1j
n
1i
2
jij
j
xxSQD(1)
Medida de heterogeneidade intergrupos, 
para a variável X1:
 


g
1j
2
jj xx nSQE(1)
nj: tamanho do grupo j
j grupo do média :x j
Caso ParticularCaso Particular
 
 

g
1j
n
1i
2
ij
j
SQD(1)SQE(1)xxSQT(1)
ANOVA:
48
Critério de qualidade: a melhor partição é
aquela que minimiza a soma de
quadrados dentro dos grupos
 1j 1i
Caso GeralCaso Geral
Variáveis: X1, X2, …, Xp
SQD(k): soma de quadrados residual da 
variável Xk.
Critério de qualidade: A melhor partição
é aquela que minimiza a soma de todas
49
é aquela que minimiza a soma de todas
as SQD, denominada soma de
quadrados residual da partição.



p
1k
SQD(k) ão)SQD(Partiç
Método para AgrupamentoMétodo para Agrupamento
Para minimizar o trabalho computacional
deve-se, inicialmente, escolher o
número de grupos que será formado.
50
número de grupos que será formado.
O método das k-médias tentará formar
grupos visando obter uma soma de
quadrados residual da partição
pequena.
Método das kMétodo das k--médiasmédias
k-means
1. Determinar o número de grupos (g) a
serem formados.
2. Escolher casos para serem as
sementes geradoras dos grupos
iniciais.
Passo 1: Definições iniciaisPasso 1: Definições iniciais
52
iniciais.
Para o exemplo:
g=2
sementes = SJRP e RP.
Passo 2: Formar os grupos iniciaisPasso 2: Formar os grupos iniciais
Determinar a distância euclidiana entre
cada ponto e cada uma das sementes.
Cada ponto será incorporado ao grupo
53
Cada ponto será incorporado ao grupo
que contém a semente mais próxima.
SJRP -0.66 0.85 RP -0.07 0.81
Grupo1 Grupo 2
Sementes
Deinter d(ponto,1) d(ponto,2)
Grupo mais 
próximo
Bauru 0,55 1,05 1
Campinas 2,74 2,27 2
Sorocaba 2,37 2,17 2
Distâncias entre os pontos e as sementesDistâncias entre os pontos e as sementes
54
Sorocaba 2,37 2,17 2
Partição (grupos) formada (os)Partição (grupos) formada (os)
Grupo 1: SJRP, Bauru
Grupo 2: RP, Campinas, Sorocaba
Deinter Z1 Z2 Deinter Z1 Z2
SJRP -0.66 0.85 RP -0.07 0.81
Bauru -1.07 0.47 Campinas 1.53 -0.79
Sorocaba 0.27 -1.33
n 2 2 3 3
Média -0.86 0.66 0.73 0.01
Variância 0.08 0.07 1.29 1.29
Grupo1 Grupo 2
Avaliação da qualidade da partição (dos grupos)Avaliação da qualidade da partição (dos grupos)
55
SQD(Z1) = 2,65
SQD(Z2) = 2,65
Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição
SQD(part) = SQD(Z1) + SQD(Z2) = 5,30
Passo 3: Checagem do grupo e Passo 3: Checagem do grupo e 
realocação de objetosrealocação de objetos
Verificar se os grupos estão bem
formados, ou seja, se a partição possui
a menor SQD(part).
56
Verificar se cada ponto está no melhor
grupo possível.
0.66 0.01
Centróides
Grupo1 Grupo 2
-0.86 0.73
Distâncias em relação aos centróidesDistâncias em relação aos centróides
Deinter d(ponto,1) d(ponto,2)
Grupo ao qual 
pertence
Grupo mais 
próximo
SJRP 0,28 1,63 1 1
RP 0,81 1,14 2 1
57
RP 0,81 1,14 2 1
Bauru 0,28 1,85 1 1
Campinas 2,80 1,14 2 2
Sorocaba 2,29 1,42 2 2
Conclusão: A Deinter RP está mais próxima do
centro do grupo 1 do que do centro de seu próprio
grupo. Está no grupo errado?
Deinter Z1 Z2 Deinter Z1 Z2
SJRP -0.66 0.85 Campinas 1.53 -0.79
Bauru -1.07 0.47 Sorocaba 0.27 -1.33
RP -0.07 0.81
n 3 3 2 2
Média -0.60 0.71 0.90 -1.06
Variância 0.25 0.04 0.79 0.14
Grupo 2Grupo 1
Realocar o município DRealocar o município D
58
Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição
SQD(part) = 1,52
Anterior = 5,30
Decisão: mudar RP para 
o grupo 1
SQD(Z1) = 1,29
SQD(Z2) = 0,23
PassoPasso 44:: RepetirRepetir oo passopasso anterioranterior atéaté
queque nenhumanenhuma trocatroca sejaseja necessárianecessária
Todos os pontos estão bem alocados
59
Grupo 1: SJRP, RP e Bauru
Grupo 2: Campinas e Sorocaba
Comparação dos métodosComparação dos métodos
K-médias: 
• os objetos podem ser realocados
• mais sensível a dados aberrantes
60
• mais sensível a dados aberrantes
Hierárquicos: 
• não necessita número de grupos a priori
• aplicação proibitiva para muitos dados
Validação dos gruposValidação dos grupos
• Testes Univariados
• MANOVA
61
• MANOVA
• Análise Discriminante
• Correlação Cofenética
• Gráfico da Silhueta
Correlação CofenéticaCorrelação Cofenética
• medida de validação usada nos
métodos hierárquicos principalmente
62
métodos hierárquicos principalmente
• Ideia: realizar uma comparação entre 
as distâncias observadas e as previstas
Matriz CofenéticaMatriz Cofenética
Deinter SJRP RP B C S
SJRP 0,00
RP 1,05 0,00 Simétrica
B 0,55 1,05 0,00
63
B 0,55 1,05 0,00
C 2,89 2,89 2,89 0,00
S 2,89 2,89 2,89 1,37 0,00
Correlação Cofenética: 0,95
Gráfico da SilhuetaGráfico da Silhueta
Objetivos
• Verificar a qualidade dos agrupamentos
64
• Verificar a qualidade dos agrupamentos
• Verificar se um ponto está mais próximo 
dos elementos de seu grupo ou de um 
grupo vizinho
Gráfico da SilhuetaGráfico da Silhueta
• a(i) = distância média do objeto i para os 
elementos de seu próprio grupo
65
• b(i) = distância média do objeto I para os 
elementos do grupo mais próximo
)}(),(max{
)()(
)(
ibia
iaib
is


Gráfico da SilhuetaGráfico da Silhueta
1)(1  is
66
• Valor próximo de 1 - boa alocação
• Valores negativos - má alocação
RP
Bauru
SJRP
67
0 0,2 0,4 0,6 0,8 1
Sorocaba
Campinas
Interpretação dos GruposInterpretação dos Grupos
• Caracterização dos grupos
• Ressaltar diferenças e semelhanças
68
• Ressaltar diferenças e semelhanças
• Técnicas descritivas
• Representações gráficas
G1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
X1 X2 X3 X4
G2
0,4
0,5
0,6
0,7
0,8
0,9
1
69
0
0,1
0,2
0,3
0,4
X1 X2 X3 X4
G3
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
X1 X2 X3 X4
Aplicação 1Aplicação 1
• 40 agricultores uruguaios (Salto)
• cultura de tomate e pimentão em estufa
• área plantada em 1990, 1992 e 1994
70
Deseja-se formar grupos homogêneos
segundo o padrão da área cultivada ao longo 
do tempo
Parecença: coeficiente de correlação
 Distância reescalonada 
 
 0 5 10 15 20 25 
 Agricultor +---------+---------+---------+---------+---------+ 
 
 32 -+ 
 39 -+ 
 8 -+-+ 
 2 -+ I 
 4 -+ I12 -+ +-----------+ 
 40 -+ I I 
 19 -+ I I 
 1 ---+ I 
 9 -+ I 
 20 -+ +---------------------------------+ 
 22 -+-+ I I 
 5 -+ I I I 
 15 -+ I I I 
 27 -+ I I I 
 29 -+ I I I 
 25 -+ +-----------+ I 
 33 -+ I I 
71
 33 -+ I I 
 34 -+ I I 
 37 -+ I I 
 38 -+ I I 
 14 -+-+ I 
 26 -+ I 
 3 -+ I 
 35 -+---------------------+ I 
 6 -+ I I 
 28 -+ I I 
 31 -+ +-------------------------+ 
 23 -+---------+ I I 
 10 -+ I I I 
 36 -+ +-----------+ I 
 30 -+ I I 
 13 -+-+ I I 
 21 -+ +-------+ I 
 17 ---+ I 
 16 ---+-----------------------------+ I 
 24 ---+ +---------------+ 
 11 -+-+ I 
 18 -+ +-----------------------------+ 
 7 ---+ 
8000
10000
12000
14000
16000
18000
20000
Á
re
a
72
0
2000
4000
6000
8000
1990 1992 1994
Ano
20000
25000
30000
35000
40000
45000
Á
re
a
73
0
5000
10000
15000
20000
1990 1992 1994
Ano
6000
8000
10000
12000
Á
re
a
74
0
2000
4000
1990 1992 1994
Ano
6000
8000
10000
12000
G1
G2
75
0
2000
4000
A1990 A1992 A1994
G3
Aplicação 2Aplicação 2
Cultura Organizacional: mecanismos de 
adaptação e comportamento adotados 
76
adaptação e comportamento adotados 
para lidar com os problemas de ajuste 
ao ambiente externo e de integração 
interna. Está ligada ao clima existente 
no ambiente de trabalho
Tipos de Cultura OrganizacionalTipos de Cultura Organizacional
• Cultura Grupal
• Cultura Sistêmica
• Cultura Hierárquica
77
• Cultura Hierárquica
• Cultura Racional
Ambiente saudável: as quatro culturas 
co-existem de maneira intensa
Aplicação 2Aplicação 2
• 13 empresas do setor Têxtil
• 478 funcionários
• questionário: percepção da presença 
78
• questionário: percepção da presença 
das quatro culturas
Objetivo: identificar grupos de
funcionários com percepções
semelhantes
KK--médiasmédias
Quantos grupos devemos fixar?
Ganho relativo na soma de quadrados 
dentro dos grupos ao se aumentar o 
79
dentro dos grupos ao se aumentar o 
número de grupos de k para k+1
)1(
)1()(



kSQDP
kSQDPkSQDP
G
0,4
0,6
0,8
1
1,2
G
80
0
0,2
0,4
0 1 2 3 4 5 6 7 8 9
Número de Grupos
0
10
20
30
Grupal
SistêmicaRacional
G1
G2
81
0 Sistêmica
Hierarquica
Racional
G3
G4
Misturando VariáveisMisturando Variáveis
Pesquisa com Pesquisa com pacientes pacientes 
de de uma uma clínicaclínica
• Idade (em anos completos).
• Número de filhos.
• Classe social: A, B, C, D.
83
• Classe social: A, B, C, D.
• Fator de risco: Baixo, Médio, Alto.
• Sexo: Masculino, Feminino.
• Vacina: Covid, Influenza, Pneumonia.
DadosDados
Cliente Idade
N. de 
filhos
Classe 
social
Fator de 
risco Sexo Vacina
1 20 1 A Baixo Feminino Covid
2 37 3 A Alto Feminino Pneumo
3 22 2 B Médio Feminino Covid
4 26 2 B Alto Feminino Covid
84
4 26 2 B Alto Feminino Covid
5 45 2 C Médio Masculino Influenza
6 42 1 D Baixo Masculino Influenza
Variáveis 
quantitativas
Variáveis 
nominais
Variáveis 
ordinais
Variáveis quantitativasVariáveis quantitativas
Medida de DissimilaridadeMedida de Dissimilaridade
 
q
 
q
Cliente Q1 Q2 Cliente Q1 Q2
1 20 1 2 37 3
Distância 
euclidiana média
Distância euclidiana 
média ao quadrado
86
 
q
x-x
 j)d(i,
q
1k
2
jkik

 
q
x-x
 j)(i,d
q
1k
2
jkik
2


Medida de DissimilaridadeMedida de Dissimilaridade
Distância Manhattan
ou Quarteirão
87



p
j
kjijik XXd
1
)1( ||
B
88
A
Variáveis NominaisVariáveis Nominais
(escalas)(escalas)(escalas)(escalas)
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
Sexo N1
Feminino 1
Masculino 0
Cliente Sexo N1
1 Feminino 1
90
1 Feminino 1
2 Feminino 1
3 Feminino 1
4 Feminino 1
5 Masculino 0
6 Masculino 0
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
Vacina N2 N3
Covid 1 0
Pneumo 0 1
Influenza 0 0
Cliente Vacina N2 N3
1 Covid 1 0
91
1 Covid 1 0
2 Pneumo 0 1
3 Covid 1 0
4 Covid 1 0
5 Influenza 0 0
6 Influenza 0 0
Variáveis NominaisVariáveis Nominais
Sexo
Cliente N1 N2 N3
1 1 1 0
2 1 0 1
Vacina
92
2 1 0 1
3 1 1 0
4 1 1 0
5 0 0 0
6 0 0 0
Variáveis OrdinaisVariáveis Ordinais
(escalas)(escalas)(escalas)(escalas)
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
A B C
O1 O2 O3
D 0 0 0
C 0 0 1
B 0 1 1
A 1 1 1
Classe Social
Cliente Classe social O1 O2 O3
94
Cliente Classe social O1 O2 O3
1 A 1 1 1
2 A 1 1 1
3 B 0 1 1
4 B 0 1 1
5 C 0 0 1
6 D 0 0 0
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
Médio Alto
O4 O5
Baixo 0 0
Médio 1 0
Alto 1 1
Fator de 
risco
Cliente Fator de risco O4 O5
95
Cliente Fator de risco O4 O5
1 Médio 1 0
2 Alto 1 1
3 Médio 1 0
4 Alto 1 1
5 Médio 1 0
6 Baixo 0 0
Medidas de ParecençaMedidas de Parecença
cliente N1 N2 N3 O1 O2 O3 O4 O5
1 1 1 0 1 1 1 1 0
2 1 0 1 1 1 1 1 1
Variáveis Nominais Variáveis Ordinais
96
1 0
1 5 1 6
0 2 0 2
Total 7 1 8
cliente 1
cliente 2
Total
Medidas de SimilaridadeMedidas de Similaridade
1 0
1 a b a+b
0 c d c+d
Total a+c b+d a+b+c+d
cliente j 
cliente i 
Total 1 0
1 5 1 6
0 2 0 2
Total 7 1 8
cliente 1
cliente 2
Total
97
Coeficiente de Concordância Simples 
dcba
da
jis


),( 625,0
8
5
)2,1( s
Medidas de DissimilaridadeMedidas de Dissimilaridade
1 0
1 a b a+b
0 c d c+d
Total a+c b+d a+b+c+d
cliente j 
cliente i 
Total 1 0
1 5 1 6
0 2 0 2
Total 7 1 8
cliente 1
cliente 2
Total
98
Distância Euclidiana ao Quadrado Média
dcba
cb
jid


),( 375,0
8
3
)2,1( s
Matriz de Matriz de Similaridades (CS)Similaridades (CS)
Indiv. 1 2 3 4 5 6
1 -
2 0,50 - Simétrica
3 0,75 0,50 -
99
3 0,75 0,50 -
4 0,62 0,62 0,87 -
5 0,37 0,37 0,62 0,50 -
6 0,37 0,12 0,37 0,25 0,75 -
Matriz de Dissimilaridades Matriz de Dissimilaridades 
(1(1-- CS)CS)
Indiv. 1 2 3 4 5 6
1 -
2 0,50 - Simétrica
100
2 0,50 - Simétrica
3 0,25 0,50 -
4 0,38 0,38 0,13 -
5 0,63 0,63 0,38 0,50 -
6 0,63 0,88 0,63 0,75 0,25 -
Variáveis Quantitativas
DadosDados
Cliente Idade N. filhos
1 20 1
2 37 3
3 22 2
4 26 2
5 45 2
6 42 1
Min 20 1
Indiv. Q1 Q2
20-45
20-Idade
Q1 
1 Q 0 1 
102
Min 20 1
Max 45 3 1 0 0
2 0,68 1
3 0,08 0,5
4 0,24 0,5
5 1 0,5
6 0,88 0
Min 0 0
Max 1 1
1-3
1-filhos N.
Q2 
1 Q 0 2 
Medida de DissimilaridadeMedida de Dissimilaridade
 
q
 
q
Indiv. Q1 Q2 Indiv. Q1 Q2
1 0 0 2 0,68 1
Distância 
euclidiana média
Distância euclidiana 
média ao quadrado
103
 
q
x-x
 j)d(i,
q
1k
2
jkik

 
q
x-x
 j)(i,d
q
1k
2
jkik
2


   
0,86
2
1-00,68-0
 j)d(i,
22



   
0,73
2
1-00,68-0
 j)(i,d22
2 


Matriz de dissimilaridadeMatriz de dissimilaridade
distância euclidiana média ao quadradodistância euclidiana média ao quadrado
Indiv. 1 2 3 4 5 6
1 -
2 0,73 - Simétrica
3 0,13 0,31 -
104
3 0,13 0,31 -
4 0,15 0,22 0,01 -
5 0,63 0,18 0,42 0,29 -
6 0,39 0,52 0,44 0,33 0,13 -
Coeficiente CombinadoCoeficiente Combinado
Matriz combinada de similaridadeMatriz combinada de similaridade
Nn : número de variáveis nominais
No: número de variáveis ordinais
Nq: número de variáveis quantitativas
Sn : matriz de similaridades das variáveis nominais
S : matriz de similaridades das variáveis ordinais
106
So: matriz de similaridades das variáveis ordinais
Sq: matriz de similaridades das variáveis 
quantitativas
Matriz combinada de similaridade
S = wn Sn + wo So + wq Sq
Por exemplo: S = Nn Sn + No So + Nq Sq
Indiv. 1 2 3 4 5 6
1 -
2 0,86 - Simétrica
3 0,86 0,71 -
4 0,71 0,86 0,86 -
5 0,71 0,57 0,86 0,71 -
6 0,43 0,29 0,57 0,43 0,71 -
Indiv. 1 2 3 4 5 6
1 -
2 0,60 - Simétrica
3 1,00 0,60 -
4 1,00 0,60 1,00 -
5 0,20 0,20 0,20 0,20 -
6 0,20 0,20 0,20 0,20 1,00 -
Sn So
S S=2S +2S +2S
107
Indiv. 1 2 3 4 5 6
1 -
2 0,27 - Simétrica
3 0,87 0,69 -
4 0,85 0,78 0,99 -
5 0,38 0,82 0,58 0,71 -
6 0,61 0,48 0,56 0,67 0,87 -
Sq
Indiv. 1 2 3 4 5 6
1 -
2 3,45 - Simétrica
3 5,46 4,02 -
4 5,12 4,47 5,69 -
5 2,58 3,19 3,27 3,25 -
6 2,48 1,93 2,65 2,60 5,16 -
S=2Sn+2So+2Sq
Dn Do
D
Indiv. 1 2 3 4 5 6
1 -
2 0,40 - Simétrica
3 0,00 0,40 -
4 0,00 0,40 0,00 -
5 0,80 0,80 0,80 0,80 -
6 0,80 0,80 0,80 0,80 0,00 -
Indiv. 1 2 3 4 5 6
1 -
2 0,14 - Simétrica
3 0,14 0,29 -
4 0,29 0,14 0,14 -
5 0,29 0,43 0,14 0,29 -
6 0,57 0,71 0,43 0,57 0,29 -
D=2D +2D +2D
108
Dq
Indiv. 1 2 3 4 5 6
1 -
2 0,73 - Simétrica
3 0,13 0,31 -
4 0,15 0,22 0,01 -
5 0,63 0,18 0,42 0,29 -
6 0,39 0,52 0,44 0,33 0,13 -
D=2Dn+2Do+2Dq
Indiv. 1 2 3 4 5 6
1 -
2 2,55 - Simétrica
3 0,54 1,98 -
4 0,88 1,53 0,31 -
5 3,42 2,81 2,73 2,75 -
6 3,52 4,07 3,35 3,40 0,84 -

Continue navegando