Aula 7 Análise de Cluster - 2023

Clínica Médica I

•

UFV

agrofort.agrofort123

24/05/2024

Prévia do material em texto

Análise de Cluster
UNIVERSIDADE DE SÃO PAULO
FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E
CONTABILIDADE DE RIBEIRÃO PRETO
DEPARTAMENTO DE CONTABILIDADE
Prof. Fabiano Guasti Lima
fabianoguastilima@gmail.com
Pós-Graduação – 2023
mailto:fabianoguastilima@gmail.com
Tipo de relação
Dependência Interdependência
Classificação das Técnicas 
Multivariadas
No. Variáveis
Explicadas
Próximo ...
Relações 
múltiplas de 
VD e VI
Várias 
variáveis 
única relação
Uma VD 
Única relação
Escala da VD
Métrica Não Métrica
Regressão 
Múltipla
Análise 
Discriminante Regressão 
Logística
Tipo de relação
Dependência Interdependência
Classificação das Técnicas 
Multivariadas
...
Estrutura de 
Relacionamento
Variáveis Casos Objetos
Análise 
Fatorial
Análise 
Conglomerados
CLUSTER ANALISYS
ANÁLISE DE AGRUPAMENTOS
ANÁLISE DE CONGLOMERADOS
ANÁLISE DE CLUSTER
5
CONCEITOS E DISTINÇÕES
 É um grupo de técnicas de análise
multivariada cujo propósito primário é reunir
objetos baseado nas características dos
mesmos.
 Alta homogeneidade interna (within-cluster) e
alta heterogeneidade externa (between-
cluster).
 Outras denominações: Q analysis, typology,
classification analysis, numerical taxonomy;
análise de agrupamento, análise de
conglomerados.
Agrupamento -Análise de 
Clusters
a F 1 0 1 1
b M 0 0 1 1
c F 1 1 1 0
d F 1 0 0 0
e M 1 1 0 1
a2
a3
a1
a11
a4
a7
a9a10 a5
Número de Clusters = 3 Conceito = Produtos 
Produto X
Produto Z
Produto Y
a8
a6
a1
.
.
.
a2
Nome Sexo Características
7
OBJETIVOS, UTILIDADES E 
APLICAÇÕES
 Redução de dados de uma amostra a um número
determinado de perfis (redução do número de
objetos).
 Desenvolver hipóteses quanto à natureza dos
dados ou examinar hipóteses já estabelecidas.
 Seleção das variáveis é de extrema importância.
A técnica não distingue se as variáveis são ou
não relevantes.
 Altamente sensível a outliers
8
ANÁLISE DAS VARIÁVEIS E DOS 
OBJETOS
 A validade das conclusões dependerá das
variáveis selecionadas (cluster variate) a partir
do conhecimento que o pesquisador tem da
realidade observada.
 É descritiva, ateórica e não inferencial (não
tem base estatística)  sempre cria grupos
independentemente da verdadeira existência
de uma estrutura nos dados.
 Não existe o melhor, apenas bons e maus
agrupamentos (exemplo das cartas do
baralho).
9
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 Padronização das variáveis: consiste em
transformar cada variável em escore
padrão Z permitindo que seja eliminado o
viés das diferenças de escalas.
x média
Z
desvio padrão


Z scores – média 0 e desvio padrão 1
10
MÉTODOS DE PADRONIZAÇÃO
RANGE -1 A 1: variável padronizada de
amplitude 1
x
Z
máximo mínimo


RANGE 0 A 1: variável padronizada de
variação de 0 a 1
x mínimo
Z
máximo mínimo



11
MÉTODOS DE PADRONIZAÇÃO
MÁXIMA AMPLITUDE: confere a variável o
valor máximo 1
x
Z
máximo

MÉDIA 1: transforma a variável para ter
média 1
x
Z
média

12
MÉTODOS DE PADRONIZAÇÃO
DESVIO PADRÃO 1: transforma a variável
para ter desvio padrão 1
x
Z
desvio padrão

13
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
OBSERVAÇÕES SÃO AGRUPADAS POR
ALGUMA MÉTRICA DE DISTÂNCIA OU
DISSIMILARIDADE.
 Quanto maiores os valores menor é a 
semelhança entre os objetos, e vice-versa.
14
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
Tipos de medidas de distância:
 Distância euclidiana simples;
 Distância euclidiana quadrada;
 Distância Minkowski.
 Distância City-block (Manhattan, ou Bloco);
 Distância Mahalanobis;
 Distância Chebychev;
 O coeficiente de correlação é uma 
medida de similaridade, enquanto 
que a distância euclidiana é uma 
medida de dissimilaridade;
 Quanto maior for a medida de 
similaridade maior semelhança 
entre os indivíduos.
MEDIDAS DE SIMILARIDADE
Distância euclidiana
Distância euclidiana
Distância euclidiana
Distância euclidiana média
Distância quadrática euclidiana
p
2 2
ij ik jk
k 1
d (x x )

 
O SPSS usa esta medida como padrão de distância.
Indicada para métodos de agrupamentos CENTRÓIDE e WARD;
Distância de Minkowski
1
p n
n
ij ik jk
k 1
d (x x )

 
  
 

Se n = 2, temos a distância euclidiana;
Se n = 1, temos a distância City-Block
Distância de City Block ou Manhattan
p
ij ik jk
k 1
d x x

 
Distância de Mahalanobis
 
1
ij i j i j
d (x x )' Matriz Covariância (x x )

  
Distância de Chebchev
ij k ik jk
d max x x 
Exemplo – Medindo similaridade 
Empresas Vendas
(US$ milhões)
Num. 
Empregados
Ferramentas Gerais 327,5 2.150
Fiori 312,2 661
Bretas Supermercado 652,6 7.200
Renner 929,0 7.764
Lojas Americanas 1.613,5 10.281
Ponto Frio 1.971,0 8.672
Empresas Maiores e Melhores – Abril de 2007
Setor Comércio Varejista
Exemplo – Medindo similaridade 
0
2.000
4.000
6.000
8.000
10.000
12.000
0 500 1000 1500 2000 2500
N
ú
m
e
ro
 d
e
 E
m
p
re
ga
d
o
s
Vendas (US$ milhões)
Fiori
Ferramentas Gerais
Bretas
Lojas Americanas
Renner Ponto Frio
Exemplo – Medindo similaridade 
Empresas Vendas
(US$ milhões)
Num. 
Empregados
Ferramentas Gerais 327,5 2.150
Fiori 312,2 661
Bretas Supermercado 652,6 7.200
Renner 929,0 7.764
Lojas Americanas 1.613,5 10.281
Ponto Frio 1.971,0 8.672
Estatísticas Vendas
(US$ milhões)
Num. 
Empregados
Média 967,633 6121,333
Desvio Padrão 687,603 3827,723
Exemplo – Medindo similaridade 
Empresas Vendas
(US$ milhões)
Num. 
Empregados
Ferramentas Gerais -0,931 -1,038
Fiori -0,953 -1,427
Bretas Supermercado -0,458 0,282
Renner -0,056 0,429
Lojas Americanas 0,939 1,087
Ponto Frio 1,459 0,666
Padronizando pelo método Z scores
Exemplo – Medindo similaridade 
Empresas Vendas
(US$ milhões)
Num. 
Empregados
Ferramentas Gerais -0,931 -1,038
Fiori -0,953 -1,427
Bretas Supermercado -0,458 0,282
Renner -0,056 0,429
Lojas Americanas 0,939 1,087
Ponto Frio 1,459 0,666
Padronizando pelo método Z scores
Exemplo – Medindo similaridade 
Distância Quadrática Euclidiana entre Ferramentas Gerais e
Fiori:
p
2 2
ij ik jk
k 1
d (x x )

 
2 2 2
ij
d ( 0,931 ( 0,953)) ( 1,038 ( 1,427)) 0,152        
Ferramentas 
Gerais 
Fiori Bretas 
Supermercado 
Renner Lojas 
Americanas 
Ponto 
Frio 
Ferramentas Gerais 0,000
Fiori 0,152 0,000
Bretas Supermercado 1,964 3,163 0,000
Renner 2,916 4,248 0,183 0,000
Lojas Americanas 8,010 9,898 2,601 1,423 0,000
Ponto Frio 8,616 10,20
0
3,824 2,353 0,447 0,000
29
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
SELECIONADAS AS VARIÁVEIS, ESCOLHIDA A
MEDIDA DE SIMILARIDADED DEVEMOS
ESCOLHER O Algoritmo de agrupamento:
 Qual o procedimento deve ser usado para colocar
objetos similares dentro de grupos? Temos os
hierárquicos e os não-hierárquicos.
Todo algoritmo visa maximizar as diferenças entre
os grupos em confronto com a variação dentro
dos mesmos (between-cluster x within-cluster).
30
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 Procedimentos hierárquicos de agrupamento:
envolvem a construção de uma hierarquia
semelhante a uma árvore. São de dois tipos:
aglomerativos e divisivos.
 Algoritmos mais populares: (1) single linkage; (2)
complete linkage; (3) avarage linkage; (4)
Ward’s method; e (5) centroid method.
31
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 1) Single linkage: baseado na distância mínima
entre dois objetos. É também chamado de
nearest neighbor. Problema da cadeia.
 2) Complete linkage: é baseado na distância
máxima, razão pela qual é conhecido como a
abordagem do vizinho mais longe (furthest
neighbor).
32
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 3) Avarage linkage: ou ligação média, onde o
critério é a distância de todos os indivíduos de
um grupo em relação a todos de outro (no SPSS,
as opções between-groups e within-groups
linkage). Tende a produzir grupos com
aproximadamente a mesma variância.
 4) Ward ’ s method: minimiza a soma dos
quadrados entre dois grupos em relação a todas
as variáveis. Tende a produzir grupos com
mesmonúmero de observações.
33
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 5) Centroid method: a distância entre os grupos é
a distância entre seus centróides, que são os
valores médios das observações em relação às
variáveis. Cada vez que indivíduos são agrupados,
um novo centróide é calculado. Tanto este
método quanto o de Ward exigem a distância
euclidiana.
34
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 Métodos não-hierárquicos de agrupamento: ou
métodos de partição, atribuem objetos a um
grupo uma vez que o número de grupos a ser
formado esteja especificado. São referidos como
K-means clustering.
 Seleciona um grupo “ semente ” (seed) como
grupo inicial, e todos os objetos próximos são
incluídos nesse grupo. Um novo grupo semente é
escolhido, e o processo continua até todas as
observações serem distribuídas.
35
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 O métodos não-hierárquicos são os seguintes:
 Sequential threshold: ou princípio seqüencial,
seleciona um grupo semente e inclui todos os
objetos dentro de uma distância preestabelecida.
Após, um novo grupo semente é selecionado, e o
processo continua. Quando um objeto é destinado
a um grupo semente, ele não é mais considerado
nos subseqüentes.
36
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 Parallel threshold: ou princípio paralelo, seleciona
vários grupos semente e inclui todos os objetos
dentro daquele mais próximo. À medida que o
processo evolui, as distâncias podem ser
ajustadas para incluir menos ou mais objetos
(disponível no SPSS).
 Optimization: similar aos anteriores, exceto que
ele permite a realocação de objetos em função da
maior proximidade com outro grupo (disponível
no SPSS).
37
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 Seleção dos grupos sementes: pode ser aleatório
ou escolhidos pelo pesquisador. Um dos problemas
no primeiro caso é que o resultado final depende
da ordem dos dados.
 Vantagens e desvantagens dos métodos
hierárquicos:
 são rápidos e exigem menos tempo de processamento;
 não realocam combinações anteriores;
 é sensivelmente impactado por outliers;
 não são apropriados para amostras muito grandes.
38
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 Vantagens e desvantagens dos métodos não-
hierárquicos:
 podem realocar combinações anteriores;
 são menos sensíveis a outliers, à medida de distância e a
variáveis inapropriadas (quando os grupos sementes são
escolhidos pelo pesquisador);
 os resultados dependem do processo de escolha dos
pontos semente. Segundo Hair, o processo aleatório é
inferior às técnicas hierárquicas;
 Johnson e Wichern criticam prefixação do no de grupos.
39
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 Uma combinação de ambos os métodos:
 primeiro, uma técnica hierárquica estabelece o
número de grupos, traça o perfil dos núcleos
centrais e identifica outliers;
 Depois de eliminar eventuais outliers, aplica-se
um método não-hierárquico, tendo como
grupos sementes os núcleos centrais definidos
através do método hierárquico.
40
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 Quantos grupos devem ser formados?
 Não existe um critério categórico
 Uma regra de parada (stopping rule) simples é examinar
a distância entre os grupos a cada passo sucessivo;
 Outra regra seria adaptar um teste estatístico de
significância;
 Além disso, o pesquisador deve confrontar com o
referencial teórico, que pode sugerir um número natural
de grupos;
 Deve-se, ao final, buscar a melhor solução dentre as
possíveis.
41
O PROCESSO DE DECISÃO NA 
ANÁLISE CLUSTER
 Envolve o exame de cada grupo, tendo em vista o
conjunto de variáveis, para denominar ou atribuir
uma identificação que descreva adequadamente a
natureza dos mesmos.
 Para esse processo, podem ser utilizados escores,
de modo a identificar alguma hierarquia dentre os
mesmos.
 Nessa fase, o pesquisador deve comparar os
resultados com aqueles propostos anteriormente
pela teoria ou pela experiência prática.
Interpretação dos grupos
Exemplo – Medindo similaridade 
Adotando o método da Ligação Individual ou Menor Distância
(Single Linkage ou Nearest Neighbor)
 
k(ij) ik jk 12
d min d ,d d 0,152  
Ferramentas 
Gerais (1)
Fiori 
(2)
Bretas 
Supermercado 
(3)
Renner 
(4)
Lojas 
Americanas 
(5)
Ponto 
Frio 
(6)
Ferramentas Gerais (1) 0,000
Fiori (2) 0,152 0,000
Bretas Supermercado (3) 1,964 3,163 0,000
Renner (4) 2,916 4,248 0,183 0,000
Lojas Americanas (5) 8,010 9,898 2,601 1,423 0,000
Ponto Frio (6) 8,616 10,200 3,824 2,353 0,447 0,000
 
k(ij)
d min 1,964,3,163 d 1,964  
Exemplo – Medindo similaridade 
Adotando o método da Ligação Individual ou Menor Distância
(Single Linkage ou Nearest Neighbor)
Grupo 
(1,2)
Bretas 
Supermercado
(3)
Renner 
(4)
Lojas
Americanas 
(5)
Ponto Frio
(6) 
Grupo (1,2) 0,000
Bretas Supermercado (3) 1,964 0,000
Renner (4) 2,916 0,183 0,000
Lojas Americanas (5) 8,010 2,601 1,423 0,000
Ponto Frio (6) 8,616 3,824 2,353 0,447 0,000
 
k(ij)
d min 1,964,2,916 d 1,964  
 
k(ij)
d min 2,601,1,423 d 1,423  
 
k(ij)
d min 3,824,2,353 d 2,353  
Exemplo – Medindo similaridade 
Adotando o método da Ligação Individual ou Menor Distância
(Single Linkage ou Nearest Neighbor)
Grupo (1,2) Grupo (3,4) Lojas Americanas
(5) 
Ponto Frio 
(6)
Grupo (1,2) 0,000 0,000
Grupo (3,4) 1,964 0,000
Lojas Americanas (5) 8,010 1,423 0,000
Ponto Frio (6) 8,616 2,353 0,447 0,000
 
k(ij)
d min 8,010,8,616 d 8,010  
 
k(ij)
d min 1,423,2,353 d 1,423  
Exemplo – Medindo similaridade 
Adotando o método da Ligação Individual ou Menor Distância
(Single Linkage ou Nearest Neighbor)
Grupo (1,2) Grupo (3,4) Grupo (5,6)
Grupo (1,2) 0,000
Grupo (3,4) 1,964 0,000
Grupo (5,6) 8,010 1,423 0,000
Exemplo – Medindo similaridade 
Adotando o método da Ligação Individual ou Menor Distância
(Single Linkage ou Nearest Neighbor)
Grupo (1,2) Grupo (3,4) e Grupo (5,6)
Grupo (1,2) 0,000
Grupo (3,4) e Grupo (5,6) 1,964 0,000
DENDROGRAMA