4 ESTATÍSTICA Análise de Conglomerados

•

FATEC SJC

1

0

1

0

Felipe Grubisich

08/09/2016

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

58.418 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

����������
�
ANÁLISE DE AGRUPAMENTOSANÁLISE DE AGRUPAMENTOS
• Análise de Conglomerados
• Cluster Analysis
• Clustering
��	
��
�	�
���
��
�����
���
Outras denominações:
O que é?
É uma técnica Estatística de interdependência que permite agrupar
variáveis em grupos homogêneos em função do grau de similaridade
entre os indivíduos, a partir de variáveis predeterminadas.
Onde se aplica?
Em todas as áreas do conhecimento cujo objetivo seja segmentar as
observações em grupos homogêneos internamente e heterogêneos entre
si.
ANÁLISE DE AGRUPAMENTOSANÁLISE DE AGRUPAMENTOS
Identificar grupos de investimento de acordo com os perfis de risco
��	
��
�	�
���
��
�����
���
Exemplos de Aplicações
Classificação da Técnica
É uma técnica descritiva e não inferencial. Não é apropriada para
inferências de características da população a partir de dados amostrais
1
2 Identificar segmentos homogêneos de consumidores
3 Identificar grupos de alunos mais propensos à evasão escolar
4 Identificar grupos de segurados de menor risco
5 Segmentar empresas com base em indicadores financeiros
����������
�
ANÁLISE DE AGRUPAMENTOSANÁLISE DE AGRUPAMENTOS
Análise das variáveis a serem agrupadas (seleção das variáveis,
identificação de outliers e padronização de variáveis)
��	
��
�	�
���
��
�����
���
Etapas da Análise de Agrupamentos:
1
2 Seleção da medida de distância ou semelhança entre cada par de
variáveis.
3 Seleção do algoritmo de agrupamento: método hierárquico ou nãohierárquico
4 Escolha da quantidade de grupos a serem formados
5 Interpretação e validação dos agrupamentos
ANÁLISE DAS VARIÁVEIS A SEREM AGRUPADASANÁLISE DAS VARIÁVEIS A SEREM AGRUPADAS
As variáveis serão utilizadas para determinar a medida de similaridade,
ou seja, o critério de segregação dos grupos.
��	
��
�	�
���
��
�����
���
SELEÇÃO DAS VARIÁVEIS E IDENTIFICAÇÃO DE OUTLIERS
Os grupos a serem formados refletirão a estrutura inerente das variáveis
escolhidas.
A técnica não distingue se as variáveis são, ou não, relevantes para o
estudo. Ficando a cargo do pesquisador essa análise.
A inclusão de variáveis não representativas ou a presença de
multicolinearidade podem distorcer os resultados do estudo.
����������
�
ANÁLISE DAS VARIÁVEIS A SEREM AGRUPADASANÁLISE DAS VARIÁVEIS A SEREM AGRUPADAS
A variável que tem a maior dispersão tem o maior tem um peso maior no cálculo das
distâncias do que as demais.
��	
��
�	�
���
��
�����
���
PADRONIZAÇÃO DE VARIÁVEIS
A maior parte das medidas de distância sofre influência das diferentes escalas ou
magnitudes das variáveis.
A utilização de variáveis com medidas/escalas diferentes pode distorcer a estrutura do
agrupamento.
909080,1
10010075,1
22
22
≅+=
≅+=
B
A
d
d
ANÁLISE DAS VARIÁVEIS A SEREM AGRUPADASANÁLISE DAS VARIÁVEIS A SEREM AGRUPADAS
PADRONIZAÇÃO DE VARIÁVEIS
A forma mais comum de padronização consiste em transf. cada variável em Z scores
σ
µ−
=
−
=
x
s
xxZ
�	
��
�	�
���
��
�����
���
 �
1)707,0(707,0
1707,0)707,0(
22
22
=−+=
=+−=
B
A
d
d
����������
�
MEDIDAS DE SIMILARIDADEMEDIDAS DE SIMILARIDADE
O conceito de similaridade é de vital importância, uma vez que a identificação de
agrupamentos de objetos só é possível com a adoção de alguma medida de semelhança
que permita a comparação objetiva entre variáveis.
�	
��
�	�
���
��
�����
���
 �
“ A análise das relações de semelhança tem sido dominadas pelos modelos geométricos.
Esses modelos representam os objetos como pontos num espaço de coordenadas, de
forma que as dissimilaridades observadas entre os objetos correspondam às distâncias
métricas entre os respectivos pontos”
Taversky apud Reis (2001)
������ ����	
���
�
����������� ���	����
�
��		�������
��	��� ����� ����
��
	� ����� ���
�	����
� !�	��	"�#
� ����� ����
�����	 $�$�� ����
%
&��
���	�"���� ������ ���'�
�
��
�	�
 �$���� '���
���	����
MEDIDAS DE SIMILARIDADEMEDIDAS DE SIMILARIDADE
�	
��
�	�
���
��
�����
���
 '
Medidas de distância
Classificação das medidas de similaridade:
1
2 Medidas correlacionais
3 Medidas de associação
A escolha da medida de similaridade depende:
Natureza das variáveis:
Escala de medida:
Discreta Contínua Binária
Nominal Ordinal Intervalar
Medidas de distância e medidas correlacionais Dados métricos
Medidas de associação Dados não-métricos
Nominal Ordinal
����������
�
MEDIDAS DE DISTÂNCIAMEDIDAS DE DISTÂNCIA
�	
��
�	�
���
��
�����
���
 $
Distância Euclidiana
( )∑
=
−=
p
k
k
j
k
iij xxd
1
2
Distância Quadrática Euclidiana
( )∑
=
−=
p
k
k
j
k
iij xxd
1
22
Distância de Minkowski
( ) np
k
nk
j
k
iij xxd
1
1








−= ∑
=
Distância Absoluta, City-Block
( )∑
=
−=
p
k
k
j
k
iij xxd
1
Distância de Mahalanobis
( ) ( )jiTjiij xxSxxd −−= −1
Distância de Chebychev
k
j
k
iij xxd −= max
MEDIDAS CORRELACIONAISMEDIDAS CORRELACIONAIS
�	
��
�	�
���
��
�����
���
 ��
As medidas correlacionadas representam similaridade pela correspondência de padrões
ao longo das características (variáveis)
( )( )
( ) ( )
11
1
2
1
2
1 +≤≤−
−−
−−
=
∑∑
∑
==
=
ijp
k
j
k
j
p
k
i
k
i
j
k
j
p
k
i
k
i
ij r
xxxx
xxxx
r
Coef. de Correlação de Pearson
é a mais popular das medidas 
correlacionais
������ ����	
���
�
����������� ���	����
�
��		�������
��	��� ����� ����
��
	� ����� ���
�	����
� !�	��	"�#
� ����� ����
�����	 $�$�� ����
%
&��
���	�"���� ������ ���'�
�
��
�	�
 �$���� '���
���	����
����������
�
Comparação entre dois indivíduos com p caracteres
MEDIDAS DE ASSOCIAÇÃOMEDIDAS DE ASSOCIAÇÃO
�	
��
�	�
���
��
�����
���
 ��
As medidas de associação são utilizadas para representar a similaridade quando se trata 
de variáveis nominais, baseando-se em tabelas de contingência.
A presença ou ausência de determinada característica pode ser descrita 
matematicamente pela introdução de variáveis binárias.
Característica presente � Variável binária = 1
Característica ausente � Variável binária = 0
1 0 Total
1 a b a + b
0 c d c + d
Total a + c b + d p = a+ b + c + d
Indivíduo i
Indivíduo j
Comparação entre os indivíduos i e j com p caracteres 
MEDIDAS DE ASSOCIAÇÃOMEDIDAS DE ASSOCIAÇÃO
�	
��
�	�
���
��
�����
���
 ��
1 0 Total
1 a b a + b
0 c d c + d
Total a + c b + d p = a+ b + c + d
Indivíduo i
Indivíduo j
(�	�"��	)���"��
!	�������
��
i �
j
(�	�"��	)���"��
� ������
��
i �
j(�	�"��
� ������
��
i �
!	�������
j
(�	�"��
!	�������
��
i �
� ������
j
dcba
daSij
+++
+
=
dcba
cbdij
+++
+
=
Coeficientes de emparelhamento simples
*�#�#�
#�
����+,��-� *�#�#�
#�
����.�"��
����������
�
MÉTODOS DE AGRUPAMENTOMÉTODOS DE AGRUPAMENTO
�	
��
�	�
���
��
�����
���
 ��
Métodos 
Aglomerativos
Métodos 
DivisivosIterações
1
2
4
3
Métodos 
Hierárquicos
Métodos 
Não-Hierárquicos
MÉTODOS HIERÁRQUICOSMÉTODOS HIERÁRQUICOS
�	
��
�	�
���
��
�����
���
 ��
MÉTODO AGLOMERATIVO: Fluxograma
Começar com “N ” agrupamentos
(N = número total de indivíduos)
Calcular a matriz de distância
(ou a matriz de proximidade)
Matriz DN x N
�
Procurar na Matriz D os pares de 
indivíduos i e j mais semelhantes
( menor dij)
Formar o grupo (i j) 
Atualizar a Matriz D substituindo 
os indivíduos i e j pelo grupo (i j) 
Todos os 
“N” 
indivíduos 
agrupados
FIM
�/0
��*
�
�
�����������
'
MÉTODOS HIERÁRQUICOSMÉTODOS HIERÁRQUICOS
�	
��
�	�
���
��
�����
���
 ��
Distância entre dois Agrupamentos
Menor Distância ou Ligação Individual (Single Linkage – Nearest Neighbor)
i
j k
dik
djk
d (ij)k = min{dik , djk }
d (ij)(kl) = min{dik , djk , dil , djl } 
i
j
k
dikdjk
l
Após a formação do primeiro grupo, é preciso definir a forma de calcular a distância 
entre dois grupos
MÉTODOS HIERÁRQUICOSMÉTODOS HIERÁRQUICOS
�	
��
�	�
���
��
�����
���
 ��
Distância entre dois Agrupamentos
Maior Distância ou Ligação Completa (Complete Linkage – Furthest Neighbor)
i
j
k
dikdjk
l
d (ij)(kl) = máx{dik , djk , dil , djl } 
Distância Média ou Ligação Média (Average Linkage – Between Groups)
i
j
k
dikdjk
l
d (ij)(kl) = média{dik , djk , dil , djl } 
����������
$
MÉTODOS HIERÁRQUICOSMÉTODOS HIERÁRQUICOS
�	
��
�	�
���
��
�����
���
 ��
Distância entre dois Agrupamentos
Método do Centróide (Centroid )
*1#��
#�
�
#��
��
2�	�32���
EXEMPLOEXEMPLO
�	
��
�	�
���
��
�����
���
 �'
EMPRESAS VENDAS NÚMERO DE VENDAS N° FUNC.
(US$ milhões) EMPREGADOS (Padronizado) (Padronizado)
Ferramentas Gerais (1) 327.5 2150 -0.931 -1.038
Fiori (2) 312.2 661 -0.953 -1.427
Bretas Supermercados (3) 652.6 7200 -0.458 0.282
Renner (4) 929.0 7764 -0.056 0.429
Lojas Americanas (5) 1613.5 10281 0.939 1.087
Ponto Frio (6) 1971.0 8672 1.459 0.666
Média 967.6 6121.3
Desvio padrão 687.6 3827.7
1 2 3 4 5 6
1 0.000
2 0.152 0.000
3 1.964 3.163 0.000
4 2.916 4.248 0.183 0.000
5 8.010 9.898 2.601 1.423 0.000
6 8.616 10.200 3.824 2.353 0.447 0.000
*��	�4
#�
����+�	�#�#�
!�+�
����.�"��
5 �#	3��"�
6 "+�#����
����������
��
EXEMPLOEXEMPLO
�	
��
�	�
���
��
�����
���
 �$
� � � � � �
� �����
� ����� �����
� ��$�� ����� �����
� ��$�� ����' ���'� �����
� '���� $�'$' ����� ����� �����
� '���� ������ ��'�� ����� ����� �����
Formação do Primeiro Grupo Nova Matriz de Distâncias
������� � � � �
������� �����
� ��$�� �����
� ��$�� ���'� �����
� '���� ����� ����� �����
� '���� ��'�� ����� ����� �����
d 2(12)3 = min {d 213 , d 223} = min {1.964 ; 3.163} = 1.964
d 2(12)4 = min {d 214 , d 224} = min {2.916 ; 4.248} = 2.916
d 2(12)5 = min {d 215 , d 225} = min {8.010 ; 9.898} = 8.010
d 2(12)6 = min {d 216 , d 226} = min {8.616 ; 10.200}= 8.616
d 2(ij)k = min {d 2ik , d 2jk}
EXEMPLOEXEMPLO
�	
��
�	�
���
��
�����
���
 ��
Formação do Segundo Grupo Nova Matriz de Distâncias
������� � � � �
������� �����
� ��$�� �����
� ��$�� ���'� �����
� '���� ����� ����� �����
� '���� ��'�� ����� ����� �����
������� ������� � �
������� �����
������� ��$�� �����
� '���� ����� �����
� '���� ����� ����� �����
Formação do Terceiro Grupo Nova Matriz de Distâncias
������� ������� � �
������� �����
������� ��$�� �����
� '���� ����� �����
� '���� ����� ����� �����
������� ������� �������
������� �����
������� ��$�� �����
������� '���� ����� �����
Formação do Quarto Grupo
������� ������� �������
������� �����
������� ��$�� �����
������� '���� ����� �����
Formação do Quarto Grupo
������� ������������
������� �����
������������ ��$�� �����
������� ������������
������� �����
������������ ��$�� �����
Formação do Quinto Grupo
����������
��
EXEMPLOEXEMPLO
�	
��
�	�
���
��
�����
���
 ��
DENDOGRAMA: REPRESENT. GRÁFICA DO PROCESSO DE AGRUPAMENTO
��		�������
��	���
7�8
��
	�
7�8
�	���� 7�8
�����	
7�8
%
&��
���	�"����
7�8
�
��
�	�
7�8
����.�"���� � �
� 
EXEMPLOEXEMPLO
�	
��
�	�
���
��
�����
���
 ��
UTILIZANDO O MINITAB
����������
��
EXEMPLOEXEMPLO
�	
��
�	�
���
��
�����
���
 ��
UTILIZANDO O MINITAB
EXEMPLOEXEMPLO
�	
��
�	�
���
��
�����
���
 ��
RESULTADOS DO MINITAB
Cluster Analysis of Observations: C2; C3 
Standardized Variables, Squared Euclidean Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 5 98.5116 0.15182 1 2 1 2
2 4 98.2030 0.18330 3 4 3 2
3 3 95.6175 0.44702 5 6 5 2
4 2 86.0452 1.42339 3 5 3 4
5 1 80.7437 1.96415 1 3 1 6
Final Partition
Number of clusters: 1
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 6 10 1.18682 1.71569
����������
��
EXEMPLOEXEMPLO
�	
��
�	�
���
��
�����
���
 ��
654321
1.96
1.31
0.65
0.00
Observations
D
is
ta
n
c
e
Dendrogram
Single Linkage; Squared Euclidean Distance
RESULTADOS DO MINITAB
�	
��
�	�
���
��
�����
���
 ��
MÉTODOS NÃO-HIERÁRQUICOSMÉTODOS NÃO-HIERÁRQUICOS
Os procedimentos Não-Hierárquicos são métodos que tem como objetivo encontrar 
diretamente uma partição de “n” elementos em “K” grupos, de modo que a partição 
satisfaça dois requisitos básicos:
• Coesão interna (semelhança entre elementos do mesmo grupo)
• Isolamento (separação – distanciamento) dos grupos formados
Os métodos Não-Hierárquicos não requerem o cálculo e o armazenamento de uma nova 
matriz de distância a cada iteração, o que reduz o tempo de processamento e possibilita 
a sua aplicação a grandes bases de dados.
����������
��
�	
��
�	�
���
��
�����
���
 ��
MÉTODOS NÃO-HIERÁRQUICOSMÉTODOS NÃO-HIERÁRQUICOS
Como são designadas as observações iniciais ?
Seleção Aleatoria de K objetos (indivíduos).
Seleção das K primeiras observações.
Seleção sequencial: seleciona-se as sementes de agrupamento de forma que a 
distância entre os centroides seja maior do que um valor predefinido. 
Aplicação de alguma heurística para que estejam o mais distante possível.
1
2
4
3
�	
��
�	�
���
��
�����
���
 �'
MÉTODOS NÃO-HIERÁRQUICOSMÉTODOS NÃO-HIERÁRQUICOS
Os métodos Não-Hierárquicos são métodos de otimização que buscam encontrar uma 
partição dos dados que maximize algum critério pré-definido relacionado a similaridade 
entre as observações dentro do agrupamento e dissimilaridade entre observações de 
diferentes agrupamentos
Os diferentes métodos existentes diferem em relação ao critério (função objetivo) a ser 
otimizado e ao procedimento (variável de decisão) de otimização adotado.
O método Não-Hierárquico mais popular é o K-Means
(a distância para a formação dos grupos é a distância euclidiana) 
“Este método persegue o objetivo de minimização da variância interna aos grupos e 
maximização da variância entre os grupos.”
����������
��
�	
��
�	�
���
��
�����
���
 �$
K-means no MinitabK-means no Minitab
EMPRESAS ������ ����	
���� ������ �! ���	����
�
(US$ milhões) EMPREGADOS (Padronizado) (Padronizado)
Ferramentas Gerais (1) 327.5 2150 -0.931 -1.038
Fiori (2) 312.2 661 -0.953 -1.427
Bretas Supermercados (3) 652.6 7200 -0.458 0.282
Renner (4) 929.0 7764 -0.056 0.429
Lojas Americanas (5) 1613.5 10281 0.939 1.087
Ponto Frio (6) 1971.0 8672 1.459 0.666
�	
��
�	�
���
��
�����
���
 ��
K-means no MinitabK-means no Minitab
����������
��
�	
��
�	�
���
��
�����
���
 ��
K-means no MinitabK-means no Minitab
Standardized Variables
Final Partition
Number of clusters: 3
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 2 0.076 0.195 0.195
Cluster2 2 0.0920.214 0.214
Cluster3 2 0.224 0.334 0.334
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 centroid
C2 -0.9421 -0.2572 1.1993 0.0000
C3 -1.2320 0.3555 0.8765 0.0000
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3
Cluster1 0.0000 1.7289 3.0052
Cluster2 1.7289 0.0000 1.5468
Cluster3 3.0052 1.5468 0.0000
�	
��
�	�
���
��
�����
���
 ��
K-means no MinitabK-means no Minitab
9�����
9�����
9�����
9�����
�����
�����
�����
�����
9����� 9����� 9����� ����� ����� ����� ����� �����
�
"
�
�#
$
%
��
��
&
#�
'(
%
$
�
�)
��
��*%(� �
��������������)��
Variable Cluster1 Cluster2 Cluster3 
C2 -0.9421 -0.2572 1.1993 
C3 -1.2320 0.3555 0.8765 
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 2 0.076 0.195 0.195
Cluster2 2 0.092 0.214 0.214
Cluster3 2 0.224 0.334 0.334
0.334
0.195
0.214
224.0334.0334.0 22 ≅+
092.0214.0214.0 22 ≅+
0076195.0195.0 22 ≅+
����������
��
�	
��
�	�
���
��
�����
���
 ��
QDE DE GRUPOS A SEREM FORMADOSQDE DE GRUPOS A SEREM FORMADOS
Não existe um procedimento padrão para estabelecer o número adequado de grupos
No exemplo Hierárquico das seis empresas
6��!�
�
6��!�
� 6��	�
��
���!��
�
�
�
,3
 �
��+�
��
#���.�"��
���	�
�
:	 !
�
;
� :�	��#
�
�<���=�"��
#�
�
:	 !
�
Estatísticas para Auxiliar na Determinação do Número de Grupos:
Root-mean-square standard deviation (RMSSTD) do número de grupos
Semipartial R-Square (SPR) 
R-Square (RS)