Baixe o app para aproveitar ainda mais
Prévia do material em texto
���������� � ANÁLISE DE AGRUPAMENTOSANÁLISE DE AGRUPAMENTOS • Análise de Conglomerados • Cluster Analysis • Clustering �� �� � � ��� �� ����� ��� Outras denominações: O que é? É uma técnica Estatística de interdependência que permite agrupar variáveis em grupos homogêneos em função do grau de similaridade entre os indivíduos, a partir de variáveis predeterminadas. Onde se aplica? Em todas as áreas do conhecimento cujo objetivo seja segmentar as observações em grupos homogêneos internamente e heterogêneos entre si. ANÁLISE DE AGRUPAMENTOSANÁLISE DE AGRUPAMENTOS Identificar grupos de investimento de acordo com os perfis de risco �� �� � � ��� �� ����� ��� Exemplos de Aplicações Classificação da Técnica É uma técnica descritiva e não inferencial. Não é apropriada para inferências de características da população a partir de dados amostrais 1 2 Identificar segmentos homogêneos de consumidores 3 Identificar grupos de alunos mais propensos à evasão escolar 4 Identificar grupos de segurados de menor risco 5 Segmentar empresas com base em indicadores financeiros ���������� � ANÁLISE DE AGRUPAMENTOSANÁLISE DE AGRUPAMENTOS Análise das variáveis a serem agrupadas (seleção das variáveis, identificação de outliers e padronização de variáveis) �� �� � � ��� �� ����� ��� Etapas da Análise de Agrupamentos: 1 2 Seleção da medida de distância ou semelhança entre cada par de variáveis. 3 Seleção do algoritmo de agrupamento: método hierárquico ou nãohierárquico 4 Escolha da quantidade de grupos a serem formados 5 Interpretação e validação dos agrupamentos ANÁLISE DAS VARIÁVEIS A SEREM AGRUPADASANÁLISE DAS VARIÁVEIS A SEREM AGRUPADAS As variáveis serão utilizadas para determinar a medida de similaridade, ou seja, o critério de segregação dos grupos. �� �� � � ��� �� ����� ��� SELEÇÃO DAS VARIÁVEIS E IDENTIFICAÇÃO DE OUTLIERS Os grupos a serem formados refletirão a estrutura inerente das variáveis escolhidas. A técnica não distingue se as variáveis são, ou não, relevantes para o estudo. Ficando a cargo do pesquisador essa análise. A inclusão de variáveis não representativas ou a presença de multicolinearidade podem distorcer os resultados do estudo. ���������� � ANÁLISE DAS VARIÁVEIS A SEREM AGRUPADASANÁLISE DAS VARIÁVEIS A SEREM AGRUPADAS A variável que tem a maior dispersão tem o maior tem um peso maior no cálculo das distâncias do que as demais. �� �� � � ��� �� ����� ��� PADRONIZAÇÃO DE VARIÁVEIS A maior parte das medidas de distância sofre influência das diferentes escalas ou magnitudes das variáveis. A utilização de variáveis com medidas/escalas diferentes pode distorcer a estrutura do agrupamento. 909080,1 10010075,1 22 22 ≅+= ≅+= B A d d ANÁLISE DAS VARIÁVEIS A SEREM AGRUPADASANÁLISE DAS VARIÁVEIS A SEREM AGRUPADAS PADRONIZAÇÃO DE VARIÁVEIS A forma mais comum de padronização consiste em transf. cada variável em Z scores σ µ− = − = x s xxZ � �� � � ��� �� ����� ��� � 1)707,0(707,0 1707,0)707,0( 22 22 =−+= =+−= B A d d ���������� � MEDIDAS DE SIMILARIDADEMEDIDAS DE SIMILARIDADE O conceito de similaridade é de vital importância, uma vez que a identificação de agrupamentos de objetos só é possível com a adoção de alguma medida de semelhança que permita a comparação objetiva entre variáveis. � �� � � ��� �� ����� ��� � “ A análise das relações de semelhança tem sido dominadas pelos modelos geométricos. Esses modelos representam os objetos como pontos num espaço de coordenadas, de forma que as dissimilaridades observadas entre os objetos correspondam às distâncias métricas entre os respectivos pontos” Taversky apud Reis (2001) ������ ���� ��� � ����������� ��� ���� � �� ������� �� ��� ����� ���� �� � ����� ��� � ���� � !� �� "�# � ����� ���� ����� $�$�� ���� % &�� ��� �"���� ������ ���'� � �� � � �$���� '��� ��� ���� MEDIDAS DE SIMILARIDADEMEDIDAS DE SIMILARIDADE � �� � � ��� �� ����� ��� ' Medidas de distância Classificação das medidas de similaridade: 1 2 Medidas correlacionais 3 Medidas de associação A escolha da medida de similaridade depende: Natureza das variáveis: Escala de medida: Discreta Contínua Binária Nominal Ordinal Intervalar Medidas de distância e medidas correlacionais Dados métricos Medidas de associação Dados não-métricos Nominal Ordinal ���������� � MEDIDAS DE DISTÂNCIAMEDIDAS DE DISTÂNCIA � �� � � ��� �� ����� ��� $ Distância Euclidiana ( )∑ = −= p k k j k iij xxd 1 2 Distância Quadrática Euclidiana ( )∑ = −= p k k j k iij xxd 1 22 Distância de Minkowski ( ) np k nk j k iij xxd 1 1 −= ∑ = Distância Absoluta, City-Block ( )∑ = −= p k k j k iij xxd 1 Distância de Mahalanobis ( ) ( )jiTjiij xxSxxd −−= −1 Distância de Chebychev k j k iij xxd −= max MEDIDAS CORRELACIONAISMEDIDAS CORRELACIONAIS � �� � � ��� �� ����� ��� �� As medidas correlacionadas representam similaridade pela correspondência de padrões ao longo das características (variáveis) ( )( ) ( ) ( ) 11 1 2 1 2 1 +≤≤− −− −− = ∑∑ ∑ == = ijp k j k j p k i k i j k j p k i k i ij r xxxx xxxx r Coef. de Correlação de Pearson é a mais popular das medidas correlacionais ������ ���� ��� � ����������� ��� ���� � �� ������� �� ��� ����� ���� �� � ����� ��� � ���� � !� �� "�# � ����� ���� ����� $�$�� ���� % &�� ��� �"���� ������ ���'� � �� � � �$���� '��� ��� ���� ���������� � Comparação entre dois indivíduos com p caracteres MEDIDAS DE ASSOCIAÇÃOMEDIDAS DE ASSOCIAÇÃO � �� � � ��� �� ����� ��� �� As medidas de associação são utilizadas para representar a similaridade quando se trata de variáveis nominais, baseando-se em tabelas de contingência. A presença ou ausência de determinada característica pode ser descrita matematicamente pela introdução de variáveis binárias. Característica presente � Variável binária = 1 Característica ausente � Variável binária = 0 1 0 Total 1 a b a + b 0 c d c + d Total a + c b + d p = a+ b + c + d Indivíduo i Indivíduo j Comparação entre os indivíduos i e j com p caracteres MEDIDAS DE ASSOCIAÇÃOMEDIDAS DE ASSOCIAÇÃO � �� � � ��� �� ����� ��� �� 1 0 Total 1 a b a + b 0 c d c + d Total a + c b + d p = a+ b + c + d Indivíduo i Indivíduo j (� �"�� )���"�� ! ������� �� i � j (� �"�� )���"�� � ������ �� i � j(� �"�� � ������ �� i � ! ������� j (� �"�� ! ������� �� i � � ������ j dcba daSij +++ + = dcba cbdij +++ + = Coeficientes de emparelhamento simples *�#�#� #� ����+,��-� *�#�#� #� ����.�"�� ���������� � MÉTODOS DE AGRUPAMENTOMÉTODOS DE AGRUPAMENTO � �� � � ��� �� ����� ��� �� Métodos Aglomerativos Métodos DivisivosIterações 1 2 4 3 Métodos Hierárquicos Métodos Não-Hierárquicos MÉTODOS HIERÁRQUICOSMÉTODOS HIERÁRQUICOS � �� � � ��� �� ����� ��� �� MÉTODO AGLOMERATIVO: Fluxograma Começar com “N ” agrupamentos (N = número total de indivíduos) Calcular a matriz de distância (ou a matriz de proximidade) Matriz DN x N � Procurar na Matriz D os pares de indivíduos i e j mais semelhantes ( menor dij) Formar o grupo (i j) Atualizar a Matriz D substituindo os indivíduos i e j pelo grupo (i j) Todos os “N” indivíduos agrupados FIM �/0 ��* � � ����������� ' MÉTODOS HIERÁRQUICOSMÉTODOS HIERÁRQUICOS � �� � � ��� �� ����� ��� �� Distância entre dois Agrupamentos Menor Distância ou Ligação Individual (Single Linkage – Nearest Neighbor) i j k dik djk d (ij)k = min{dik , djk } d (ij)(kl) = min{dik , djk , dil , djl } i j k dikdjk l Após a formação do primeiro grupo, é preciso definir a forma de calcular a distância entre dois grupos MÉTODOS HIERÁRQUICOSMÉTODOS HIERÁRQUICOS � �� � � ��� �� ����� ��� �� Distância entre dois Agrupamentos Maior Distância ou Ligação Completa (Complete Linkage – Furthest Neighbor) i j k dikdjk l d (ij)(kl) = máx{dik , djk , dil , djl } Distância Média ou Ligação Média (Average Linkage – Between Groups) i j k dikdjk l d (ij)(kl) = média{dik , djk , dil , djl } ���������� $ MÉTODOS HIERÁRQUICOSMÉTODOS HIERÁRQUICOS � �� � � ��� �� ����� ��� �� Distância entre dois Agrupamentos Método do Centróide (Centroid ) *1#�� #� � #�� �� 2� �32��� EXEMPLOEXEMPLO � �� � � ��� �� ����� ��� �' EMPRESAS VENDAS NÚMERO DE VENDAS N° FUNC. (US$ milhões) EMPREGADOS (Padronizado) (Padronizado) Ferramentas Gerais (1) 327.5 2150 -0.931 -1.038 Fiori (2) 312.2 661 -0.953 -1.427 Bretas Supermercados (3) 652.6 7200 -0.458 0.282 Renner (4) 929.0 7764 -0.056 0.429 Lojas Americanas (5) 1613.5 10281 0.939 1.087 Ponto Frio (6) 1971.0 8672 1.459 0.666 Média 967.6 6121.3 Desvio padrão 687.6 3827.7 1 2 3 4 5 6 1 0.000 2 0.152 0.000 3 1.964 3.163 0.000 4 2.916 4.248 0.183 0.000 5 8.010 9.898 2.601 1.423 0.000 6 8.616 10.200 3.824 2.353 0.447 0.000 *�� �4 #� ����+� �#�#� !�+� ����.�"�� 5 �# 3��"� 6 "+�#���� ���������� �� EXEMPLOEXEMPLO � �� � � ��� �� ����� ��� �$ � � � � � � � ����� � ����� ����� � ��$�� ����� ����� � ��$�� ����' ���'� ����� � '���� $�'$' ����� ����� ����� � '���� ������ ��'�� ����� ����� ����� Formação do Primeiro Grupo Nova Matriz de Distâncias ������� � � � � ������� ����� � ��$�� ����� � ��$�� ���'� ����� � '���� ����� ����� ����� � '���� ��'�� ����� ����� ����� d 2(12)3 = min {d 213 , d 223} = min {1.964 ; 3.163} = 1.964 d 2(12)4 = min {d 214 , d 224} = min {2.916 ; 4.248} = 2.916 d 2(12)5 = min {d 215 , d 225} = min {8.010 ; 9.898} = 8.010 d 2(12)6 = min {d 216 , d 226} = min {8.616 ; 10.200}= 8.616 d 2(ij)k = min {d 2ik , d 2jk} EXEMPLOEXEMPLO � �� � � ��� �� ����� ��� �� Formação do Segundo Grupo Nova Matriz de Distâncias ������� � � � � ������� ����� � ��$�� ����� � ��$�� ���'� ����� � '���� ����� ����� ����� � '���� ��'�� ����� ����� ����� ������� ������� � � ������� ����� ������� ��$�� ����� � '���� ����� ����� � '���� ����� ����� ����� Formação do Terceiro Grupo Nova Matriz de Distâncias ������� ������� � � ������� ����� ������� ��$�� ����� � '���� ����� ����� � '���� ����� ����� ����� ������� ������� ������� ������� ����� ������� ��$�� ����� ������� '���� ����� ����� Formação do Quarto Grupo ������� ������� ������� ������� ����� ������� ��$�� ����� ������� '���� ����� ����� Formação do Quarto Grupo ������� ������������ ������� ����� ������������ ��$�� ����� ������� ������������ ������� ����� ������������ ��$�� ����� Formação do Quinto Grupo ���������� �� EXEMPLOEXEMPLO � �� � � ��� �� ����� ��� �� DENDOGRAMA: REPRESENT. GRÁFICA DO PROCESSO DE AGRUPAMENTO �� ������� �� ��� 7�8 �� � 7�8 � ���� 7�8 ����� 7�8 % &�� ��� �"���� 7�8 � �� � � 7�8 ����.�"���� � � � EXEMPLOEXEMPLO � �� � � ��� �� ����� ��� �� UTILIZANDO O MINITAB ���������� �� EXEMPLOEXEMPLO � �� � � ��� �� ����� ��� �� UTILIZANDO O MINITAB EXEMPLOEXEMPLO � �� � � ��� �� ����� ��� �� RESULTADOS DO MINITAB Cluster Analysis of Observations: C2; C3 Standardized Variables, Squared Euclidean Distance, Single Linkage Amalgamation Steps Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster 1 5 98.5116 0.15182 1 2 1 2 2 4 98.2030 0.18330 3 4 3 2 3 3 95.6175 0.44702 5 6 5 2 4 2 86.0452 1.42339 3 5 3 4 5 1 80.7437 1.96415 1 3 1 6 Final Partition Number of clusters: 1 Within Average Maximum cluster distance distance Number of sum of from from observations squares centroid centroid Cluster1 6 10 1.18682 1.71569 ���������� �� EXEMPLOEXEMPLO � �� � � ��� �� ����� ��� �� 654321 1.96 1.31 0.65 0.00 Observations D is ta n c e Dendrogram Single Linkage; Squared Euclidean Distance RESULTADOS DO MINITAB � �� � � ��� �� ����� ��� �� MÉTODOS NÃO-HIERÁRQUICOSMÉTODOS NÃO-HIERÁRQUICOS Os procedimentos Não-Hierárquicos são métodos que tem como objetivo encontrar diretamente uma partição de “n” elementos em “K” grupos, de modo que a partição satisfaça dois requisitos básicos: • Coesão interna (semelhança entre elementos do mesmo grupo) • Isolamento (separação – distanciamento) dos grupos formados Os métodos Não-Hierárquicos não requerem o cálculo e o armazenamento de uma nova matriz de distância a cada iteração, o que reduz o tempo de processamento e possibilita a sua aplicação a grandes bases de dados. ���������� �� � �� � � ��� �� ����� ��� �� MÉTODOS NÃO-HIERÁRQUICOSMÉTODOS NÃO-HIERÁRQUICOS Como são designadas as observações iniciais ? Seleção Aleatoria de K objetos (indivíduos). Seleção das K primeiras observações. Seleção sequencial: seleciona-se as sementes de agrupamento de forma que a distância entre os centroides seja maior do que um valor predefinido. Aplicação de alguma heurística para que estejam o mais distante possível. 1 2 4 3 � �� � � ��� �� ����� ��� �' MÉTODOS NÃO-HIERÁRQUICOSMÉTODOS NÃO-HIERÁRQUICOS Os métodos Não-Hierárquicos são métodos de otimização que buscam encontrar uma partição dos dados que maximize algum critério pré-definido relacionado a similaridade entre as observações dentro do agrupamento e dissimilaridade entre observações de diferentes agrupamentos Os diferentes métodos existentes diferem em relação ao critério (função objetivo) a ser otimizado e ao procedimento (variável de decisão) de otimização adotado. O método Não-Hierárquico mais popular é o K-Means (a distância para a formação dos grupos é a distância euclidiana) “Este método persegue o objetivo de minimização da variância interna aos grupos e maximização da variância entre os grupos.” ���������� �� � �� � � ��� �� ����� ��� �$ K-means no MinitabK-means no Minitab EMPRESAS ������ ���� ���� ������ �! ��� ���� � (US$ milhões) EMPREGADOS (Padronizado) (Padronizado) Ferramentas Gerais (1) 327.5 2150 -0.931 -1.038 Fiori (2) 312.2 661 -0.953 -1.427 Bretas Supermercados (3) 652.6 7200 -0.458 0.282 Renner (4) 929.0 7764 -0.056 0.429 Lojas Americanas (5) 1613.5 10281 0.939 1.087 Ponto Frio (6) 1971.0 8672 1.459 0.666 � �� � � ��� �� ����� ��� �� K-means no MinitabK-means no Minitab ���������� �� � �� � � ��� �� ����� ��� �� K-means no MinitabK-means no Minitab Standardized Variables Final Partition Number of clusters: 3 Within Average Maximum cluster distance distance Number of sum of from from observations squares centroid centroid Cluster1 2 0.076 0.195 0.195 Cluster2 2 0.0920.214 0.214 Cluster3 2 0.224 0.334 0.334 Cluster Centroids Grand Variable Cluster1 Cluster2 Cluster3 centroid C2 -0.9421 -0.2572 1.1993 0.0000 C3 -1.2320 0.3555 0.8765 0.0000 Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster1 0.0000 1.7289 3.0052 Cluster2 1.7289 0.0000 1.5468 Cluster3 3.0052 1.5468 0.0000 � �� � � ��� �� ����� ��� �� K-means no MinitabK-means no Minitab 9����� 9����� 9����� 9����� ����� ����� ����� ����� 9����� 9����� 9����� ����� ����� ����� ����� ����� � " � �# $ % �� �� & #� '( % $ � �) �� ��*%(� � ��������������)�� Variable Cluster1 Cluster2 Cluster3 C2 -0.9421 -0.2572 1.1993 C3 -1.2320 0.3555 0.8765 Within Average Maximum cluster distance distance Number of sum of from from observations squares centroid centroid Cluster1 2 0.076 0.195 0.195 Cluster2 2 0.092 0.214 0.214 Cluster3 2 0.224 0.334 0.334 0.334 0.195 0.214 224.0334.0334.0 22 ≅+ 092.0214.0214.0 22 ≅+ 0076195.0195.0 22 ≅+ ���������� �� � �� � � ��� �� ����� ��� �� QDE DE GRUPOS A SEREM FORMADOSQDE DE GRUPOS A SEREM FORMADOS Não existe um procedimento padrão para estabelecer o número adequado de grupos No exemplo Hierárquico das seis empresas 6��!� � 6��!� � 6�� � �� ���!�� � � � ,3 � ��+� �� #���.�"�� ��� � � : ! � ; � :� ��# � �<���=�"�� #� � : ! � Estatísticas para Auxiliar na Determinação do Número de Grupos: Root-mean-square standard deviation (RMSSTD) do número de grupos Semipartial R-Square (SPR) R-Square (RS)
Compartilhar