Prévia do material em texto
Análise de Agrupamentos Análises de Agrupamento Análises de Agrupamento Grupo ou Cluster Grupo ou Cluster Algoritmos de Agrupamento O que são algoritmos? • Correspondem a uma sequência de instruções utilizadas para resolver problemas bem formulados • Problemas são especificados em entradas (inputs) • O algoritmo corresponde ao método em que as entradas serão analisadas e traduzidas em resultados (outputs) • Os algoritmos então nos auxiliam a organizar a sequência com que determinados eventos devem ocorrer para se chegar a “determinada” resposta!!!! O BATMAN SAI DO BANHO E TEM UMA CHAMADA URGENTE PARA IMPEDIR UMA AÇÃO DO CORINGA!!!! QUAL A MELHOR SEQUÊNCIA DE ROUPAS ELE DEVE VESTIR, MINIZANDO O TEMPO E ACERTANDO A SEQUÊNCIA DE PEÇAS???? Ele pode colocar: (1) blusa (2) depois a calça, (3) short.... ou (1) calça (2) short (3) blusa (4), etc... Mas ele não deve colocar, primeiro a bota, depois a capa, o short, a calça!..... Existem algumas sequências possíveis, e outras que devem, no mínimo, ser evitas!!!! Agrupamentos Hierárquicos Aglomerativos Dendrogramas Dendrograma Lembre-se: Similaridade – 0 a 1 – menor = maior similaridade Distância – 0 a ~ - menor = menor similaridade Distância corda – 0 a √2 = menor = maior Complementos.... Dendrograma Dendrograma Como medir distâncias entre grupos? Como medir a distância até um grupo? Ligação simples ou vizinho mais próximo Ligação simples (viz. + próx.) Ligação Simples Ligação completa (vizinho mais distante) Ligação simples (viz. + próx.) Ligação completa (viz. + dist.) Ligação Completa Agrupamento V1 V2 A 1,0 1,0 B 2,1 2,1 C 2,8 2,8 D 4,7 4,0 E 6,0 6,0 F 6,8 5,7 G 6,5 6,6 H 0,5 11,0 A B C D E F G H 0,0 2,0 4,0 6,0 8,0 10,0 12,0 0,0 2,0 4,0 6,0 8,0 V1 V 2 Ligação simples A 0 B 1.556 0 C 2.546 0.990 0 D 4.763 3.220 2.247 0 E 7.071 5.515 4.525 2.385 0 F 7.465 5.920 4.941 2.702 0.854 0 G 7.849 6.294 5.304 3.162 0.781 0.949 0 H 10.012 9.043 8.517 8.163 7.433 8.233 7.440 0 A B C D E F G H A B C D E F G H 0,0 2,0 4,0 6,0 8,0 10,0 12,0 0,0 2,0 4,0 6,0 8,0 V1 V 2 Ligação simples 2 A 0 B 1.556 0 C 2.546 0.990 0 D 4.763 3.220 2.247 0 EG 7.071 5.515 4.525 2.385 0 F 7.465 5.920 4.941 2.702 0.854 0 H 10.012 9.043 8.517 8.163 7.433 8.233 0 A B C D EG F H A B C D E F G H 0,0 2,0 4,0 6,0 8,0 10,0 12,0 0,0 2,0 4,0 6,0 8,0 V1 V 2 Ligação simples 3 A 0 B 1.556 0 C 2.546 0.990 0 D 4.763 3.220 2.247 0 EGF 7.071 5.515 4.525 2.385 0 H 10.012 9.043 8.517 8.163 7.433 0 A B C D EGF H A B C D E F G H 0,0 2,0 4,0 6,0 8,0 10,0 12,0 0,0 2,0 4,0 6,0 8,0 V1 V 2 Ligação simples 4 A 0 BC 1.556 0 D 4.763 2,247 0 EGF 7.071 4,525 2.385 0 H 10.012 8,517 8.163 7.433 0 A BC D EGF H A B C D E F G H 0,0 2,0 4,0 6,0 8,0 10,0 12,0 0,0 2,0 4,0 6,0 8,0 V1 V 2 Ligação simples 5 ABC 0 D 2,247 0 EGF 4,525 2.385 0 H 10.012 8.163 7.433 0 ABC D EGF H A B C D E F G H 0,0 2,0 4,0 6,0 8,0 10,0 12,0 0,0 2,0 4,0 6,0 8,0 V1 V 2 Ligação simples 6 ABCD 0 EGF 2,385 0 H 8,163 7.433 0 ABCD EGF H A B C D E F G H 0,0 2,0 4,0 6,0 8,0 10,0 12,0 0,0 2,0 4,0 6,0 8,0 V1 V 2 Ligação simples 7 A B C D E F G H 0,0 2,0 4,0 6,0 8,0 10,0 12,0 0,0 2,0 4,0 6,0 8,0 V1 V 2 ABCDEFG 0 H 7,433 0 ABCDEFG H Ligação simples 8 A B C D E F G H 0,0 2,0 4,0 6,0 8,0 10,0 12,0 0,0 2,0 4,0 6,0 8,0 V1 V 2 Média de Grupo (UPGMA) Centróide Centróide Centroide d is tâ n c ia e u c lid ia n a s im p le s 2,9 2,8 2,7 2,6 2,5 2,4 2,3 2,2 2,1 2 1,9 1,8 1,7 1,6 1,5 1,4 1,3 1,2 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 123 45 67 891 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 5 Page 1 of 1 Centróide – inversões 1 3.15 A B C 3 .1 8 2 .7 7 Centróide – inversões 2 3.15 A B C 3 .1 8 2 .7 7 A B C A B C 3,18 3,18 3,15 A B C A BC 2,77 2,77 3,15 B C A Métodos Ponderados - WPGMA WPGMA 3x Métodos Ponderados - WPGMC WPGMC Centróide – inversões 2 3.15 A B C 3 .1 8 2 .7 7 A B C A B C 3,18 3,18 3,15 A B C A BC 2,77 2,77 3,15 B C A Método de Ward Soma de quadrados progressiva (Ward 1963, Orlóci 1967) O critério de agrupamento minimiza o aumento na soma de quadrados dentro do grupo formado a cada passo de agrupamento, i.e. QPQ = QP+Q - QP - QQ Onde QP+Q é a soma de quadrados total no grupo P+Q e QP e QQ são as somas de quadrados dentro dos grupos P e Q. QP+Q = 1 n p + nq h d hi 2 i para h=1, ..., n-1 e i=h+1, ..., n objetos, desde que h e i pertençam ao grupo P ou Q QP = 1 n p h d hi 2 i para h=1, ..., n-1 and i=h+1, ..., n objetos , desde que h e i pertençam ao grupo P QQ = 1 nq h d hi 2 i para h=1, ..., n-1 and i=h+1, ..., n objetos , desde que h e i pertençam ao grupo Q Soma de quadrados progressiva . Este método, diferente dos anteriores, tem como característica, a obtenção da soma dos quadrados, a qual chamaremos de SQ, para todos os possíveis grupos. . A reunião definitiva dos objetos irá contemplar os menores valores de SQ. . Este método pode ser usado diretamente na matriz de dados iniciais . Método de Ward Soma de quadrados progressiva (Ward 1963, Orlóci 1967) Algoritmo geral para agrupamento aglomerativo • Lance & Williams • se dois grupos i e j se unem, então a distância entre este novo grupo e qualquer outro grupo k é dado por :- ( )k i j i ki j kj ij ki kjd d d d d d, = + + + − Algoritmo geral tipo i ligação simples ½ 0 -½ ligação completa ½ 0 ½ média de grupo (UPGMA) ( ) i i j n n n+ 0 0 McQuitty (WPGMA) ½ 0 0 Centróide (UPGMC) ( ) i i j n n n+ ( ) i j i j n n n n − + 2 0 Mediano (WPGMC) ½ -0,25 0 mét. de Ward ( ) ( ) i k i j k n n n n n + + + ( ) − + + k i j k n n n n 0 flexível ( )1 2 − − +1 1 0 ( )k i j i ki j kj ij ki kjd d d d d d, = + + + − Método flexível Metodo flexivel d is tâ n c ia e u c lid ia n a s im p le s 2,2 2,1 2 1,9 1,8 1,7 1,6 1,5 1,4 1,3 1,2 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 123 4 567 891 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 5 Page 1 of 1 Metodo flexivel d is tâ n c ia e u c lid ia n a s im p le s 52 50 48 46 44 42 40 38 36 34 32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 123 45 67 8 91 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 5 Page 1 of 1 = − 0,7 = + 0,8 Method Alternative name Usually used with: Distance between cluster defined as: Remarks Single linkage Nearest neighbour Similarity or Distance Mininum distance between pair of objects, one in one cluster, one in the other Tends to produce unbalanced and straggly clusters (‘chaining’) especially in large data sets. Does not take account of cluster structure Complete linkage Furthest neighbour Similarity or Distance Maximum distance between pair of objects, one in one cluster, one in the other Tends to find compact clusters with equal diameters (maximum distance between objects). Does not take account of cluster structure. (Group) Average linkage UPGMA Similarity or Distance Average distance between pair of objects, one in one cluster, one in the other Tends to join cluster with small variances. Intermediate between single and complete linkage. Takes account of cluster structure. Relativaly robust. Centroid linkage UPGMC Distance (raw data) Squared Euclidean distance between mean vectors (centroids) Assumes points can be represented in Euclidean space (for geometrical interpretation). The more numerous of two groups clustered dominates the merged clusters, subjectto reversals. Median linkage WPGMC Distance (raw data) Squared Euclidean distance between weihgted centroids Assumes points can be represented in Euclidean space for geometrical interpretation. New group intermediate in position between merged groups, subject to reversals. Ward’s method Minimum sum of squares Distance (raw data) Increase in sum of squares within cluster, after fusionn, summed over all variables Assumes points can be represented in Euclidean space for geometrical interpretation. Tends to find same size, spherical clusters, sensitive to outliers. Media de grupo (UPGMA) d is tâ n c ia e u c lid ia n a s im p le s 8,5 8 7,5 7 6,5 6 5,5 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 AB CDE FG H Page 1 of 1 Correlação Cofenética 1 A 0 B 2,05 0 C 2,05 0,99 0 D 5,43 5,43 5,43 0 E 5,43 5,43 5,43 2,75 0 F 5,43 5,43 5,43 2,75 0,90 0 G 5,43 5,43 5,43 2,75 0,78 0,90 0 H 8,41 8,41 8,41 8,41 8,41 8,41 8,41 0 A B C D E F G H Correlação Cofenética 2 Matriz cofenética e matriz original A B C D E F G H A 0,00 1,56 2,55 4,76 7,07 7,47 7,85 10,01 B 2,05 0,00 0,99 3,22 5,52 5,92 6,29 9,04 C 2,05 0,99 0,00 2,25 4,53 4,94 5,30 8,52 D 5,43 5,43 5,43 0,00 2,39 2,70 3,16 8,16 E 5,43 5,43 5,43 2,75 0,00 0,85 0,78 7,43 F 5,43 5,43 5,43 2,75 0,90 0,00 0,95 8,23 G 5,43 5,43 5,43 2,75 0,78 0,90 0,00 7,44 H 8,41 8,41 8,41 8,41 8,41 8,41 8,41 0,00 Correlação Cofenética 3 Media de grupo (UPGMA) / distância euclidiana simples : Correlação Cofenética = 0,899117 Valor Cofenético 8,587,576,565,554,543,532,521,51 d is tâ n c ia e u c lid ia n a s im p le s 10,5 10 9,5 9 8,5 8 7,5 7 6,5 6 5,5 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0,781 8,406 Pág. 1 de 1 Slide 1: Análise de Agrupamentos Slide 2: Análises de Agrupamento Slide 3 Slide 4 Slide 5: Análises de Agrupamento Slide 6: Grupo ou Cluster Slide 7: Grupo ou Cluster Slide 8: Algoritmos de Agrupamento Slide 9: O que são algoritmos? Slide 10 Slide 11: Agrupamentos Hierárquicos Aglomerativos Slide 12: Dendrogramas Slide 13: Dendrograma Slide 14: Dendrograma Slide 15: Dendrograma Slide 16: Como medir distâncias entre grupos? Slide 17: Como medir a distância até um grupo? Ligação simples ou vizinho mais próximo Slide 18: Ligação Simples Slide 19 Slide 20: Ligação completa (vizinho mais distante) Slide 21: Ligação Completa Slide 22 Slide 23: Agrupamento Slide 24: Ligação simples Slide 25: Ligação simples 2 Slide 26: Ligação simples 3 Slide 27: Ligação simples 4 Slide 28: Ligação simples 5 Slide 29: Ligação simples 6 Slide 30: Ligação simples 7 Slide 31: Ligação simples 8 Slide 32 Slide 33 Slide 34 Slide 35: Média de Grupo (UPGMA) Slide 36 Slide 37 Slide 38 Slide 39: Centróide Slide 40: Centróide Slide 41: Centróide – inversões 1 Slide 42: Centróide – inversões 2 Slide 43: Métodos Ponderados - WPGMA Slide 44: Métodos Ponderados - WPGMC Slide 45: Centróide – inversões 2 Slide 46: Método de Ward Soma de quadrados progressiva (Ward 1963, Orlóci 1967) Slide 47 Slide 48 Slide 49: Algoritmo geral para agrupamento aglomerativo Slide 50: Algoritmo geral Slide 51: Método flexível Slide 52 Slide 53 Slide 54: Correlação Cofenética 1 Slide 55: Correlação Cofenética 2 Slide 56: Correlação Cofenética 3