Baixe o app para aproveitar ainda mais
Prévia do material em texto
ENP157 – Estatística 2 – Profa.: Luciana Reis Análise de Conglomerados (Cluster) Aula 19 ENP157 – Estatística 2 – Profa.: Luciana Reis Sumário 1. Introdução; 2. Medidas de Similaridade e Dissimilaridade; 3. Técnicas para construção de Conglomerados (Clusters); 4. Técnicas Hierárquicas Aglomerativas; 5. Métodos para encontrar o Número g de Clusters da Partição Final. ENP157 – Estatística 2 – Profa.: Luciana Reis Sumário 1. Introdução; 2. Medidas de Similaridade e Dissimilaridade; 3. Técnicas para construção de Conglomerados (Clusters); 4. Técnicas Hierárquicas Aglomerativas; 5. Métodos para encontrar o Número g de Clusters da Partição Final. ENP157 – Estatística 2 – Profa.: Luciana Reis 1. Introdução • Também conhecida como: – Análise de Agrupamentos; – Análise Cluster; – Análise de Classificação. ENP157 – Estatística 2 – Profa.: Luciana Reis 1. Introdução • Objetivo: – Dividir os elementos da amostra (população) em grupos, de forma que os elementos pertencentes a um mesmo grupo sejam similares entre si quanto às variáveis (características) que neles foram medidas. • Os grupos terão homogeneidade dentro do agrupamento e heterogeneidade entre eles. ENP157 – Estatística 2 – Profa.: Luciana Reis 1. Introdução • Possui ampla aplicação: – Pesquisa de Mercado: • Identificação do posicionamento dos produtos em relação aos concorrentes de mercado; • Segmentação de clientes de acordo com os perfis de consumo. ENP157 – Estatística 2 – Profa.: Luciana Reis 1. Introdução • Possui ampla aplicação: – Pesquisa de Mercado: • Exemplo: – Seleção de cidades para serem utilizadas como teste de mercado. Cidades: A B C E D F G H I Tamanho da população total: Inferior a 50.000: Superior a 100.001: 50.001 a 100.000: C E D A G I B F H Agrupamento das cidades em g grupos (g=3). ENP157 – Estatística 2 – Profa.: Luciana Reis 1. Introdução • Questão importante: – Até que ponto dois elementos do conjunto podem ser considerados como semelhantes ou não? – Para responder essa questão, é necessário considerar medidas que descrevem a similaridade entre os elementos. ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • A análise de aglomerados inicia criando uma matriz que indica a similaridade (ou distância) entre cada par de objetos relativos às p- variáveis contidas na base de dados. • Dado um conjunto de dados composto por n elementos amostrais, devemos agrupá-los em g grupos. – Cada elemento amostral Xj é formado por um vetor de medidas (X1j X2j ... Xpj)’; j = 1 ... n. ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • 1º Passo: Definir a medida de similaridade ou dissimilaridade que será utilizada. – Para isso pode-se utilizar diversos tipos de medidas: • Distância Euclidiana; • Distância Generalizada ou Ponderada; • Distância de Minkowsky; • etc. ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • Distância Euclidiana: – A distância entre dois elementos Xl e Xk é dada por: p i ikilklklkl XXXXXXXXd 1 2/122/1 ])([)]()'[(),( ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • Distância generalizada ou ponderada: – A distância entre dois elementos Xl e Xk é dada por: • Onde Apxp é a matriz de ponderação. Se: – Apxp = matriz identidade => distância Euclidiana; – Apxp = Spxp -1 => distância de Mahalanobis; – Apxp = diag.(1/p) => distância Euclidiana Média. 2/1)]()'[(),( klklkl XXAXXXXd ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • Distância de Minkowisky: – A distância entre dois elementos Xl e Xk é dada por: • Onde wi são os pesos de ponderação. Se: – λ=1 => distância city-block ou Manhatan; – λ=2 => distância Euclidiana. /1 1 ][),( kl p i ikl XXwXXd ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • Exemplo: – Renda mensal (em qtde de salários mínimos) e idade de seis indivíduos de uma localidade. ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • Exemplo: – Distância Euclidiana entre os indivíduos A e B: 23,3])3128()4,86,9[(),( ])()[(),( 2/122 2/12 22 2 11 BA BABABA XXd XXXXXXd ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • Exemplo: – Distância de Mahalanobis entre os indivíduos A e B: • Considerando a matriz de ponderação A como sendo: 019,00013,0 0013,0032,0 97,5015,2 15,247,31 1 1S 2/11 )]()'[(),( BABABA XXSXXXXd 46,0 3 2,1 019,00013,0 0013,0032,0 )32,1(),( 2/1 BA XXd ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • Exemplo: – Distância de Minkowsky entre os indivíduos A e B: • Considerando wi=1 e λ=1: /1 2 1 ][),( BA i iBA XXwXXd 2,4]|3128||4,86,9[|*1),( 111BA XXd ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Medidas de Similaridade e Dissimilaridade • Quando as variáveis são qualitativas, trabalha- se com coeficientes de similaridade. • Para obtenção desses coeficientes, podemos utilizar outras medidas, dentre elas: – Coeficiente de concordância simples; – Coeficiente de concordância positiva; – Coeficiente de concordância de Jaccard; – Distância Euclidiana média ENP157 – Estatística 2 – Profa.: Luciana Reis 3. Técnicas para a Construção de Conglomerados (Clusters) • As técnicas de conglomerados são classificadas em dois tipos: • Técnicas Aglomerativas • Técnicas Divisivas Técnicas Hierárquicas Técnicas Não Hierárquicas ENP157 – Estatística 2 – Profa.: Luciana Reis 3. Técnicas para a Construção de Conglomerados (Clusters) • As técnicas de conglomerados são classificadas em dois tipos: – Técnicas hierárquicas: • Utilizadas em análises exploratórias dos dados com o intuito de identificar possíveis agrupamentos e valor provável do número de grupos g. – Técnicas não hierárquicas: • Necessário que o valor do número de grupos já esteja pré-especificado pelo pesquisador. ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Funcionamento: – No início do processo de agrupamento, tem-se n conglomerados. – A cada passo do algoritmo, os elementos amostrais vão sendo agrupados, formando novos conglomerados. – Ao final, todos os elementos considerados estão em um único grupo. ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Variabilidade: – Estágio inicial: partição com menor dispersão possível; • Cada conglomerado (cluster) possui um único elemento; – Estágio final: partição com maior dispersão possível. • Um único conglomerado (cluster) possui todos os elementos amostrais; ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Procedimentos: – Estágio inicial: têm-se n clusters; – Estágios posteriores: os pares de conglomerados mais similares são combinados e passam a constituir um único conglomerado. • Apenas um novo conglomerado é formado em cada estágio.• Em cada estágio, os grupos são comparados através de alguma medida de similaridade previamente definida. ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Propriedade de Hierarquia: – Se dois elementos amostrais aparecerem juntos em um mesmo cluster em algum estágio do processo de agrupamento, eles aparecerão juntos em todos os estágios subsequentes. • Dendograma: – Gráfico em forma de árvore que contém a história do agrupamento. ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • A escolha do número de grupos g em que o conjunto de dados deve ser repartido é subjetivo. • Contudo, há alguns métodos que podem auxiliar nessa escolha: – Método de Ligação Simples; – Método de Ligação Completa; – Método da Média das Distâncias; – Método Centróide. ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Simples: – A similaridade dos conglomerados é definida pelos dois elementos mais parecidos (próximos) entre si. – Exemplo: • C1 = {X1, X3, X7} • C2 = {X2, X6}; ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Simples: – Exemplo: • Utilizando a distância Euclidiana para os dados da tabela seguinte, temos: ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Simples: – Exemplo: • Passo 1: A matriz de distância entre os seis elementos amostrais é: • O menor valor observado é 3,23. Assim: C1 = {A,B} C2={C} C3={D} C4={E} C5={F} ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Simples: – Exemplo: • Passo 1: Os valores de distância do conglomerado com outros elementos pode ser obtido da seguinte forma: ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Simples: – Exemplo: • Passo 2: A matriz de distância entre os cinco grupos formados no passo 1 é: • O menor valor observado é 4,12. Assim: C1 = {A,B} C2={C,F} C3={D} C4={E} ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Simples: – Exemplo: • Passo 3: A matriz de distância entre os quatro grupos formados no passo 2 é: • O menor valor observado é 6,44. Assim: C1 = {A,B,E} C2={C,F} C3={D} ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Simples: – Exemplo: • Passo 4: A matriz de distância entre os três grupos formados no passo 3 é: • O menor valor observado é 10,19. Assim: C1 = {A,B,E,C,F} C2={D} ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Simples: – Exemplo: • Passo 5: A amostra se reduz a um único cluster que é: C1 = {A,B,C,D,E, F} • O nível de junção é 12,04. ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Simples: – Exemplo: ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método de Ligação Completa: – A similaridade dos conglomerados é definida pelos dois elementos menos semelhantes (mais distantes) entre si. – Exemplo: • C1 = {X1, X3, X7}; • C2 = {X2, X6}; ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método da Média das Distâncias: – A similaridade dos conglomerados é definida pela média das distâncias entre todos os pares de elementos dos dois conglomerados. – Os elementos que possuem menor distância média são reunidos em um único conglomerado. ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Método Centróide: – A similaridade dos conglomerados é definida pela distância entre os vetores de média dos elementos dos conglomerados. – Os vetores de média que possuem menor distância são reunidos em um único conglomerado. ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Técnicas Hierárquicas Aglomerativas • Métodos utilizados tanto para variáveis quantitativas quanto qualitativas: – Método de ligação simples, completa e de média das distâncias. • Métodos utilizados apenas para variáveis quantitativas: – Método centróide. ENP157 – Estatística 2 – Profa.: Luciana Reis 5. Métodos para encontrar o Número g de Clusters • Uma decisão de grande importância é a definição do número final de g grupos que definem a partição do conjunto analisado, ou seja: • Em qual passo k o algoritmo de agrupamento deve ser interrompido? ENP157 – Estatística 2 – Profa.: Luciana Reis Análise do comportamento do nível de fusão (distância) • À medida que se avança o estágio, a similaridade entre os conglomerados vai decrescendo. – Ou seja, a distância entre eles vai aumentando; • Assim, pode-se traçar um gráfico: – Número de grupos x Nível de distância. • Momento de parada do algoritmo: – Quando encontra-se um “ponto de salto” elevado. ENP157 – Estatística 2 – Profa.: Luciana Reis Análise do Comportamento do Nível de Similaridade • O nível de similaridade entre Ci e Cl é dado por: – Onde max{djk} é a maior distância entre os n elementos amostrais; },...,2,1,,max{ 1 nkjd d S jk il il ENP157 – Estatística 2 – Profa.: Luciana Reis Análise do Comportamento do Nível de Similaridade • Momento de parada do algoritmo: – Quando há um decrescimento acentuado na similaridade dos conglomerados que foram unidos no estágio. – Nível de similaridade maior que 90% resulta em um número de grupos muito elevado.
Compartilhar