Buscar

Análise Cluster

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ENP157 – Estatística 2 – Profa.: Luciana Reis 
Análise de Conglomerados (Cluster) 
Aula 19 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
Sumário 
1. Introdução; 
2. Medidas de Similaridade e Dissimilaridade; 
3. Técnicas para construção de Conglomerados 
(Clusters); 
4. Técnicas Hierárquicas Aglomerativas; 
5. Métodos para encontrar o Número g de Clusters da 
Partição Final. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
Sumário 
1. Introdução; 
2. Medidas de Similaridade e Dissimilaridade; 
3. Técnicas para construção de Conglomerados 
(Clusters); 
4. Técnicas Hierárquicas Aglomerativas; 
5. Métodos para encontrar o Número g de Clusters da 
Partição Final. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
1. Introdução 
• Também conhecida como: 
– Análise de Agrupamentos; 
– Análise Cluster; 
– Análise de Classificação. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
1. Introdução 
• Objetivo: 
– Dividir os elementos da amostra (população) em 
grupos, de forma que os elementos pertencentes 
a um mesmo grupo sejam similares entre si 
quanto às variáveis (características) que neles 
foram medidas. 
• Os grupos terão homogeneidade dentro do 
agrupamento e heterogeneidade entre eles. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
1. Introdução 
• Possui ampla aplicação: 
– Pesquisa de Mercado: 
• Identificação do posicionamento dos produtos em 
relação aos concorrentes de mercado; 
• Segmentação de clientes de acordo com os perfis de 
consumo. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
1. Introdução 
• Possui ampla aplicação: 
– Pesquisa de Mercado: 
• Exemplo: 
– Seleção de cidades para serem utilizadas como 
teste de mercado. 
Cidades: 
A B C 
E D F 
G H I 
Tamanho da população total: 
Inferior a 
50.000: 
Superior a 
100.001: 
50.001 a 
100.000: 
C E D A G I B F H 
Agrupamento das cidades em g grupos (g=3). 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
1. Introdução 
• Questão importante: 
– Até que ponto dois elementos do conjunto podem 
ser considerados como semelhantes ou não? 
– Para responder essa questão, é necessário 
considerar medidas que descrevem a similaridade 
entre os elementos. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• A análise de aglomerados inicia criando uma 
matriz que indica a similaridade (ou distância) 
entre cada par de objetos relativos às p-
variáveis contidas na base de dados. 
 
• Dado um conjunto de dados composto por n 
elementos amostrais, devemos agrupá-los em 
g grupos. 
– Cada elemento amostral Xj é formado por um 
vetor de medidas (X1j X2j ... Xpj)’; j = 1 ... n. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• 1º Passo: Definir a medida de similaridade ou 
dissimilaridade que será utilizada. 
– Para isso pode-se utilizar diversos tipos de 
medidas: 
• Distância Euclidiana; 
• Distância Generalizada ou Ponderada; 
• Distância de Minkowsky; 
• etc. 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• Distância Euclidiana: 
– A distância entre dois elementos Xl e Xk é dada 
por: 
 
p
i
ikilklklkl XXXXXXXXd
1
2/122/1 ])([)]()'[(),(
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• Distância generalizada ou ponderada: 
– A distância entre dois elementos Xl e Xk é dada 
por: 
 
 
• Onde Apxp é a matriz de ponderação. Se: 
– Apxp = matriz identidade => distância Euclidiana; 
– Apxp = Spxp
-1 => distância de Mahalanobis; 
– Apxp = diag.(1/p) => distância Euclidiana Média. 
 
 
 
 
2/1)]()'[(),( klklkl XXAXXXXd
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• Distância de Minkowisky: 
– A distância entre dois elementos Xl e Xk é dada 
por: 
 
 
• Onde wi são os pesos de ponderação. Se: 
– λ=1 => distância city-block ou Manhatan; 
– λ=2 => distância Euclidiana. 
 
 
 
 
/1
1
][),( kl
p
i
ikl XXwXXd
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• Exemplo: 
– Renda mensal (em qtde de salários mínimos) e 
idade de seis indivíduos de uma localidade. 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• Exemplo: 
– Distância Euclidiana entre os indivíduos A e B: 
 
 
23,3])3128()4,86,9[(),(
])()[(),(
2/122
2/12
22
2
11
BA
BABABA
XXd
XXXXXXd
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• Exemplo: 
– Distância de Mahalanobis entre os indivíduos A e B: 
• Considerando a matriz de ponderação A como sendo: 
 
019,00013,0
0013,0032,0
97,5015,2
15,247,31
1
1S
2/11 )]()'[(),( BABABA XXSXXXXd
46,0
3
2,1
019,00013,0
0013,0032,0
)32,1(),(
2/1
BA XXd
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• Exemplo: 
– Distância de Minkowsky entre os indivíduos A e B: 
• Considerando wi=1 e λ=1: 
 
/1
2
1
][),( BA
i
iBA XXwXXd
2,4]|3128||4,86,9[|*1),( 111BA XXd
ENP157 – Estatística 2 – Profa.: Luciana Reis 
2. Medidas de Similaridade e 
Dissimilaridade 
• Quando as variáveis são qualitativas, trabalha-
se com coeficientes de similaridade. 
• Para obtenção desses coeficientes, podemos 
utilizar outras medidas, dentre elas: 
– Coeficiente de concordância simples; 
– Coeficiente de concordância positiva; 
– Coeficiente de concordância de Jaccard; 
– Distância Euclidiana média 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
3. Técnicas para a Construção de 
Conglomerados (Clusters) 
• As técnicas de conglomerados são 
classificadas em dois tipos: 
• Técnicas Aglomerativas 
• Técnicas Divisivas 
Técnicas Hierárquicas 
Técnicas Não Hierárquicas 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
3. Técnicas para a Construção de 
Conglomerados (Clusters) 
• As técnicas de conglomerados são 
classificadas em dois tipos: 
– Técnicas hierárquicas: 
• Utilizadas em análises exploratórias dos dados com o 
intuito de identificar possíveis agrupamentos e valor 
provável do número de grupos g. 
– Técnicas não hierárquicas: 
• Necessário que o valor do número de grupos já esteja 
pré-especificado pelo pesquisador. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Funcionamento: 
– No início do processo de agrupamento, tem-se n 
conglomerados. 
– A cada passo do algoritmo, os elementos 
amostrais vão sendo agrupados, formando novos 
conglomerados. 
– Ao final, todos os elementos considerados estão 
em um único grupo. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Variabilidade: 
– Estágio inicial: partição com menor dispersão 
possível; 
• Cada conglomerado (cluster) possui um único 
elemento; 
– Estágio final: partição com maior dispersão 
possível. 
• Um único conglomerado (cluster) possui todos os 
elementos amostrais; 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Procedimentos: 
– Estágio inicial: têm-se n clusters; 
– Estágios posteriores: os pares de conglomerados 
mais similares são combinados e passam a 
constituir um único conglomerado. 
• Apenas um novo conglomerado é formado em cada 
estágio.• Em cada estágio, os grupos são comparados através de 
alguma medida de similaridade previamente definida. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Propriedade de Hierarquia: 
– Se dois elementos amostrais aparecerem juntos 
em um mesmo cluster em algum estágio do 
processo de agrupamento, eles aparecerão juntos 
em todos os estágios subsequentes. 
• Dendograma: 
– Gráfico em forma de árvore que contém a história 
do agrupamento. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• A escolha do número de grupos g em que o 
conjunto de dados deve ser repartido é 
subjetivo. 
• Contudo, há alguns métodos que podem 
auxiliar nessa escolha: 
– Método de Ligação Simples; 
– Método de Ligação Completa; 
– Método da Média das Distâncias; 
– Método Centróide. 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Simples: 
– A similaridade dos conglomerados é definida 
pelos dois elementos mais parecidos (próximos) 
entre si. 
– Exemplo: 
• C1 = {X1, X3, X7} 
• C2 = {X2, X6}; 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Simples: 
– Exemplo: 
• Utilizando a distância Euclidiana para os dados da 
tabela seguinte, temos: 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Simples: 
– Exemplo: 
• Passo 1: A matriz de distância entre os seis elementos 
amostrais é: 
 
 
 
 
• O menor valor observado é 3,23. Assim: 
C1 = {A,B} C2={C} C3={D} C4={E} C5={F} 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Simples: 
– Exemplo: 
• Passo 1: Os valores de distância do conglomerado com 
outros elementos pode ser obtido da seguinte forma: 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Simples: 
– Exemplo: 
• Passo 2: A matriz de distância entre os cinco grupos 
formados no passo 1 é: 
 
 
 
 
• O menor valor observado é 4,12. Assim: 
C1 = {A,B} C2={C,F} C3={D} C4={E} 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Simples: 
– Exemplo: 
• Passo 3: A matriz de distância entre os quatro grupos 
formados no passo 2 é: 
 
 
 
 
• O menor valor observado é 6,44. Assim: 
C1 = {A,B,E} C2={C,F} C3={D} 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Simples: 
– Exemplo: 
• Passo 4: A matriz de distância entre os três grupos 
formados no passo 3 é: 
 
 
 
 
• O menor valor observado é 10,19. Assim: 
C1 = {A,B,E,C,F} C2={D} 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Simples: 
– Exemplo: 
• Passo 5: A amostra se reduz a um único cluster que é: 
 C1 = {A,B,C,D,E, F} 
• O nível de junção é 12,04. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Simples: 
– Exemplo: 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método de Ligação Completa: 
– A similaridade dos conglomerados é definida 
pelos dois elementos menos semelhantes (mais 
distantes) entre si. 
– Exemplo: 
• C1 = {X1, X3, X7}; 
• C2 = {X2, X6}; 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método da Média das Distâncias: 
– A similaridade dos conglomerados é definida pela 
média das distâncias entre todos os pares de 
elementos dos dois conglomerados. 
– Os elementos que possuem menor distância 
média são reunidos em um único conglomerado. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Método Centróide: 
– A similaridade dos conglomerados é definida pela 
distância entre os vetores de média dos 
elementos dos conglomerados. 
– Os vetores de média que possuem menor 
distância são reunidos em um único 
conglomerado. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
4. Técnicas Hierárquicas 
Aglomerativas 
• Métodos utilizados tanto para variáveis 
quantitativas quanto qualitativas: 
– Método de ligação simples, completa e de média 
das distâncias. 
 
• Métodos utilizados apenas para variáveis 
quantitativas: 
– Método centróide. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
5. Métodos para encontrar o 
Número g de Clusters 
• Uma decisão de grande importância é a 
definição do número final de g grupos que 
definem a partição do conjunto analisado, ou 
seja: 
• Em qual passo k o algoritmo de agrupamento 
deve ser interrompido? 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
Análise do comportamento do 
nível de fusão (distância) 
• À medida que se avança o estágio, a 
similaridade entre os conglomerados vai 
decrescendo. 
– Ou seja, a distância entre eles vai aumentando; 
• Assim, pode-se traçar um gráfico: 
– Número de grupos x Nível de distância. 
• Momento de parada do algoritmo: 
– Quando encontra-se um “ponto de salto” elevado. 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
Análise do Comportamento do 
Nível de Similaridade 
• O nível de similaridade entre Ci e Cl é dado 
por: 
 
 
– Onde max{djk} é a maior distância entre os n 
elementos amostrais; 
},...,2,1,,max{
1
nkjd
d
S
jk
il
il
ENP157 – Estatística 2 – Profa.: Luciana Reis 
Análise do Comportamento do 
Nível de Similaridade 
• Momento de parada do algoritmo: 
– Quando há um decrescimento acentuado na 
similaridade dos conglomerados que foram unidos 
no estágio. 
– Nível de similaridade maior que 90% resulta em 
um número de grupos muito elevado.

Outros materiais