Buscar

Análise Multivariada 3

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ANÁLISE MULTIVARIADA DEANÁLISE MULTIVARIADA DE
DADOSDADOS
DIFERENTES TÉCNICASDIFERENTES TÉCNICAS
DISPONÍVEIS PARADISPONÍVEIS PARA
ANÁLISE DEANÁLISE DE
CONGLOMERADOSCONGLOMERADOS
Au to r ( a ) : M e . Fra n c i s c o J o s é R o d r i g u e s d a S i l va J u n i o r
R ev i s o r : A l e s s a n d ro Fe r re i ra
Tempo de leitura do conteúdo estimado em 1 hora e 10 minutos.
Introdução
Olá, caro(a) estudante! Tudo bem? Vamos dar início ao nosso estudo sobre as diferentes
técnicas disponíveis para análise de conglomerados? Vamos lá!
A análise de conglomerados ajuda a entender o agrupamento natural em um conjunto de
dados. Sua �nalidade é fazer sentido particionar os dados em algum grupo de
agrupamentos lógicos. A qualidade do agrupamento depende dos métodos e da
identi�cação de padrões ocultos.
Essas análises desempenham um papel amplo em aplicações como pesquisa econômica
de marketing e weblogs para identi�car medidas de similaridade, processamento de
imagens e pesquisa espacial. Eles são usados em detecções de valores discrepantes
para detectar fraudes de cartão de crédito.
Portanto, é com prazer que lhe apresentamos este material, que ajudará você a se
familiarizar com os processos de ensino e aprendizagem de como aplicar a análise de
conglomerados com diferentes possibilidades de distâncias e métodos de ligação. Serão
abordados a implementação e os objetivos de cada método de ligação para cálculo de
distância de um conglomerado. Em seguida, será discutido qual o método de ligação
apropriado em cada situação. Por �m, será discutido o modo de construção da tabela de
agrupamentos e do modo de construção do dendrograma.
Bons estudos!
O objetivo da análise de conglomerados, também conhecida como análise de
agrupamentos ou de cluster, é particionar um conjunto de dados em grupos que são
internamente homogêneos e externamente distintos, ou seja, segmentar ou agrupar em
grupos menores (subgrupos). A classi�cação é realizada com base em uma medida de
similaridade ou dissimilaridade dentro e entre os grupos.
A análise de conglomerados tem sido amplamente aplicada a dados em muitas
disciplinas, como Pesquisa de Mercado, Biologia, Medicina, Economia e Engenharia. Por
exemplo, em Biologia, pode-se categorizar genes com funções semelhantes e obter
informações sobre as estruturas inerentes às populações. Por outro lado, para as
empresas, esse método analítico pode ajudar um pesquisador de mercado a identi�car
grupos distintos de clientes e caracterizá-los com base em suas tendências de compra.
A análise de conglomerados pode ser vista como um método não supervisionado de
reconhecimento de padrões porque a operação normalmente não é guiada por uma
hipótese prévia ou por modelos externos. A seleção de variáveis desempenha um papel
importante, e escolhas diferentes podem resultar em resultados drasticamente
diferentes.
Análise de
Conglomerados
REFLITA
Quando estamos trabalhando em duas ou três dimensões,
os conglomerados podem ser visualizados. E em casos
com mais de três dimensões? É necessário algum tipo de
Conforme Hair et al. (2009), para realizar uma análise de cluster cuidadosa, são
necessários métodos com as seguintes características:
ter capacidade de analisar com dados com alta dimensionalidade;
requer conhecimento mínimo para determinar os parâmetros de entrada;
ter capacidade de processar diferentes tipos de dados;
ter competência para de�nir aglomerados de tamanhos e formas diferentes;
ser "escalável" em termos do número de dimensões e do número de elementos a
serem aglomerados;
ser robusto à presença de ruído;
obter resultados consolidados independentemente da ordem em que os dados
são apresentados.
De forma geral, nenhum algoritmo sozinho pode atender a todos esses requisitos que
foram citados, por isso é importante entender as características de cada algoritmo para
escolher o melhor método para cada tipo de dado ou problema (LANDIM, 2011).
Ter conhecimento das diversas possibilidades de distâncias e métodos de ligação é uma
tarefa muito importante para a análise de conglomerados. Vejamos, a seguir, alguns dos
principais métodos que permitem o cálculo de distância de um conglomerado.
Métodos de Ligação da Média e da Mediana
Os métodos heurísticos não fornecem um resultado com qualquer garantia, mas
geralmente são construídos com base em princípios diretos e, portanto, fáceis de
modi�car. Os métodos de ligação da média e da mediana (algoritmos k-médias e k-
medianas) são usados não apenas no agrupamento mas também como sub-rotinas em
muitos outros métodos de ligação.
Conforme Hair et al. (2009), um método de ligação popular para agrupar dados em
relação a uma função de distância é o método de ligação média. A ideia básica é atribuir
um conjunto de pontos em algum espaço métrico em k aglomerados por iteração,
auxílio analítico para reduzir a dimensionalidade dos
dados sem a perda signi�cativa de informações?
melhorando, sucessivamente, a localização dos k centros de aglomerados e atribuindo
cada ponto ao aglomerado que possui o centro mais próximo.
Os centros são frequentemente escolhidos para minimizar a soma dos quadrados das
distâncias dentro de cada aglomerado. Essa é a métrica usada no método de ligação da
média. Se a mediana for utilizada ao invés da média, temos o método de ligação da
mediana.
Os métodos de particionamento ou realocação exigem que o usuário especi�que o
número inicial de grupos ou aglomerados, e o algoritmo realoca iterativamente as
observações entre os grupos até que um critério de convergência prede�nido seja
alcançado.
A maioria dos algoritmos de agrupamento depende de alguma medida de distância ou
dissimilaridade entre os pontos de dados para classi�cá-los em grupos. A medida mais
simples e comum é a distância euclidiana entre os vetores de dados x1 e x2:
                                                              d(x1, x2) = ||x1- x2||                       (3.1)
Um dos métodos de realocação populares é o algoritmo k-médias. Nesse procedimento,
o usuário especi�ca k-grupos como o número de aglomerados juntamente com suas
localizações iniciais do centroide. Uma matriz de semelhanças é então calculada entre os
S A I B A M A I S
O particionamento K-médias foi originalmente desenvolvido em um artigo pioneiro de
MacQueen (1967), que deu seu nome ao método: K-médias. O algoritmo de MacQueen contém
procedimentos para a fusão de aglomerados, se os centroides (centro de gravidade do
aglomerado) �carem muito próximos, e para a criação de novos aglomerados se um objeto
estiver muito distante dos centroides existentes.
Fonte: Adaptado de Jardim (2018).
n pontos de dados e os k-centroides, com cada observação sendo atribuída ao grupo
com o centroide mais próximo.
Um novo centroide, ou a versão multidimensional da média, para cada grupo, é calculado
e o processo é repetido. A cada iteração, espera-se que os centroides se movam em
direção aos centros reais dos grupos locais formados durante o processo. Os rótulos de
grupo são atribuídos minimizando as distâncias da soma dos quadrados dentro do
aglomerado para os k-grupos.
PASSOS PARA USO DO MÉTODO K-MÉDIAS PARA
CÁLCULO DA DISTÂNCIA DE UM CONGLOMERADO
Fonte: mejn / 123RF.
#PraCegoVer: o infográ�co interativo, intitulado “Passos para uso do método k-médias para
cálculo da distância de um conglomerado”, apresenta, ao fundo, a ilustração de um quadro
negro, com três botões interativos; à frente há a ilustração de um professor. O primeiro botão
interativo, intitulado “Passo 1”, ao ser clicado, apresenta o texto “de�nir o número inicial de
aglomerados e seus respectivos centroides. As observações no banco de dados são divididas
em K aglomerados, de modo que as observações dentro de cada aglomerado estejam mais
próximas do que quaisquer outras observações que pertençam a um aglomerado diferente.
Para fazer isso, as observações precisam ser distribuídas de maneira arbitrária entre os K
aglomerados”. O segundo botão interativo, intitulado “Passo 2”, ao ser clicado, apresenta o
texto“deve-se escolher uma observação especí�ca que esteja mais próxima do centroide e
realocá-la nesse aglomerado. Nesse ponto, o outro aglomerado acabou de perder essa
observação, então, o centroide do aglomerado que a recebeu e o centroide do cluster que a
perdeu devem ser recalculados”. O terceiro botão interativo, intitulado “Passo 3”, ao ser
clicado, apresenta o texto “deve-se continuar o passo anterior até que não haja mais
possibilidade de se realocar quaisquer observações, por estar mais próximo do centroide de
outro aglomerado”.
Quando uma dada observação p é incluída ou excluída do aglomerado correspondente, a
coordenada do centroide deve ser recalculada de acordo com as Expressões 3.2 e 3.3:
, caso a observação p seja inserida no aglomerado em análise. (3.2)
, caso a observação p seja excluída do aglomerado em análise. (3.3)
Em que N e são o número de observações no aglomerado e as coordenadas de seu
centroide antes da realocação, respectivamente. Além disso, x representa as
coordenadas da observação p, que sofreu modi�cação de aglomerado.
A Figura 3.1 ilustra uma situação hipotética, representando o �m do processo k-médias
para duas variáveis (X e X ), visto que não há mais possibilidade de realocação de
nenhuma observação, já que os centroides dos demais agrupamentos não estão mais
próximos.
x
−
=x
−novo
N⋅ +x
−
xp
N+1
=x
−novo
N⋅ +x
−
xp
N−1
x
−
p
1 2
Figura 3.1: Situação hipotética que representa o término do procedimento k-médias
Fonte: Fávero e Bel�ori (2017, p. 337).
#PraCegoVer: a imagem apresenta uma �gura de um grá�co com quatro aglomerados, na cor
preta, contendo a variável X no eixo horizontal, e a variável X , no eixo vertical.
De acordo com Fávero e Bel�ori (2017), ao contrário dos esquemas de agrupamento
hierárquico, não há necessidade de de�nir uma matriz de distância entre as observações
em cada etapa, o que reduz a necessidade de poder computacional e permite que
esquemas de agrupamento não hierárquicos sejam aplicados aos bancos de dados
muito maiores do que aqueles tradicionalmente estudados por meio de esquemas
hierárquicos.
Além disso, deve-se haver uma padronização das variáveis antes da criação das etapas
de aplicação do método k-médias, assim como nos esquemas de aglomeração
hierárquicos, em situações em que os respectivos valores não apresentem a unidade de
medida igual.
Por �m, após concluir esse processo, é importante investigar se os valores de uma
determinada variável de medida diferem entre os grupos de�nidos, ou seja, se a
1 2
variabilidade entre os aglomerados é signi�cativamente maior do que a variabilidade
dentro de cada aglomerado.
Ao agrupar dados usando um modelo de k-medianas, o objetivo do método é dividir as
entidades em exatamente k clusters, pré-especi�cados de tal forma que a soma das
distâncias entre cada entidade e o objeto central (a mediana) em seus respectivos
clusters seja a menor.
Essa diferença torna o agrupamento k-medianas mais robusto a ruídos e outliers (valor
que foge da normalidade e causa anomalias nos resultados), uma vez que a média de um
aglomerado se desvia do centro do cluster quando os outliers estão presentes, enquanto
a mediana �ca próxima ao centro e é menos impactada pelos outliers. O agrupamento de
k-medianas tem um desempenho melhor do que o agrupamento de k-médias na
estimativa de parâmetros.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Fonte: kantver / 123RF.
Um dendrograma (ou diagrama de árvore) é uma estrutura de rede. É constituído por
um nó raiz que dá origem a vários nós ligados por arestas ou ramos. Os últimos nós da
hierarquia são chamados de folhas.
Acerca dos conhecimentos adquiridos sobre dendrogramas, assinale a alternativa
correta.
a) Para exibir o nível de similaridade (ou distância), o ponteiro deve ser mantido
em uma linha vertical no dendrograma.
b) O dendrograma é uma representação grá�ca útil na análise de
agrupamentos, mostrando como os agrupamentos são separados em cada
passo do procedimento.
c) O dendrograma é um recurso grá�co utilizado na análise multivariada de
séries temporais.
d) Nos agrupamentos hierárquicos, um dendrograma é uma árvore que
controla quando os clusters são criados e que determina qual é a métrica das
distâncias.
e) O dendrograma no agrupamento hierárquico ilustra o desarranjo dos
agrupamentos produzidos pelas análises correspondentes.
Distância de
Minkowski e
Mahalanobis
A medição de similaridade ou distância é fundamental no processo de análise de
aglomerados, pois a maioria das técnicas de agrupamento começa com o cálculo de uma
matriz de distâncias (ou dissimilaridades). Uma família de medidas de distância são as
métricas de Minkowski, em que a distância entre as entidades d-dimensionais i e j
(denotadas por M ) é dada por:
Em que m assume valores inteiros e positivos (m = 1, 2, ... ), x é o valor da variável k
para a entidade i , e x é o valor da variável k para a entidade j .
A medida de distância comumente utilizada é a euclidiana ou norma L , um caso especial
da métrica Minkowski, em que m = 2. A compreensão e a experiência humana nos
familiarizam com os resultados ao aplicar medidas L (em um problema espacial em um
plano euclidiano), mas a aplicação de normas não L pode levar a alguns resultados
contraintuitivos.
A Figura 3.2 mostra os locos de comprimento unitário ao redor da origem, plotados com
uma seleção de normas L . A norma L traça um círculo, as normas fracionárias (m < 1)
traçam uma hipoelipse, a norma L traça uma linha reta e as normas de ordem superior
(m > 2) produzem traços hiperelípticos.
ij
{{M}_{ij}}={{{\mathop{\sum }_{j=1}^{k}|{{x}_{ik}}-{{x}_{jk}}{{|}^{m}}\}}^{\frac{1}{m}}}~~~~~~~~(3.4)
ik th
th jk th th
2
2
2
m 2
1
Figura 3.2: Locos de comprimento unitário plotados com várias normas L
Fonte: Doherty, Adams e Davey (2004, p. 182).
#PraCegoVer: a imagem apresenta uma �gura de um grá�co com quatro locos de
comprimento unitário plotados com normas L , L , L e L .
Em um contexto de agrupamento, ao medir dissimilaridades entre duas entidades, o uso
de uma norma fracionária reduz o impacto de diferenças extremas de atributos
individuais quando comparadas às medidas euclidianas equivalentes. Por outro lado, as
normas L (em que m > 1) enfatizam as maiores dissimilaridades de atributos entre as
duas entidades, e levadas ao limite, em que L relata a distância com base no único
atributo com a máxima dissimilaridade.
m
0.3 1 2 5
m
∞
S A I B A M A I S
Mi k ki d l i ã d t t b l d il
Uma grande desvantagem da distância euclidiana, conforme de�nido acima, é que as
características correlacionadas podem contribuir desproporcionalmente para a distância
geral. Por exemplo, se uma análise craniométrica se basear em três medidas, digamos
altura facial superior, altura nasal e comprimento da cabeça, as duas primeiras medidas
seriam altamente correlacionadas e, portanto, o comprimento facial teria mais impacto
na distância geral do que o comprimento da cabeça. O que é necessário é uma medida
de distância multivariada que leve em consideração a intercorrelação das características.
Uma solução típica para esse exemplo tem sido a distância generalizada de Mahalanobis,
uma medida estatística amplamente utilizada para detectar a anomalia de dados
multivariados. Ao contrário da distância euclidiana, a distância de Mahalanobis considera
a relação entre várias características e permanece invariante em escala (ou seja,
independente da escala de medição).
Além disso, a distância de Mahalanobis não é afetada pela dimensão, ou seja, a distância
de Mahalanobis de dois pontos é independente da unidade de medida dos dados
originais. Além disso, a distância de Mahalanobis pode eliminar a interferência de
correlações entre variáveis, sendo muito adequada para medir a posição relativa entre as
amostras. Portanto, a distância de Mahalanobis é usada para construir o grá�co de
vizinhança, que pode ser de�nida da seguinte forma:
Aqui, e referem-se ao vetor de t característicaspara as populações i e j,
respectivamente, W é a matriz de variância-covariância t-por-t agrupada em todos os
grupos na análise (não apenas i e j), e o primo, o símbolo ('), indica a transposição. Assim
como na distância euclidiana, o valor da distância de Mahalanobis aumentará com o
número de características, o que signi�ca que não se pode comparar diretamente um
Minkowski desenvolveu uma nova visão de espaço e tempo, estabelecendo os pilares
matemáticos necessários da teoria da relatividade. No ano de 1907, Minkowski notou que o
trabalho de Lorentz e Einstein podia ser melhor entendido em espaços não euclidianos. Ele
argumenta que o espaço e o tempo, antes considerados separados, estão unidos em um
contínuo espaço-tempo de quatro dimensões.
Para saber mais, acesse o link a seguir:
https://�sica.net/biogra�as/em-22-06-hermann-minkowski/
= ( − )         (3.5)Dij2 ( − )χi χj
′
W −1 χi χj
χi χj
https://fisica.net/biografias/em-22-06-hermann-minkowski/
valor de distância de um estudo com 10 características com outra análise usando 20
características.
Conforme dito, a distância de Mahalanobis é a distância entre dois pontos no espaço
multivariado. Em um espaço euclidiano regular, as variáveis (por exemplo, x, y, z) são
representadas por eixos desenhados em ângulos retos entre si. A distância entre
quaisquer dois pontos pode ser medida com uma régua. Para variáveis não
correlacionadas, a distância euclidiana é igual à distância de Mahalanobis.
No entanto, se duas ou mais variáveis estiverem correlacionadas, os eixos não estarão
mais em ângulos retos e as medições se tornarão impossíveis com uma régua. Além
disso, se você tiver mais de três variáveis, não poderá plotá-las no espaço 3D normal. A
distância de Mahalanobis resolve esse problema de medição, pois mede distâncias entre
pontos, até pontos correlacionados para múltiplas variáveis. A Figura 3.3 ilustra um
exemplo de grá�co de distância de Mahalanobis.
Figura 3.3: Exemplo de grá�co de distância de Mahalanobis
Fonte: Poisson, Taylor e Ghosh (2011, p. 6).
#PraCegoVer: a imagem apresenta uma �gura de um grá�co de contorno sobrepondo o
grá�co de dispersão de 100 sorteios aleatórios de uma distribuição normal bivariada com
média zero, variância unitária e correlação de 50%. O centroide de�nido pelas médias
marginais é indicado por um quadrado azul.
A distância de Mahalanobis mede a distância em relação ao centroide – uma base ou
ponto central que pode ser pensado como uma média geral para dados multivariados. O
centroide é um ponto no espaço multivariado onde todas as médias de todas as variáveis
se cruzam. Quanto maior a distância de Mahalanobis, mais distante do centroide está o
ponto de dados.
Algumas restrições óbvias na análise de dados são de particular importância em estudos
bioarqueológicos, em que a condição dos restos esqueléticos geralmente signi�ca falta
de dados e/ou pequenos tamanhos de amostra. Métodos multivariados, como a
distância de Mahalanobis, exigem casos completos (sem dados ausentes) e,
dependendo da condição dos restos, muitas vezes, acaba-se fazendo um ato de equilíbrio
entre excluir características e excluir casos (VALENTIN, 2000).
O tamanho da amostra também é importante, devendo ser mantido o maior possível. Se
o número de valores ausentes para uma determinada característica for relativamente
pequeno, as medidas de distância podem ser in�uenciadas pelo pequeno tamanho da
amostra, então a distância ao quadrado de Mahalanobis deve ser corrigida, subtraindo a
quantidade t(n + n )/(n n ) do valor de D ² da Equação 3.5, em que n e n são os
tamanhos amostrais para as populações i e j, respectivamente, e t é o número de
características.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Prasanta Chandra Mahalanobis (1893-1972) foi um estatístico consagrado, que fez
extensas contribuições à metodologia, aplicações, desenvolvimento estatístico, além de
contribuir com políticas públicas na Índia.
i j i j ij i j
RAO, C. R. Prasantha Chandra Mahalanobis 1893-1972. Biographical Memoirs of
Fellows of the Royal Society, v. 19, 1973.
Acerca dos conhecimentos sobre a distância de Mahalanobis, assinale a alternativa
correta.
a) A forma mais adequada para de�nir o número de agrupamentos
identi�cados pelo dendrograma é a distância de Mahalanobis.
b) No método de agrupamento hierárquico, a formação dos agrupamentos é
feita usando ligações e os resultados são dispostos pelo grá�co de Mahalanobis.
c) Métodos multivariados, como a distância de Mahalanobis, são capazes de
trabalhar com dados ausentes.
d) Métodos multivariados, como a distância de Mahalanobis, exigem casos
completos (sem dados ausentes).
e) O método de Mahalanobis usa as distâncias dentro do aglomerado
(quadrado) e entre o aglomerado (quadrado).
No método do centroide, a distância entre dois aglomerados A e B é de�nida como a
distância euclidiana entre os vetores médios (geralmente chamados de centroides) dos
dois aglomerados:
Métodos de Ligação do
Centroide e de Ward
D (A,B) = d( , )         (3.6)y
−A
y
−B
Em que e são os vetores médios para os vetores de observação em A e os vetores
de observação em B, respectivamente. De maneira usual e são de�nidos da
seguinte forma:
Os dois aglomerados com a menor distância entre os centroides são mesclados em cada
etapa. Após a junção de dois clusters A e B, o centroide do novo aglomerado AB é dado
pela média ponderada a seguir:
O método de Ward, também chamado de método da soma incremental dos quadrados,
usa as distâncias dentro do aglomerado (quadrado) e entre o aglomerado (quadrado). Se
AB é o aglomerado obtido pela combinação dos aglomerados A e B, então a soma das
distâncias dentro do aglomerado (dos itens dos vetores médios do aglomerado) é:
Em que , como visto na Equação 3.9, e e
 são os números de pontos em A, B e AB, respectivamente. Como
essas somas de distâncias são equivalentes a somas de quadrados dentro do
aglomerado, elas são indicadas por SSE , SSE e SSE . O método de Ward une os dois
aglomerados A e B, que minimizam o aumento da SSE, de�nidos como:
y
−A
y
−B
y
−A
y
−B
=         (3.7)y
−A
∑
i=1
nA yi
nA
=         (3.8)y
−B
∑
i=1
nB yi
nB
=         (3.9)y
−AB
+nAy
−A
nBy
−B
+nA nB
SS = ( − )         (3.10)EA ∑
i=1
nA
( − )yi y
−A
′
yi y
−A
SS = ( − )         (3.11)EB ∑
i=1
nB
( − )yi y
−B
′
yi y
−B
SS = ( − )         (3.12)EAB ∑
i=1
nAB
( − )yi y
−AB
′
yi y
−AB
= + / ( + )y
−AB
nAy
−A
nBy
−B
nA nB $, $nA nB
= +nAB nA nB
A B AB
= SS − (SS + SS )         (3.13)IAB EAB EA EB
Pode-se mostrar que o aumento I na Equação 3.13 tem as seguintes duas formas
equivalentes:
Ou ainda:
Assim, com a equação 3.15, minimizar o aumento de SSE é equivalente a minimizar as
distâncias entre aglomerados. Se A consiste apenas em y e B consiste apenas em y ,
então SSE e SSE são zero, e 3.13 e 3.15 se reduzem a:
O método de Ward está relacionado ao método do centroide. Se a distância 
na equação 3.6 é elevada ao quadrado e comparada com a equação 3.15, a única
diferença será o coe�ciente para o método de Ward. Assim, os tamanhos dos
aglomerados têm impacto no método de Ward, mas não no método do centroide.
Escrevendo na equação 3.15, tem-se:
Percebe-se que, à medida que e aumentam, também aumenta.
Reescrevendo a equação 3.17 como:
ressalta-se que, à medida que aumenta com �xo, aumenta.
Portanto, comparado ao método do centroide, o método de Ward é mais propenso a unir
aglomerados menores ou aglomerados de igual tamanho. Por �m, as características
principais desse método são:
AB
= ( − ) + ( − )         (3.14)IAB nA( − )y
−A
y
−AB
′
y
−A
y
−AB
nB( − )y
−B
y
−AB
′
y
−B
y
−AB
= ( − )         (3.15)IAB
nAnB
+nA nB
( − )y
−A
y
−AB
′
y
−A
y
−AB
i j
A B
= SS = ( − ) = ( , )         (3.16)Iij EAB
1
2
( − )yi yj
′
yi yj
1
2
d2 yi  yj
d( , )y
−A
y
−B
nAnB
+nA nB
nAnB
+nA nB
=         (3.17)
nAnB
+nA nB
1
1/   +  1/nA nB
nA nB
nAnB
+nA nB
=         (3.18)
nAnB
+nA nB
nA
1  +   /nA nB
nB nA
nAnB+nA nB
Diante do exposto, vimos que o método desenvolvido por Ward é baseado em uma lógica
de soma de erros quadrados que só funciona para distância euclidiana entre
observações. Além disso, a soma dos erros quadrados requer a consideração do
chamado centroide de cada aglomerado, ou seja, o vetor médio das observações
pertencentes ao aglomerado.
praticar
Vamos Praticar
O cálculo da distância de aglomerados abrange uma variedade de técnicas, cujo
objetivo principal é realizar cálculos de medidas de dissimilaridade usadas nos
algoritmos de agrupamento. A seguir, será apresentado um exemplo numérico simples,
para, baseado nesse exemplo, você praticar com problemas similares de cálculo de
distância de aglomerados.
A partir do que foi apresentado, calcule a distância euclidiana entre os pontos (0, 2, 1) e
(1, 18, 2) para q = 1, 2 e 3.
além de ter bons resultados para distâncias euclidianas, também tem bons
resultados para outras distâncias; 
Aqui, serão discutidos os principais esquemas de agrupamento hierárquico em que
agrupamentos cada vez maiores são formados em cada estágio de aglomeração, à
medida que novas observações ou agrupamentos são adicionados a eles devido a um
certo critério (método de encadeamento) e uma métrica de distância baseada em
seleção.
Segundo Fávero e Bel�ori (2015), existem três métodos principais de ligação para
esquemas hierárquicos aglomerativos, que são ilustrados na Figura 3.4: método de
encadeamento único (nearest neighbor ou single linkage), completo (furthest neighbor ou
complete linkage) e médio (between groups ou average linkage). De forma ilustrativa, a
Tabela 3.1 mostra as distâncias a serem consideradas para cada etapa de aglomeração,
dependendo do método de ligação escolhido.
Tabela de
Agrupamentos e
Dendrograma
Figura 3.4: Esquemas de aglomeração em análise de agrupamentos
Fonte: Fávero e Bel�ori (2017, p. 323).
#PraCegoVer: a imagem apresenta uma �gura de um �uxograma com cinco níveis,
representando os esquemas de aglomeração em análise de agrupamentos. O esquema de
aglomeração divide-se em “Não hierárquico (k-means)” e “Hierárquico”, que, por sua vez, se
divide em “Divisivo” e “Aglomerativo”, que segue para “Método de Encadeamento”. Este, por
sua vez, se divide em “Único (Single Linkage)”, “Completo (Complete Linkage)” e “Médio
(Average Linkage)”.
Tabela 3.1: Distância a ser considerada em função do método de encadeamento
Fonte: Adaptada de Fávero e Bel�ori (2017).
#PraCegoVer: a imagem apresenta uma tabela com 3 colunas, que são: método de
encadeamento; ilustração; distância (dissimilaridade), respectivamente, e 3 linhas. Na linha 1,
coluna 1, tem-se o método de encadeamento único; na coluna 2, tem-se uma ilustração com
dois círculos tracejados, o primeiro com os pontos 1 e 2, e o segundo círculo com os pontos 3,
4 e 5, sendo que o ponto 2 do círculo 1 está ligado ao ponto 3 do círculo 2; na coluna 3, tem-se
a distância d . Na linha 2, coluna 1, tem-se o método de encadeamento completo; na coluna 2,
tem-se uma ilustração com dois círculos tracejados, o primeiro com os pontos 1 e 2, e o
segundo círculo com os pontos 3, 4 e 5, sendo que o ponto 1 do círculo 1 está ligado ao ponto
5 do círculo 2; na coluna 3, tem-se a distância d . Na linha 3, coluna 1, tem-se o método de
encadeamento médio; na coluna 2, tem-se uma ilustração com dois círculos tracejados, o
primeiro com os pontos 1 e 2, e o segundo círculo com os pontos 3, 4 e 5, sendo que os pontos
1 e 2 do círculo 1 estão ligados aos pontos 3, 4, 5 do círculo 2; na coluna 3, tem-se a distância
.
A abordagem de encadeamento único favorece as distâncias menores (origem da
nomenclatura do vizinho mais próximo) para formar novos clusters em cada estágio de
agregação, mesclando observações ou grupos. Dessa forma, sua aplicação é sugerida
23
15
+ + + + +d13 d14 d15 d23 d24 d25
6
para observar situações relativamente distantes, ou seja, situações diferentes, e querer
formar clusters que levem em conta um mínimo de homogeneidades. Entretanto, quando
as observações ou agrupamentos não estão distantes, sua análise é comprometida,
como ilustra a Figura 3.5.
Figura 3.5: Método de encadeamento único – análise prejudicada na existência de
observações ou agrupamentos pouco afastados
Fonte: Fávero e Bel�ori (2017, p. 324).
#PraCegoVer: a imagem apresenta uma �gura de um grá�co que ilustra agrupamentos pouco
afastados entre si, contendo a variável X , no eixo horizontal, e a variável X , no eixo vertical.
De outra forma, o método de encadeamento completo faz o contrário, ou seja, prioriza a
maior distância entre observações ou grupos para formar novos clusters (origem da
nomenclatura “vizinhos mais distantes”). Dessa forma, sua adoção é recomendada em
situações em que não há lacunas signi�cativas entre as observações e que os
pesquisadores precisem identi�car a heterogeneidade entre elas (FÁVERO; BELFIORI,
2015).
Finalmente, no método do encadeamento médio, os dois grupos são mesclados com
base na distância média entre todos os pares de observações pertencentes a esses
1 2
grupos (origem da nomenclatura “enlace médio”). Assim, apesar da mudança no cálculo
da medida de distância entre os aglomerados, o método de encadeamento médio acaba
preservando a solução ordenada de observações em cada grupo fornecida pelo de
método encadeamento único, caso existam lacunas consideráveis entre as observações.
Se as observações estiverem muito próximas umas das outras, o mesmo acontecerá
com a solução de ordenação fornecida pela abordagem de encadeamento completo
(FÁVERO; BELFIORI, 2017).
A partir das etapas de aglomeração e das distâncias entre os clusters formados, pode-se
construir um diagrama bidimensional chamado dendrograma, grá�co em forma de
árvore, que realiza uma síntese do processo de aglomeração e explica a distribuição de
cada observação dentro de cada cluster.
Os grupos, nos métodos hierárquicos, são geralmente representados por um diagrama
bidimensional chamado de dendrograma ou diagrama de árvore. Nesse diagrama, cada
ramo representa um elemento e a raiz representa um aglomerado de todos os elementos.
A Figura 3.6 ilustra um exemplo de um dendrograma.
Figura 3.6: Exemplo de dendrograma
Fonte: Souza (2009, p. 105).
#PraCegoVer: a imagem apresenta uma �gura de um dendrograma. O dendrograma foi criado
usando a partição �nal de 4 clusters com um nível de similaridade de cerca de 5. O primeiro
cluster (extrema esquerda) consiste em 3 observações (observações nas linhas 1, 1 e 1 do
eixo x do grá�co). O segundo grupo, à direita, consiste em 5 observações (observações nas
linhas 1, 1, 1, 2 e 3 do eixo x do grá�co). O terceiro cluster consiste em 7 observações (as
observações nas linhas 2, 2, 2, 2, 2, 2 e 2). O quarto cluster, mais à direita, consiste em 9
observações (observações nas linhas 2, 2, 3, 3, 3, 3, 3, 3 e 3). Se um corte for feito no
dendrograma mais alto, este acabará com menos clusters e o nível de similaridade reduzirá. Se
um corte for feito no dendrograma para baixo, a similaridade será maior, mas serão
observados mais aglomerados �nais.
Para exibir o nível de similaridade (ou distância), o ponteiro deve ser mantido em uma
linha horizontal no dendrograma. O padrão de como o valor de similaridade ou distância
muda passo a passo pode ajudá-lo a escolher a aglomeração �nal de seus dados. A
etapa de mudança abrupta de valores pode identi�car um bom ponto para de�nir o
cluster �nal.
 
Três regras para utilizar na interpretação de um dendrograma
A decisão sobre o cluster �nal também é conhecida como corte do dendrograma. Cortar
um dendrograma é semelhante a desenhar uma linha no dendrograma para especi�car a
aglomeração �nal. Também pode-se comparar o dendrograma com diferentes clusters
�nais para determinar qual aglomeração �nal faz mais sentido para os dados.
praticar
Vamos Praticar
A distância de Mahalanobis é uma métrica de distância multivariada e�caz e
extremamente útil, tendo excelentes aplicações na detecção multivariada de anomalias,
classi�cação em conjuntosde dados altamente desequilibrados e classi�cação de uma
classe.
A partir do que foi apresentado e por meio do conjunto de dados fornecidos no
seguinte link
https://raw.githubusercontent.com/selva86/datasets/master/diamonds.csv, utilize
alguma linguagem de programação, como Python, por exemplo, para calcular a
distância de Mahalanobis desse conjunto de dados.
 Regra 1 Regra 2 Regra 3
no próprio dendrograma, escreva suas características, na frente de cada amostra, e tudo o
que possa revelar o que um mesmo conjunto de amostras tem em comum e como difere
de outros grupos.
https://raw.githubusercontent.com/selva86/datasets/master/diamonds.csv
Material
Complementar
W E B
Análises Exploratórias e Análise de Clusters
Ano: 2020
Comentário: Assista a esse excelente vídeo do professor Luiz Paulo
Fávero, Professor Titular da FEA/USP, com Pós-Doutorado em
Econometria Financeira pela Columbia University, em Nova York. No
vídeo, você irá aprender: o que são técnicas exploratórias e quais
suas utilizações; em quantas e quais são as subdivisões das
técnicas exploratórias; análise de clusters; análise fatorial; análise
de correspondência simples e múltipla.
Para assistir ao vídeo, acesse o link:
ACESSAR
https://www.youtube.com/watch?v=8X_3gZC_Sds
L I V R O
Manual de análise de dados: estatística e
modelagem multivariada com Excel®, SPSS® e
Stata®
Autores: Luiz Paulo Fávero e Patrícia Bel�ore
Editora: Elsevier
Capítulo: 9
Ano: 2017
ISBN: 978-85-352-7087-7
Comentário: Este livro é escrito numa linguagem simples, por dois
professores experientes, para alunos principiantes com
conhecimentos básicos de estatística. A leitura do capítulo 9 é
amplamente recomendável, pois irá complementar e ilustrar com
mais exemplos acerca da discussão sobre análise de aglomerados.
Disponível em: Minha Biblioteca
Conclusão
Chegamos ao �nal do nosso estudo sobre as diferentes técnicas disponíveis para análise de
conglomerados.
Diante do exposto, foi visto que a análise de conglomerados ajuda a entender o agrupamento
natural em um conjunto de dados. Sua �nalidade é fazer sentido particionar os dados em
algum grupo de agrupamentos lógicos. A qualidade do agrupamento depende dos diversos
meios de cálculo de distâncias e métodos de ligação.
Foram elucidados cada principal método de ligação para cálculo de distância de um
conglomerado. Também discutimos para qual tipo de situação cada método de ligação é mais
apropriado. Por �m, vimos conceitos referentes à tabela de agrupamentos e dendrograma.
Referência
s
ANÁLISES exploratórias e análise de
clusters – Prof. Luiz Paulo Fávero. [S. l.:
s. n.], 2020. 1 vídeo (9 min.). Publicado
pelo canal Estatidados. Disponível em:
https://www.youtube.com/watch?
v=8X_3gZC_Sds. Acesso em: 01 maio
2022.
DOHERTY, K.; ADAMS, R.; DAVEY, N. Non-euclidean norms and data normalization. In:
EUROPEAN SYMPOSIUM ON ARTIFICIAL NEURAL NETWORKS, 12., 2004, Bruges. Anais [...].
Bugres, 2004.
EM 22/06: Hermann Minkowski. Fisicanet, 25 jun. 2021. Disponível em:
https://�sica.net/biogra�as/em-22-06-hermann-minkowski/. Acesso em: 01 mai. 2022.
https://www.youtube.com/watch?v=8X_3gZC_Sds
https://www.youtube.com/watch?v=8X_3gZC_Sds
https://fisica.net/biografias/em-22-06-hermann-minkowski/
FÁVERO, L. P.; BELFIORI, P. Análise de dados: técnicas multivariadas exploratórias com SPSS e
STATA. Rio de Janeiro: Elsevier, 2015.
FÁVERO, L. P.; BELFIORI, P. Manual de análise de dados: estatística e modelagem multivariada
com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.
HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Bookman: Porto Alegre, 2009.
JARDIM, F. G. Aplicação de marketing analítico. 2018. 87 f. Dissertação (Mestrado em Gestão)
– Universidade Católica Portuguesa, Lisboa, 2018.
LANDIM, P. M. B. Análise estatística de dados geológicos multivariados. São Paulo: O�cina de
Textos, 2011.
MACQUEEN, J. Some methods for classi�cation and analysis of multivariate observations. In:
LE CAM, L. M.; NEYMAN, J. (eds.). Proceedings of the 5th Berkeley Symposium on
Mathematical Statistics and Probability. Berkeley: University of California Press, 1967. v. 1. p.
281-297.
POISSON, L. M.; TAYLOR, J. M.; GHOSH, D. Integrative set enrichment testing for multiple omics
platforms. BMC Bioinformatics, 2011. Disponível em:
https://bmcbioinformatics.biomedcentral.com/track/pdf/10.1186/1471-2105-12-459.pdf.
Acesso em: 27 abr. 2022.
RAO, C. R. Prasantha Chandra Mahalanobis 1893-1972. Biographical Memoirs of Fellows of the
Royal Society, v. 19, 1973.
SOUZA, M. J. B. de. Avaliação de metais-traço no sedimento do sistema estuarino dos rios
Piraquê-açu e Piraquê-mirim (Aracruz-ES). 2019. 145 f. Dissertação (Mestrado em Química) –
Universidade Federal do Espírito Santo, Vitória, 2009.
VALENTIN, J. L. Ecologia numérica: uma introdução à análise multivariada de dados
ecológicos. Rio de Janeiro: Interciência, 2000.
https://bmcbioinformatics.biomedcentral.com/track/pdf/10.1186/1471-2105-12-459.pdf

Outros materiais