Estatística - Análise de Clusters

•

UNIMEP

0

Gabriele Valerio

20/09/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.050 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Estatística – Análise de Clusters 
Aplicação em pesquisa de marketing 
Está análise é uma técnica que permite agrupar, ou dividir, várias variáveis 
em grupos homogêneos de acordo com seu grau de similaridade ou segregação. 
Quando utilizado dessa análise, o objetivo é segmentar grupos. Esse grupo deve 
apresentar objetos com características homogenias e alto poder de separação 
de outros objetos que não sejam incluídos no grupo. 
A análise de Clusters (ou análise de aglomerados, classificação ou 
taxonomia numérica) é utilizada para classificação de observações em grupos 
homogêneos chamados de clusters, como, para analisar dados em diversas 
situações, como para reduzir a dimensão de um conjunto de dados ou extrair 
informações “escondidas” que estão presentes nos dados. 
As observações são agrupadas em função de medidas de distância entre 
elas, portanto, todas as variáveis são independentes ou preditoras. O banco de 
dados não interfere na técnica. Em marketing a técnica de agrupamento auxilia 
a descobrir grupos distintos em base de clientes, por exemplo. 
As observações dentro um grupo deve ser semelhante entre si e 
diferentes de outros grupos. Utilizada para entender as necessidades e 
preferências de consumidores, muitas vezes a análise de clusters não é nítida 
em relação a classificação, já que alguns consumidores podem se enquadrar em 
mais de um grupo. A utilização da cluster para segmentação de mercado é o 
principal uso no marketing. 
Para isso, é usado da função de dissimilaridade, a função recebe duas 
variáveis e retorna a distância entre elas. Essa variável será um objeto que irá 
representar uma entrada de dados, podendo ser numérico (idade, temperatura 
ou salário) ou categórico (patente militar ou sexo). 
Recomenda-se padronizar as variáveis para não afetar os resultados de 
uma Análise de Clusters. A padronização de variáveis é um procedimento 
estatístico, conhecido por z-scores. Esse procedimento consiste em transformar 
as variáveis de cada observação subtraindo a média e dividindo pelo desvio-
padrão, de modo que cada nova variável tenha média igual a 0 e desvio-padrão 
igual a 1. Após esse procedimento, o novo banco de dados com todas as 
variáveis padronizadas estará pronto para rodar a Análise de Clusters. Vale 
lembrar que o z-score não “normaliza”, e sim padroniza as variáveis. 
O ideal é sempre iniciar com um procedimento hierárquico, fazer o 
dendrograma e analisá-lo para ajudar a escolher o número de grupos. Apenas 
quando o banco de dados for muito grande (milhares de observações) é 
recomendado o método k-means, que exige a escolha do número de grupos a 
priori. K-means converge para resultados de forma bem mais rápida, enquanto 
os métodos hierárquicos podem ser inviáveis pela demora computacional. 
Dentre os procedimentos hierárquicos, não há um método de encadeamento que 
seja mais indicado do que outro. Em Marketing, os métodos Average Linkage e 
Ward são os mais usados. Recomenda-se sempre mais de um método para 
comparar os resultados. 
A análise discriminante também se refere a classificação de observações, 
porém, em diferença com a cluster, ela exige que haja conhecimento prévio da 
composição dos grupos. Com a clusters esse conhecimento prévio não é 
preciso, a partir dos dados será sugerido a classificação dos grupos. 
Após aplicar a análise de configurar os grupos, deve ser analisado o 
comportamento do consumidor de cada grupo observando os critérios. Quando 
o objetivo da pesquisa for a identificação das oportunidades para um novo 
produto, é possível analisar as marcas e produtos dos concorrentes dentro do 
mesmo mercado. 
 
Elementos da Análise de Clusters 
Dentro da análise de clusters teremos elementos que compõe o 
procedimento. O esquema de aglomeração consiste em fornecer informações 
sobre as observações a serem agrupadas. O centroide, são valores médios das 
variáveis. O centro terá a estrutura de clusters construída ao seu redor de forma 
não-hierárquica. O dendrograma é o gráfico responsável por apresentar os 
resultados das observações quando agrupadas, ele irá indicar a distância entre 
as clusters. A distância entre os centros de cluster irá indicar o grau de separação 
entre elas. 
 
A análise 
Para fazer a análise de clusters é preciso seguir as etapas: 
• Formulação do problema; 
• Cálculo da medida de distância; 
• Procedimento de aglomeração; 
• Número de clusters; 
• Interpretação; 
• Avaliação e validação do processo de aglomeração. 
 
Ao formular o problema é necessário escolher de forma correta as 
variáveis para o procedimento de aglomeração, caso essas variáveis sejam 
escolhidas de forma errônea, haverá problemas no resultado final. A escolha das 
variáveis deve ser realizada uma sobre as hipóteses ou pesquisa. Depois de 
formular o problema, é calculado a distância entre as observações com o objetivo 
de realizar o procedimento de aglomeração. Nessa etapa é observado as 
semelhanças entre as variáveis escolhidas e aquelas com menor distância deve 
ser aglomeradas em um único grupo. Para cálculo de medida é utilizado da 
distância euclidiana (raiz quadrada da soam dos quadrados das diferenças de 
valores para cada variável) ou a distância euclidiana ao quadrado. Outras 
possibilidades é utilizar da distância de Manhattan (soma dos valores absolutos 
das diferenças para cada variável entre duas observações) ou a distância de 
Chebychev (valor absoluto da maior diferença de valores para qualquer variável). 
Algumas vezes será necessário realizar a padronização das variáveis 
para remover a influência de unidade diferentes e reduzir a diferença entre os 
grupos. Essa padronização pode ser realizada por médio de média zero e desvio 
padrão um. 
Para o procedimento de aglomeração, é preciso escolher uma forma de 
realizar a classificação, podendo ser hierárquica (aglomerativo ou divisivo) ou 
não hierárquica. 
Hierárquica 
A aglomeração hierárquica desenvolve uma estrutura em forma de árvore 
deixando a organização em uma hierarquia. Dentro dela há: 
A técnica aglomerativo é um procedimento em que cada objeto é 
separado incialmente em cluster e vai agrupando os objetos nos clusters. Essa 
técnica tem uso comum em pesquisa de marketing e consiste em métodos de 
encadeamento, métodos de variância e método de centroide. 
• Método de encadeamento: composto pela técnica de 
encadeamento único (baseia-se na distância mínima ou vizinho mais próximo, 
dessa forma os objetos são aglomerados pela distância mínima entre eles, o 
procedimento continua até os objetos estarem em um único clusters. Essa opção 
só serve se os cluster estiverem bem definidos), encadeamento completo 
(baseia-se na distância máxima, vizinho mais afastado, é calculado a distância 
entre os dois pontos mais afastados) e o encadeamento médio (esse método 
usa da distância média entre todos os pares de objetos). 
• Método de variância faz parte da técnica aglomerativa, nele os 
clusters são aglomerados de modo a minimizar a variância entre os objetos, para 
isso é usado o Método de Ward (calcula-se a média de todas as variáveis de 
cada cluster, e para cada objeto calcula-se a distância euclidiana ao quadrado). 
• Método centroide é definido a distância entre dois clusters pela 
distância dos seus respectivos centroídes. 
 
A técnica divisivo opta por começar com todos os objetos em um único 
clusters e então são divididos em grupos pequenos. 
 
Não Hierárquico 
A aglomeração não-hierárquica pode ser chamada de aglomeração de K 
média. Esse método possui a técnica limiar sequencial, limiar paralelo e 
particionamento otimizados. Uma desvantagem desse procedimento de 
aglomeração são que os números de grupos devem ser pré-estabelecidos antes, 
porém é mais rápida e melhor para quando há muitos dados a serem 
observados. 
Trata-se de uma heurística de agrupamento que não utiliza de hierarquia. 
Esse algoritmo buscaminimizar a distância dos elementos dentro de um 
conjunto. Para isso, é escolhido números de cluster (k) distintos de forma 
aleatória para ser o centro do grupo, é associado cada ponto ao centro mais 
próximo e calcula-se o centro de cada grupo. Os passos de associação e cálculo 
do centro devem ser repetidos até nenhum elemento do grupo mudar. 
Observe que, a escolha de um número pequeno ou um número muito 
grande de conjuntos pode causar problemas ao realizar o cálculo. 
 
• Método do limiar sequencial consiste na aglomeração dos 
objetos por meio da escolha do centro de um cluster e agrupa-se todos os 
objetos que estão a menos de um valor especificado em relação ao centro. 
• Método limiar paralelo, especifica de uma só vez vários centros 
de clusters. Todos os objetos que estão a menos de um valor pré-determinado 
do centro são agrupados juntos. 
• Método do particionamento otimizados, permite reatribuir 
posteriormente objetos a cluster de modo a otimizar um critério global. 
 
Para decidir o número de clusters, deve ser levado em conta algumas 
diretrizes como considerações teóricas, aglomeração hierárquica ou o tamanho 
do clusters. Algumas considerações teóricas ou conceituais podem sugerir o 
número de grupos a serem aglomerado as informações, como no caso de 
identificar segmentos de mercado. Mas com a aglomeração hierárquica, de 
acordo com o as distâncias, é possível achar o número de grupos pelo esquema 
de dendrograma. Já para quando há o uso de técnicas não-hierárquica e precisa 
estabelecer os critérios antes, pode-se usar o calculo da variância. 
Após realizar o procedimento de aglomeração e decidir pelo número de 
clusters, é realizado a interpretação das informações. Pode ser então realizado 
um exame do valor dos centroides. Os resultados podem ser interpretados entre 
variáveis que possuem valores altos, baixos e neutros. Com isso e de acordo 
com os critérios da pesquisa, é possível interpretar e criar um perfil de cada 
clusters. 
Ao final, é necessário passar por uma avaliação de confiabilidade, para 
isso, pode-se realizar análise de clusters com diferentes medidas de distância, 
métodos diferentes de aglomeração, separação aleatória dos dados e 
comparação dos centroides. Além disso, é possível eliminar as variáveis 
aleatórias e fazer a aglomeração com base em um conjunto reduzido.