Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística – Análise de Clusters Aplicação em pesquisa de marketing Está análise é uma técnica que permite agrupar, ou dividir, várias variáveis em grupos homogêneos de acordo com seu grau de similaridade ou segregação. Quando utilizado dessa análise, o objetivo é segmentar grupos. Esse grupo deve apresentar objetos com características homogenias e alto poder de separação de outros objetos que não sejam incluídos no grupo. A análise de Clusters (ou análise de aglomerados, classificação ou taxonomia numérica) é utilizada para classificação de observações em grupos homogêneos chamados de clusters, como, para analisar dados em diversas situações, como para reduzir a dimensão de um conjunto de dados ou extrair informações “escondidas” que estão presentes nos dados. As observações são agrupadas em função de medidas de distância entre elas, portanto, todas as variáveis são independentes ou preditoras. O banco de dados não interfere na técnica. Em marketing a técnica de agrupamento auxilia a descobrir grupos distintos em base de clientes, por exemplo. As observações dentro um grupo deve ser semelhante entre si e diferentes de outros grupos. Utilizada para entender as necessidades e preferências de consumidores, muitas vezes a análise de clusters não é nítida em relação a classificação, já que alguns consumidores podem se enquadrar em mais de um grupo. A utilização da cluster para segmentação de mercado é o principal uso no marketing. Para isso, é usado da função de dissimilaridade, a função recebe duas variáveis e retorna a distância entre elas. Essa variável será um objeto que irá representar uma entrada de dados, podendo ser numérico (idade, temperatura ou salário) ou categórico (patente militar ou sexo). Recomenda-se padronizar as variáveis para não afetar os resultados de uma Análise de Clusters. A padronização de variáveis é um procedimento estatístico, conhecido por z-scores. Esse procedimento consiste em transformar as variáveis de cada observação subtraindo a média e dividindo pelo desvio- padrão, de modo que cada nova variável tenha média igual a 0 e desvio-padrão igual a 1. Após esse procedimento, o novo banco de dados com todas as variáveis padronizadas estará pronto para rodar a Análise de Clusters. Vale lembrar que o z-score não “normaliza”, e sim padroniza as variáveis. O ideal é sempre iniciar com um procedimento hierárquico, fazer o dendrograma e analisá-lo para ajudar a escolher o número de grupos. Apenas quando o banco de dados for muito grande (milhares de observações) é recomendado o método k-means, que exige a escolha do número de grupos a priori. K-means converge para resultados de forma bem mais rápida, enquanto os métodos hierárquicos podem ser inviáveis pela demora computacional. Dentre os procedimentos hierárquicos, não há um método de encadeamento que seja mais indicado do que outro. Em Marketing, os métodos Average Linkage e Ward são os mais usados. Recomenda-se sempre mais de um método para comparar os resultados. A análise discriminante também se refere a classificação de observações, porém, em diferença com a cluster, ela exige que haja conhecimento prévio da composição dos grupos. Com a clusters esse conhecimento prévio não é preciso, a partir dos dados será sugerido a classificação dos grupos. Após aplicar a análise de configurar os grupos, deve ser analisado o comportamento do consumidor de cada grupo observando os critérios. Quando o objetivo da pesquisa for a identificação das oportunidades para um novo produto, é possível analisar as marcas e produtos dos concorrentes dentro do mesmo mercado. Elementos da Análise de Clusters Dentro da análise de clusters teremos elementos que compõe o procedimento. O esquema de aglomeração consiste em fornecer informações sobre as observações a serem agrupadas. O centroide, são valores médios das variáveis. O centro terá a estrutura de clusters construída ao seu redor de forma não-hierárquica. O dendrograma é o gráfico responsável por apresentar os resultados das observações quando agrupadas, ele irá indicar a distância entre as clusters. A distância entre os centros de cluster irá indicar o grau de separação entre elas. A análise Para fazer a análise de clusters é preciso seguir as etapas: • Formulação do problema; • Cálculo da medida de distância; • Procedimento de aglomeração; • Número de clusters; • Interpretação; • Avaliação e validação do processo de aglomeração. Ao formular o problema é necessário escolher de forma correta as variáveis para o procedimento de aglomeração, caso essas variáveis sejam escolhidas de forma errônea, haverá problemas no resultado final. A escolha das variáveis deve ser realizada uma sobre as hipóteses ou pesquisa. Depois de formular o problema, é calculado a distância entre as observações com o objetivo de realizar o procedimento de aglomeração. Nessa etapa é observado as semelhanças entre as variáveis escolhidas e aquelas com menor distância deve ser aglomeradas em um único grupo. Para cálculo de medida é utilizado da distância euclidiana (raiz quadrada da soam dos quadrados das diferenças de valores para cada variável) ou a distância euclidiana ao quadrado. Outras possibilidades é utilizar da distância de Manhattan (soma dos valores absolutos das diferenças para cada variável entre duas observações) ou a distância de Chebychev (valor absoluto da maior diferença de valores para qualquer variável). Algumas vezes será necessário realizar a padronização das variáveis para remover a influência de unidade diferentes e reduzir a diferença entre os grupos. Essa padronização pode ser realizada por médio de média zero e desvio padrão um. Para o procedimento de aglomeração, é preciso escolher uma forma de realizar a classificação, podendo ser hierárquica (aglomerativo ou divisivo) ou não hierárquica. Hierárquica A aglomeração hierárquica desenvolve uma estrutura em forma de árvore deixando a organização em uma hierarquia. Dentro dela há: A técnica aglomerativo é um procedimento em que cada objeto é separado incialmente em cluster e vai agrupando os objetos nos clusters. Essa técnica tem uso comum em pesquisa de marketing e consiste em métodos de encadeamento, métodos de variância e método de centroide. • Método de encadeamento: composto pela técnica de encadeamento único (baseia-se na distância mínima ou vizinho mais próximo, dessa forma os objetos são aglomerados pela distância mínima entre eles, o procedimento continua até os objetos estarem em um único clusters. Essa opção só serve se os cluster estiverem bem definidos), encadeamento completo (baseia-se na distância máxima, vizinho mais afastado, é calculado a distância entre os dois pontos mais afastados) e o encadeamento médio (esse método usa da distância média entre todos os pares de objetos). • Método de variância faz parte da técnica aglomerativa, nele os clusters são aglomerados de modo a minimizar a variância entre os objetos, para isso é usado o Método de Ward (calcula-se a média de todas as variáveis de cada cluster, e para cada objeto calcula-se a distância euclidiana ao quadrado). • Método centroide é definido a distância entre dois clusters pela distância dos seus respectivos centroídes. A técnica divisivo opta por começar com todos os objetos em um único clusters e então são divididos em grupos pequenos. Não Hierárquico A aglomeração não-hierárquica pode ser chamada de aglomeração de K média. Esse método possui a técnica limiar sequencial, limiar paralelo e particionamento otimizados. Uma desvantagem desse procedimento de aglomeração são que os números de grupos devem ser pré-estabelecidos antes, porém é mais rápida e melhor para quando há muitos dados a serem observados. Trata-se de uma heurística de agrupamento que não utiliza de hierarquia. Esse algoritmo buscaminimizar a distância dos elementos dentro de um conjunto. Para isso, é escolhido números de cluster (k) distintos de forma aleatória para ser o centro do grupo, é associado cada ponto ao centro mais próximo e calcula-se o centro de cada grupo. Os passos de associação e cálculo do centro devem ser repetidos até nenhum elemento do grupo mudar. Observe que, a escolha de um número pequeno ou um número muito grande de conjuntos pode causar problemas ao realizar o cálculo. • Método do limiar sequencial consiste na aglomeração dos objetos por meio da escolha do centro de um cluster e agrupa-se todos os objetos que estão a menos de um valor especificado em relação ao centro. • Método limiar paralelo, especifica de uma só vez vários centros de clusters. Todos os objetos que estão a menos de um valor pré-determinado do centro são agrupados juntos. • Método do particionamento otimizados, permite reatribuir posteriormente objetos a cluster de modo a otimizar um critério global. Para decidir o número de clusters, deve ser levado em conta algumas diretrizes como considerações teóricas, aglomeração hierárquica ou o tamanho do clusters. Algumas considerações teóricas ou conceituais podem sugerir o número de grupos a serem aglomerado as informações, como no caso de identificar segmentos de mercado. Mas com a aglomeração hierárquica, de acordo com o as distâncias, é possível achar o número de grupos pelo esquema de dendrograma. Já para quando há o uso de técnicas não-hierárquica e precisa estabelecer os critérios antes, pode-se usar o calculo da variância. Após realizar o procedimento de aglomeração e decidir pelo número de clusters, é realizado a interpretação das informações. Pode ser então realizado um exame do valor dos centroides. Os resultados podem ser interpretados entre variáveis que possuem valores altos, baixos e neutros. Com isso e de acordo com os critérios da pesquisa, é possível interpretar e criar um perfil de cada clusters. Ao final, é necessário passar por uma avaliação de confiabilidade, para isso, pode-se realizar análise de clusters com diferentes medidas de distância, métodos diferentes de aglomeração, separação aleatória dos dados e comparação dos centroides. Além disso, é possível eliminar as variáveis aleatórias e fazer a aglomeração com base em um conjunto reduzido.
Compartilhar