Prévia do material em texto
Análise de Cluster UNIVERSIDADE DE SÃO PAULO FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE CONTABILIDADE Prof. Fabiano Guasti Lima fabianoguastilima@gmail.com Pós-Graduação – 2023 mailto:fabianoguastilima@gmail.com Tipo de relação Dependência Interdependência Classificação das Técnicas Multivariadas No. Variáveis Explicadas Próximo ... Relações múltiplas de VD e VI Várias variáveis única relação Uma VD Única relação Escala da VD Métrica Não Métrica Regressão Múltipla Análise Discriminante Regressão Logística Tipo de relação Dependência Interdependência Classificação das Técnicas Multivariadas ... Estrutura de Relacionamento Variáveis Casos Objetos Análise Fatorial Análise Conglomerados CLUSTER ANALISYS ANÁLISE DE AGRUPAMENTOS ANÁLISE DE CONGLOMERADOS ANÁLISE DE CLUSTER 5 CONCEITOS E DISTINÇÕES É um grupo de técnicas de análise multivariada cujo propósito primário é reunir objetos baseado nas características dos mesmos. Alta homogeneidade interna (within-cluster) e alta heterogeneidade externa (between- cluster). Outras denominações: Q analysis, typology, classification analysis, numerical taxonomy; análise de agrupamento, análise de conglomerados. Agrupamento -Análise de Clusters a F 1 0 1 1 b M 0 0 1 1 c F 1 1 1 0 d F 1 0 0 0 e M 1 1 0 1 a2 a3 a1 a11 a4 a7 a9a10 a5 Número de Clusters = 3 Conceito = Produtos Produto X Produto Z Produto Y a8 a6 a1 . . . a2 Nome Sexo Características 7 OBJETIVOS, UTILIDADES E APLICAÇÕES Redução de dados de uma amostra a um número determinado de perfis (redução do número de objetos). Desenvolver hipóteses quanto à natureza dos dados ou examinar hipóteses já estabelecidas. Seleção das variáveis é de extrema importância. A técnica não distingue se as variáveis são ou não relevantes. Altamente sensível a outliers 8 ANÁLISE DAS VARIÁVEIS E DOS OBJETOS A validade das conclusões dependerá das variáveis selecionadas (cluster variate) a partir do conhecimento que o pesquisador tem da realidade observada. É descritiva, ateórica e não inferencial (não tem base estatística) sempre cria grupos independentemente da verdadeira existência de uma estrutura nos dados. Não existe o melhor, apenas bons e maus agrupamentos (exemplo das cartas do baralho). 9 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Padronização das variáveis: consiste em transformar cada variável em escore padrão Z permitindo que seja eliminado o viés das diferenças de escalas. x média Z desvio padrão Z scores – média 0 e desvio padrão 1 10 MÉTODOS DE PADRONIZAÇÃO RANGE -1 A 1: variável padronizada de amplitude 1 x Z máximo mínimo RANGE 0 A 1: variável padronizada de variação de 0 a 1 x mínimo Z máximo mínimo 11 MÉTODOS DE PADRONIZAÇÃO MÁXIMA AMPLITUDE: confere a variável o valor máximo 1 x Z máximo MÉDIA 1: transforma a variável para ter média 1 x Z média 12 MÉTODOS DE PADRONIZAÇÃO DESVIO PADRÃO 1: transforma a variável para ter desvio padrão 1 x Z desvio padrão 13 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER OBSERVAÇÕES SÃO AGRUPADAS POR ALGUMA MÉTRICA DE DISTÂNCIA OU DISSIMILARIDADE. Quanto maiores os valores menor é a semelhança entre os objetos, e vice-versa. 14 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Tipos de medidas de distância: Distância euclidiana simples; Distância euclidiana quadrada; Distância Minkowski. Distância City-block (Manhattan, ou Bloco); Distância Mahalanobis; Distância Chebychev; O coeficiente de correlação é uma medida de similaridade, enquanto que a distância euclidiana é uma medida de dissimilaridade; Quanto maior for a medida de similaridade maior semelhança entre os indivíduos. MEDIDAS DE SIMILARIDADE Distância euclidiana Distância euclidiana Distância euclidiana Distância euclidiana média Distância quadrática euclidiana p 2 2 ij ik jk k 1 d (x x ) O SPSS usa esta medida como padrão de distância. Indicada para métodos de agrupamentos CENTRÓIDE e WARD; Distância de Minkowski 1 p n n ij ik jk k 1 d (x x ) Se n = 2, temos a distância euclidiana; Se n = 1, temos a distância City-Block Distância de City Block ou Manhattan p ij ik jk k 1 d x x Distância de Mahalanobis 1 ij i j i j d (x x )' Matriz Covariância (x x ) Distância de Chebchev ij k ik jk d max x x Exemplo – Medindo similaridade Empresas Vendas (US$ milhões) Num. Empregados Ferramentas Gerais 327,5 2.150 Fiori 312,2 661 Bretas Supermercado 652,6 7.200 Renner 929,0 7.764 Lojas Americanas 1.613,5 10.281 Ponto Frio 1.971,0 8.672 Empresas Maiores e Melhores – Abril de 2007 Setor Comércio Varejista Exemplo – Medindo similaridade 0 2.000 4.000 6.000 8.000 10.000 12.000 0 500 1000 1500 2000 2500 N ú m e ro d e E m p re ga d o s Vendas (US$ milhões) Fiori Ferramentas Gerais Bretas Lojas Americanas Renner Ponto Frio Exemplo – Medindo similaridade Empresas Vendas (US$ milhões) Num. Empregados Ferramentas Gerais 327,5 2.150 Fiori 312,2 661 Bretas Supermercado 652,6 7.200 Renner 929,0 7.764 Lojas Americanas 1.613,5 10.281 Ponto Frio 1.971,0 8.672 Estatísticas Vendas (US$ milhões) Num. Empregados Média 967,633 6121,333 Desvio Padrão 687,603 3827,723 Exemplo – Medindo similaridade Empresas Vendas (US$ milhões) Num. Empregados Ferramentas Gerais -0,931 -1,038 Fiori -0,953 -1,427 Bretas Supermercado -0,458 0,282 Renner -0,056 0,429 Lojas Americanas 0,939 1,087 Ponto Frio 1,459 0,666 Padronizando pelo método Z scores Exemplo – Medindo similaridade Empresas Vendas (US$ milhões) Num. Empregados Ferramentas Gerais -0,931 -1,038 Fiori -0,953 -1,427 Bretas Supermercado -0,458 0,282 Renner -0,056 0,429 Lojas Americanas 0,939 1,087 Ponto Frio 1,459 0,666 Padronizando pelo método Z scores Exemplo – Medindo similaridade Distância Quadrática Euclidiana entre Ferramentas Gerais e Fiori: p 2 2 ij ik jk k 1 d (x x ) 2 2 2 ij d ( 0,931 ( 0,953)) ( 1,038 ( 1,427)) 0,152 Ferramentas Gerais Fiori Bretas Supermercado Renner Lojas Americanas Ponto Frio Ferramentas Gerais 0,000 Fiori 0,152 0,000 Bretas Supermercado 1,964 3,163 0,000 Renner 2,916 4,248 0,183 0,000 Lojas Americanas 8,010 9,898 2,601 1,423 0,000 Ponto Frio 8,616 10,20 0 3,824 2,353 0,447 0,000 29 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER SELECIONADAS AS VARIÁVEIS, ESCOLHIDA A MEDIDA DE SIMILARIDADED DEVEMOS ESCOLHER O Algoritmo de agrupamento: Qual o procedimento deve ser usado para colocar objetos similares dentro de grupos? Temos os hierárquicos e os não-hierárquicos. Todo algoritmo visa maximizar as diferenças entre os grupos em confronto com a variação dentro dos mesmos (between-cluster x within-cluster). 30 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Procedimentos hierárquicos de agrupamento: envolvem a construção de uma hierarquia semelhante a uma árvore. São de dois tipos: aglomerativos e divisivos. Algoritmos mais populares: (1) single linkage; (2) complete linkage; (3) avarage linkage; (4) Ward’s method; e (5) centroid method. 31 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER 1) Single linkage: baseado na distância mínima entre dois objetos. É também chamado de nearest neighbor. Problema da cadeia. 2) Complete linkage: é baseado na distância máxima, razão pela qual é conhecido como a abordagem do vizinho mais longe (furthest neighbor). 32 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER 3) Avarage linkage: ou ligação média, onde o critério é a distância de todos os indivíduos de um grupo em relação a todos de outro (no SPSS, as opções between-groups e within-groups linkage). Tende a produzir grupos com aproximadamente a mesma variância. 4) Ward ’ s method: minimiza a soma dos quadrados entre dois grupos em relação a todas as variáveis. Tende a produzir grupos com mesmonúmero de observações. 33 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER 5) Centroid method: a distância entre os grupos é a distância entre seus centróides, que são os valores médios das observações em relação às variáveis. Cada vez que indivíduos são agrupados, um novo centróide é calculado. Tanto este método quanto o de Ward exigem a distância euclidiana. 34 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Métodos não-hierárquicos de agrupamento: ou métodos de partição, atribuem objetos a um grupo uma vez que o número de grupos a ser formado esteja especificado. São referidos como K-means clustering. Seleciona um grupo “ semente ” (seed) como grupo inicial, e todos os objetos próximos são incluídos nesse grupo. Um novo grupo semente é escolhido, e o processo continua até todas as observações serem distribuídas. 35 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER O métodos não-hierárquicos são os seguintes: Sequential threshold: ou princípio seqüencial, seleciona um grupo semente e inclui todos os objetos dentro de uma distância preestabelecida. Após, um novo grupo semente é selecionado, e o processo continua. Quando um objeto é destinado a um grupo semente, ele não é mais considerado nos subseqüentes. 36 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Parallel threshold: ou princípio paralelo, seleciona vários grupos semente e inclui todos os objetos dentro daquele mais próximo. À medida que o processo evolui, as distâncias podem ser ajustadas para incluir menos ou mais objetos (disponível no SPSS). Optimization: similar aos anteriores, exceto que ele permite a realocação de objetos em função da maior proximidade com outro grupo (disponível no SPSS). 37 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Seleção dos grupos sementes: pode ser aleatório ou escolhidos pelo pesquisador. Um dos problemas no primeiro caso é que o resultado final depende da ordem dos dados. Vantagens e desvantagens dos métodos hierárquicos: são rápidos e exigem menos tempo de processamento; não realocam combinações anteriores; é sensivelmente impactado por outliers; não são apropriados para amostras muito grandes. 38 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Vantagens e desvantagens dos métodos não- hierárquicos: podem realocar combinações anteriores; são menos sensíveis a outliers, à medida de distância e a variáveis inapropriadas (quando os grupos sementes são escolhidos pelo pesquisador); os resultados dependem do processo de escolha dos pontos semente. Segundo Hair, o processo aleatório é inferior às técnicas hierárquicas; Johnson e Wichern criticam prefixação do no de grupos. 39 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Uma combinação de ambos os métodos: primeiro, uma técnica hierárquica estabelece o número de grupos, traça o perfil dos núcleos centrais e identifica outliers; Depois de eliminar eventuais outliers, aplica-se um método não-hierárquico, tendo como grupos sementes os núcleos centrais definidos através do método hierárquico. 40 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Quantos grupos devem ser formados? Não existe um critério categórico Uma regra de parada (stopping rule) simples é examinar a distância entre os grupos a cada passo sucessivo; Outra regra seria adaptar um teste estatístico de significância; Além disso, o pesquisador deve confrontar com o referencial teórico, que pode sugerir um número natural de grupos; Deve-se, ao final, buscar a melhor solução dentre as possíveis. 41 O PROCESSO DE DECISÃO NA ANÁLISE CLUSTER Envolve o exame de cada grupo, tendo em vista o conjunto de variáveis, para denominar ou atribuir uma identificação que descreva adequadamente a natureza dos mesmos. Para esse processo, podem ser utilizados escores, de modo a identificar alguma hierarquia dentre os mesmos. Nessa fase, o pesquisador deve comparar os resultados com aqueles propostos anteriormente pela teoria ou pela experiência prática. Interpretação dos grupos Exemplo – Medindo similaridade Adotando o método da Ligação Individual ou Menor Distância (Single Linkage ou Nearest Neighbor) k(ij) ik jk 12 d min d ,d d 0,152 Ferramentas Gerais (1) Fiori (2) Bretas Supermercado (3) Renner (4) Lojas Americanas (5) Ponto Frio (6) Ferramentas Gerais (1) 0,000 Fiori (2) 0,152 0,000 Bretas Supermercado (3) 1,964 3,163 0,000 Renner (4) 2,916 4,248 0,183 0,000 Lojas Americanas (5) 8,010 9,898 2,601 1,423 0,000 Ponto Frio (6) 8,616 10,200 3,824 2,353 0,447 0,000 k(ij) d min 1,964,3,163 d 1,964 Exemplo – Medindo similaridade Adotando o método da Ligação Individual ou Menor Distância (Single Linkage ou Nearest Neighbor) Grupo (1,2) Bretas Supermercado (3) Renner (4) Lojas Americanas (5) Ponto Frio (6) Grupo (1,2) 0,000 Bretas Supermercado (3) 1,964 0,000 Renner (4) 2,916 0,183 0,000 Lojas Americanas (5) 8,010 2,601 1,423 0,000 Ponto Frio (6) 8,616 3,824 2,353 0,447 0,000 k(ij) d min 1,964,2,916 d 1,964 k(ij) d min 2,601,1,423 d 1,423 k(ij) d min 3,824,2,353 d 2,353 Exemplo – Medindo similaridade Adotando o método da Ligação Individual ou Menor Distância (Single Linkage ou Nearest Neighbor) Grupo (1,2) Grupo (3,4) Lojas Americanas (5) Ponto Frio (6) Grupo (1,2) 0,000 0,000 Grupo (3,4) 1,964 0,000 Lojas Americanas (5) 8,010 1,423 0,000 Ponto Frio (6) 8,616 2,353 0,447 0,000 k(ij) d min 8,010,8,616 d 8,010 k(ij) d min 1,423,2,353 d 1,423 Exemplo – Medindo similaridade Adotando o método da Ligação Individual ou Menor Distância (Single Linkage ou Nearest Neighbor) Grupo (1,2) Grupo (3,4) Grupo (5,6) Grupo (1,2) 0,000 Grupo (3,4) 1,964 0,000 Grupo (5,6) 8,010 1,423 0,000 Exemplo – Medindo similaridade Adotando o método da Ligação Individual ou Menor Distância (Single Linkage ou Nearest Neighbor) Grupo (1,2) Grupo (3,4) e Grupo (5,6) Grupo (1,2) 0,000 Grupo (3,4) e Grupo (5,6) 1,964 0,000 DENDROGRAMA