Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de Análise de AgrupamentosAgrupamentos Cluster Analysis Objetivos da técnicaObjetivos da técnica Formar grupos homogêneos de unidades amostrais 2 Dados: cadastro com informações sobre uma série de variáveis Definir critérios para Definir critérios para agrupamentoagrupamento ♠ ♣ ♥ ♦ 10 10 10 10 Cor? 3 10 10 10 10 J J J J Q Q Q Q K K K K Naipe? Valor? Problema 1Problema 1 Um laboratório farmacêutico deseja conhecer o perfil de seus consumidores. 4 consumidores. • Consumidores têm perfil homogêneo? • É possível identificar grupos? • Quantos grupos existem? Problema 2Problema 2 Pesquisa Emprego-Desemprego DIEESE/SEADE 5 Idéia: formar grupos homogêneos de municípios ou distritos administrativos para sortear uma amostra estratificada. Problema 3Problema 3 Dados sobre a localização de restos de cerâmica em um sítio arqueológico. 6 Objetivo: conhecer a organização espacial da tribo Há locais com alta concentração de peças? Quantos? Exemplo 1Exemplo 1 Taxa de delitos por 100.000 habitantes Variáveis: X : Homicídio doloso 7 X1: Homicídio doloso X2: Furto X3: Roubo X4: Roubo e furto de veículo Ocorrências PoliciaisOcorrências Policiais SJC Campinas RP SJRP 8 SP GSP SJC Santos Sorocaba Bauru Taxa de delitos porTaxa de delitos por 100.000 habitantes100.000 habitantes Homicídio Roubo e furto Deinter doloso Furto Roubo de veículosDeinter doloso Furto Roubo de veículos SJRP 10,85 1500,80 149,35 108,38 RP 14,13 1496,07 187,99 116,66 Bauru 8,62 1448,79 130,97 69,98 Campinas 23,04 1277,33 424,87 435,75 Sorocaba 16,04 1204,02 214,36 207,06 Exemplo 1Exemplo 1 Taxa de delitos por 100.000 habitantes Deseja-se formar 4 grupos de regiões 10 Variáveis: X1: Homicídio doloso X2: Furto 1.400,00 1.500,00 1.600,00 F u rt o s 11 1.100,00 1.200,00 1.300,00 0 100 200 300 400 500 Homicídios dolosos F u rt o s 1.400,00 1.500,00 1.600,00 F u rt o s 12 1.100,00 1.200,00 1.300,00 0 100 200 300 400 500 Homicídios dolosos F u rt o s 1.400,00 1.500,00 1.600,00 F u rt o s 13 1.100,00 1.200,00 1.300,00 0 100 200 300 400 500 Homicídios dolosos F u rt o s 0 0,5 1 1,5 2 F u rt o s 14 -1,5 -1 -0,5 0 -1,5 -1 -0,5 0 0,5 1 1,5 2 Homicídios dolosos F u rt o s 0,5 1 1,5 2 F u rt o s 15 -1,5 -1 -0,5 0 -1,5 -1 -0,5 0 0,5 1 1,5 2 Homicídios dolosos F u rt o s 0 0,5 1 1,5 2 F u rt o s 16 -1,5 -1 -0,5 0 -1,5 -1 -0,5 0 0,5 1 1,5 2 Homicídios dolosos F u rt o s Etapas de AplicaçãoEtapas de Aplicação 1. Escolha do critério de parecença 2. Definição do número de grupos 3. Formação dos grupos 17 3. Formação dos grupos 4. Validação do agrupamento 5. Interpretação dos grupos 1. Escolha do critério de 1. Escolha do critério de parecençaparecença Definir se as variáveis devem ou não ser padronizadas e o critério que será utilizado na determinação dos grupos 18 utilizado na determinação dos grupos (distância euclidiana) 2. Definição do número de 2. Definição do número de gruposgrupos • Definido a priori (3 espécies de insetos) • Conveniência de análise (segmentação 19 • Conveniência de análise (segmentação de mercado – 2 grupos) • Definido a posteriori (com base nos resultados da análise) 3. Formação dos grupos3. Formação dos grupos Nesta etapa deve-se definir o algoritmo 20 que será utilizado na identificação dos grupos 4. Validação do 4. Validação do agrupamentoagrupamento Deve-se garantir que de fato as variáveis têm comportamento diferenciado nos diversos grupos. 21 diversos grupos. Aplicação de técnicas inferenciais 5. Interpretação dos grupos5. Interpretação dos grupos Ao final do processo de formação de grupos é importante caracterizar os grupos formados. 22 grupos formados. Uso de estatísticas descritivas Medidas de parecençaMedidas de parecença Medidas de similaridade: quanto maior o valor, maior a semelhança entre os objetos 23 objetos Medidas de dissimilaridade: quanto maior o valor, mais diferentes são os objetos Métodos hierárquicos Métodos hierárquicos aglomerativosaglomerativos • cada objeto é um grupo (n grupos) • agrupam-se os dois objetos mais parecidos (n-1 grupos) • agrupam-se os dois grupos mais 25 • agrupam-se os dois grupos mais parecidos (n-2 grupos) • até que se tenha todos os objetos juntos em um único grupo Método HierárquicoMétodo Hierárquico Adotar um critério de parecença Expressar através de uma medida o quanto uma unidade amostral se 26 quanto uma unidade amostral se parece ou difere de outra. Métodos HierárquicosMétodos Hierárquicos • Método do vizinho mais próximo (single) • Método do vizinho mais longe (complete) • Método das médias das distâncias 27 • Método das médias das distâncias • Método da centróide • Método de Ward Variáveis padronizadasVariáveis padronizadas Deinter Z1 Z2 SJRP -0.66 0.85 RP -0.07 0.81 Bauru -1.07 0.47 28 Bauru -1.07 0.47 Campinas 1.53 -0.79 Sorocaba 0.27 -1.33 Média 0.00 0.00 DP 1.00 1.00 Matriz de distânciaMatriz de distância Deinter SJRP RP B C S SJRP 0,00 RP 0,59 0,00 B 0,55 1,05 0,00 29 B 0,55 1,05 0,00 C 2,74 2,27 2,89 0,00 S 2,37 2,17 2,24 1,37 0,00 Deinter’s mais parecidas Aqui os métodos se diferenciam Método do Vizinho mais Longe d [(SJRP, B) e RP] = d [(SJRP, B) e RP] = max { d [SJRP e RP] e d [B e RP]} = max {0,59 e 1,05} = 1,05 Passo 1 Passo 1 -- juntar SJRP e Bjuntar SJRP e B Redefinir a matriz de distâncias considerando as Deinter’s mais parecidas como se fossem um único grupo. Redefinir a matriz de distância - por 31 Redefinir a matriz de distância - por exemplo: d(BF, A) = max [d(B,A), d(F,A)] Passo 2Passo 2 Deinter SJRP, B RP C S SJRP, B 0,00 RP 1,05 0,00 C 2,89 2,27 0,00 S 2,37 2,17 1,37 0,00 32 S 2,37 2,17 1,37 0,00 Mais parecidas, unir SJRP, B e RP Passo 3Passo 3 Deinter SJRP, B, RP C S SJRP, B, RP 0,00 C 2,89 0,00 S 2,37 1,37 0,00 33 S 2,37 1,37 0,00 Mais parecidas, unir C e S. Passo 4Passo 4 Deinter SJRP, B, RP C, S SJRP, B, RP 0,00 34 RP C, S 2,89 0,00 Quadro resumoQuadro resumo Passo Grupo Distância 1 SJRP, B 0,55 2 SJRP, B, RP 1,05 35 2 SJRP, B, RP 1,05 3 C, S 1,37 4 Todos 2,89 2,0 0 3,0 0 d is tâ n c ia 36 SJRP Bauru RP Campinas Sorocaba 1,0 0 d is tâ n c ia Método de WardMétodo de Ward A medida de homogeneidade baseia-se na partição da soma de quadrados total. Por exemplo, para a variável X1 SQT(1) = SQE(1) + SQD(1) 2 1 1 1 2 11 1 2 1 1 1 )()()( j k j Gi ij k j j k j Gi i XXXXnXX jj Primeiro passoPrimeiro passo Agrupamento Grupos SQD(1) SQD(2) SQDP 1 (SJRP, RP), (B), (C), (S) 0,174 0,001 0,175 2 (SJRP, B), (RP), (C), (S) 0,081 0,073 0,154 3 (SJRP, C), (RP), (B), (S) 2,410 1,347 3,757 4 (SJRP, S), (RP), (B), (C) 0,437 2,375 2,812 5 (SJRP), (RP, B), (C), (S) 0,492 0,060 0,5525 (SJRP), (RP, B), (C), (S) 0,492 0,060 0,552 6 (SJRP), (RP, C), (B), (S) 1,287 1,290 2,577 7 (SJRP), (RP,S), (B), (C) 0,059 2,300 2,359 8 (SJRP), (RP), (B, C), (S) 3,372 0,793 4,165 9 (SJRP), (RP), (B, S), (C) 0,893 1,616 2,509 10 (SJRP), (RP), (B), (C, S) 0,795 0,145 0,940 Método de WardMétodo de Ward Passo 2 Grupos SQD(1) SQD(2) SQDP 1 2 3 4 (SJRP, B, RP), (C), (S) (SJRP, B, C), (RP), (S) (SJRP, B, S), (RP), (C) (SJRP, B), (RP, C), (S) 0,498 3,908 0,940 1,368 0,089 1,475 2,709 1,363 0,587 5,383 3,649 2,7314 5 6 (SJRP, B), (RP, C), (S) (SJRP, B), (RP, S), (C) (SJRP, B), (RP), (C, S) 1,368 0,140 0,875 1,363 2,373 0,218 2,731 2,513 1,093 Passo 3 Grupos SQD(1) SQD(2) SQDP 1 2 3 (SJRP, B, RP, C), (S) (SJRP, B, RP, S), (C) (SJRP, B, RP), (C, S) 3,908 1,068 1,292 1,782 3,213 0,234 5,690 4,281 1,527 Passo 4 Grupos SQD(1) SQD(2) SQDP 1 (SJRP, B, RP, C, S) 4 4 8 Resumo Resumo -- Método de WardMétodo de Ward Passo União SQDP (SQDP)1/2 1 SJRP, B 0,154 0,392 2 SJRP, B, RP 0,587 0,7662 SJRP, B, RP 0,587 0,766 3 C, S 1,527 1,236 4 SJRP, B, RP, C, S 8,000 2,828 2,00 3,0 0 SQDP 41 SJRP Bauru RP Campinas Sorocaba 1,0 0 Comparação dos métodosComparação dos métodos • Vizinho mais longe: tende a formar grupos mais homogêneos do que o método do vizinho mais perto 42 método do vizinho mais perto • Ward: é atraente por basear-se em uma medida com forte apelo estatístico e gerar grupos com alta homogeneidade Análise de Agrupamento Análise de Agrupamento Métodos de PartiçãoMétodos de PartiçãoMétodos de PartiçãoMétodos de Partição DescriçãoDescrição • Premissas básicas: particionar as unidades amostrais formando conglomerados (grupos) com alta 44 conglomerados (grupos) com alta coesão interna e isolados. • Número de grupos fixados a priori. Exemplo de PartiçõesExemplo de Partições Objetos: A, B, C, D Partição 1: {A}, {B}, {C}, {D} Partição 2: {AB}, {C}, {D} Partição 3: {AC}, {B}, {D} Partição 4: {AD}, {B}, {C} Partição 9: {B}, {ACD} Partição 10: {C}, {ABD} Partição 11: {D}, {ABC} Partição 12: {AB}, {CD} 45 Partição 4: {AD}, {B}, {C} Partição 5: {BC}, {A}, {D} Partição 6: {BD}, {A}, {C} Partição 7: {CD}, {A}, {B} Partição 8: {A}, {BCD} Partição 12: {AB}, {CD} Partição 13: {AC}, {BD} Partição 14: {AD}, {BC} Partição 15:{ABCD} Qual é a melhor partição?Qual é a melhor partição? Notação: n: número de objetos g: número de grupos O processo busca a formação de grupos 46 O processo busca a formação de grupos homogêneos segundo um conjunto de variáveis. Como medir a homogeneidade dos grupos? Caso ParticularCaso Particular Considere a existência de uma única variável: X1. Medida de heterogeneidade intragrupo, para a variável X1: n : tamanho do grupo j 47 g 1j n 1i 2 jij j xxSQD(1) Medida de heterogeneidade intergrupos, para a variável X1: g 1j 2 jj xx nSQE(1) nj: tamanho do grupo j j grupo do média :x j Caso ParticularCaso Particular g 1j n 1i 2 ij j SQD(1)SQE(1)xxSQT(1) ANOVA: 48 Critério de qualidade: a melhor partição é aquela que minimiza a soma de quadrados dentro dos grupos 1j 1i Caso GeralCaso Geral Variáveis: X1, X2, …, Xp SQD(k): soma de quadrados residual da variável Xk. Critério de qualidade: A melhor partição é aquela que minimiza a soma de todas 49 é aquela que minimiza a soma de todas as SQD, denominada soma de quadrados residual da partição. p 1k SQD(k) ão)SQD(Partiç Método para AgrupamentoMétodo para Agrupamento Para minimizar o trabalho computacional deve-se, inicialmente, escolher o número de grupos que será formado. 50 número de grupos que será formado. O método das k-médias tentará formar grupos visando obter uma soma de quadrados residual da partição pequena. Método das kMétodo das k--médiasmédias k-means 1. Determinar o número de grupos (g) a serem formados. 2. Escolher casos para serem as sementes geradoras dos grupos iniciais. Passo 1: Definições iniciaisPasso 1: Definições iniciais 52 iniciais. Para o exemplo: g=2 sementes = SJRP e RP. Passo 2: Formar os grupos iniciaisPasso 2: Formar os grupos iniciais Determinar a distância euclidiana entre cada ponto e cada uma das sementes. Cada ponto será incorporado ao grupo 53 Cada ponto será incorporado ao grupo que contém a semente mais próxima. SJRP -0.66 0.85 RP -0.07 0.81 Grupo1 Grupo 2 Sementes Deinter d(ponto,1) d(ponto,2) Grupo mais próximo Bauru 0,55 1,05 1 Campinas 2,74 2,27 2 Sorocaba 2,37 2,17 2 Distâncias entre os pontos e as sementesDistâncias entre os pontos e as sementes 54 Sorocaba 2,37 2,17 2 Partição (grupos) formada (os)Partição (grupos) formada (os) Grupo 1: SJRP, Bauru Grupo 2: RP, Campinas, Sorocaba Deinter Z1 Z2 Deinter Z1 Z2 SJRP -0.66 0.85 RP -0.07 0.81 Bauru -1.07 0.47 Campinas 1.53 -0.79 Sorocaba 0.27 -1.33 n 2 2 3 3 Média -0.86 0.66 0.73 0.01 Variância 0.08 0.07 1.29 1.29 Grupo1 Grupo 2 Avaliação da qualidade da partição (dos grupos)Avaliação da qualidade da partição (dos grupos) 55 SQD(Z1) = 2,65 SQD(Z2) = 2,65 Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição SQD(part) = SQD(Z1) + SQD(Z2) = 5,30 Passo 3: Checagem do grupo e Passo 3: Checagem do grupo e realocação de objetosrealocação de objetos Verificar se os grupos estão bem formados, ou seja, se a partição possui a menor SQD(part). 56 Verificar se cada ponto está no melhor grupo possível. 0.66 0.01 Centróides Grupo1 Grupo 2 -0.86 0.73 Distâncias em relação aos centróidesDistâncias em relação aos centróides Deinter d(ponto,1) d(ponto,2) Grupo ao qual pertence Grupo mais próximo SJRP 0,28 1,63 1 1 RP 0,81 1,14 2 1 57 RP 0,81 1,14 2 1 Bauru 0,28 1,85 1 1 Campinas 2,80 1,14 2 2 Sorocaba 2,29 1,42 2 2 Conclusão: A Deinter RP está mais próxima do centro do grupo 1 do que do centro de seu próprio grupo. Está no grupo errado? Deinter Z1 Z2 Deinter Z1 Z2 SJRP -0.66 0.85 Campinas 1.53 -0.79 Bauru -1.07 0.47 Sorocaba 0.27 -1.33 RP -0.07 0.81 n 3 3 2 2 Média -0.60 0.71 0.90 -1.06 Variância 0.25 0.04 0.79 0.14 Grupo 2Grupo 1 Realocar o município DRealocar o município D 58 Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição SQD(part) = 1,52 Anterior = 5,30 Decisão: mudar RP para o grupo 1 SQD(Z1) = 1,29 SQD(Z2) = 0,23 PassoPasso 44:: RepetirRepetir oo passopasso anterioranterior atéaté queque nenhumanenhuma trocatroca sejaseja necessárianecessária Todos os pontos estão bem alocados 59 Grupo 1: SJRP, RP e Bauru Grupo 2: Campinas e Sorocaba Comparação dos métodosComparação dos métodos K-médias: • os objetos podem ser realocados • mais sensível a dados aberrantes 60 • mais sensível a dados aberrantes Hierárquicos: • não necessita número de grupos a priori • aplicação proibitiva para muitos dados Validação dos gruposValidação dos grupos • Testes Univariados • MANOVA 61 • MANOVA • Análise Discriminante • Correlação Cofenética • Gráfico da Silhueta Correlação CofenéticaCorrelação Cofenética • medida de validação usada nos métodos hierárquicos principalmente 62 métodos hierárquicos principalmente • Ideia: realizar uma comparação entre as distâncias observadas e as previstas Matriz CofenéticaMatriz Cofenética Deinter SJRP RP B C S SJRP 0,00 RP 1,05 0,00 Simétrica B 0,55 1,05 0,00 63 B 0,55 1,05 0,00 C 2,89 2,89 2,89 0,00 S 2,89 2,89 2,89 1,37 0,00 Correlação Cofenética: 0,95 Gráfico da SilhuetaGráfico da Silhueta Objetivos • Verificar a qualidade dos agrupamentos 64 • Verificar a qualidade dos agrupamentos • Verificar se um ponto está mais próximo dos elementos de seu grupo ou de um grupo vizinho Gráfico da SilhuetaGráfico da Silhueta • a(i) = distância média do objeto i para os elementos de seu próprio grupo 65 • b(i) = distância média do objeto I para os elementos do grupo mais próximo )}(),(max{ )()( )( ibia iaib is Gráfico da SilhuetaGráfico da Silhueta 1)(1 is 66 • Valor próximo de 1 - boa alocação • Valores negativos - má alocação RP Bauru SJRP 67 0 0,2 0,4 0,6 0,8 1 Sorocaba Campinas Interpretação dos GruposInterpretação dos Grupos • Caracterização dos grupos • Ressaltar diferenças e semelhanças 68 • Ressaltar diferenças e semelhanças • Técnicas descritivas • Representações gráficas G1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 X1 X2 X3 X4 G2 0,4 0,5 0,6 0,7 0,8 0,9 1 69 0 0,1 0,2 0,3 0,4 X1 X2 X3 X4 G3 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 X1 X2 X3 X4 Aplicação 1Aplicação 1 • 40 agricultores uruguaios (Salto) • cultura de tomate e pimentão em estufa • área plantada em 1990, 1992 e 1994 70 Deseja-se formar grupos homogêneos segundo o padrão da área cultivada ao longo do tempo Parecença: coeficiente de correlação Distância reescalonada 0 5 10 15 20 25 Agricultor +---------+---------+---------+---------+---------+ 32 -+ 39 -+ 8 -+-+ 2 -+ I 4 -+ I12 -+ +-----------+ 40 -+ I I 19 -+ I I 1 ---+ I 9 -+ I 20 -+ +---------------------------------+ 22 -+-+ I I 5 -+ I I I 15 -+ I I I 27 -+ I I I 29 -+ I I I 25 -+ +-----------+ I 33 -+ I I 71 33 -+ I I 34 -+ I I 37 -+ I I 38 -+ I I 14 -+-+ I 26 -+ I 3 -+ I 35 -+---------------------+ I 6 -+ I I 28 -+ I I 31 -+ +-------------------------+ 23 -+---------+ I I 10 -+ I I I 36 -+ +-----------+ I 30 -+ I I 13 -+-+ I I 21 -+ +-------+ I 17 ---+ I 16 ---+-----------------------------+ I 24 ---+ +---------------+ 11 -+-+ I 18 -+ +-----------------------------+ 7 ---+ 8000 10000 12000 14000 16000 18000 20000 Á re a 72 0 2000 4000 6000 8000 1990 1992 1994 Ano 20000 25000 30000 35000 40000 45000 Á re a 73 0 5000 10000 15000 20000 1990 1992 1994 Ano 6000 8000 10000 12000 Á re a 74 0 2000 4000 1990 1992 1994 Ano 6000 8000 10000 12000 G1 G2 75 0 2000 4000 A1990 A1992 A1994 G3 Aplicação 2Aplicação 2 Cultura Organizacional: mecanismos de adaptação e comportamento adotados 76 adaptação e comportamento adotados para lidar com os problemas de ajuste ao ambiente externo e de integração interna. Está ligada ao clima existente no ambiente de trabalho Tipos de Cultura OrganizacionalTipos de Cultura Organizacional • Cultura Grupal • Cultura Sistêmica • Cultura Hierárquica 77 • Cultura Hierárquica • Cultura Racional Ambiente saudável: as quatro culturas co-existem de maneira intensa Aplicação 2Aplicação 2 • 13 empresas do setor Têxtil • 478 funcionários • questionário: percepção da presença 78 • questionário: percepção da presença das quatro culturas Objetivo: identificar grupos de funcionários com percepções semelhantes KK--médiasmédias Quantos grupos devemos fixar? Ganho relativo na soma de quadrados dentro dos grupos ao se aumentar o 79 dentro dos grupos ao se aumentar o número de grupos de k para k+1 )1( )1()( kSQDP kSQDPkSQDP G 0,4 0,6 0,8 1 1,2 G 80 0 0,2 0,4 0 1 2 3 4 5 6 7 8 9 Número de Grupos 0 10 20 30 Grupal SistêmicaRacional G1 G2 81 0 Sistêmica Hierarquica Racional G3 G4 Misturando VariáveisMisturando Variáveis Pesquisa com Pesquisa com pacientes pacientes de de uma uma clínicaclínica • Idade (em anos completos). • Número de filhos. • Classe social: A, B, C, D. 83 • Classe social: A, B, C, D. • Fator de risco: Baixo, Médio, Alto. • Sexo: Masculino, Feminino. • Vacina: Covid, Influenza, Pneumonia. DadosDados Cliente Idade N. de filhos Classe social Fator de risco Sexo Vacina 1 20 1 A Baixo Feminino Covid 2 37 3 A Alto Feminino Pneumo 3 22 2 B Médio Feminino Covid 4 26 2 B Alto Feminino Covid 84 4 26 2 B Alto Feminino Covid 5 45 2 C Médio Masculino Influenza 6 42 1 D Baixo Masculino Influenza Variáveis quantitativas Variáveis nominais Variáveis ordinais Variáveis quantitativasVariáveis quantitativas Medida de DissimilaridadeMedida de Dissimilaridade q q Cliente Q1 Q2 Cliente Q1 Q2 1 20 1 2 37 3 Distância euclidiana média Distância euclidiana média ao quadrado 86 q x-x j)d(i, q 1k 2 jkik q x-x j)(i,d q 1k 2 jkik 2 Medida de DissimilaridadeMedida de Dissimilaridade Distância Manhattan ou Quarteirão 87 p j kjijik XXd 1 )1( || B 88 A Variáveis NominaisVariáveis Nominais (escalas)(escalas)(escalas)(escalas) Variáveis Fictícias Variáveis Fictícias ((dummiesdummies)) Sexo N1 Feminino 1 Masculino 0 Cliente Sexo N1 1 Feminino 1 90 1 Feminino 1 2 Feminino 1 3 Feminino 1 4 Feminino 1 5 Masculino 0 6 Masculino 0 Variáveis Fictícias Variáveis Fictícias ((dummiesdummies)) Vacina N2 N3 Covid 1 0 Pneumo 0 1 Influenza 0 0 Cliente Vacina N2 N3 1 Covid 1 0 91 1 Covid 1 0 2 Pneumo 0 1 3 Covid 1 0 4 Covid 1 0 5 Influenza 0 0 6 Influenza 0 0 Variáveis NominaisVariáveis Nominais Sexo Cliente N1 N2 N3 1 1 1 0 2 1 0 1 Vacina 92 2 1 0 1 3 1 1 0 4 1 1 0 5 0 0 0 6 0 0 0 Variáveis OrdinaisVariáveis Ordinais (escalas)(escalas)(escalas)(escalas) Variáveis Fictícias Variáveis Fictícias ((dummiesdummies)) A B C O1 O2 O3 D 0 0 0 C 0 0 1 B 0 1 1 A 1 1 1 Classe Social Cliente Classe social O1 O2 O3 94 Cliente Classe social O1 O2 O3 1 A 1 1 1 2 A 1 1 1 3 B 0 1 1 4 B 0 1 1 5 C 0 0 1 6 D 0 0 0 Variáveis Fictícias Variáveis Fictícias ((dummiesdummies)) Médio Alto O4 O5 Baixo 0 0 Médio 1 0 Alto 1 1 Fator de risco Cliente Fator de risco O4 O5 95 Cliente Fator de risco O4 O5 1 Médio 1 0 2 Alto 1 1 3 Médio 1 0 4 Alto 1 1 5 Médio 1 0 6 Baixo 0 0 Medidas de ParecençaMedidas de Parecença cliente N1 N2 N3 O1 O2 O3 O4 O5 1 1 1 0 1 1 1 1 0 2 1 0 1 1 1 1 1 1 Variáveis Nominais Variáveis Ordinais 96 1 0 1 5 1 6 0 2 0 2 Total 7 1 8 cliente 1 cliente 2 Total Medidas de SimilaridadeMedidas de Similaridade 1 0 1 a b a+b 0 c d c+d Total a+c b+d a+b+c+d cliente j cliente i Total 1 0 1 5 1 6 0 2 0 2 Total 7 1 8 cliente 1 cliente 2 Total 97 Coeficiente de Concordância Simples dcba da jis ),( 625,0 8 5 )2,1( s Medidas de DissimilaridadeMedidas de Dissimilaridade 1 0 1 a b a+b 0 c d c+d Total a+c b+d a+b+c+d cliente j cliente i Total 1 0 1 5 1 6 0 2 0 2 Total 7 1 8 cliente 1 cliente 2 Total 98 Distância Euclidiana ao Quadrado Média dcba cb jid ),( 375,0 8 3 )2,1( s Matriz de Matriz de Similaridades (CS)Similaridades (CS) Indiv. 1 2 3 4 5 6 1 - 2 0,50 - Simétrica 3 0,75 0,50 - 99 3 0,75 0,50 - 4 0,62 0,62 0,87 - 5 0,37 0,37 0,62 0,50 - 6 0,37 0,12 0,37 0,25 0,75 - Matriz de Dissimilaridades Matriz de Dissimilaridades (1(1-- CS)CS) Indiv. 1 2 3 4 5 6 1 - 2 0,50 - Simétrica 100 2 0,50 - Simétrica 3 0,25 0,50 - 4 0,38 0,38 0,13 - 5 0,63 0,63 0,38 0,50 - 6 0,63 0,88 0,63 0,75 0,25 - Variáveis Quantitativas DadosDados Cliente Idade N. filhos 1 20 1 2 37 3 3 22 2 4 26 2 5 45 2 6 42 1 Min 20 1 Indiv. Q1 Q2 20-45 20-Idade Q1 1 Q 0 1 102 Min 20 1 Max 45 3 1 0 0 2 0,68 1 3 0,08 0,5 4 0,24 0,5 5 1 0,5 6 0,88 0 Min 0 0 Max 1 1 1-3 1-filhos N. Q2 1 Q 0 2 Medida de DissimilaridadeMedida de Dissimilaridade q q Indiv. Q1 Q2 Indiv. Q1 Q2 1 0 0 2 0,68 1 Distância euclidiana média Distância euclidiana média ao quadrado 103 q x-x j)d(i, q 1k 2 jkik q x-x j)(i,d q 1k 2 jkik 2 0,86 2 1-00,68-0 j)d(i, 22 0,73 2 1-00,68-0 j)(i,d22 2 Matriz de dissimilaridadeMatriz de dissimilaridade distância euclidiana média ao quadradodistância euclidiana média ao quadrado Indiv. 1 2 3 4 5 6 1 - 2 0,73 - Simétrica 3 0,13 0,31 - 104 3 0,13 0,31 - 4 0,15 0,22 0,01 - 5 0,63 0,18 0,42 0,29 - 6 0,39 0,52 0,44 0,33 0,13 - Coeficiente CombinadoCoeficiente Combinado Matriz combinada de similaridadeMatriz combinada de similaridade Nn : número de variáveis nominais No: número de variáveis ordinais Nq: número de variáveis quantitativas Sn : matriz de similaridades das variáveis nominais S : matriz de similaridades das variáveis ordinais 106 So: matriz de similaridades das variáveis ordinais Sq: matriz de similaridades das variáveis quantitativas Matriz combinada de similaridade S = wn Sn + wo So + wq Sq Por exemplo: S = Nn Sn + No So + Nq Sq Indiv. 1 2 3 4 5 6 1 - 2 0,86 - Simétrica 3 0,86 0,71 - 4 0,71 0,86 0,86 - 5 0,71 0,57 0,86 0,71 - 6 0,43 0,29 0,57 0,43 0,71 - Indiv. 1 2 3 4 5 6 1 - 2 0,60 - Simétrica 3 1,00 0,60 - 4 1,00 0,60 1,00 - 5 0,20 0,20 0,20 0,20 - 6 0,20 0,20 0,20 0,20 1,00 - Sn So S S=2S +2S +2S 107 Indiv. 1 2 3 4 5 6 1 - 2 0,27 - Simétrica 3 0,87 0,69 - 4 0,85 0,78 0,99 - 5 0,38 0,82 0,58 0,71 - 6 0,61 0,48 0,56 0,67 0,87 - Sq Indiv. 1 2 3 4 5 6 1 - 2 3,45 - Simétrica 3 5,46 4,02 - 4 5,12 4,47 5,69 - 5 2,58 3,19 3,27 3,25 - 6 2,48 1,93 2,65 2,60 5,16 - S=2Sn+2So+2Sq Dn Do D Indiv. 1 2 3 4 5 6 1 - 2 0,40 - Simétrica 3 0,00 0,40 - 4 0,00 0,40 0,00 - 5 0,80 0,80 0,80 0,80 - 6 0,80 0,80 0,80 0,80 0,00 - Indiv. 1 2 3 4 5 6 1 - 2 0,14 - Simétrica 3 0,14 0,29 - 4 0,29 0,14 0,14 - 5 0,29 0,43 0,14 0,29 - 6 0,57 0,71 0,43 0,57 0,29 - D=2D +2D +2D 108 Dq Indiv. 1 2 3 4 5 6 1 - 2 0,73 - Simétrica 3 0,13 0,31 - 4 0,15 0,22 0,01 - 5 0,63 0,18 0,42 0,29 - 6 0,39 0,52 0,44 0,33 0,13 - D=2Dn+2Do+2Dq Indiv. 1 2 3 4 5 6 1 - 2 2,55 - Simétrica 3 0,54 1,98 - 4 0,88 1,53 0,31 - 5 3,42 2,81 2,73 2,75 - 6 3,52 4,07 3,35 3,40 0,84 -
Compartilhar