Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 AnAnálise Multivariadaálise Multivariada Lúcia P. Barroso IME - USP lbarroso@ime.usp.br Rinaldo Artes Ibmec / SP rinaldoa@ibmec.br 2 TópicosTópicos • Análise de Agrupamentos • Análise de Componentes Principais • Análise Fatorial • Análise Discriminante • Outliers Multivariados Análise de Análise de AgrupamentosAgrupamentos Cluster Analysis 4 Objetivos da técnicaObjetivos da técnica Formar grupos homogêneos de unidades amostrais Dados: cadastro com informações sobre uma série de variáveis 5 Definir critérios para Definir critérios para agrupamentoagrupamento ♠ ♣ ♥ ♦ 10 10 10 10 J J J J Q Q Q Q K K K K Cor? Naipe? Valor? 6 Problema Problema 11 Uma empresa deseja conhecer o perfil de seus consumidores. • Consumidores têm perfil homogêneo? • É possível identificar grupos? • Quantos grupos existem? 7 Problema Problema 22 Pesquisa Emprego-Desemprego DIEESE/SEADE Idéia: formar grupos homogêneos de municípios ou distritos administrativos para sortear uma amostra estratificada. 8 Problema Problema 33 Dados sobre a localização de restos de cerâmica em um sítio arqueológico. Objetivo: conhecer a organização espacial da tribo Há locais com alta concentração de peças? Quantos? 9 Exemplo 1Exemplo 1 Taxa de delitos por 100.000 habitantes Variáveis: X1: Homicídio doloso X2: Furto X3: Roubo X4: Roubo e furto de veículo 10 Ocorrências PoliciaisOcorrências Policiais SP GSP SJC Campinas RP Santos Sorocaba Bauru SJRP Taxa Taxa de de delitos pordelitos por 100.000 100.000 habitanteshabitantes Homicídio Roubo e furto Deinter doloso Furto Roubo de veículos SJRP 10,85 1500,80 149,35 108,38 RP 14,13 1496,07 187,99 116,66 Bauru 8,62 1448,79 130,97 69,98 Campinas 23,04 1277,33 424,87 435,75 Sorocaba 16,04 1204,02 214,36 207,06 12 Exemplo 1Exemplo 1 Taxa de delitos por 100.000 habitantes Deseja-se formar 4 grupos de regiões Variáveis: X1: Homicídio doloso X2: Furto 13 1.100 ,00 1.200 ,00 1.300 ,00 1.400 ,00 1.500 ,00 1.600 ,00 0 100 200 300 400 500 Homicídios dolosos F u r t o s GR1 14 1.100 ,00 1.200 ,00 1.300 ,00 1.400 ,00 1.500 ,00 1.600 ,00 0 100 200 300 400 500 Homicídios dolosos F u r t o s GR2 15 GR1b 1.100 ,00 1.200 ,00 1.300 ,00 1.400 ,00 1.500 ,00 1.600 ,00 0 100 200 300 400 500 Homicídios dolosos F u r t o s 16 -1,5 -1 -0,5 0 0,5 1 1,5 2 -1,5 -1 -0,5 0 0,5 1 1,5 2 Homicídios dolosos F u r t o s GR3 17 GR3b -1,5 -1 -0,5 0 0,5 1 1,5 2 -1,5 -1 -0,5 0 0,5 1 1,5 2 Homicídios dolosos F u r t o s 18 -1,5 -1 -0,5 0 0,5 1 1,5 2 -1,5 -1 -0,5 0 0,5 1 1,5 2 Homicídios dolosos F u r t o s GR4 19 Etapas de AplicaçãoEtapas de Aplicação 1. Escolha do critério de parecença 2. Definição do número de grupos 3. Formação dos grupos 4. Validação do agrupamento 5. Interpretação dos grupos 20 1. Escolha do critério de 1. Escolha do critério de parecençaparecença Definir se as variáveis devem ou não ser padronizadas e o critério que será utilizado na determinação dos grupos (distância euclidiana) 21 2. Definição do número de 2. Definição do número de gruposgrupos • Definido a priori (3 espécies de insetos) • Conveniência de análise (segmentação de mercado – 2 grupos) • Definido a posteriori (com base nos resultados da análise) 22 3. Formação dos grupos3. Formação dos grupos Nesta etapa deve-se definir o algoritmo que será utilizado na identificação dos grupos 23 4. Validação do 4. Validação do agrupamentoagrupamento Deve-se garantir que de fato as variáveis têm comportamento diferenciado nos diversos grupos. Aplicação de técnicas inferenciais 24 5. Interpretação dos grupos5. Interpretação dos grupos Ao final do processo de formação de grupos é importante caracterizar os grupos formados. Uso de estatísticas descritivas 25 Medidas de parecençaMedidas de parecença Medidas de similaridade: quanto maior o valor, maior a semelhança entre os objetos Medidas de dissimilaridade: quanto maior o valor, mais diferentes são os objetos 26 Pesquisa com clientes de uma loja de Pesquisa com clientes de uma loja de equipamentos automotivosequipamentos automotivos • Idade (em anos completos). • Número de carros. • Classe social: A, B, C ou D. • Potência do motor: Baixa, Média ou Alta. • Combustível: Gasolina ou Álcool. • Modelo: Esporte, Luxo ou Standard. 27 DadosDados Cliente Idade do usuário N. de carros Classe social Potência do motor Combustível Modelo 1 20 1 A Baixa Gasolina Esporte 2 37 3 A Alta Gasolina Luxo 3 22 2 B Média Gasolina Esporte 4 26 2 B Alta Gasolina Esporte 5 45 2 C Média Álcool Standard 6 42 1 D Baixa Álcool Standard Variáveis quantitativas Variáveis nominais Variáveis ordinais Variáveis quantitativasVariáveis quantitativas 29 Medida de DissimilaridadeMedida de Dissimilaridade ( ) q x-x j)d(i, q 1k 2 jkik∑ = = ( ) q x-x j)(i,d q 1k 2 jkik 2 ∑ = = Cliente Q1 Q2 Cliente Q1 Q2 1 20 1 2 37 3 Distância euclidiana média Distância euclidiana média ao quadrado 30 Medida Medida de de DissimilaridadeDissimilaridade Distância Manhattan ou Quarteirão ∑ = −= p j kjijik XXd 1 )1( || 31 A B Variáveis NominaisVariáveis Nominais (escalas)(escalas) 33 Variáveis Fictícias Variáveis Fictícias ((dummiesdummies)) Combustível N1 Gasolina 1 Álcool 0 Cliente Combustível N1 1 Gasolina 1 2 Gasolina 1 3 Gasolina 1 4 Gasolina 1 5 Álcool 0 6 Álcool 0 34 Variáveis Fictícias Variáveis Fictícias ((dummiesdummies)) Modelo N2 N3 Esporte 1 0 Luxo 0 1 Standard 0 0 Cliente Modelo N2 N3 1 Esporte 1 0 2 Luxo 0 1 3 Esporte 1 0 4 Esporte 1 0 5 Standard 0 0 6 Standard 0 0 35 Variáveis NominaisVariáveis Nominais Combustível Cliente N1 N2 N3 1 1 1 0 2 1 0 1 3 1 1 0 4 1 1 0 5 0 0 0 6 0 0 0 Modelo Variáveis OrdinaisVariáveis Ordinais (escalas)(escalas) 37 Variáveis Fictícias Variáveis Fictícias ((dummiesdummies)) A B C O1 O2 O3 D 0 0 0 C 0 0 1 B 0 1 0 A 1 0 0 Classe Social Cliente Classe social O1 O2 O3 1 A 1 0 0 2 A 1 0 0 3 B 0 1 0 4 B 0 1 0 5 C 0 0 1 6 D 0 0 0 38 Variáveis Fictícias Variáveis Fictícias ((dummiesdummies)) Média Alta O4 O5 Baixa 0 0 Média 1 0 Alta 0 1 Potência do Motor Cliente Potência de motor O4 O5 1 Média 0 0 2 Alta 0 1 3 Média 1 0 4 Alta 0 1 5 Média 1 0 6 Baixa 0 0 39 Variáveis OrdinaisVariáveis Ordinais O1 O2 O3 O4 O5 1 1 0 0 0 0 2 1 0 0 0 1 3 0 1 0 1 0 4 0 1 0 0 1 5 0 0 1 1 0 6 0 0 0 0 0 Cliente Classe Social Potência 40 Medidas de ParecençaMedidas de Parecença 1 0 1 2 1 3 0 2 3 5 Total 4 4 8 cliente 1 cliente 2 Total cliente N1 N2 N3 O1 O2 O3 O4 O5 1 1 1 0 1 0 0 0 0 2 1 0 1 1 0 0 0 1 Variáveis Nominais Variáveis Ordinais 41 Medidas de SimilaridadeMedidas de Similaridade 1 0 1 a b a+b 0 c d c+d Total a+c b+d a+b+c+d cliente j cliente i Total 1 0 1 2 1 3 0 2 3 5 Total 4 4 8 cliente 1 cliente 2 Total Coeficiente de Concordância Simples dcba dajis +++ + =),( 625,0 8 5)2,1( ==s 42 Medidas de DissimilaridadeMedidas de Dissimilaridade 1 0 1 a b a+b 0 c d c+d Total a+c b+d a+b+c+d cliente j cliente i Total 1 0 1 2 1 3 0 2 3 5 Total 4 4 8 cliente 1 cliente 2 TotalDistância Euclidiana ao Quadrado Média dcba cbjid +++ + =),( 375,0 8 3)2,1( ==s Esse método apresenta deficiências no que se refere às variáveis ordinais Classe Social s(A,B) < s(A,D) A e B são mais próximos do que A e D 44 Variáveis Fictícias Variáveis Fictícias ((dummiesdummies)) A B C O1* O2* O3* D 0 0 0 C 0 0 1 B 0 1 1 A 1 1 1 Classe Social Cliente Classe social O1*O2*O3* 1 A 1 1 1 2 A 1 1 1 3 B 0 1 1 4 B 0 1 1 5 C 0 0 1 6 D 0 0 0 45 Matriz de Similaridades (CS)Matriz de Similaridades (CS) Indiv. 1 2 3 4 5 6 1 - 2 0,50 - Simétrica 3 0,75 0,50 - 4 0,62 0,62 0,87 - 5 0,37 0,37 0,62 0,50 - 6 0,37 0,12 0,37 0,25 0,75 - 46 Matriz de Dissimilaridades Matriz de Dissimilaridades (1(1-- CS)CS) Indiv. 1 2 3 4 5 6 1 - 2 0,50 - Simétrica 3 0,25 0,50 - 4 0,38 0,38 0,13 - 5 0,63 0,63 0,38 0,50 - 6 0,63 0,88 0,63 0,75 0,25 - Variáveis Quantitativas 48 DadosDados Indiv. Idade do usuário N. de carros 1 20 1 2 37 3 3 22 2 4 26 2 5 45 2 6 42 1 Min 20 1 Max 45 3 Indiv. Q1 Q2 1 0 0 2 0,68 1 3 0,08 0,5 4 0,24 0,5 5 1 0,5 6 0,88 0 Min 0 0 Max 1 1 20-45 20-IdadeQ1 = 1 Q 0 1 ≤≤ 1-3 1-carros de N.Q2 = 1 Q 0 2 ≤≤ 49 Medida de DissimilaridadeMedida de Dissimilaridade ( ) q x-x j)d(i, q 1k 2 jkik∑ = = ( ) q x-x j)(i,d q 1k 2 jkik 2 ∑ = = ( ) ( ) 0,86 2 1-00,68-0 j)d(i, 22 = + = ( ) ( ) 0,73 2 1-00,68-0 j)(i,d 22 2 = + = Indiv. Q1 Q2 Indiv. Q1 Q2 1 0 0 2 0,68 1 Distância euclidiana média Distância euclidiana média ao quadrado 50 Matriz de dissimilaridadeMatriz de dissimilaridade distância euclidiana média ao quadradodistância euclidiana média ao quadrado Indiv. 1 2 3 4 5 6 1 - 2 0,73 - Simétrica 3 0,13 0,31 - 4 0,15 0,22 0,01 - 5 0,63 0,18 0,42 0,29 - 6 0,39 0,52 0,44 0,33 0,13 - 51 Matriz de similaridadeMatriz de similaridade 1 1 -- (distância euclidiana média ao quadrado)(distância euclidiana média ao quadrado) Indiv. 1 2 3 4 5 6 1 - 2 0.27 - Simétrica 3 0.87 0.69 - 4 0.85 0.78 0.99 - 5 0.37 0.82 0.58 0.71 - 6 0.61 0.48 0.56 0.67 0.87 - Coeficiente CombinadoCoeficiente Combinado 53 DadosDados Indiv. Idade do usuário N. de carros Classe social Potência do motor Combustível Modelo 1 20 1 A Baixa Gasolina Esporte 2 37 3 A Alta Gasolina Luxo 3 22 2 B Média Gasolina Esporte 4 26 2 B Alta Gasolina Esporte 5 45 2 C Média Álcool Standard 6 42 1 D Baixa Álcool Standard 54 Matriz combinada de similaridadeMatriz combinada de similaridade Nn : número de variáveis nominais No: número de variáveis ordinais Nq: número de variáveis quantitativas Sn : matriz de similaridades das variáveis nominais So: matriz de similaridades das variáveis ordinais Sq: matriz de similaridades das variáveis quantitativasMatriz combinada de similaridade S = wn Sn + wo So + wq Sq Por exemplo: S = Nn Sn + No So + Nq Sq 55 Indiv. 1 2 3 4 5 6 1 - 2 0,27 - Simétrica 3 0,87 0,69 - 4 0,85 0,78 0,99 - 5 0,38 0,82 0,58 0,71 - 6 0,61 0,48 0,56 0,67 0,87 - Indiv. 1 2 3 4 5 6 1 - 2 0,86 - Simétrica 3 0,86 0,71 - 4 0,71 0,86 0,86 - 5 0,71 0,57 0,86 0,71 - 6 0,43 0,29 0,57 0,43 0,71 - Indiv. 1 2 3 4 5 6 1 - 2 0,60 - Simétrica 3 1,00 0,60 - 4 1,00 0,60 1,00 - 5 0,20 0,20 0,20 0,20 - 6 0,20 0,20 0,20 0,20 1,00 - Sn So Sq Indiv. 1 2 3 4 5 6 1 - 2 3,45 - Simétrica 3 5,46 4,02 - 4 5,12 4,47 5,69 - 5 2,58 3,19 3,27 3,25 - 6 2,48 1,93 2,65 2,60 5,16 - S=2Sn+2So+2Sq 56 Matriz combinada de dissimilaridadeMatriz combinada de dissimilaridade Nn : número de variáveis nominais No: número de variáveis ordinais Nq: número de variáveis quantitativas Dn : matriz de dissimilaridades das variáveis nominais Do: matriz de dissimilaridades das variáveis ordinais Dq: matriz de dissimilaridades das variáveis quantitativas Matriz combinada de dissimilaridade D =wn Dn + wo Do + wq Dq Por exemplo: D =Nn Dn + No Do + Nq Dq 57 Dn Do Dq Indiv. 1 2 3 4 5 6 1 - 2 0,40 - Simétrica 3 0,00 0,40 - 4 0,00 0,40 0,00 - 5 0,80 0,80 0,80 0,80 - 6 0,80 0,80 0,80 0,80 0,00 - Indiv. 1 2 3 4 5 6 1 - 2 0,14 - Simétrica 3 0,14 0,29 - 4 0,29 0,14 0,14 - 5 0,29 0,43 0,14 0,29 - 6 0,57 0,71 0,43 0,57 0,29 - Indiv. 1 2 3 4 5 6 1 - 2 0,73 - Simétrica 3 0,13 0,31 - 4 0,15 0,22 0,01 - 5 0,63 0,18 0,42 0,29 - 6 0,39 0,52 0,44 0,33 0,13 - D=2Dn+2Do+2Dq Indiv. 1 2 3 4 5 6 1 - 2 2,55 - Simétrica 3 0,54 1,98 - 4 0,88 1,53 0,31 - 5 3,42 2,81 2,73 2,75 - 6 3,52 4,07 3,35 3,40 0,84 - Métodos hierárquicos Métodos hierárquicos aglomerativosaglomerativos 59 • cada objeto é um grupo (n grupos) • agrupam-se os dois objetos mais parecidos (n-1 grupos) • agrupam-se os dois grupos mais parecidos (n-2 grupos) • até que se tenha todos os objetos juntos em um único grupo 60 Método HierárquicoMétodo Hierárquico Adotar um critério de parecença Expressar através de uma medida o quanto uma unidade amostral se parece ou difere de outra. 61 Métodos HierárquicosMétodos Hierárquicos • Método do vizinho mais próximo (single) • Método do vizinho mais longe (complete) • Método das médias das distâncias • Método da centróide • Método de Ward 62 Variáveis padronizadasVariáveis padronizadas Deinter Z1 Z2 SJRP -0.66 0.85 RP -0.07 0.81 Bauru -1.07 0.47 Campinas 1.53 -0.79 Sorocaba 0.27 -1.33 Média 0.00 0.00 DP 1.00 1.00 63 MatrizMatriz de de distânciadistância Deinter SJRP RP B C S SJRP 0,00 RP 0,59 0,00 B 0,55 1,05 0,00 C 2,74 2,27 2,89 0,00 S 2,37 2,17 2,24 1,37 0,00 Deinter’s mais parecidas Aqui os métodos se diferenciam Método do Vizinho mais Longe d [(SJRP, B) e RP] = max { d [SJRP e RP] e d [B e RP]} = max {0,59 e 1,05} = 1,05 65 Passo 1 Passo 1 -- juntar SJRP e Bjuntar SJRP e B Redefinir a matriz de distâncias considerando as Deinter’s mais parecidas como se fossem um único grupo. Redefinir a matriz de distância - por exemplo: d(BF, A) = max [d(B,A), d(F,A)] 66 Passo 2Passo 2 Deinter SJRP, B RP C S SJRP, B 0,00 RP 1,05 0,00 C 2,89 2,27 0,00 S 2,37 2,17 1,37 0,00 Mais parecidas, unir SJRP, B e RP 67 Passo 3Passo 3 Deinter SJRP, B, RP C S SJRP, B, RP 0,00 C 2,89 0,00 S 2,37 1,37 0,00 Mais parecidas, unir C e S. 68 Passo 4Passo 4 Deinter SJRP, B, RP C, S SJRP, B, RP 0,00 C, S 2,89 0,00 69 Quadro resumoQuadro resumo Passo Grupo Distância 1 SJRP, B 0,55 2 SJRP, B, RP 1,05 3 C, S 1,37 4 Todos 2,89 70SJR P Bauru RP Campina s Sorocab a 1,0 0 2,0 0 3,0 0 d i s t â n c i a GR5 Método Método de Wardde Ward A medida de homogeneidade baseia-se na partição da soma de quadrados total. Por exemplo, para a variável X1 SQT(1) = SQE(1) + SQD(1) 2 1 1 1 2 11 1 2 1 1 1 )()()( j k j Gi ij k j j k j Gi i XXXXnXX jj −+−=− ∑∑∑∑∑ = ∈== ∈ Primeiro passoPrimeiro passo Agrupamento Grupos SQD(1) SQD(2) SQDP 1 (SJRP, RP), (B), (C), (S) 0,174 0,001 0,175 2 (SJRP, B), (RP), (C), (S) 0,081 0,073 0,154 3 (SJRP, C), (RP), (B), (S) 2,410 1,347 3,757 4 (SJRP, S), (RP), (B), (C) 0,437 2,375 2,812 5 (SJRP), (RP, B), (C), (S) 0,492 0,060 0,552 6 (SJRP), (RP, C), (B), (S) 1,287 1,290 2,577 7 (SJRP), (RP,S), (B), (C) 0,059 2,300 2,359 8 (SJRP), (RP), (B, C), (S) 3,372 0,793 4,165 9 (SJRP), (RP), (B, S), (C) 0,893 1,616 2,509 10 (SJRP), (RP), (B), (C, S) 0,795 0,145 0,940 Método de WardMétodo de Ward Passo 2 Grupos SQD(1) SQD(2) SQDP 1 2 3 4 5 6 (SJRP, B, RP), (C), (S) (SJRP, B, C), (RP), (S) (SJRP,B, S), (RP), (C) (SJRP, B), (RP, C), (S) (SJRP, B), (RP, S), (C) (SJRP, B), (RP), (C, S) 0,498 3,908 0,940 1,368 0,140 0,875 0,089 1,475 2,709 1,363 2,373 0,218 0,587 5,383 3,649 2,731 2,513 1,093 Passo 3 Grupos SQD(1) SQD(2) SQDP 1 2 3 (SJRP, B, RP, C), (S) (SJRP, B, RP, S), (C) (SJRP, B, RP), (C, S) 3,908 1,068 1,292 1,782 3,213 0,234 5,690 4,281 1,527 Passo 4 Grupos SQD(1) SQD(2) SQDP 1 (SJRP, B, RP, C, S) 4 4 8 Resumo Resumo -- Método Método de Wardde Ward Passo União SQDP (SQDP)1/2 1 SJRP, B 0,154 0,392 2 SJRP, B, RP 0,587 0,766 3 C, S 1,527 1,236 4 SJRP, B, RP, C, S 8,000 2,828 75SJR P Bauru RP Campina s Sorocab a 1,0 0 2,0 0 3,0 0 SQDP GR7 76 Comparação Comparação dos dos métodosmétodos • Vizinho mais longe: tende a formar grupos mais homogêneos do que o método do vizinho mais perto • Ward: é atraente por basear-se em uma medida com forte apelo estatístico e gerar grupos com alta homogeneidade Análise de Agrupamento Análise de Agrupamento Métodos de PartiçãoMétodos de Partição 78 DescriçãoDescrição • Premissas básicas: particionar as unidades amostrais formando conglomerados (grupos) com alta coesão interna e isolados. • Número de grupos fixados a priori. 79 Exemplo de PartiçõesExemplo de Partições Objetos: A, B, C, D Partição 1: {A}, {B}, {C}, {D} Partição 2: {AB}, {C}, {D} Partição 3: {AC}, {B}, {D} Partição 4: {AD}, {B}, {C} Partição 5: {BC}, {A}, {D} Partição 6: {BD}, {A}, {C} Partição 7: {CD}, {A}, {B} Partição 8: {A}, {BCD} Partição 9: {B}, {ACD} Partição 10: {C}, {ABD} Partição 11: {D}, {ABC} Partição 12: {AB}, {CD} Partição 13: {AC}, {BD} Partição 14: {AD}, {BC} Partição 15:{ABCD} 80 Qual é a melhor partição?Qual é a melhor partição? Notação: n: número de objetos g: número de grupos O processo busca a formação de grupos homogêneos segundo um conjunto de variáveis. Como medir a homogeneidade dos grupos? 81 Caso ParticularCaso Particular Considere a existência de uma única variável: X1. Medida de heterogeneidade intragrupo, para a variável X1: ( )∑∑ = = −= g 1j n 1i 2 jij j xxSQD(1) Medida de heterogeneidade intergrupos, para a variável X1: ( )∑ = −= g 1j 2 jj xx nSQE(1) nj: tamanho do grupo j j grupo do média :x j 82 Caso ParticularCaso Particular Critério de qualidade: a melhor partição é aquela que minimiza a soma de quadrados dentro dos grupos ( )∑∑ = = +=−= g 1j n 1i 2 ij j SQD(1)SQE(1)xxSQT(1) ANOVA: 83 Caso GeralCaso Geral Variáveis: X1, X2, …, Xp SQD(k): soma de quadrados residual da variável Xk. Critério de qualidade: A melhor partição é aquela que minimiza a soma de todas as SQD, denominada soma de quadrados residual da partição. ∑ = = p 1k SQD(k) ão)SQD(Partiç 84 Método para AgrupamentoMétodo para Agrupamento Para minimizar o trabalho computacional deve-se, inicialmente, escolher o número de grupos que será formado. O método das k-médias tentará formar grupos visando obter uma soma de quadrados residual da partição pequena. Método das kMétodo das k--médiasmédias k-means 86 1. Determinar o número de grupos (g) a serem formados. 2. Escolher casos para serem as sementes geradoras dos grupos iniciais. Para o exemplo: g=2 sementes = SJRP e RP. Passo 1: Definições iniciaisPasso 1: Definições iniciais 87 Passo 2: Formar os grupos iniciaisPasso 2: Formar os grupos iniciais Determinar a distância euclidiana entre cada ponto e cada uma das sementes. Cada ponto será incorporado ao grupo que contém a semente mais próxima. 88 SJRP -0.66 0.85 RP -0.07 0.81 Grupo1 Grupo 2 Sementes Deinter d(ponto,1) d(ponto,2) Grupo mais próximo Bauru 0,55 1,05 1 Campinas 2,74 2,27 2 Sorocaba 2,37 2,17 2 Distâncias entre os pontos e as sementesDistâncias entre os pontos e as sementes Partição (grupos) formada (os)Partição (grupos) formada (os) Grupo 1: SJRP, Bauru Grupo 2: RP, Campinas, Sorocaba 89 Deinter Z1 Z2 Deinter Z1 Z2 SJRP -0.66 0.85 RP -0.07 0.81 Bauru -1.07 0.47 Campinas 1.53 -0.79 Sorocaba 0.27 -1.33 n 2 2 3 3 Média -0.86 0.66 0.73 0.01 Variância 0.08 0.07 1.29 1.29 Grupo1 Grupo 2 Avaliação da qualidade da partição (dos grupos)Avaliação da qualidade da partição (dos grupos) SQD(Z1) = 2,65 SQD(Z2) = 2,65 Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição SQD(part) = SQD(Z1) + SQD(Z2) = 6,30 90 Passo 3: Checagem do grupo ePasso 3: Checagem do grupo e realocaçãorealocação de objetosde objetos Verificar se os grupos estão bem formados, ou seja, se a partição possui a menor SQD(part). Verificar se cada ponto está no melhor grupo possível. 91 0.66 0.01 Centróides Grupo1 Grupo 2 -0.86 0.73 Distâncias em relação aos centróidesDistâncias em relação aos centróides Deinter d(ponto,1) d(ponto,2) Grupo ao qual pertence Grupo mais próximo SJRP 0,28 1,63 1 1 RP 0,81 1,14 2 1 Bauru 0,28 1,85 1 1 Campinas 2,80 1,14 2 2 Sorocaba 2,29 1,42 2 2 Conclusão: A Deinter RP está mais próxima do centro do grupo 1 do que do centro de seu próprio grupo. Está no grupo errado? 92 Deinter Z1 Z2 Deinter Z1 Z2 SJRP -0.66 0.85 Campinas 1.53 -0.79 Bauru -1.07 0.47 Sorocaba 0.27 -1.33 RP -0.07 0.81 n 3 3 2 2 Média -0.60 0.71 0.90 -1.06 Variância 0.25 0.04 0.79 0.14 Grupo 2Grupo 1 Realocar o município DRealocar o município D Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição SQD(part) = 1,52 Anterior = 6,30 Decisão: mudar RP para o grupo 1 SQD(Z1) = 1,29 SQD(Z2) = 0,23 93 Passo 4: Repetir o passo anterior até Passo 4: Repetir o passo anterior até que nenhuma troca seja necessáriaque nenhuma troca seja necessária Todos os pontos estão bem alocados Grupo 1: SJRP, RP e Bauru Grupo 2: Campinas e Sorocaba 94 Método dasMétodo das kk--medóidesmedóides • Baseado em uma matriz de distâncias entre objetos • Medóide: membro do grupo que possui a menor distância euclidiana média em relação aos demais membros 95 Critério Critério de de qualidadequalidade ∑ = = n j jCC 1 ),(min jmdC ij = d(mi, j) é a distância entre a medóide mi e a observação j Primeiro passoPrimeiro passo Admita que desejamos formar 2 grupos O primeiro passo consiste em um chute inicial para as duas medóides Medóides: Campinas e Bauru Distância Grupo Deinter Campinas Bauru mínima alocado SJRP 2,74 0,55 0,55 2 RP 2,27 1,05 1,05 2 Bauru 2,89 0,00 0,00 2 Campinas 0,00 2,89 0,00 1 Sorocaba 1,37 2,24 1,37 1 C 2,97 Medóide Inicialmente, mantemos Campinas e substituímos Bauru Distância Grupo Deinter Campinas SJRP mínima alocado SJRP 2,74 0,00 0,00 2 RP 2,27 0,59 0,59 2 Bauru 2,89 0,55 0,55 2 Campinas 0,00 2,74 0,00 1 Sorocaba 1,37 2,37 1,37 1 C 2,51 Distância Grupo Deinter Campinas RP mínima alocado SJRP 2,74 0,59 0,59 2 RP 2,27 0,00 0,00 2 Bauru 2,89 1,05 1,05 2 Campinas 0,00 2,27 0,00 1 Sorocaba 1,37 2,17 1,37 1 C 3,01 Distância Grupo Deinter CampinasSorocaba mínima alocado SJRP 2,74 2,37 2,37 2 RP 2,27 2,17 2,17 2 Bauru 2,89 2,24 2,24 2 Campinas 0,00 1,37 0,00 1 Sorocaba 1,37 0,00 0,00 2 C 6,78 Medóide Medóide Medóide A escolha de SJRP em lugar de Bauru diminui o valor de C (manter SJRP e substituir Campinas) Distância Grupo Deinter SJRP Bauru mínima alocado SJRP 0,00 0,55 0,00 1 RP 0,59 1,05 0,59 1 Bauru 0,55 0,00 0,00 2 Campinas 2,74 2,89 2,74 1 Sorocaba 2,37 2,24 2,24 2 C 5,57 Distância Grupo Deinter SJRP RP mínima alocado SJRP 0,00 0,59 0,00 1 RP 0,59 0,00 0,00 2 Bauru 0,55 1,05 0,55 1 Campinas 2,74 2,272,27 2 Sorocaba 2,37 2,17 2,17 2 C 4,99 Distância Grupo Deinter SJRP Sorocaba mínima alocado SJRP 0,00 2,37 0,00 1 RP 0,59 2,17 0,59 1 Bauru 0,55 2,24 0,55 1 Campinas 2,74 1,37 1,37 2 Sorocaba 2,37 0,00 0,00 2 C 2,51 Medóide Medóide Medóide Não observamos nenhuma melhora no valor de C. O Valor é o mesmo para Campinas e SJRP ou Sorocaba e SJRP. Nos dois casos os grupos são os mesmos: Grupo 1: Campinas e Sorocaba Grupo 2: SJRP, Bauru e RP 101 ComparaçãoComparação dos dos métodosmétodos K-médias: • os objetos podem ser realocados • mais sensível a dados aberrantes Hierárquicos: • não necessita número de grupos a priori • aplicação proibitiva para muitos dados 102 Validação Validação dos dos gruposgrupos • Testes Univariados • MANOVA • Análise Discriminante • Correlação Cofenética • Gráfico da Silhueta 103 Correlação CofenéticaCorrelação Cofenética • medida de validação usada nos métodos hierárquicos principalmente • Idéia: realizar uma comparação entre as distâncias observadas e as previstas 104 MatrizMatriz CofenéticaCofenética Deinter SJRP RP B C S SJRP 0,00 RP 1,05 0,00 Simétrica B 0,55 1,05 0,00 C 2,89 2,89 2,89 0,00 S 2,89 2,89 2,89 1,37 0,00 Correlação Cofenética: 0,95 105 Gráfico da SilhuetaGráfico da Silhueta Objetivos • Verificar a qualidade dos agrupamentos • Verificar se um ponto está mais próximo dos elementos de seu grupo ou de um grupo vizinho 106 Gráfico da SilhuetaGráfico da Silhueta • a(i) = distância média do objeto i para os elementos de seu próprio grupo • b(i) = distância média do objeto I para os elementos do grupo mais próximo )}(),(max{ )()()( ibia iaibis −= 107 Gráfico da SilhuetaGráfico da Silhueta • Valor próximo de 1 - boa alocação • Valores negativos - má alocação 1)(1 ≤≤− is 108 0 0,2 0,4 0,6 0,8 1 Sorocaba Campinas RP Bauru SJRP 109 Interpretação Interpretação dos dos GruposGrupos • Caracterização dos grupos • Ressaltar diferenças e semelhanças • Técnicas descritivas • Representações gráficas 110 G1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 X1 X2 X3 X4 G2 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 X1 X2 X3 X4 G3 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 X1 X2 X3 X4 111 Aplicação Aplicação 11 • 40 agricultores uruguaios (Salto) • cultura de tomate e pimentão em estufa • área plantada em 1990, 1992 e 1994 Deseja-se formar grupos homogêneos segundo o padrão da área cultivada ao longo do tempo Parecença: coeficiente de correlação 112 Distância reescalonada 0 5 10 15 20 25 Agricultor +---------+---------+---------+---------+---------+ 32 -+ 39 -+ 8 -+-+ 2 -+ I 4 -+ I 12 -+ +-----------+ 40 -+ I I 19 -+ I I 1 ---+ I 9 -+ I 20 -+ +---------------------------------+ 22 -+-+ I I 5 -+ I I I 15 -+ I I I 27 -+ I I I 29 -+ I I I 25 -+ +-----------+ I 33 -+ I I 34 -+ I I 37 -+ I I 38 -+ I I 14 -+-+ I 26 -+ I 3 -+ I 35 -+---------------------+ I 6 -+ I I 28 -+ I I 31 -+ +-------------------------+ 23 -+---------+ I I 10 -+ I I I 36 -+ +-----------+ I 30 -+ I I 13 -+-+ I I 21 -+ +-------+ I 17 ---+ I 16 ---+-----------------------------+ I 24 ---+ +---------------+ 11 -+-+ I 18 -+ +-----------------------------+ 7 ---+ 113 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 1990 1992 1994 Ano Á r e a 114 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 1990 1992 1994 Ano Á r e a 115 0 2000 4000 6000 8000 10000 12000 1990 1992 1994 Ano Á r e a 116 0 2000 4000 6000 8000 10000 12000 A1990 A1992 A1994 G1 G2 G3 117 Aplicação Aplicação 22 Cultura Organizacional: mecanismos de adaptação e comportamento adotados para lidar com os problemas de ajuste ao ambiente externo e de integração interna. Está ligada ao clima existente no ambiente de trabalho 118 Tipos Tipos de de Cultura OrganizacionalCultura Organizacional • Cultura Grupal • Cultura Sistêmica • Cultura Hierárquica • Cultura Racional Ambiente saudável: as quatro culturas co-existem de maneira intensa 119 Aplicação Aplicação 22 • 13 empresas do setor Têxtil • 478 funcionários • questionário: percepção da presença das quatro culturas Objetivo: identificar grupos de funcionários com percepções semelhantes 120 KK--médiasmédias Quantos grupos devemos fixar? Ganho relativo na soma de quadrados dentro dos grupos ao se aumentar o número de grupos de k para k+1 )1( )1()( + +− = kSQDP kSQDPkSQDPG 121 0 0,2 0,4 0,6 0,8 1 1,2 0 1 2 3 4 5 6 7 8 9 Número de Grupos G 122 0 10 20 30 Grupal Sistêmica Hierarquica Racional G1 G2 G3 G4
Compartilhar