Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise Multivariada de dados Profa Cecilia Ap V Farhat Referências BUSSAB, W.O., Miazaki, E.S., Andrade D.F. – Introdução à Análise de Agrupamento - 9º simpósio Brasileiro de Probabilidade e Estatística IME/USP – julho/1990. HAIR, J. F., Anderson, R. E., Tatham, R. L. & Black, W. C. (2005). Análise Multivariada de dados. Porto Alegre: Artmed. BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística básica. 9 ed. São Paulo: Saraiva, 2017 BARROSO, L.P. ARTES, R. Análise Multivariada. Lavras: UFLA, 2003. 157p. II. Tipo de agrupamento – Técnica de Partição (não hierárquico) - (Análise cluster não hierárquico) Os procedimentos não hierárquicos são métodos que tem como objetivo encontrar diretamente uma partição de n elementos em k grupos (clusters), de modo que satisfaça a dois requisitos básicos: 1- Semelhança interna. 2- Separação dos clusters Estes métodos procuram diretamente uma partição dos n objetos, é necessário pré-fixar critérios para medir a qualidade da partição, que são utilizados para agrupar indivíduos. Considere a existência de 4 objetos (n=4), de quantas maneiras podemos formar grupos distintos com todos os objetos? Seriam em torno de (2(n) -1) grupos, neste caso seriam 15 grupos. Cada uma dessas maneiras recebe o nome de partição. O pesquisador define inicialmente o número de clusters (k), há necessidade e uma semente inicial. Pode utilizar o Método hierárquico como técnica exploratória para definir inicialmente a semente, e assim sugerir como ponto inicial o número de cluster. Os algoritmos de partição diferem um do outro pela escolha diferente de um ou mais dos seguintes procedimentos: i) Método de iniciar os agrupamentos. ii) Método de designar os objetos aos agrupamentos iniciais, iii) Método de redesignar um ou mais objetos já agrupados para outros agrupamentos. Os Métodos de partição resumem algoritmos que permitem a identificação de boas partições segundo critérios de qualidades específicos. Alguns Métodos são: k-meas ou k-médias k-medóides outros Para ilustrar está técnica ilustraremos um algoritmo muito conhecido: K-Means ou K-médias. a) Método das k-médias Resumo: É o método mais utilizado dentro dos não hierárquicos, o critério de distância para formação dos grupos é da distância euclideana e este método é composto por 3 partes: 1 – Partição inicial dos indivíduos em k clusters. 2- Calculo dos centroides para cada um dos k clusters e cálculo da distância euclideana dos centroides a cada sujeito na base de dados. 3 – Agrupar os sujeitos aos clusters cujos centroides se encontram mais próximos. Temos o critério de homogeneidade dentro do grupo e heterogeneidade entre os grupos, mas o mais utilizado é o da soma de quadrados residual, inspirado na ANOVA – Análise de Variância. A soma de quadrados residuais (SQRes(j)) dentro do j-ésimo grupo será: SQRes(j) = Onde d2 representa o quadrado da distância euclideana do objeto i, do grupo j, ao seu centro. Para a partição toda, a soma de quadrados residual será: SQRes = Σ SQRes (j) , j = 1 até k Distância euclideana => d2 = [(z1(A) – z1(B))2 + (z2(A) – z2(B))2 ] Quanto menor for este valor (SQRes(j)) mais homogêneo são os elementos dentro de cada grupo e “melhor” será a partição. Os passos serão ilustrados através do mesmo exemplo já dado anteriormente: A característica de interesse no agrupamento é a massa corpórea, então as variáveis peso e altura seriam dois indicadores próximos da sua característica de interesse. Suponha que deseja-se encontrar uma partição de 2 grupos (K=2). O pesquisador usou 6 pessoas como estudo piloto. A altura foi medida em centímetros e o peso em quilogramas. Tabela dos dados Individuo ALTURA PESO IDADE INSTRUÇÃO COR SEXO A 180 79 30 U P M B 175 75 28 U B M C 170 70 20 S B F D 167 63 25 U PA F E 180 71 18 S PA M F 165 60 28 P B F Média 172,8 69,7 - - - - DP 6,5 7,1 (BUSSAB, W.O, 1990) Tabela – Valores Padronizados Individuo ALTURA PESO Altura_padron Peso_padron A 180 79 1,1 1,31 B 175 75 0,33 0,75 C 170 70 -0,44 0,05 D 167 63 -0,9 -0,93 E 180 71 1,1 0,19 F 165 60 -1,21 -1,35 (BUSSAB, W.O, 1990) i) Sementes dos agrupamentos. Como a partição será formada por 2 conjuntos necessita-se de 2 centros provisórios (K=2 duas sementes) para começar o processo. Foram escolhidos os dois primeiros objetos, na ordem que aparecem. Então k= 2 (duas sementes), foram escolhidos (1ª Etapa): as duas primeiras observações (A, B), onde A será o centro do primeiro grupo e B do segundo grupo. ordenar os objetos pela altura (Altura_padron ou z_alt) Etapas: 1ª) Etapa escolha das duas sementes (A e B) 2ª) Etapa Etapas Individuo G1 G2 z alt z peso z alt z peso z alt z peso 1 A 1,1 1,31 A 1,10 1,31 - - - 2 B 0,33 0,75 B 0,33 0,75 C -0,44 0,05 O próximo individuo da fila é o C (-0,44). Então o objeto C tem zalt= -0,44 que está próximo do 2 º grupo (B) então coloco com B. E calcula-se a média dos dois pontos no G2, assim: (-0,44+0,33)/2 =-0,06 ; (0,75+0,05)/2 = 0,40 (3ª Etapa). 3ª) Etapa Etapas Individuo G1 G2 z alt z peso z alt z peso z alt z peso 1 A 1,1 1,31 A 1,10 1,31 - - - 2 B 0,33 0,75 A 1,10 1,31 B 0,33 0,75 3 C -0,44 0,05 BC -0,06 0,40 D -0,90 -0,93 O próximo individuo é o D (-0,90), que está mais próximo de BC (-0,06), junção com BC. E calcula-se a média: (0,33+(-0,44)+(-0,90))/3 = -0,34 ; (0,75 + 0,05+(-0,93))/3 = -0,04. (4ª Etapa). 4ª Etapa Etapas Individuo G1 G2 z alt z peso z alt z peso z alt z peso 1 A 1,1 1,31 A 1,10 1,31 - - - 2 B 0,33 0,75 A 1,10 1,31 B 0,33 0,75 3 C -0,44 0,05 A 1,10 1,31 BC -0,06 0,50 4 D -0,90 -0,93 A 1,10 1,31 BCD -0,34 -0,04 E 1,10 0,19 O próximo da fila é o E (1,10) que está mais próximo de A (G1) coloca no G1 junção com A, (AE). E calcula-se a média: (1,1 + 1,1) /2 = 1,1 ; (1,31 + 0,19)/2 = 0,75. 5ª Etapa Etapas Individuo G1 G2 z alt z peso z alt z peso z alt z peso 1 A 1,1 1,31 A 1,10 1,31 - - - 2 B 0,33 0,75 A 1,10 1,31 B 0,33 0,75 3 C -0,44 0,05 A 1,10 1,31 BC -0,06 0,50 4 D -0,90 -0,93 A 1,10 1,31 BCD -0,34 -0,04 5 E 1,10 0,19 AE 1,10 0,75 BCD -0,34 -0,04 F -1,21 -1,35 O próximo da fila é F (-1,21) que está mais próximo do G2. Junção do F DBC. A média fica: (0,33+(-0,44)+(-0,9)+(-1,21))/4 = -0,56 ; (0,75+0,05+(-0,93)+(-1,35))/4 = -0,37. 6ª Etapa Etapas Individuo G1 G2 z alt z peso z alt z peso z alt z peso 1 A 1,1 1,31 A 1,10 1,31 - - - 2 B 0,33 0,75 A 1,10 1,31 B 0,33 0,75 3 C -0,44 0,05 A 1,10 1,31 BC -0,06 0,50 4 D -0,90 -0,93 A 1,10 1,31 BCD -0,34 -0,04 5 E 1,10 0,19 AE 1,10 0,75 BCD -0,34 -0,04 6 F -1,21 -1,35 AE 1,10 0,75 F BCD -0,56 -0,37 Assim, termina com os agrupamentos com P(G1) = {A, E} e P(G2) ={B, C, D, F}. Agora calcula o grau de homogeneidade interna: Soma de quadrados de resíduo = SQRes. Etapas G1 G2 Individuo z alt z peso Individuo z alt z peso 1 A 1,1 1,31 2 E 1,1 0,19 3 B 0,33 0,75 4 C -0,44 0,05 5 D -0,90 -0,93 6 F -1,21 -1,35 centro SQRes(1) SQRes(2) SQRes Grau de homogeneidade do G1: (tabela original) -SQRes(G1) = d2 (A,G1) + d2(E, G1) = (1,1 – 1,1)2 + (1,1 – 1,1)2 + ( 1,31-0,75)2 + (0,19 – 0,75)2 = 0,0 + 0,6272 = 0,6272. altura peso Grau de homogeneidade do G2 {B,C,D,F}: (tabela original) -SQRes(G2) = d2 (B,G2) + d2(C, G2) + d2(D, G2) + d2(F, G2) = =(0,33-(-0,56))2 + (-0,44-(-0,56))2 + (-0,9-(-0,56))2 + (-1,21-(-0,56))2 + (0,75+0,37)2 + (0,05+0,37)2 + (-0,93+0,37)2 + (-1,35+0,37)2 = 1,3445 + 2,7048 = 4,0493. Etapas G1 G2 Individuo z alt z peso Individuo z alt z peso 1 A 1,1 1,31 2 E 1,1 0,19 3 B 0,33 0,75 4 C -0,44 0,05 5 D -0,90 -0,93 6 F -1,21 -1,35 centro 1,10 0,75 SQRes(1) -0,56 -0,37 SQRes(2) SQRes 0,000 0,62720,6272 1,3445 2,7048 4,0493 Calcula-se o grau de homogeneidade interna SQres, que é uma medida para avaliar a “bondade” da partição inicial (o quão é bom) assim, SQRes= SQres(1) + SQRes(2) = 0,6272 + 4,0493 = 4,6765 – grande homogeneidade. iii) Realocação dos objetos: alternativas: 1) mover um ponto de cada vez (mais usado) 2) mover grupos de objetos. 3) mover cada caso na ordem que aparece, fazendo a mudança quando recomendada, antes de verificar o caso seguinte. 4) calcular o ganho para o movimento de cada objeto e mover o que leva ao maior ganho. Exercício (parte inicial somente) 1) Um diretor de Marketing deseja agrupar 6 municípios de acordo com a porcentagem das vendas de bolachas doces (X) e salgadas (Y), indicadas no quadro abaixo: Município A1 A2 A3 A4 A5 A6 X (% doces) 9 14 13 10 12 14 Y (% salgados) 19 22 22 18 31 20 Construa conglomerados utilizando o agrupamento não hierárquico método k-means (tomando como variável base: doce).
Compartilhar