Buscar

Análise Multivariada de dados5

Prévia do material em texto

Análise Multivariada de dados
Profa Cecilia Ap V Farhat
Referências
BUSSAB, W.O., Miazaki, E.S., Andrade D.F. – Introdução à Análise de Agrupamento - 9º simpósio Brasileiro de Probabilidade e Estatística IME/USP – julho/1990.
HAIR, J. F., Anderson, R. E., Tatham, R. L. & Black, W. C. (2005). Análise Multivariada de dados. Porto Alegre: Artmed.
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística básica. 9 ed. São Paulo: Saraiva, 2017
BARROSO, L.P. ARTES, R. Análise Multivariada. Lavras: UFLA, 2003. 157p.
 II. Tipo de agrupamento – Técnica de Partição (não hierárquico) - (Análise cluster não hierárquico)
Os procedimentos não hierárquicos são métodos que tem como objetivo encontrar diretamente uma partição de n elementos em k grupos (clusters), de modo que satisfaça a dois requisitos básicos:
1- Semelhança interna.
2- Separação dos clusters
Estes métodos procuram diretamente uma partição dos n objetos, é necessário pré-fixar critérios para medir a qualidade da partição, que são utilizados para agrupar indivíduos.
Considere a existência de 4 objetos (n=4), de quantas maneiras podemos formar grupos distintos com todos os objetos? Seriam em torno de (2(n) -1) grupos, neste caso seriam 15 grupos. Cada uma dessas maneiras recebe o nome de partição. 
 
O pesquisador define inicialmente o número de clusters (k), há necessidade e uma semente inicial. 
Pode utilizar o Método hierárquico como técnica exploratória para definir inicialmente a semente, e assim sugerir como ponto inicial o número de cluster.
 
Os algoritmos de partição diferem um do outro pela escolha diferente de um ou mais dos seguintes procedimentos:
 i) Método de iniciar os agrupamentos.
ii) Método de designar os objetos aos agrupamentos iniciais,
iii) Método de redesignar um ou mais objetos já agrupados para outros agrupamentos.
Os Métodos de partição resumem algoritmos que permitem a identificação de boas partições segundo critérios de qualidades específicos.
 
Alguns Métodos são:
k-meas ou k-médias
k-medóides 
outros
Para ilustrar está técnica ilustraremos um algoritmo muito conhecido: K-Means ou K-médias.
 a) Método das k-médias
Resumo:
É o método mais utilizado dentro dos não hierárquicos, o critério de distância para formação dos grupos é da distância euclideana e este método é composto por 3 partes:
 
1 – Partição inicial dos indivíduos em k clusters.
2- Calculo dos centroides para cada um dos k clusters e cálculo da distância euclideana dos centroides a cada sujeito na base de dados.
3 – Agrupar os sujeitos aos clusters cujos centroides se encontram mais próximos.
Temos o critério de homogeneidade dentro do grupo e heterogeneidade entre os grupos, mas o mais utilizado é o da soma de quadrados residual, inspirado na ANOVA – Análise de Variância.
 
A soma de quadrados residuais (SQRes(j)) dentro do j-ésimo grupo será: 
SQRes(j) = 
Onde d2 representa o quadrado da distância euclideana do objeto i, do grupo j, ao seu centro. Para a partição toda, a soma de quadrados residual será:
 
SQRes = Σ SQRes (j) , j = 1 até k
 
Distância euclideana => d2 = [(z1(A) – z1(B))2 + (z2(A) – z2(B))2 ]
 
Quanto menor for este valor (SQRes(j)) mais homogêneo são os elementos dentro de cada grupo e “melhor” será a partição.
Os passos serão ilustrados através do mesmo exemplo já dado anteriormente:
 A característica de interesse no agrupamento é a massa corpórea, então as variáveis peso e altura seriam dois indicadores próximos da sua característica de interesse.
Suponha que deseja-se encontrar uma partição de 2 grupos (K=2). O pesquisador usou 6 pessoas como estudo piloto. A altura foi medida em centímetros e o peso em quilogramas. 
Tabela dos dados
	Individuo 	ALTURA	PESO	IDADE	INSTRUÇÃO	COR	SEXO
	A	180	79	30	U	P	M
	B	175	75	28	U	B	M
	C	170	70	20	S	B	F
	D	167	63	25	U	PA	F
	E	180	71	18	S	PA	M
	F	165	60	28	P	B	F
	Média	172,8	69,7	-	-	-	-
	DP	6,5	7,1	 	 	 	 
(BUSSAB, W.O, 1990)
Tabela – Valores Padronizados
	Individuo 	ALTURA	PESO	Altura_padron	Peso_padron
	A	180	79	1,1	1,31
	B	175	75	0,33	0,75
	C	170	70	-0,44	0,05
	D	167	63	-0,9	-0,93
	E	180	71	1,1	0,19
	F	165	60	-1,21	-1,35
(BUSSAB, W.O, 1990)
i) Sementes dos agrupamentos. Como a partição será formada por 2 conjuntos necessita-se de 2 centros provisórios (K=2 duas sementes) para começar o processo. Foram escolhidos os dois primeiros objetos, na ordem que aparecem. 
 
Então k= 2 (duas sementes), foram escolhidos (1ª Etapa):
 
as duas primeiras observações (A, B), onde A será o centro do primeiro grupo e B do segundo grupo.
ordenar os objetos pela altura (Altura_padron ou z_alt) 
Etapas:
1ª) Etapa escolha das duas sementes (A e B)
2ª) Etapa 
	Etapas	Individuo 	 	 	G1			G2		
			z alt	z peso	 	z alt	z peso	 	z alt	z peso
	1	A	1,1	1,31	A	1,10	1,31	-	-	-
	2	B	0,33	0,75	 	 	 	B	0,33	0,75
	 	C	-0,44	0,05	 	 	 	 	 	 
O próximo individuo da fila é o C (-0,44). Então o objeto C tem zalt= -0,44 que está próximo do 2 º grupo (B) então coloco com B. 
E calcula-se a média dos dois pontos no G2, assim: (-0,44+0,33)/2 =-0,06 ; (0,75+0,05)/2 = 0,40 (3ª Etapa).
3ª) Etapa
	Etapas	Individuo 	 	 	G1			G2		
			z alt	z peso	 	z alt	z peso	 	z alt	z peso
	1	A	1,1	1,31	A	1,10	1,31	-	-	-
	2	B	0,33	0,75	A	1,10	1,31	B	0,33	0,75
	3	C	-0,44	0,05	 	 	 	BC	-0,06	0,40
	 	D	-0,90	-0,93	 	 	 	 	 	 
O próximo individuo é o D (-0,90), que está mais próximo de BC (-0,06), junção com BC. E calcula-se a média: (0,33+(-0,44)+(-0,90))/3 = -0,34 ; (0,75 + 0,05+(-0,93))/3 = -0,04. (4ª Etapa).
4ª Etapa
	Etapas	Individuo 	 	 	G1			G2		
			z alt	z peso	 	z alt	z peso	 	z alt	z peso
	1	A	1,1	1,31	A	1,10	1,31	-	-	-
	2	B	0,33	0,75	A	1,10	1,31	B	0,33	0,75
	3	C	-0,44	0,05	A	1,10	1,31	BC	-0,06	0,50
	4	D	-0,90	-0,93	A	1,10	1,31	BCD	-0,34	-0,04
	 	E	1,10	0,19						
O próximo da fila é o E (1,10) que está mais próximo de A (G1) coloca no G1 junção com A, (AE). E calcula-se a média: (1,1 + 1,1) /2 = 1,1 ; (1,31 + 0,19)/2 = 0,75.
5ª Etapa
	Etapas	Individuo 	 	 	G1			G2		
			z alt	z peso	 	z alt	z peso	 	z alt	z peso
	1	A	1,1	1,31	A	1,10	1,31	-	-	-
	2	B	0,33	0,75	A	1,10	1,31	B	0,33	0,75
	3	C	-0,44	0,05	A	1,10	1,31	BC	-0,06	0,50
	4	D	-0,90	-0,93	A	1,10	1,31	BCD	-0,34	-0,04
	5	E	1,10	0,19	AE	1,10	0,75	BCD	-0,34	-0,04
	 	F	-1,21	-1,35	 	 	 	 	 	 
O próximo da fila é F (-1,21) que está mais próximo do G2. Junção do F DBC. A média fica: (0,33+(-0,44)+(-0,9)+(-1,21))/4 = -0,56 ; (0,75+0,05+(-0,93)+(-1,35))/4 = -0,37.
6ª Etapa
	Etapas	Individuo 	 	 	G1			G2		
			z alt	z peso	 	z alt	z peso	 	z alt	z peso
	1	A	1,1	1,31	A	1,10	1,31	-	-	-
	2	B	0,33	0,75	A	1,10	1,31	B	0,33	0,75
	3	C	-0,44	0,05	A	1,10	1,31	BC	-0,06	0,50
	4	D	-0,90	-0,93	A	1,10	1,31	BCD	-0,34	-0,04
	5	E	1,10	0,19	AE	1,10	0,75	BCD	-0,34	-0,04
	6	F	-1,21	-1,35	AE	1,10	0,75	F BCD	-0,56	-0,37
Assim, termina com os agrupamentos com P(G1) = {A, E} e P(G2) ={B, C, D, F}.
 
Agora calcula o grau de homogeneidade interna: Soma de quadrados de resíduo = SQRes.
	Etapas	G1				G2			
		Individuo	z alt	z peso	 	Individuo	z alt	z peso	 
	1	A	1,1	1,31	 	 	 	 	 
	2	E	1,1	0,19	 	 	 	 	 
	3	 	 	 	 	B	0,33	0,75	 
	4	 	 	 	 	C	-0,44	0,05	 
	5	 	 	 	 	D	-0,90	-0,93	 
	6	 	 	 	 	F	-1,21	-1,35	 
	centro	 			SQRes(1)	 			SQRes(2)
	SQRes	 				 			
Grau de homogeneidade do G1: (tabela original) -SQRes(G1) = d2 (A,G1) + d2(E, G1) = (1,1 – 1,1)2 + (1,1 – 1,1)2 + ( 1,31-0,75)2 + (0,19 – 0,75)2 = 0,0 + 0,6272 = 0,6272.
 altura peso
Grau de homogeneidade do G2 {B,C,D,F}: (tabela original) -SQRes(G2) = d2 (B,G2) + d2(C, G2) + d2(D, G2) + d2(F, G2) = 
=(0,33-(-0,56))2 + (-0,44-(-0,56))2 + (-0,9-(-0,56))2 + (-1,21-(-0,56))2 + (0,75+0,37)2 + (0,05+0,37)2 + (-0,93+0,37)2 + (-1,35+0,37)2 = 1,3445 + 2,7048 = 4,0493.
	Etapas	G1				G2			
		Individuo	z alt	z peso	 	Individuo	z alt	z peso	 
	1	A	1,1	1,31	 	 	 	 	 
	2	E	1,1	0,19	 	 	 	 	 
	3	 	 	 	 	B	0,33	0,75	 
	4	 	 	 	 	C	-0,44	0,05	 
	5	 	 	 	 	D	-0,90	-0,93	 
	6	 	 	 	 	F	-1,21	-1,35	 
	centro	 	1,10	0,75	SQRes(1)	 	-0,56	-0,37	SQRes(2)
	SQRes	 	0,000	0,62720,6272	 	1,3445	2,7048	4,0493
Calcula-se o grau de homogeneidade interna SQres, que é uma medida para avaliar a “bondade” da partição inicial (o quão é bom) assim,
 
SQRes= SQres(1) + SQRes(2) = 0,6272 + 4,0493 = 4,6765 – grande homogeneidade.
 
iii) Realocação dos objetos: alternativas: 
1) mover um ponto de cada vez (mais usado) 
2) mover grupos de objetos.
3) mover cada caso na ordem que aparece, fazendo a mudança quando recomendada, antes de verificar o caso seguinte. 
4) calcular o ganho para o movimento de cada objeto e mover o que leva ao maior ganho.
Exercício (parte inicial somente)
1) Um diretor de Marketing deseja agrupar 6 municípios de acordo com a porcentagem das vendas de bolachas doces (X) e salgadas (Y), indicadas no quadro abaixo:
	Município	A1	A2	A3	A4	A5	A6
	X (% doces)	9	14	13	10	12	14
	Y (% salgados)	19	22	22	18	31	20
Construa conglomerados utilizando o agrupamento não hierárquico método k-means (tomando como variável base: doce).

Continue navegando