Análise Multivariada de dados3a

•

ESTÁCIO

0

Lincon Ferreira

29/11/2022

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise Estatística

10.089 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Análise Multivariada de dados
Profa Cecilia Ap V Farhat
Referências
BUSSAB, W.O., Miazaki, E.S., Andrade D.F. – Introdução à Análise de Agrupamento - 9º simpósio Brasileiro de Probabilidade e Estatística IME/USP – julho/1990.
HAIR, J. F., Anderson, R. E., Tatham, R. L. & Black, W. C. (2005). Análise Multivariada de dados. Porto Alegre: Artmed.
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística básica. 9 ed. São Paulo: Saraiva, 2017
Exercício
Um diretor de Marketing deseja agrupar 6 municípios de acordo com a porcentagem das vendas de bolachas doces (X) e salgadas (Y), indicadas no quadro abaixo:
	Município	A1	A2	A3	A4	A5	A6
	X (% doces)	9	14	13	10	12	14
	Y (% salgados)	19	22	22	18	31	20
a) Construa conglomerados através da inspeção gráfica (gráfico de dois eixos)
b) Construa a matriz de parecença (similaridade) 
c) Aplique o método MMD (agrupamaento)
d) Construa o dendrograma
e) Calcule a matriz cofenética e a correlação cofenética
f) interprete os resultados.
Pede-se
Construa conglomerados através da inspeção gráfica (gráfico de dois eixos)
Resultados
A1
A2
A3
A4
A5
A6
9	14	13	10	12	14	19	22	22	18	31	20	
b) Construa a matriz de parecença (similaridade) 
Resultados
#Calculo das distancias euclideana (padrão)dos dados padronizados ou
## d_eucl<-dist(p.Agrupamento_c,method="euclidean") 
d_eucl<-dist(Agrupamento_Ex2)
View(d_eucl) 
c) Aplique o método MMD (agrupamento)
Resultados
# Método hierarquico de agrupamento com distancia euclideana e Metodo de LIGACAO:
## Ward ou distancia média.
agrup_Wald_d<-hclust(d=d_eucl, method= "ward.D")
View(agrup_Wald_d
d) Construa o dendrograma
Resultados
#Dendrograma-install.packages("factoextra")
fviz_dend(agrup_Wald_d) # produz o dendrograma
fviz_dend(agrup_Wald_d,k=2) # separa em cores
e) Calcule a matriz cofenética
## Calculo da matriz cofenetica (ou para correlação cofenetica)
agrup.W_cofen<-cophenetic(agrup_Wald_d)
View(agrup.W_cofen)
Resultados
e) Calcule a correlação cofenética
# Correlação cofenetico - entre a distancia cofenética e a distancia original
cor_cofen<-cor(d_eucl,agrup.W_cofen)
View(cor_cofen)
Resultados
f) interprete os resultados.
Existe um agrupamento de:
A1 com A4 -> cidades que compram poucos doces e poucos salgados, pouco investimento.
A2, A3 e A6 -> cidades que compram quantidades de mais doces em relação as demais e razoavelmente salgados.
A5 -> considerado um ponto discrepante, uma cidade com compras de muitos salgados e poucos doces. 
Resultados
Tem alta correlação cofenetica (0,93) entre a matriz original e a matriz cofenetica, quantificando bem as duas medidas. Pode-se dizer que esses agrupamentos estão bem ajustados.
Resultados
	Município	X (% doces)	Y (% salgados)
	A1	9	19
	A4	10	18
	A2	14	22
	A3	13	22
	A6	14	20
	A5	12	31
Formação de agrupamentos
 
Inicialmente define-se a medida de similaridade a seguir a formação dos agrupamentos até que todas as observações estejam em um único agrupamento. Esse é o chamado procedimento hierárquico, pois são formações por combinação de outros agrupamentos já existentes.
Na determinação do número de agrupamentos na solução final, onde está sendo procurado grupos homogêneos, a seleção dos grupos exige julgamento do pesquisador quanto ao número de agrupamentos que seja interessante a ele e é muito subjetivo.
O procedimento de análise de cluster é que agrega-se os objetos semelhantes em em agrupamentos.
MEDIDAS DE DISTANCIA E SIMILARIDADE 
A utilização das técnicas de AA é na escolha da distância entre os objetos (ou indivíduos) que quantifique o quanto eles são parecidos. Essa medida é o coeficiente de parecença. 
A similaridade pode ser dividida em duas formas. 
1ª) Pode ser em medidas de associação representado quanto maior o seu valor representa maior similaridade entre os objetos, por exemplo o coeficiente de correlação. 
2ª) Pode ser por proximidade quanto menor seu valor ou as distâncias ou diferenças representam maior similaridade.
Tem alguns autores que trabalham com a medida de dissimilaridade quanto maior o valor observado menos parecidos (mais dissimilares) serão os objetos. Por exemplo a distância euclideana.
 
Na maioria dos pacotes (software) estatísticos possuem a medida de distância de similaridade. 
Então é chamado de matriz de parecença para indicar semelhança ou distância entre os objetos.
Exemplo de Transformação 
O comportamento de 3 variáveis X1, X2 e X3, utilizou o coeficiente de correlação como coeficiente de parecença (similaridade=correlação):
X1 X2 X3
As variáveis com comportamento parecidos são X2 e X3 com a maior correlação (0,85). As X1 e X2 são menos similares (-0,70), pois tem uma correlação menor. 
Fazendo uma transformação, d(-,-) = 1 – corr(-,-) temos uma matriz de dissimilaridade (maior o valor menos parecidos): (TRANSFORMANDO DE SIMILARIDADE (CORR.) PARA DISSIMILARIDADE)
X1 X2 X3
D = 
indicando que quanto maior o valor observado, menos parecidos são os objetos.
Os coeficientes de parecença que estiver sendo utilizado precisam ser bem definidos inicialmente, para facilitar nas interpretações, além disso verificar se os dados precisam ser padronizados. A escolha das variáveis é importante para que o agrupamento seja representativo e responda aos quesitos da pesquisa. 
Veremos alguns coeficientes de parecença para o caso das variáveis quantitativas. 
Coeficientes de Parecença para Variáveis Quantitativas
Segue algumas medidas de parecença ou semelhanças entre objetos, pois o conceito de similaridade na análise de agrupamentos é fundamental na construção dos agrupamentos.
1) Distância Euclideana (DE)
 A medida mais conhecida para indicar a proximidade ou similaridade entre os objetos A e B é uma medida do comprimento de um segmento de reta. Matematicamente: é a distância euclideana quadrada, ela é recomentada quando o agrupamento for: Centroide ou Ward.
d(A, B) = [
2) Distancia euclideana média (DEM)
 
Uma medida derivada desta, também usada em AA é o coeficiente da distância euclideana média (DEM), i é,
 
d(A, B) = [
Apresentam os mesmos resultados que DE nas mesmas técnicas de AA. Quando existirem dados faltantes.
Exemplo: Para ilustrar os demais coeficientes utilizamos o mesmo exemplo.
 
Tabela – Dados das variáveis quantitativas.
	Individuo 	ALTURA	PESO	IDADE	Z1 Altura_padron	Z2 Peso_padron	Z3 Idade_padr
	A	180	79	30	1,1	1,31	1,08
	B	175	75	25	0,33	0,75	0,00
	C	170	70	28	-0,44	0,05	0,65
	D	167	63	21	-0,9	-0,93	-0,86
	E	180	71	18	1,1	0,19	-1,51
	F	165	60	28	-1,21	-1,35	0,65
	Média	172,8	69,7	25,00	0,00	0,00	0,00
	DP	6,5	7,1	4,65	1,00	1,00	1,00
(BUSSAB, W.O, 1990)
(a) Distância euclideana (DE):
Altura e Peso
d2(A, B) = [(180-175)2 +(79-75)2] ½ = (41)1/2 = 6,40.
Altura, Peso e Idade
d3(A, B) = [(180-175)2 +(79-75)2 + (30-25)2] ½ = (66)1/2 = 8,12.
 (b) Coeficiente médio da distância euclideana (DEM).
Altura e Peso
d2(A, B) = [] ½ = (41/2)1/2 = 4,53.
Altura, Peso e Idade
d3(A, B) = [] ½ = (66/3)1/2 = 4,69.
Do mesmo modo para distancia euclideana padronizada média serão:
d2(A,B) = 0,67 e d3(A,B) = 0,83.
 
3) Distância Euclideana Padronizada 
Quando temos grandezas não comparáveis, (kg, anos ou cm), a padronização é necessária: z = , depois da transformação:
 d(A,B) = [ = 
 Exemplo: Coeficiente da distância euclideana padronizada.
Peso e Altura
d2(A, B) = []1/2 = 0,91
Peso, altura e Idade
d3(A, B) = [] ½ = (2,07)1/2 = 1,44.
Do mesmo modo para distancia euclideana padronizada média serão: d2(A,B) = 0,67 e d3(A,B) = 0,83.
4) Distância de Mahalanobis (D2 ou dM)
É um coeficiente de parecença de forma padronizada da distância euclideana. Ponderação das variáveis, ou seja, dá mais peso para as variáveis das quais o pesquisador julgar mais importante para definir semelhança. 
É em termos de escalonamento de desvio padrão que padroniza os dados com ajustes feitos para intercorrelações entre as variáveis.
D -> é uma matriz diagonal tendo como componente a variância (S2) 
Por exemplo a distância de Mahalanobis, pondera pela variabilidade de cada uma das componenteslevando em conta a correlação.
Para construir a distância de Mahalanobis encontra-se primeiro a matriz de covariâncias (D), calcula-se a sua inversa (D-1). Faz o produto das matrizes:
Assim,
dM (A, B) = 1/2
dM (A, B) = 1/2
A distância de Mahalanobis entre A e B será:
dM (A, B) = 1/2 = 0,80
é um pouco inferior do que a distância padronizada 0,91.
Alguns outros coeficientes
 
Os coeficientes de parecença são criados para moldar situações especiais, e por isso depara-se com uma série bem ampla de tais medidas. Deve sempre fazer um levantamento e análise das propriedades desses coeficientes, isso ajuda a escolha que melhor se ajuste ao interesse de uma particular pesquisa.
Abaixo segue alguns coeficientes de uso frequente, ou portadores de propriedades interessantes.
(a) Valor absoluto 
Em vez do uso dos desvios quadráticos é muito comum o uso do valor absoluto, e tem-se:
d(A,B) = 
onde, wi representam as ponderações para as variáveis. Os valores mais usados são os da equiponderacão wi= 1 ou da média wi = 1/p.
(b) Distância de Minkowsky
A generalização da medida anterior que passa a ser:
 d(A,B) = 
para k=1 passa a ser o caso anterior e para k=2 é a distância euclideana.
(c) Coeficiente de Gower
Baseado na proporção da variação em relação à maior discrepância possível:
 
(d) Coeficiente de Similaridade de Cattel
 d(A,B) = 
onde, d2 á a distancia euclideana com variáveis padronizadas.
Métodos de Formação dos Grupos (agrupamentos)
A análise de agrupamento é definir a estrutura dos dados colocando os objetos mais parecidos em grupos. Mas para isso temos que inicialmente definir a similaridade, tal que que a distância entre os objetos indique proximidade. Segundo passo formação dos agrupamentos. Em terceiro passo quantos grupos são formados.
 
Já vimos as medidas de similaridade, agora são os procedimentos para formar os agrupamentos. Existem muitos métodos de agrupamentos, tem os aglomerativos que são as fusões dos objetos até que fique apenas um agrupamento (modo hierárquico) e que produz uma árvore de classificação (dendrograma).
Utilizaremos como ilustração o mesmo exemplo anterior das variáveis Peso e Altura, com as medidas já padronizadas e a distancia euclideana reduzida (medida de parecença).
	Individuo 	ALTURA	PESO	Z=Altura_padron	Z=Peso_padron
	A	180	79	1,1	1,31
	B	175	75	0,33	0,75
	C	170	70	-0,44	0,05
	D	167	63	-0,9	-0,93
	E	180	71	1,1	0,19
	F	165	60	-1,21	-1,35
Tabela – Valores Padronizados
(BUSSAB, W.O, 1990)
Onde, 
distancia reduzida = d(A,B) = [ = = 0,67
Matriz - Distância reduzida
		A	B	C	D	E
	B	0,67				
	C	1,41	0,74			
	D	2,12	1,47	0,77		
	E	0,79	0,67	1,09	1,62	
	F	2,49	1,84	1,13	0,37	1,96
(BUSSAB, W.O, 1990)
1-) Método Centroide (MC)
Faz a fusão dos objetos num único ponto de seu centro. A distância entre grupos é definida pela distância entre os centros. Em cada etapa procura-se fundir grupos que tenham a menor distância entre si.
 
1º Passo)
 A menor distância entre os 6 grupos é indicada pela matriz de distância (neste caso distancia reduzida): é o ponto DF (0,37)
2º Passo) No passo 1 indica que os dois grupos mais parecidos são D e F, dando origem ao grupo DF, cuja as médias são dos valores padronizados da tabela original (médias de dois pontos):
zalt(DF) = (-0,90-1,21)/2 = -1,06
e
zpeso(DF) = (-0,93 – 1,35)/2 = -1,14.
Obtemos a Nova Tabela
	Individuo 	Altura_padron	Peso_padron
	A	1,1	1,31
	B	0,33	0,75
	C	-0,44	0,05
	E	1,1	0,19
	DF	-1,06	-1,14
Construir a nova matriz de distância, que só modifica as distâncias envolvidas no DF.
d(A, DF) = = = 2,31
d(B, DF) == = 1,65
d(C,DF) = = = 0,95
d(E,DF) = = = 1,79
 
Distâncias reduzidas:
		A	B	C	E
	B	0,67			
	C	1,41	0,74		
	E	0,79	0,67	1,09	
	DF	2,31	1,65	0,95	1,79
Nova Matriz - Distância reduzida
6º Passo) Reuniu ABE com CDF, último agrupamento com todos os objetos, obtemos o quadro do processo hierárquico.
 
Quadro – Hierárquico
	Passos Método Centroide	Junção	Níveis
	1	D e F	0,37
	2	A e B	0,67
	3	AB e E	0,65
	4	C e DF	0,95
	5	ABE e CDF	1,59
Dendrograma do Método Centroide
2-) Método das Médias das Distâncias (MMD)
Este método já foi descrito, portanto considera já dado, nota-se que a diferença com o método MC é o MMD só utiliza as distâncias médias para os agrupamentos, enquanto que MC é necessário voltar aos dados padronizados tornando-o um pouco mais demorado. Mas os resultados foram parecidos.
	Passos Método Centroide	Junção	Nível
	1	D e F	0,37
	2	A e B	0,67
	3	AB e E	0,65
	4	C e DF	0,95
	5	ABE e CDF	1,59
	Passos Método MD	Junção	Nível
	1	D, F	0,37
	2	A, B	0,67
	3	AB, E	0,73
	4	C, DF	0,95
	5	ABE, CDF	1,64
Fim