Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise Multivariada de dados Profa Cecilia Ap V Farhat Referências BUSSAB, W.O., Miazaki, E.S., Andrade D.F. – Introdução à Análise de Agrupamento - 9º simpósio Brasileiro de Probabilidade e Estatística IME/USP – julho/1990. HAIR, J. F., Anderson, R. E., Tatham, R. L. & Black, W. C. (2005). Análise Multivariada de dados. Porto Alegre: Artmed. BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística básica. 9 ed. São Paulo: Saraiva, 2017 Exercício Um diretor de Marketing deseja agrupar 6 municípios de acordo com a porcentagem das vendas de bolachas doces (X) e salgadas (Y), indicadas no quadro abaixo: Município A1 A2 A3 A4 A5 A6 X (% doces) 9 14 13 10 12 14 Y (% salgados) 19 22 22 18 31 20 a) Construa conglomerados através da inspeção gráfica (gráfico de dois eixos) b) Construa a matriz de parecença (similaridade) c) Aplique o método MMD (agrupamaento) d) Construa o dendrograma e) Calcule a matriz cofenética e a correlação cofenética f) interprete os resultados. Pede-se Construa conglomerados através da inspeção gráfica (gráfico de dois eixos) Resultados A1 A2 A3 A4 A5 A6 9 14 13 10 12 14 19 22 22 18 31 20 b) Construa a matriz de parecença (similaridade) Resultados #Calculo das distancias euclideana (padrão)dos dados padronizados ou ## d_eucl<-dist(p.Agrupamento_c,method="euclidean") d_eucl<-dist(Agrupamento_Ex2) View(d_eucl) c) Aplique o método MMD (agrupamento) Resultados # Método hierarquico de agrupamento com distancia euclideana e Metodo de LIGACAO: ## Ward ou distancia média. agrup_Wald_d<-hclust(d=d_eucl, method= "ward.D") View(agrup_Wald_d d) Construa o dendrograma Resultados #Dendrograma-install.packages("factoextra") fviz_dend(agrup_Wald_d) # produz o dendrograma fviz_dend(agrup_Wald_d,k=2) # separa em cores e) Calcule a matriz cofenética ## Calculo da matriz cofenetica (ou para correlação cofenetica) agrup.W_cofen<-cophenetic(agrup_Wald_d) View(agrup.W_cofen) Resultados e) Calcule a correlação cofenética # Correlação cofenetico - entre a distancia cofenética e a distancia original cor_cofen<-cor(d_eucl,agrup.W_cofen) View(cor_cofen) Resultados f) interprete os resultados. Existe um agrupamento de: A1 com A4 -> cidades que compram poucos doces e poucos salgados, pouco investimento. A2, A3 e A6 -> cidades que compram quantidades de mais doces em relação as demais e razoavelmente salgados. A5 -> considerado um ponto discrepante, uma cidade com compras de muitos salgados e poucos doces. Resultados Tem alta correlação cofenetica (0,93) entre a matriz original e a matriz cofenetica, quantificando bem as duas medidas. Pode-se dizer que esses agrupamentos estão bem ajustados. Resultados Município X (% doces) Y (% salgados) A1 9 19 A4 10 18 A2 14 22 A3 13 22 A6 14 20 A5 12 31 Formação de agrupamentos Inicialmente define-se a medida de similaridade a seguir a formação dos agrupamentos até que todas as observações estejam em um único agrupamento. Esse é o chamado procedimento hierárquico, pois são formações por combinação de outros agrupamentos já existentes. Na determinação do número de agrupamentos na solução final, onde está sendo procurado grupos homogêneos, a seleção dos grupos exige julgamento do pesquisador quanto ao número de agrupamentos que seja interessante a ele e é muito subjetivo. O procedimento de análise de cluster é que agrega-se os objetos semelhantes em em agrupamentos. MEDIDAS DE DISTANCIA E SIMILARIDADE A utilização das técnicas de AA é na escolha da distância entre os objetos (ou indivíduos) que quantifique o quanto eles são parecidos. Essa medida é o coeficiente de parecença. A similaridade pode ser dividida em duas formas. 1ª) Pode ser em medidas de associação representado quanto maior o seu valor representa maior similaridade entre os objetos, por exemplo o coeficiente de correlação. 2ª) Pode ser por proximidade quanto menor seu valor ou as distâncias ou diferenças representam maior similaridade. Tem alguns autores que trabalham com a medida de dissimilaridade quanto maior o valor observado menos parecidos (mais dissimilares) serão os objetos. Por exemplo a distância euclideana. Na maioria dos pacotes (software) estatísticos possuem a medida de distância de similaridade. Então é chamado de matriz de parecença para indicar semelhança ou distância entre os objetos. Exemplo de Transformação O comportamento de 3 variáveis X1, X2 e X3, utilizou o coeficiente de correlação como coeficiente de parecença (similaridade=correlação): X1 X2 X3 As variáveis com comportamento parecidos são X2 e X3 com a maior correlação (0,85). As X1 e X2 são menos similares (-0,70), pois tem uma correlação menor. Fazendo uma transformação, d(-,-) = 1 – corr(-,-) temos uma matriz de dissimilaridade (maior o valor menos parecidos): (TRANSFORMANDO DE SIMILARIDADE (CORR.) PARA DISSIMILARIDADE) X1 X2 X3 D = indicando que quanto maior o valor observado, menos parecidos são os objetos. Os coeficientes de parecença que estiver sendo utilizado precisam ser bem definidos inicialmente, para facilitar nas interpretações, além disso verificar se os dados precisam ser padronizados. A escolha das variáveis é importante para que o agrupamento seja representativo e responda aos quesitos da pesquisa. Veremos alguns coeficientes de parecença para o caso das variáveis quantitativas. Coeficientes de Parecença para Variáveis Quantitativas Segue algumas medidas de parecença ou semelhanças entre objetos, pois o conceito de similaridade na análise de agrupamentos é fundamental na construção dos agrupamentos. 1) Distância Euclideana (DE) A medida mais conhecida para indicar a proximidade ou similaridade entre os objetos A e B é uma medida do comprimento de um segmento de reta. Matematicamente: é a distância euclideana quadrada, ela é recomentada quando o agrupamento for: Centroide ou Ward. d(A, B) = [ 2) Distancia euclideana média (DEM) Uma medida derivada desta, também usada em AA é o coeficiente da distância euclideana média (DEM), i é, d(A, B) = [ Apresentam os mesmos resultados que DE nas mesmas técnicas de AA. Quando existirem dados faltantes. Exemplo: Para ilustrar os demais coeficientes utilizamos o mesmo exemplo. Tabela – Dados das variáveis quantitativas. Individuo ALTURA PESO IDADE Z1 Altura_padron Z2 Peso_padron Z3 Idade_padr A 180 79 30 1,1 1,31 1,08 B 175 75 25 0,33 0,75 0,00 C 170 70 28 -0,44 0,05 0,65 D 167 63 21 -0,9 -0,93 -0,86 E 180 71 18 1,1 0,19 -1,51 F 165 60 28 -1,21 -1,35 0,65 Média 172,8 69,7 25,00 0,00 0,00 0,00 DP 6,5 7,1 4,65 1,00 1,00 1,00 (BUSSAB, W.O, 1990) (a) Distância euclideana (DE): Altura e Peso d2(A, B) = [(180-175)2 +(79-75)2] ½ = (41)1/2 = 6,40. Altura, Peso e Idade d3(A, B) = [(180-175)2 +(79-75)2 + (30-25)2] ½ = (66)1/2 = 8,12. (b) Coeficiente médio da distância euclideana (DEM). Altura e Peso d2(A, B) = [] ½ = (41/2)1/2 = 4,53. Altura, Peso e Idade d3(A, B) = [] ½ = (66/3)1/2 = 4,69. Do mesmo modo para distancia euclideana padronizada média serão: d2(A,B) = 0,67 e d3(A,B) = 0,83. 3) Distância Euclideana Padronizada Quando temos grandezas não comparáveis, (kg, anos ou cm), a padronização é necessária: z = , depois da transformação: d(A,B) = [ = Exemplo: Coeficiente da distância euclideana padronizada. Peso e Altura d2(A, B) = []1/2 = 0,91 Peso, altura e Idade d3(A, B) = [] ½ = (2,07)1/2 = 1,44. Do mesmo modo para distancia euclideana padronizada média serão: d2(A,B) = 0,67 e d3(A,B) = 0,83. 4) Distância de Mahalanobis (D2 ou dM) É um coeficiente de parecença de forma padronizada da distância euclideana. Ponderação das variáveis, ou seja, dá mais peso para as variáveis das quais o pesquisador julgar mais importante para definir semelhança. É em termos de escalonamento de desvio padrão que padroniza os dados com ajustes feitos para intercorrelações entre as variáveis. D -> é uma matriz diagonal tendo como componente a variância (S2) Por exemplo a distância de Mahalanobis, pondera pela variabilidade de cada uma das componenteslevando em conta a correlação. Para construir a distância de Mahalanobis encontra-se primeiro a matriz de covariâncias (D), calcula-se a sua inversa (D-1). Faz o produto das matrizes: Assim, dM (A, B) = 1/2 dM (A, B) = 1/2 A distância de Mahalanobis entre A e B será: dM (A, B) = 1/2 = 0,80 é um pouco inferior do que a distância padronizada 0,91. Alguns outros coeficientes Os coeficientes de parecença são criados para moldar situações especiais, e por isso depara-se com uma série bem ampla de tais medidas. Deve sempre fazer um levantamento e análise das propriedades desses coeficientes, isso ajuda a escolha que melhor se ajuste ao interesse de uma particular pesquisa. Abaixo segue alguns coeficientes de uso frequente, ou portadores de propriedades interessantes. (a) Valor absoluto Em vez do uso dos desvios quadráticos é muito comum o uso do valor absoluto, e tem-se: d(A,B) = onde, wi representam as ponderações para as variáveis. Os valores mais usados são os da equiponderacão wi= 1 ou da média wi = 1/p. (b) Distância de Minkowsky A generalização da medida anterior que passa a ser: d(A,B) = para k=1 passa a ser o caso anterior e para k=2 é a distância euclideana. (c) Coeficiente de Gower Baseado na proporção da variação em relação à maior discrepância possível: (d) Coeficiente de Similaridade de Cattel d(A,B) = onde, d2 á a distancia euclideana com variáveis padronizadas. Métodos de Formação dos Grupos (agrupamentos) A análise de agrupamento é definir a estrutura dos dados colocando os objetos mais parecidos em grupos. Mas para isso temos que inicialmente definir a similaridade, tal que que a distância entre os objetos indique proximidade. Segundo passo formação dos agrupamentos. Em terceiro passo quantos grupos são formados. Já vimos as medidas de similaridade, agora são os procedimentos para formar os agrupamentos. Existem muitos métodos de agrupamentos, tem os aglomerativos que são as fusões dos objetos até que fique apenas um agrupamento (modo hierárquico) e que produz uma árvore de classificação (dendrograma). Utilizaremos como ilustração o mesmo exemplo anterior das variáveis Peso e Altura, com as medidas já padronizadas e a distancia euclideana reduzida (medida de parecença). Individuo ALTURA PESO Z=Altura_padron Z=Peso_padron A 180 79 1,1 1,31 B 175 75 0,33 0,75 C 170 70 -0,44 0,05 D 167 63 -0,9 -0,93 E 180 71 1,1 0,19 F 165 60 -1,21 -1,35 Tabela – Valores Padronizados (BUSSAB, W.O, 1990) Onde, distancia reduzida = d(A,B) = [ = = 0,67 Matriz - Distância reduzida A B C D E B 0,67 C 1,41 0,74 D 2,12 1,47 0,77 E 0,79 0,67 1,09 1,62 F 2,49 1,84 1,13 0,37 1,96 (BUSSAB, W.O, 1990) 1-) Método Centroide (MC) Faz a fusão dos objetos num único ponto de seu centro. A distância entre grupos é definida pela distância entre os centros. Em cada etapa procura-se fundir grupos que tenham a menor distância entre si. 1º Passo) A menor distância entre os 6 grupos é indicada pela matriz de distância (neste caso distancia reduzida): é o ponto DF (0,37) 2º Passo) No passo 1 indica que os dois grupos mais parecidos são D e F, dando origem ao grupo DF, cuja as médias são dos valores padronizados da tabela original (médias de dois pontos): zalt(DF) = (-0,90-1,21)/2 = -1,06 e zpeso(DF) = (-0,93 – 1,35)/2 = -1,14. Obtemos a Nova Tabela Individuo Altura_padron Peso_padron A 1,1 1,31 B 0,33 0,75 C -0,44 0,05 E 1,1 0,19 DF -1,06 -1,14 Construir a nova matriz de distância, que só modifica as distâncias envolvidas no DF. d(A, DF) = = = 2,31 d(B, DF) == = 1,65 d(C,DF) = = = 0,95 d(E,DF) = = = 1,79 Distâncias reduzidas: A B C E B 0,67 C 1,41 0,74 E 0,79 0,67 1,09 DF 2,31 1,65 0,95 1,79 Nova Matriz - Distância reduzida 6º Passo) Reuniu ABE com CDF, último agrupamento com todos os objetos, obtemos o quadro do processo hierárquico. Quadro – Hierárquico Passos Método Centroide Junção Níveis 1 D e F 0,37 2 A e B 0,67 3 AB e E 0,65 4 C e DF 0,95 5 ABE e CDF 1,59 Dendrograma do Método Centroide 2-) Método das Médias das Distâncias (MMD) Este método já foi descrito, portanto considera já dado, nota-se que a diferença com o método MC é o MMD só utiliza as distâncias médias para os agrupamentos, enquanto que MC é necessário voltar aos dados padronizados tornando-o um pouco mais demorado. Mas os resultados foram parecidos. Passos Método Centroide Junção Nível 1 D e F 0,37 2 A e B 0,67 3 AB e E 0,65 4 C e DF 0,95 5 ABE e CDF 1,59 Passos Método MD Junção Nível 1 D, F 0,37 2 A, B 0,67 3 AB, E 0,73 4 C, DF 0,95 5 ABE, CDF 1,64 Fim
Compartilhar