Baixe o app para aproveitar ainda mais
Prévia do material em texto
~\ \ ' \ ~ \ \ -\ \ \ \ \ \ \ -1 --, \ -, _, \ , \ ~ \ • ~ \ ~ \ '\ ( ' . 1 SGfPt ~t~u \f }?\ i. .:,. . .. :. ·• . · ~ . :• ... . '· . '· ,-- <. r •. ,•; . 1. •• "·.i: . ... ·• Análise M ultivariada Lúcia Pereira Barroso Departamento de Estatística Universidade de São · Paulo e Rinalc.Io Artes1 Ibrnec/SP 1 Licenciado do Departamento de Estatística da Universidade de São Paulo { . • ' .·•·:· •,;11 .... ~\. ' ' .. ... · · ~. : ' • :" .1 • •· . 1 ' 1 ----- 1 \ .. . ' 1 1 ' 481 llcun ido da llBH.AS e 10ª SEAOllO - 7 o. li de Julho de 2003, Prefácio Estas notas foram escritas com base em material utilizado e~ aulas min- istra.das no Curso de Análise Multivarida do Departamento de Ei:,tatística da Universidade de São Paulo e do Ibmec/SP e sã.o adequadas para alunofl de graduação de diversas áreas como Estatística, Agronomia, Biologia, Ad- ministração de Empresas e outra.8. Esse texto . poderá servir como uma leitura introdutória a outros textos da área. citados na lista de referência.s bibliográficas . . Dada a limitação de tempo e da carga horária do minicUI3o, tivemos que seleciona.r alguns tópicos da área. Escolhemos· a.queles que sã.q mais utilizados e que formam a base da Análise Multivarjada. · Agradecemos· à Comissão Organizadora do 10º- SEAGRO - Simpósio de Estatística Aplicada à Experimentação Agronômica e 48~ Reunião Anual da H.egiü.o Br asileira da Socieda.9e Internacional de Biometria pelo convite a apresentar este minicurso e pela edição deste texto 1 ·• Lúcia Pereira· Barroso Rinaldo 'Artes Lavras, julho de 2003 1 Este t rabalho fui parcialmente .financiado pela Fnpesp (Projeto Tumá.tico 99/10611-8} e pelu CNPq (PROHEX 76.97.1081.00) U11i v cr~i d n.d c Fcd ern l d i: L11vr t.CJ - DepadnmeuLo de Ci~od ll' Eratn.s .. Lav rna-Jvi G 1 ~91 l:•unill<> da Rllll.AS e 100 SEAORO - 7 " 11 de Julho de 2003 Univtrald..d. l-wd.n.J de L .. vrM - Ocp11Zt11.111enlo de Cilnciu Ru.t.u - Lo.vr1L:J-MO 2 ---, Conteú do 1 Análise de Agrupamentos 1.1 Conceitos básicos .... 1.2 Notação e medidas de parecença 1.2.1 Variáveis quantitativas . 1.2.2 Va.riávei.B categorizadas 1.2.3 Variáveis categorizadas e quantita.tíVCJB . 1.2.4 Outra.'.! abordagens .. 1. 3 Aigoritmo::: de agrupamentos L::U Métodos hierárquicos aglomera.tivas 1.3.2 Métodos de partição 1.4 Comparação do8 métodos 1.5 Validação e interpretação 1.5.l Correlação cofenética . 1.5.2 Gráfico da silhueta 1.G Interpretação . . ... . . 1.6.1 Representação gráfica. de Cél.'30S · 1.7 Aplicações ........ . 7 8 14 . . 14 16 19 20 21 21 28 35 37 37 39 40 41 44 48il llcuuiLo d& lllillAS e i()ll SEAOltO - 7 " 11 de Julho do 200:1 1. 7.1 Método do vizinho mais longe. 1.7.2 Método das k-média.s ..... . 2 Análise de Componentes Principais 2.1 Introdução .......... : ... . 2.2 Como obter as componentea principais 2.3 Propriedades das_ componentes principais 2.4 Comentá.rios gerais . . . . . . . . . . . . . 3 Análise Fatorial 3.1 Introdução . 3.2 Constructos ·3_3 Análise fatorial ortogonal 3.3.l Cargas fatoriais .. 3.3.2 Matriz de cova.riância de x . . . - 3.3.3 Comunalidades e especificidades 3.3.4 Padronização das variáveis 3.4 Métodos de obtenção de fatores . . 3.4.1 Método das componentes principais 3.4.2 Método da máxima vermrnimilhança 3.5 Rotações ortogonais ........ . · 3.5.1 Escolha do número de fatores · 3.6 Escores fatoriais 3.6.1 Método dos mínimos quadrados ponderados 3.6.2 Método da. regressão .........• ' , ... '\)ni~i:~aldo.<lo Pwdu..t do L"vn.11 - l>eµll.OIW\UlltO de Cilucil>B Esi.t&U - L1>vr ... ·MO 44 45 53 53 54 57 61 71 71 72 75 77 77 78 80 81 81 87 89 91 94 94 95 4 f áf.o J. %JcjJ cMv.J com~ u.u ~slullillcei v-?9.C·tt~ ~81 l\enn;&o da ll.DRAS e 10• SEAGRO • 7 a 11 de Julho de 1003 3.7 Estudo da viabilidade da AF 3.7.1 Matriz anti-imagem . 3. 7.2 KMO: Kaiser-Meyer-01.kin . 3.7.3 MSA: Measure of sa.mpling adequacy . 3 .8 A vc1.liação do aju.ate do modelo ·. 3 .9 Análise fatorial confirmatória 3 .1 O Comentários gerais 4 Análise Discriminunte 4.1 Introdução . . . . . . . 4.2 Análise discriminante para duas populações 4.2.1 O Método de Fisher ...... . 4.2.2 O problema geral de· classificação 4.3 Análise di:;crimin.a.nte para mais de duas populações 4.3.l O Método de Fisher ...... . 4.3.2 O problema geral de dassificação 4.4 Avaliação da função de classificação 4.5 Aplicação . . . . . . . . . 95 95 96 ' . 97 98 100 101 105 105 107 110 .. 115 124 125 129 132 . 135 A Resultados sobre distribuições de vetores aieatórios e sobre álgebra de matrizes 141 B Dados aberrantes multivnrio.dos B.l Valores aberrantes unidimeIIBiona.is B.2 Valores aberrantes bidimensionais . B.2.1 Distância de Ma.haJanobi.s . U11ivcroidadc Fcdcro.J da LavrM • Dcp..,.truncnto de Oi3ncio..i ExatM • LavrM-MO 145 l46 146 148 5 { ,ai ll~uuíw d" ILBJtAS e Ú>º SEAOILO - 7 11. 11 de Jullio de 200!1 B.3 Valores aberrantes multidimensionals . B.4 Comentários de ordem prática. . . . . . Bibliografia U11lver•idi1d~ l"uderul de L1&vr11.11 • Dup1>rt"10e11lo .d• Oil11ci..a Ex"I"". L uv r""·MG 150 151 156 6 \ ' 1 :Jdl:io J. 'Jf:ci:J ~ CONRf ;r621 Ellofíillco 9">9l-•<rZ9 ~ Capítulo 1 \ Análise de Agrupamentos Análise de Agrupamentos é o nome dado a um conjunto de técnicas uti- lizada.'3 na identificação de padrões de comportamento em bancos de dados atra.vés da formação de grupos homogêneos de casos. Essas técnica.8 têm aplicabilidade em vá.rias área.s do conhecimento. Apresenta.mos abaixo u.l- guns problemas cuja solução pa.s.sa. pela. aplicação de métodos de aná.Ii.3e de agrupamentos1 . · Problema 1: Uma empresa deseja conhecer o perfil de seua co03umidores. Pa.ra tanto, elabora uma pesquisa na qual é feito o levantamento de dados de uma grande amostra. A análise dos dados ger~ algumaB dúvidas: os consum- idores têm um perfil homogêneo, em relação às caracterfoticas levantadas? Se o perfil não for homogêneo, é possível identificar grupos homogêneos? Quantos grupos existem? Problema 2: A Pesquisa Emprego-Desemprego do DIEESE/SEADE é um levantamento amostral realizado· na . Região Metropolitana. de São Paulo. Na tma fase de planejamento, coD.Btatou-se que os municípfos da Grande São Pu.ulo e os dü:1tritos administrativos da capital não eram homogêneos em relaçã.o a da.dos sobre o tipo de ocupaç.ã.o da. população residente. Levar em conta a heterogeneidade da amostra num plano a.mostra,.J aca.rreta um aumento n a eficiência doa estima.deres. Uma maneira de consider'a.r essa. heterogeneidade é realizar uma amootra estratificada. Cada estrato seria formado por municípios (ou distritos a.dmin.Wtrativos, no caso da c.:api ta.I) 1 Os problemas abaixo foram extraídos do relatório de iniciação cieat!.fica YruLamoto, 2002. Esse trabalho também foi utilizo.do no dcscovolvi.mento de parte deste ca.pít1úo. 7 ! 41f~ ll<:imit.u d& llli llAS e lOg SEAOltO • T " li de juJho de 200~ -~· I • ~. cuja,s pGpulações tivessem um perfil ocupacional semelhante. _É necess<Í!..~.9 . ent~~ .saber como definir estrato~, quantos estratos existem e quais são os :.....,. municípios (distritos) de cada estrato. (ver Bussab e Dini, 1985). Problema 3: Um arqueólogo tem dados sobre a localizaçãDde restos de cer~ca encontrados em um sítio arqueológico. Para conhecer como era a organiz<Lção espacial da tribo que lá habitava.1 ele necessita ter uma idéia mais precisa da dispersão dessas peças. Há. locais com alta concentração de peça!i? Quantos? (ver Ta.nuka e Matos, 2000). · 1.1 Conceitos básicos Para ilustrar os conceitos b<íf>lcos comllllil aos métodos de análise de agru- . pamentrn~, considere o exemplo a seguir. Exemplo 1: a Tabela 1.1 mostra as taxas de delitos por 100.000 habitantes por Deinter (divisão territorial das políciUB) do Estado de São Paulo, ob- . ser:v'cLda.'l em 2002. Admita que se deseja dividir os dados em 4 grupos de r.egiaes que sejam homogêneas quanto à incidência de Homicídios dolosos e Furtos. Uma vez que coruiiderarnos apenas duas variáveis, p0demos visualizar 08 dados através da. construção de um diagrama de dispersão (Figura 1.1). O primeiro passo da an.á.li..':le é definir um critério para a formação dos gru- pos. Um critério que parece ser razoável é considerar a prax:imidade entre os . pontos. Pontos próximos representam regiões com comportamentos semel- hantes rio que se refere às variáveis do gráfico1 ou seja1 regiões que podem fazer parte de um mesmo grupo. Através de uma simples inspeção visual percebemos que podemos formar os se.e;uintes gru.pos: (Santm1), (Bauru, RP, SJllP), (Campinas, SJC) e (Sorocaba, SP), conforme pode ser visualizado na Figura 1.2 . No entanto, percebemos que a.a distâncias no sentido vertical sã.o muito maiores ·do que no sentido horizontal (Figura 1.3) 1 o que reflete o fato da variabilidade da variável Furtos ser muito maior do que a de Homicídios .dolosos (Tabela 1.1). Em termos práticos, a V"diiável Homicídios dolosos çontribuiu muito pouco para a defini<;ão dos grupos. E se quiséssemos dar igual importância às duas variáveis? Há várias maneiras de lidar com esse problem~ Uma das mais popu_=- U11ivt1r~idu.dt J.'\dt:r~I du Luvru.a • D~pllrt.u..uu.uato de Ci6nci11B Exlitw. .. L.a.vru-MG 8 ' \ <1a• ncunillo dA RBRAS • 1 CJ.D SE A ano - T .. 11 d« Julho de '.1003 ,i) .~ ;rr.;~o;,T'y,~: . )~~~\;~-~\'i ji;J\ ~:~:·~ · .· ~ · :::~ .y~·?.;;~:#:Y11 ~:.·:. · ·o . '· ~. ' ; · u.. . ... . ··.· i •' ... :t ;1;) U,Ç-U.! ~ .: ' . f :" ~ ~-f '' l,:1~~~1'~:++;~~i 1§:.~~i ~.·~~~;,,,.,"'"'";m~:·::;~~1~~:: .. ~~~~::J~~t:;;,~·::··~~·::;~~ ,'. Figura 1.1: Diagramu de dispersão das Deinter Figura 1.2: Diagrama de dispersão das Deinter Univu:o id ade Fcderl\l do Ll\VTM - Dop&r\1UI1anto do Cinnciu fü<&L.U - L&vro.5-MG i 1 1 l 1 . , . . · I ' : °'ªª Jt.eurl)~ c!.idU31lAS t JOD SEAOllO • '1 & li d11 Julho de 200!1 '' .1 ; · Tabela · Ll: Taxa de delitos por 100.000 habitantes por divisão territorial das poJícias do Estado de São Paulo (Deinter), em 2002 . . Deiuter Homiddio F\irto Roubo Roubo e furto > doloso de veículos ~ SJIU'. · 10,85 1.500,80 149;35 108,38 ~ ·nP 14,13 1.496,07 187,99 116,56 ··Bauru 8,62 1.448,79 130,97 69,98 'r Campinas 23,04 1.277,33 424,87 4::S5,75 1" Sorncaba 16,04 1.204,02 214,36 2ü7,0G 0SP 43,74 '1-190,94 1.139,52 909,21 ~SJC 25,39 1.292,91 358,39 268,24 .si.Santos 42,86 1.590,66 721,90 275,89 Métli.n. 23,0B 1.375,Hl 415,92 298,90 DP 13,69 152,05 351,62 273,35 foute: Secretaria de Segurança Pública do Esta.do de SÜL.l Paulo http ://www.ssp.sp.gov. br /e~ ta tistica.s/ criminai3/, uc~ada cm 11/02 /2003. SJR.P: Siio José do ruo jlreto R.P: Ribeir:i.JJ Preto SP: $fio Paulo (capital) S;JC: São José dos Campos lares é ci uso de va.tiáveis padronizadas2• Os dados padroniza.dos podem ser vL'iua.l~u.dos na Tabela. 1.2 e · Figura 1.4. Nota-se agora, que as distâncias no senti.do vertical e horizontal 1:1ão da mesma ordem de grandeza (Figura 1.5), o que garante que as duas variáveis estã.o sendo consideradas com im- portâ.oc.:ías egulva.lentes. Ag~ra, a.O dividk os pontos em quatro grupos, obtemow (SP), (Santos), (CampSnM, SJC, Sorocaba), (Bauru, RP, SJRP). Note que esses grupos diferem dbs anteriores. · Baseado nesse exemplo, identificamos as etapa.9 da aplicação de uma análise. de agrupamentos,: 1. Escolha do critério de parecença - Nessa etapa, deve-se definir se 2Por exemplo, subtrnindo-ae de cadu vurió.vel :rna média e dividindo ~e o re:mltado pelo desvíLJ.-pudrii.o. \Joiver;ido.<l• l"l:dtri.J da L"vr1'11 - U•vurtu.ic1mtu do Ciéuci"" Exlit11:> - Luvru.a-MO 10 ~n• Reuni li.o d A RliRAS e 1 oa SEAORO - 7 a. l l d• Julho de 2003 Figura 1.3: Diagrama de dispersão das Deinter · Figura. L4: Diagrama de dispersão da.s Deinter - dados padroni"iados . Vnivcmiid..de Federú.l <la W.vrM - Dero.rtamento de Ci6nclM Ex&lM - La.vrM-MG 11 •Bª llc1.rnir.o da llliRAS e 10ª SEAOnO - 7 .. 11 de Julho do 2oos ~~ ~ . . . Figura 1.5: Diagrama de dispersão das Deinter - dados padronizado8 Fígl.lra 1.6: Diagrama ·de dispersão da.S Deinter. - dados padronizados Uuiver~id&d~ r'tderu.I do L"vr""' - Dop11rt11.J11e11to d• Cióociua Exüt...,. Lllvr1U-MG 12 /""\ <B• Heurii/lo da IUIIlAS e 10° SEAGRO - 7" 11 de Julho de lOO!l Tabela 1.2: Taxa de delito::i por 100.000 habitantes padroniza.da.s Deinter Homicídio Furto Doloso SJRP -0,89 0,83 RP -0,65 0,80 " Bauru -1,06 0,48 Campinas 0,00 -0,64 Soro caba -0,51 -1,13 SP 1,51 -1,21 • SJC 0,17 -0,54 Santos 1,44 1,42 Média 0, 00 0,00 DP 1,00 1,00 fonte: Secretaria de Segurança Pública do Estado de Siío Paulo éL.'i ~~s~~~ n.izada.'3 e o critério que :ierú. .uti- fo~ a<lo illL deterrnin.aça.o dos gr upos; no caso, proximidade dos pontos , (distância euclidiana entre as observações). 2. Definição do n úmero de grupos - O número de grupos pode ser definido a priori, através de algum co~ecimento que se tenha. cobre os dados (por e.xempb, se os dados referem-se a. característica.a de espécimes de insetos e sabe-se que existem três espécies , o pesquisador pode forçar a criação de triis grupos), conveniência de análise (aa seg- mentar um mercado, o pesquisador pode, pQr simplicidade, e:;taJ" in.- tere3sado na construção de apena.a doi.a a.grupamentos) .~ ainda pode ser definido a poBteriori com ba.se nos resultados da análise. · 3 . lffir:~ç~~3Jl.9s - Nesta etapa deve-se definir o ~~e__ ~~o na identificação dos grupos. 4 . ~icl~ç_ií~~ - Deve-se gara.ntrr que de fato as varia.vem têm comportamento diferenciado nos diversos grupos. Nesta etapa, é comum supor que cada grupo seja uma. amostra alca.tória de alguma. imbpopula.ção e ~c~er ~~para compará-las. 5 . Interpretação dos grupos -Ao final do proce3SO de formação de grupoti · é importante caracterizar os grupos formados. O ~t.®s.tl.9JB~ \ l11 i v cr:iidB-de Federal de l..n.v râ.3 ·. Dcpn.rt&mento de Ci6ncia.s Exn..Lft..1 - f,avru--MO . 13 ... ( 48~ iteuul&Q da IUlllAS e 1ou SEAOHO • 7 11. 11 do Jullio de 2003 descriti~ é r,ecomendado para esta fase da análise. -~ · O exemplo utilizado foi bastante reduzido permitind0 a identific:açã.o de grupos através apenlli:i de uma inspeção visual. O que fazer quando temos urriâ.grande amostra, ou um número maior de variá.veis? Obviamente a visualização dos dados estará prejudica.da o que dificulta a coru;trução de gr~p os através de procedimentos tão ingênuos. É necessário então uma maior formalização do problema para a aplicação da técnica. a uma grande · variedade de situações. 1. 2 · Notação e medidas de parecença As medidas de parecença têm '. um papel central nos algoritmos de agrupa- mentos. Através delas sã.o definidos critérios para avaliar se dois pontos estão próximos, e portanto podem fazer parte de urn mesmo grupo, ou não. Há doíS tipos de medidas de parecença: medidas de similaridade (quanto maior o valor, maior a semelhança entre os objetos) e .medidas de dissimi- laridade(quanto maior o valor, mais diferentes são os objetos). Seja Xi = (Xi1, · · ·, Xip) T o vetor de observL1.Ções do indivíduo i, i = 1,. , :, n, no qual Xij representa o valor assumido pela vc1.riá.vel j no indivíduo i. Por razões didáticas, dividiremos o estudo das medi_das de parecença para. dados numéricos, dados categorizados e conjuntos de dadmi c.:om variáveis numéricas e variáveis categorizadas: . 1.2.l Variáveis quantitativas As distâncias são a.s medidaB de dissimilaridade mais utilizadas no estudo de bancos de-dados com variáveis quantitativas. Uma. medida lÍ.ik representa uma distância entre os pontos i e k se a) do. ~ O para qualquer escolha de i e k; b) "·· ~-O· - u - J U11iversida.d1 fi:deral de Lavrll.l.I. Dep~a.menlo de CilncilfJI EXll.l.U. Lii.vr...,.·MO 14 \ . \ ' .. . ~ 8 1 Reuni ao d" RBRAS e 1 Oº SE AGllO - 7 n. 11 d• J ulho de ~003 A distância euclidiana. entre os indivíduos i e k é dada por . p ·: L (Xij - X~j) 2 • j=l ··. A idéia básica é considerar cada observação como um ponto num e::ipaço euclidiano e, desse modo, a fórmulél. acima nos dá a distância. física entre os pontos. Uma outra. d.Wtância utilizada em an.ál.ise de agrupamentos é a distância Manhn.tta.n ou quarteirá? ( city block). Essa distância é definida por p d~i) = ~ 1 Xii - Xki 1 . j=l Kaufman e Rousseeuw (1990) comentam sobre a origem deBse nome. Imag- ine uma cidade na qual os quarteirões sejam quadrados de largurçi. 1 (Figura 1. 7). Na Figura 1. 7 se· q uisennos n(Js mover entre os pontos A e B percor- reremos 1 no mínimo, uma distância 3, u.ma vez que não podemos cruzar um quarteirão. Esse valor é obtido através da expressão a.cima. Figura 1.7: Distância quarteirão entre os pontos A e B Td.Ilto a distância euclid.i..a.n.a como a quarteirão são CMos particulare::i da V11iveroid...d• F•dern.I de Lnvr"" - Dopo.rta.mento de Ci~ncio.o Exntu • LavrM-MO 15 41l~ Hcuull.o d• IUHtAS e lOU Sll:AGnO. 7 u li de Julho de 200.s distância de Minkowsky que é dada por p d~r;1) = m I:; (Xij - Xk;·)'n 1 m ~ 1. j=l Alternativamente às medidas de dis'tância, outras medidas de similari- dade ou di.ssimilarida.de podem ser utiliza.da.ci. Na Seção 1.7.l apresentamos l.lill· exemplo no qual utilizarse o coeficiente de correlação como medida de similaridade. 1.2.2 Variáveis categorizadas Exemplo 2: a Tabela 1.3 tiaz informações sobre clientes de um posto de gasolina. Ao a.nallimr as V'cJ.riaveis desse cadastro1 notamos a presença. de V'cJ.r1áveis qualitativas nominais (Combustível e Modelo), ardina.is (Classe imcial e Potência) e quantitativa.':! (Idade e Número de carros). Apresentare- UJOl:l1. nesta seção, medidas de parecença para V'ariáveis quaJitativa.B. Analis- . aremos separadamente as V'ã.riáveis nominais e ordinais. Tc;beJa 1.3: Canastro àe cJjentes àe um posto àe gasoll.na N. de .. Classe Oombus- Cliente Idade carros ,social Potência tível Modelo 1 20 1 A Baixa Gasolina Esporte 2 37 3 : A Alta · Gasolina Luxo 3 22 2 B Média Gasolina Esporte 4 26 2 e· B Alta Gasolina . Esporte 5 45 2 o Média Áleool Standard 6 42 1 D BaiXa Álcool Standard ,O tratamento básico das variáveis qualitativas consiste na codificação de suas respostas através de V'c1Ii<iveis indicadoras (dummieii) . Desse modo1 podemos ter: · N _ { 1, se Gasolina 1 ~ O, se Álcool · N 2 = { 1, se Esp_orte N 3 = { 1, se Luxo O, se Nao O, se Não Uuivei-uidu.dc l~dc.r.a.l de LuvrlL!I - Dtl!J>~ü.mcm~o de Ciênciu Bxo.lU-3 - Lu.vr1U-MG 16 - í 18~ lleunlllo da RllRJ\S e 1 o• SEI\ ORO - 1 a 11 de Julho de 2003 01 = { 1, se Cl~se A O, se Nao 02 = { 1, se Cla~se B O = { 1, se Cla:J~e C . O, se Nao 3 O, se Não O _ { l 1 se Potência Média 4 - O, se Outra potência 0 ~ { 1, se Potência Alta 5 - O, se Outra potência A Tabela L4 traz os dados codificados segundo aB variáveis indicado~aa recém definidas. Tabela 1.4: Codificação das vc:.Lriáveis qualitativas Cliente N1 N2 N3 01 02 Ç)3 04 Os 1 1 1 n 1 o o o .O V 2 1 o 1 1 o o o 1 3 1 1 o o 1 o 1 o 4 1 1 o o 1 o o 1 5 o o o o o l 1 o 6 o o o o o o o o ' Para coillltrução da.s mcdidM de parecença,· iremos resumir aa observa~ões de dois indivíduos conforme indicado na Tabela 1.5. Tabela 1.5: Comparação entre oa indivíduos i e k CHente k Cliente i 1 o Total 1 a b a+b o e d e+ d Total a+c b+d m UnT-.....sidA<le F'eder&l de Ll>VT M - D ep!V"tamento de Ci&nciM Ex&lM - LavrM-MO 17 1 "' • ·11!1 llcu11i&o d& IUlllAS e Wª SEAGltO - 7 • 11 de Julho de ~003 · ra.c)ocíllio1 podemos sugerir1 respectivamente 1 as scguinteP medida.s de simi- laridade e dissimilaridade: a+d Sjk = -- m b+c e óik = --. m Note que Sik é a proporção de concordânciii-9 entre aB V"Miáveis indicadoras e Dik à de di.Bcordâ:ncias. Em Bussab et al.{1990) e Kaufman e RoUBseeuw (1990) são apresentadas outras alternativas para mensurar a parecença entre variáveis qualitativas. ·A Ta.bela. Lo traz a comparação entre os indivíduos 1 e 2. Note que das oito combinações1 5 encontr<l:m-se na diagonal principal e 3 na secundária. A simil;Ú-idade entre esses indivíduos pode ·aer dada por s 12 = 5/8 = 62, 5% e a dissimilarída.de por 012 = 3/8 = 371 53. Td.bela 1.6: Comp~ação entre os indivíduos 1 e 2 Cliente 2 Cliente 1 1 o Total 1 2 1 3 o 2 3 5 Total 4 4 8 Note que se calcularmos a distância. euclidiana entre a. primeira e segunda linha da Tabela 1.4 teremos exatamente o numera.dor de 012. Podemos, · então, interpretar óik corno sendo a distância. euclidiana a.e quadrado média entre os vetores de variáveis indicadoras dos indivíduos i e k. o método acima apresent~ alguma.9 deficiências n.o. que se refere à8 variá.veis ordinais. Note que ao não levar em conta a ordinalida.de da v-c1.riável, a.o compara.r1 por exemplo 1 um indivíduo da classe social A com um da B teremo1:1. uma. medida de similaxidade menor do que entre um indivíduo da classe A com D. No entanto, A e B sã.o mais parecidos do que A e D. Uma maneira de cbntornar esse problema é utilizar a ordinalidade das variáveis na. CGD.$truçã.o .das variáveis indica.doras. No exemplo, poderíamos ter 0 .. = {·1, se Classe A o•= { 1, se B ou A O~ = { 1, .se C, B ou A 1 O, se Não 2 O, se Não 3 O, se Não A T.i.bela 1. 7 compara as variáveis 0 1 , 0 2 e 03 com a criadas segundo o critério acima. Considerando apenas esses dados 1 se nã.o leva.rmos em conta Univcraldu.dc l'l:dcr.U de Ll4vr...., - De111U111.Wc11iu de Oihu:l11:1 Exll.41>:1 - L&vru.a-MO 18 ' \ ~a• Reunil\o d& Rl:lllAS e· tOO Sk~AO fl.O - T & 11 d~ Jlllho do '.lOO!l a ord.i.nalida.de da variável {três últimas colunas da tabela), teríamos que a dissin;.ilariàade entre alguém da cia.sse A e B ser~a 2/3 e entre pessoas das clMses A e D seria 1/3, menor do · que a dissimila.ridade entre A .e ·B. Levando-se em conta. a ardina.lida.de (três primeiras colunas da tabela), entre A e B ter.íamos uma dissimilaridade de 1/3 e entre A e D 3/3. ' •, . Tabela 1.7: Codificação das Vru-iáveia ordinaiH Cliente Oi 02 03 01 02 . 03 1 1 1 1 1 o o 2 1 1 1 1 o o 3 o 1 1 o 1 o 4 o 1 1 o 1 o 5 o o 1 o o 1 6 o o o o o o 1.2.3 Variáveis categorizadas e quantitativas Na Tabela 1.3 temos tanto variáveis categorizadas como quantitativas. Nesta seção, discutiremos como determinar uma. medida de parecença que envolva os doi.Y tipos de variáveis. Na seção anterior, afirmam mi que Ôik era a distância euclidiana ao qtiadrado média entre os vetores formados com as varjáveiB indicadorá.s. Uma solução para a mistura de vari.áveiR encontrada. nesses dadosJ seria calcular também a distância euclidiana ao quadrado média utili.Zarido as va,riáveia gua:ntita- tivcLS e ponderar o resultad~ com a diatâ.ncia obtida utilizandoas ~iá.veí; indicadoras. O problema é que Ôik eBtá re::itrita entre zero e um, o qué.?J'.10 é comparável com as distância.s ba.seade.s m.s va,riáveia Idade e Nú.mero de car- ros. Uma saída é _:padronizar as variáveis quantitativas atravé::i da seguinte fórmula: 'rV _ X - min(X) - ma:x(X) - min(X) - , · Idade - 20 Note que O ~ W ~ 1. Para a. va.riavel Idade, teríamos W1 = 45 _ 20 e para Número de carros, :W2 = i:- ,~- · A Tabela 1.8 traz e31l~ cák~lo::i. v - J. Univeraida.dc Federal de L~vrM - D~p:..:ta.mento ô~ Cii!ndM ExatM - Ln.vro.3-MG 19 1a1· nu111il.o d11 ll.llllAS e 100 Si::AGfiO . 7., 11 dr Julho de 2oos Tabela 1.8: Cadastro de clientes de um posto de gasolina N. de Cliente Idade carros W1 W2 1 20 1 0,00 0,00 ,. •'· 2 37 . . 3 0,68 1,00 3 22 2 0,08 0,50 4 26 2 0,24 0,50 5 45 2 1,00 0,50 6 42 1 0,88 0,00 mínimo 20 1 o o máximo 45 3 1 1 A partir da Tabela 1.8, determinamos que~ distânc.:ia euclidiana. padroojzadél:. entre os clientes 1 e 2, com base em W1 e W2 é da.da por d2 . = {O, 00 - O, G8)2 + {O, 00 - 1, 00) 2 = 0 731 pl2 2 , . Anteriormente, havíamos concluído que ó12 , =O, 375. A questão que se coloca é como definir uma medida de dissimilaridade que leve em conta q e ~- Uma ·p ossível solução seria coIUJtruir uma. distância ponderada do tipo dik = WqÓik + Wnd;iki . onde Wq é um pe.':.lO atribuído às V"d.IÍIÍ.Veis qualitativas e Wn UID peso atribuído às numéricas. Uma sugestão de ponderação seria utilizar o número de va.riáveis de cada tipo no banco de dados, assim, teríamos dik = 4Óik + 2d~};· Note.que ao ponderar a pa,.rte referente às variáveis qualitativa.'.!, coruiderou- se .apenas. o número de variáveis originais e não o número de variávei.B indi- cadoras. A distância entre os indivíduos 1 e 2 seria. dada. por d12 = 2, 962. l.2.4 Outras abordagens Há outras maneiras de obter med.ida.s de similaridade ou de dissimilar.idade que não pressupõem a existência de um conjunto de variá.veis. Pode-se, por 20 ~\ ~a• ncuni!l.o d,. nBRA S e 100 SE A G rtO - 7 a li do Julho de 200.:l exemplo, apresentar os objetos aos pares e pedir aos entrevistados que ava- liem o grau de semelhança ou dissemelha.nça entre eles através da atribuição de um escore. Desse modo, é possível construir para cada elemento da amostra uma matriz de parecença. Para a amostra como um todo, pode- se utilizar uma matriz de parecença. média utilizando os dados de todas a.s pessoa.s, ou de pessoas que pertençam · a grupos uniformes (por eXemplo, residam numa mesma á.r:ea). Métodos de a.grupamento podem ser apl;cados a essas matrizes. 1.3 Algoritmos de agrupamentos A maioria àos algoritmos utifuados na formação dos agrupamentos pode ser classificada em duas grandes famílias de métodos: hierárquicos e de partição. 1.3.1 Métodos hierárquicos aglomerativos Nesses métodos os .agrupamentos são formados a. partir de uma m();triz de parncr-mça. Num primeiro pa..'lso, a matriz é utilizada para identificar. o par de objetos que mais se parece. A partir desse instante esse par é agrupado e 8erá. considerado como sendo um único objeto. Isso requer que se defina uma nova matri7. de parecen_ç~ em seguida identificarse o par mais semelhante, que formará um novo grupo, e assim sucessiYa.mente até que toàos os obje.tos estejam _reunidos num mesmo grupo. Através da análise do histórico do ~_grupamento, ·pode-se definir a posteriori o número de grupos existentes nos d ados. O que diferencia esses métodos é a. reEQ:a. para a redefinição da ma:triz de parecença a cada união de pares de objetos. Neste texto~ veremos '.algumas da~ mais comun.s. Como ilustração do método !a.remos uma aplicaçãO passo a pa:;so de uma dessas técnicas , aos dados das cinco primeiras linhM da Tabela 1.2. Na. Tabela 1.9 são apresentados os dados. Serão utilizadas as variáveis padronizadas. A Tabela 1.10 traz as ilistâncias euclidiana.s cu.lculu..da.s entré QS p<u-es de Deinters. O primeiro passo da análise é identificar os ~,xµ· is ~tl:. h· tes. Observar-se a. menor drntància entre SJH.P e Bauru (ü,55). Lóbo es::lél.':l duas regiões farão parte do primeiro agrupamento e serão consideradas como sendo urri.a ünlca a.té ·o final do p~nio. · Univcroid!>dc Federtl.l de Lavrn.o . D ep11rtn.menlo de Ci~ncirui Exatiu • Lavr..,,.MO 21 ~ai ILcunilM> d" IUHl.AS e 100 SEAGRO - 7" 11 de Julho de 2003 Tabela 1.9: Ta:X:a de delitos por 100.000 habitantes padronizada.s .Dados brutos Dados padronizados De inter Homicídio FUrto Homicídio Furto doloso .. doloso SJRP 10,85 1.500,80 -0,66 0,85 RP 14,13 1.496,07 -0,07 0,81 Bauru 8,62 1.44-8,79 -1,07 0,47 Campinas 23,04 1.277,33 1,53 -0,79 Soro caba 16,04 1.204,02 0,27 -1,33 Média 14,54 1.385,40 0 ,00 0,00 DP 5,55 136,Hi 1,00 1,00 . fonte: Secretaria de Segurança Pública do Estado de São Paulo Tabela 1.10: Matriz de Distâncias ·Deinter SJR.P RP Bauru Campinas Soro caba SJRP o,oo IlP 0,59 0,00 Di·mru 0,55 1,05 0,00 Ca.mpina.s 2,74 2,27 2,89 . 0,00 Sorocaba 2,37 2,17 2,24 1,37 0,00 . . O próximo passo é obter a nova matriz de distâncias. O problema est4 em definir a distância entre o grupo (SJRP, Bauru) e as demais cidades. 'lbme, por exemplo, · RP, temos que d[SJRP, RP}= 0,59 e d[Bauru, RP} = 1,05. Como podemos definir d((SJRP, Bauru), RP)? É, neste ponto que os métodos hierárquicos se diferenciam. Sejam G 1 e G2 dois)çrupos de objetos, com 91 ~ 1 e 92 ~ 1 objetos, respectiva- mente. Abaixo apresentamos a definição da distâ.ncia d[G1 > G2] segundo alglins' métodos hierárquicos de agrupamento. L fyfétodo do vizinho mrus próximo: A distância é a menor distância -entre um elemento de G1 e um elemento de G2, ou seja, d[G1, G2] = min dik· iEG1 kEG:i Univer>idiuie l'ederll.I de L~vru. DcµIU"tiunen~o do Ciluciu Ex!Ltu - La.vrll4-MC 22 ' \ 48" Rcunillo d11 RBRAS • 1 o0 SEAGno - 7 a 11 d~ Julho do 200:1 2. Método do vizinho ruais longe. Define-se a distância como a ina.ior distância entre um elemento de G1 e um elemento de G2, ou seja, 3. Método das médias dl.15 distâncias. Nesse caso caJcuJ~,se a média das distâ.nciM entre os elementos de G1 e os de G2 . 4. Método da centróide. Este método define a coordenada de c:ada grupo como sendo a média das coordena.das de seus objetos. Uma vez obtida essa coordenada, denominada centróide, a distância .entre o:; grupos é obtida através do cálculo das distâncias entre M centróides. 5. Método de Ward. A alocação de um elemento a um grupo é feita de modo 'L minimizar uma medida de homogeneidade interna. · A seguir construiremos os grupos utili..Zando alguoo dos ruétodo::i descritos '""" acima. Método do vizinho ma.is longe Retomando o Exemplo 1, temos d[SJRP, RP] = O, 59 e d[Bauru, RP] =: 1, 05, logo, d((SJRP, Bauru), RPJ = ma.x{O, 59; 1, 05} ·= 1, 05. Procedendo desae modo, eucontramo's a nova matriz de dissimilaridades reproduzida na rabeia .. ' 1.11. Tabela 1.11: Matriz de Distâncias Deinter SjRP,Bauru RP CampinaE. Sorocabà. SJHP, Bauru 0,00 IlP 1105 0,00 Caro pi.nas 2,89 2,27 0,00 So.roc.aba 2,37 2,17 1,37 0,00 2:.l ( <~ª IU:uni ll.tl d" IWllAS e 1ou SEAGJlO - 7" li de JuJJ.o de 2003 . .r.L· ' ~ .. . ;~'"'·· · " •' ' .· ·1' ~Jff:9: ~ t'.1 .. ;. ! · :::1 ~~~~ i; .. .... .. ,,,;;11~ Analisando a i:l.OV"à. matriz 1 temos que as regiões ma.is próximas são (SJRP, ' Bauru). e RPi que passam a fazer parte do mesmo grupo. Redefinida a ma- triz de distâncias (Tabela 1.12), not amos que a menor distância é 1,37, entre a.q regiões de Campinas e Sorocaba, doravante agrupadas. Td.bela 1.12: Matriz de Distâncias Deinter SJRP1 Bauru, RP Campinas Sorocaba SJRP1 Bauru1 RP 0,00 Campinas 2,89 0,00 Soro caba 2,37 1,37 0,00 Por fim, agrupamos todas ás regiões a ~a distância de 2,89. Para definiro número de grupos existente nos dados, podemos comtruir um resumo do procedimento ('l'c:1.bela 1.13). 1\g_a.Ila.Jisp.r Q...hj.Btór ieçt,,p9.tarp.,0!3 u.i:p g~4e.. i~emiz;ito..n9'-dist_ij,__ncj_a e;üre 9s p_a.ssos_ 3 e,A_. ;tsso ~Rocle ~:q_dicµ_ gue a J1!1Itir dÇLpasso 4_co:r:µe,çamos a -ªgnn?ar r~giQ.es ~e.tergg~n~ª'1J,,v.9U S5=ja q~e~d.!:!v~r.(a.Il!.os_J_~r___en~n:.ª'32-0~ ~x:·tmo~no---.p~sg ~3. Somos lev-<Ldôs a formar dois grupos (SJRP, Bauru, RP) e (Campinas, Sorocaba). . Pruiso l Tabela. 1.13: Resumo do procedimento Grupo Distância. 0,55 . . 2 SJRP, Bauru SJRP; Bauru, RP Campinas, Sorocaba 1,05 ~'"' 3 ,. ,-1' 1137 J 1 L •}..~, ; ~· 1 .. 1. SJRP, Bauru, RP, Campinas, Sorocaba 2,89 .,~ . "· Para facilitar a identificação do número de grupos, podemos lançar mão de um procedimento gráfico denominado dendrograma (Figura 1.8). Neste gráfico, dispomos no eixo das u.bscllisas os objetos (preferencialmente na ordem em que foram agrupados) e no eixo das ordenadas as distâ.ncia.s em que llil uniões se realizaram. A altura das barrru:i coincide com a distância do agrupamento. Ao analisar o gráfico, bUBcamos Ahservar grandes saltos. ' 1:__.,~----J "--.r-'°''-. '- ' Esses saltos indicam a união de objetos heterogêneos . . 24 ' ' ' .•'" 48• Jlt11ni1J.o da JlBRAS e 10• SE/\G110 - 7 o. 11 d• Julho de 200~ · ; ' , • Figura 1.8: Dendrograma Método .de Ward A cada etapa do método de Ward, ~, unir objetos que tornem os agrup ntos formados os ~o.Q!.og~e s p.os_si:v~_l. A ~Q ~n~e utilizada baseia-se na ~a~de~qu~a,Qç,s-t.Qia.lde~ ~d~D.Ç,.ÍiJ. . . Como il.ustração, coDBidere apenM a primeiru. vi.U"iá.vei do vetor de observações (X1) e admita a formação de k grupos. Nes.;e caso a partição da soma de quadrados total será '.dada por: . \:,~1.t. ~-l'l'\, .llt" ,1'.J V SQT(l) = SQE(l) + SQD(l) k k k I: :L (xn -X1)2 = L:ni (x11 -x1)2+ I: I: (xn - X;1) 2 .• j=I iEG1 j=l j=l iEG; . : · :, onde SQT(l) denota a soma de quadrados total da variável 1, SQE(l) a soma de quadrados entre grupos da variável 1, SQD(l) a soma de quadra- dos dentro de grupo da variável 1, Gj é o conjunto que indica. os ele.l..Gentos do grupo j, n1 é o número de elementos do grupo j, X 1 sendo a média da variável Xi · e Xj1 é a média da variável 1 no grupo j. Nessa partição, 29lJJJ, mede o a d ho og~dade .... Uit~@s.._gr_up_g~l~ã..q_,a_ Xi, enquanto que ®E-(1}.J;,xJ.e e o g a.u e heterogen id@e nt~s.,,_g~ . ~_,_ Desse modo, uma boa partição, para X 1 ~aquela que ~ · ~e, consequentemente~ e S • 1 . Para. considerar todas a.~ Univcr>idu.de Federal de Le.vro.,, - Depl\rta.monto de Ci~nciM ExnLM - LnvrM-MG 25 1 18~ ll•uniAü' d1> lllilLAS • 100 SBAGHO - 7 lL 11 d• Julho de 2005 variáveis simult'aneamente define-se a soma de quadrados da partição como: p SQDP = l:SQD(i). (1.1) i=l O primeiro passo do procedimento consiste na construçã.o de n-1 grupos, sendo n o número total de observaç.ões. A Tabela 1.14 traz a soma de quadrados da. partição para os possíveis agrupamentos obtidos para os dados do exemplo. Note que no agrupamento 2 obtemos a menor SQDP, o que nos leva a unir SJUP e Bauru. Tabela 1.14: Primeiro passo do Método de Wa.rd Agrupamento Grupos SQD(l) SQD(2) SQDP 1 (SJRP,RP}, (B), (C), (S) 0,1~4 01001 0,175 2 (SJRP1B)1 (UP) 1 (C), (S) 0,081 0,073 0,154 3 (SJRP,C), (RP), (B), (S) 2,410 1,347 31757 • 4 (SJRP,S), (RP), (B), (C) .. 0,437 21375 2,812 5 (SJRP)1 (11.P,B), (C), ($) 0,492 0,060 0,552 6 (SJRP), (RP,C), (B), (S) 1,287 1,290 2,577 7 (SJRP), (RP,S), (B), (C) 01059 2,300 2,359 8 (SJRP), (RP), (B,O), (S) . 3,372 0,793 4,165 9 (SJRP), (RP), (B,S), (O) : 0,893 1,616 2,509 10 (SJllP), (R.P), (B), (C,S) 0,795 0,145 0,940 Os próximos passos consistem na formação de (n-2), (n-3), ... , 1 grupos, sendo que o critério de seleção é a escolha do agrupamento com menor SQDP . em cada passo. Retomando o Exe~plo l,' à Tabela 1.15 descreve 08 pa~rnos restantes do procedimento. A' Ta.bela 1.16 resume a aplicação dQ 1 método ao exemplo. A escolha 'do númer.'o de grupos é feita de maneira, ~im.ila.r à, indicada no método do ·· · vizinho mais longe. No ca.so, notamos que .~so ~o um salto muito ai_or~9_p._g_3.e~s~J..CL nos as os an~eriore . Isso ~~olha & 2 . gr_!!P~_(S.&,-1~11J1m.J1l?-)~(-Ca_mpim!S Sor:oc@a). Pi:lia. a colll5truçã.u <lo <leudrogru.mu. (Figuru. 1.9) optirmoH por colocar na ordena.da a raiz quadrada da SQDP de cada passo. Essa opção garante que a e:::;cala de medida <la distância seja a m~sma das obsA.rvações origina.is. Não há, no entanto, a obrigatoriedade de se .proceder desse modo . . . Unive~id 11de l'tderAI de L1>vr"" • D•pllrt~ento d• Cifnciwi Eu.tu - Lnvr..,.·MG 26 -- \ ~aa lleu nil\o dn nBR.AS o IOQ SEAGRO • i"' li do Julho do WO.:l Tabela 1.15: Demais passos do Método de Ward · Passo 2 Grupos SQD(l) SQD(2) SQDP 1 (SJRP,B,RP), (C), {S) 0,498 0)089 . 0,587 . 2 (SJRP,B,C), (RP), (S) 3,908 1,475 5,,383 3 (SJRP1B,S), (RP), (C) 0,940 2,709 3,649 4 (SJRP,B), (RP,C) 1 (S) 1,368 1,363 2,731 5 (SJRP,B), (RP,S) 1 (C) 0,140 2,373 2,513 5 (SJRP1B), (RP), (C,S) 0,875 0,218 . 1,093 ·. Passo 3 Grupos 1 SQD(l) SQD(2) SQDP 1 (SJRP1B1RP,C), (S) 3,908 1,782 5,690 2 (SJRP,B 1RP1S), (C) 1,068 3,213 4,281 3 (SJRP,B,RP), (C,S) 1,292 0,234 1,5.27 Passo 4 Grupos SQD(l) SQD(2) SQDP 1 (SJRP,B,RP,C,S) 4 4 8 Tabela 1.16: Resum o da aplicação do método de Ward Passo União SQDP y!SQDP 1 SJRP, Bauru 0,154 0,3!12 2 SJ1lP, Bauru, RP . 0,587 o, 76() . 3 Campinas, Sorocaba 1,527 1,236 4 .. SJRP, Bauru, RP, Campinas, Sorócaba 8,000 2,82S -, Comparação dos métodos hierárquicos .. étod _d.Q,"Y:'. • ." ó maia 0~1~d a E m~s ~h mogê os.:-do , ue o~éto.do a v· inb....!?_, ·s ertg. Isso se deve ao fato de ser um critério bastante rigoroso. Note que uma distância pequena. entre doi3 grupos implica na proximidade de todos os elementos desses grupos. A primeira coluna. da ' Figura 1.10 representa a distància entre dois grupos de objetos calculada peb critério do vizinho mais longe. Para que os dois grupos sejam consiqeradoa próximos, é necessário que n. linha que os une tenha comprimento pequeno, o que só aconteceria se todos 06 pontos representados por círculos est~~essem próximos aoo pontos representados por quadra.dos. Já na segunda coluna., representamos a distância obtida pelo método . do vizinho mais perto, note· U 11iversida.de J.'c<l ie r.G.1 de Lavoe.:: · Depa..rta.m:nto de Ci~ncio..! E:satM .. J, av ru.-MG 27 1 49a ll.cuuilo d" llliJlAS e tOR SEAGllO . 7 " l l d• Julho do 2003 ; . Figura, 1.9: Dendrograma que apúsar da distância ser pequena há pontos, nos dois grupos, que diferem m,uito entre si. O método das médias das distâncias posiciona-se entre os dois . . O Método de Ward, é atraente por basear-se numa medida com .[g.rJ,e ~o.__e por g~iQ)l.P.J> l:l que, assim como os do método vizinho ma.is longe, possuem uma alta homogeneid e interna. ~ _,- ~_,,... 1.3.2 . ·Métodos de partição ·considere a existência de 4 objetos: A, B, C e D. De quantas i;g~a{!. ~~~Q~ _ _çj is~~ co , to_~o~ ~~bJ~o,s? Cada uma dessas maneiras ~~IDJt~pgt1ç~. A Tabela 1.17 apresenta toda.s as partições possíveis desses quatro objetos. Intuitivumente, podemos realizar uma análise de agrupamentos avaliando todas as pos'síveis partições e identificando a melhor dela.R segundo algum critério de. qualidade. A aplicação de tal método sempre levaria à melhor divisão em grupos. Apesar de eficaz esse processo é extremamente inefi- ciente, uma vez que o número de partições a serem avilidas é 2n - 1, sendo n o número de objetos em consideração. Desse modo, para uma amostra pequena, com apenas 10 objetos, terí.amos que avaliar 1C23 partições; se a amostra fosse de-40 objetos, o número de partições a serem avaliadas é da \Júiveraid..<11 FtdrruJ do Luvr..a • Oep""1u.mo11to de C lD nci"" Ex..ta.a - L"vr1U-MG 28 , . ~si Rwnl&o de. llDRAS e lo• S!!;AGHO • 7" 1 l de Julho d• 2003 ·q· !l "tit~ : :.: ~, [::: :. ::·.~-;,.~~:~ ... ::~ ·.:· ::.:: ::: ;l.:~ :i. :.:.:-. :;:·:~ :l~: :n~~:.:.;.;.:;i;~(~i.:..\';.r.i ,:· \ ::\f: r 1 ~~rckJi1*1'. ;;,;,,,l=,,,~~····~"'"'·'·"'""~' '· .J ' 1Y·~.·,·.:.~.:·.~i:.'.1·.;·?·: .. :~.,.~ .... ·.1·:'J··.· .. :.~;ri:··t····~.··.·~·.·,': ·11·.··:.•(·.1·:·~:~.·.·.·.:1i .. ,~1·.~ .. c.~g~:· ·,f_· .•. ·t·~;··.·.::·:;··: .. ~ .. ~ .... :~.·;:.1.·.~··.~~. :.:.r.~ .. i:.:: .. 1.:.::.~~.?.{.;,;;~.·~.·~.:.~.6 .. t.;r.1.il.·.:.:1.~.~.:1 !J}j~~~~\~11t\~~\~H~:~&~~~~w~n~~~~ ::,. : ... ,:; . .. ,- · ~ ·, · · ·· Eiir~f~qít~t~~rd.·. ~;,, ... .. ·. Figura 1.10: Distãncia entre dois grupos calculadaº'3 pelo método do vi.únho mais longe e pelo méto do elo vizinho ma.is perto ordem de 1012 • Do ponto de vista computac~ona.l, tal método é de aplicação inviável para a.mostra.g não muito grandes. · Os métodos de partição resumem algoritmos que permitem é!- identi- fic.:a,ção de boas partições segundo critérior; de qu.alidade específicos. Método das k-méd.ius Para diminuir o espectro das possíveis partições, o método das k-média.s ~zy, que se estipule a priori o número de grup~~ que devem iier gerados. ~ ' Critério de qualidade da partição , . · .. , ! Denote por Xi= (Xi!, ... , Xip) T o vetor de observações do objeto i. Os métodos de partição buscam encontrar a partição cujos .~ ap- resentem alta homogeneidade interna (observações parecidas) e que sejam diferentes entre s1. Os critérios -de qualidade procuram a.valia.r essa. pro- priedade. O critério empregado pelo método das k-médias basei0rse na. partição UnivoTOidade Federe.! do Lavra.o - o ·opnrtn.monto de Oi,ncin.o Exalas • Lavr..,,.MO 29 ·. ,. '. ~ . . ' ' -'8~ R.e1rnílo d6 JlBltAS e 10• SEAOJlO - 7 & li de J11JJ.o de ~003 Tabela 1.17: Partições de quatro objetos Partição Grupos formados Número de grupos 1 {A} {B} {C} {D} 4 2 {A,B} {O} {D} 3 3 {A,C} {B} {D} : 3 4 {A,D} {B} {C} 3 5 {B, C} {A} {D} 3 . .l fi {B, D} {A} {O} 3 7 {O, D} {A} {B} 3 8 {A,B,C} {D} 2 9 {A,B ,D} {O} 2 10 {A,C,D} {B} 2 11 {B 1C,;D} {A} 2 12 {A,B} {C,D} 2 13 {A,C} {B,D} 2 14 {A,D} {B,C} . 2 15 {A,B,C,D} 1 da soma de quadrados total de uma análise de variância, tal como empre- gado ~o Método de Ward. O critério de qualidade adotado no método das k-médiaB baseia-se na minimização da soma de quadrados da partição, tal ~ definida em (Ll). Uma partição será considerada ótima se minimizar ; SQDP. · Algoritmo de fonnação dos grupos Pàra ilust~ , um algoritmo utilizado no método das k-médias, considere . os dados padrori:iza.dos da 'rã.bela 1.9. Admita que desejdl'.Oos formar dois <:.,, • . • grupos. O algoritmo começa com a .formação d~ uma p~tição inic·al. Uma maneira de obter essa partição é adotar ~___,-@~ co~E.QP-~ ~ ,~t-id~,_.,t-ax.@ém~~n.Q_~i.n.a.@.s- sementes (por exemplo, as duas primeiras do banco de dados1 no caso, SJRP e RP). A partição in icial é obtida a partir das distii.ncias entre cada observ-d.Ção e a.'J sementes. Desse modo, cada ob- U11íverald1>de F\?denu de L1>vr..a - Depiu-tD.meuto de Ci!11ci"4 Ex11t..., - W.vru.o -M C 30 .--,. \· \ ' 1 1 ' ' ' \ ~ a • ll cu n; llo da nBRAS e 1 o 0 SEAGllO - 7 a 11 de Julho d e ~003 :-;ervação pertencerá ao grupo com a semente mais próxima. · No . exemplo, SJRP gerará a formação inicial do Grupo 1 e RP do Grupo 2. As distânciaB euclidianas entre cada ponto e as sementes estão na Tabela 1.18. Tabela 1.18: Distâncias entre os pontos e a:i. sement~s Distância euclidiana. Grupo mais Região. d(ponto, SJRP) d(pouto, RP) próximo Bauru 0,55 1,05 1 CampinM 2,74 2,27 2 Sorocaba 2,37 2,17 2 A análise da Tabela 1.18 sugere a segulnte formação dos seguintes grupos: Grupo 1: SJRP e B <J.uru, Grupo 2: RP, Campinas e Sorocaba. A Tabela 1.19 apresenta um resumo dos grupos formados. A SQDP corre~pondente é 5,30. P or se tratar de um grupo inkial, é bem poss(vel que · tam partições melhores do que essa. ü~g~~p~o~ por bas§__a d~tância entre e a obs rvaçª9.-_e os_Y.etores médias dos gru o , ~~-- -----~ ,...- .____ ~ denominados de centróides. A Tabela 1.20 traz esses dados. r---.---...___- ~,,.--.- Tabela 1.19: Análise da partição inicial Grupo 1 Grupo 2 Região Z1 '7 Região Z1 Zz ú2 SJTI.P -0,66 0,85 RP -0,07 0,81 Bauru -1,07 0,47 Campinas 1,53 -0,7U Soro caba 0,27 -1,33 Média -0,86 0,66 Média rr,-1..0°, ') -r 010-r Variância 0,08 0107 Variância 1,,2~. ' Y,lU ~ n 2 2 D. 1 '3 3 SQDU) 0,08 0,07 SQD(j) 2,57 2,58 SQDPa.rt 0,15 5,15 Un; vcrnidnde Feder1>I de J,iivr""' - D cp<U't o.mcnt o de Ci!ndo.:i Ex 1>to.o - L1>vTM-MG 31 48ª 11..,1.rnilo dlL llB'llAS a 100 SEACfiO - T" 11 do Julho de WOS Tabela 1.20: D.istfi.ncirui entre os pontos e as centróides Distância euclidiaru.L Grupo Grupo mais : ; < RegiãD até a centróide próximo G1 G2 SJRP 0,28 -1-,ê-3- l 23 I ; 1 1 IlP 0,81 };-J:-4- O, ?-11 2 1 Bauru 0,28 -i-;-s-s- 1, (:,., 1 l Campinas 2,80 l-;-1-4- I , s ~ 2 2 Soro caba 2,29 -1-,42 1, 1)) 2 2 Notamos que R.P está. mais ,próxima da centróide do Grupo 1 do que da centróide de seu próprio grupo' (Tabela 1.20), o que sugeri.! que ela está em grupo errado. A Tabela 1.21 resume o que acontece a.o rnuJar IlP de grupo. ···.Tabela 1.21: Análise da segunda partiÇão Grupo 1 Grupo 2 Regifw Z1 Z2 Região Z1 Z2 SJilP -0,66 0,85 Campinas 1153 ·-O 79 •. 1 Bauru -1,07 0,47 Soro caba 0127 -1,:33. IU) -0,07 0,81 Média -0,60 0,71 Média 0 ,90 -1 OG ' . · Variância 0,25 0,04 Variância 0,79 0,14 n 3 3 n · 2 2 SQD(j) 0,50 0,09 SQD(j) 0,79 0,14 SQDPart 0,59 0,94 ~o~po2 -élQl-9 -Qru_P-o_l, notamo31 urna grande di}nÍJ}ui__ç~o e.a SQD.P,_ que p~sa de _5,3.Q_p,ara:.1 ,53. Isso indica que a nova partição é, melhor do · que a anterior. · O próximo passo da análise é procurar identificar nov·cU:l mudanças que possam levar a uma melhora na partição. Para tanto, calculamos a distância entre cada observação e as centróides dos dois grupos. A análise desses dados, Tabela 1.221 não sugere nenhuma alteração adicional. Univeroidi.dc l'"~dcrll.l do 1.· .. vru.:i. Dop1ut1W1t11lo de Cii nci.., &:at&W. l.&vru-MC 32 ~a~ lleunill.o dn llDllllS e IOg SE AO H.O - 7 " I l cc J u lho de 200J · .. Tabela 1.22: Distâncias entre os pontos e as centróides da segunda partição Distâ.ncia euclidiana Grupo Grupo maia Região a,té a centróide próximo G1 G2 ., SJRP 0,15 2,47 1 1 ., RP 0,54 2,11 1 1 Bauru · 0,52 2,49 . 1 1 Campinas 2,61 0,69 2 2 Soroca.ba 2,22 0,6!) 2 2 A escolha do número de grupos Urna restrição na aplicação do método dM k-médias é a nece~mid~de de He definir a priori o número de g.!:.!:!QOS a serem formados, o que nem :-iem- pre acontece em sit uações rea.is. O que fazer quando não sabemos quantos grupos existem nos dados? ara identi.fi.~ do núme o de upos a serem formados é...nec sári~ ~-...._..r --.......__... _____,,,,,,- __,, --- it i 1 i za ção do a.1 oritmo para a obtenção de nartições com diferentes nú.roer.os '------- ------ ~ ---- .- .t-"'--._....-~ ,/ -- - ~ e grupos. Em seguida, sugere-se ~alisar q comportamen~o da SQDP CQ.ll- ... ~ ,,_ --....~ ~ - - .........._ , - _, ·- - . forme aumenta-se o número de nartiç·ões. ~. ---. - __.,,.- ,,.,,,,. J.:' _,,. ...._ Método das k-medóides O método das k-medóides3 é um método de partição baseMlo numa·' matriz de di:;tância entre objetos. A medóide de um grupo é definida coi:no o membro do grupo que possui a menor distância euclidiana média:. em relação a.os deroa.IB membrosdo grupo. O critério de qualidade utilizado no método consite na. minimização da soma da.s diBtâ.ncias entre as · observa.ções . e as respectivas medóídes. Sendo k o número de grupos a serem formados, o algoritmo l.>usca. iden- tificar k pontos que sejam representativos dos grupos (medóides). Desse .· 3 Kaufrn:ui e Rousseeuw (1990) aprezentam uma boa descrição do método. U>1iveroido..de Federo.! do Lnv r M - Dc p M\o.mcn\o do Citnciru Exatu • L1wriu-MO 33 1 1 1 1 1 i 4Bii Jltuioil.u ·d"' llllllAS e 1()11 SEAOllO - 1 .. li de Jul ho d• ~ oos · rnodo,·p critério de qualidade do método é dado por: n G= 2.:Gj j=l onde O é o critério de qualidade e dlm1, j] representa a d!stância entre a .n;i~dqid,ç i (mi) e a observaçãoj. Uma vez identificados essu> pontos, aloca- 8e cada objeto ao grupo de med6ide mais próxima. · Apresentaremos o algoritmo descrito na Seção 2.1 de Chu et al. (2002). Ilustraremos o algoritmo util.i.zando os dados da Tabela 1.10. Admita que desejamos formar dois grupos. O primeiro pa.'lso consiHte num chute inicial para as 2 medóides. Admita a escolha de Campinas e Bauru. A Tabela 1.23 traz as distâncias entre cada observcLÇão e as medóides, a distância mínima e a indicaç~ do grupo a que cada obsel-vaçãoperte~ceria se adotássemos essas medóides. Tabela 1.23: Distâncias entre cada observação e as medóides inicia.is Me d ó ide Distância ,Grupo Região Campinas B;LUru mínima a.locado SJllP 2,74 0,55 0,55 2 H.P 2,27 1,05 1,05 2 .Bauru. 2,89 0,00 0,00 2 Campinas 0,00 2,89 0,00 1 Soro caba 1,37 2,24 1,37 1 - -e 2,97 Por se .tratar de uma escolha inicial, é possível que existam agrupamentos melhores d'o que o apresentado. Para checar isso, sugere-se <tva.liar a. escolha. de c<tda .medó+de separada.mente. Inicialmente, manteremos Campinas como medóide e subs.titu.iremos Bauru pelas outras regiões. A cada substituição, determlllil.IDOS (]. Caso encontremos algum Vã.lar menor do que 2,97, deve- . mos substituir Bauru pela região que acarretar. o menor C A Tabela 1.24. ilustra ~sse processo. AnallBando os dados da Tabela·l.24, vemos que a escolha de SJRP como medóide minimiza C. No próximo passo, mantemos SJRP cprno medóide e ~mbstituiinos Campinas (Tabela 1.25). · U11ivoroidud• l"rdor .. 1 de Lllvr"" • DcµurtlUn~nto d• Ci!lncilUI l':x11t1U1 - Lnvrna-MG 34 \ · \ \ \ 48ª Rcunillo da llBilAS e l e>ll SEAGJlO - 7 a l l do Julho do 1003 1 1 \ Tabela 1.24: Substituição da primeiréJ. medóide Medóide Distância Grupo Região Campinas SJRP , . alocado mm1ma SJRP 2,74 0,00 0,00 2 ., RP 2,27 0,59 0,59 2 ., Bauru 2,89 0,55 0,55 2 Campinas o,oo 2,74 0,00 1 Soro caba 1,37 2,37 1,37 1 - e 2,51 Regiã,o Campinas RP SJRP 2,74 0,59 0,59 2 RP 2,27 0,00 0,00 2 Bauru 2,89 1,05 1,05 ' 2 Campina.3 0,00 2,27 0,00 1 Soro caba 1,37 2,17 1,37 1 e 3,01 Região Campinas Sorocaba SJRP 2;74 2,37 2,37 2 · RP 2,27 2,17 2,17 2 .. Bauru 2,89 2,24 2,24 2 Campinas 0,00 1,37 0,00 1 Soro caba 1,37 0,00 0,00 2 e 6,78 O bserva.ndo a Tabela 1.25 nã.o observa.mos nenhuma melhora em relação às medóides anteriores. Na verdade o valor de C para M metlóides SJRP e Sorocaba é o mesmo observado para CampinM e SJRP. O que nos· fkul~a . escolher qualquer um desses pares como medóides. Note que os grupos · formados sobre as dlli.l.3 e3colhas são· exatamente iguais. 1.4 Comparação dos métodos · A cada passo do método da.s k-médias o algoritmo checa se os objetos estão alocados da melhor maneira possível, se não estiverem eles podem 3er re- alocados. Essa é a principal vantagem do método, que nã.o é compa.rtilha..da. Univorsidu.do Fodcrrd de LnvrM - Dop<U"~o.monto de Oillncio.o ExatM • LnvrM-MG 35 ( • 1 1 ' i · I 411ª lle'uull<> d~ llUHA!'l e 10ª SEAOILO • T"' 11 de Julho do 200!! Tabela 1.25: Substituição de Campinas como m2dóide Medóide Distância Grupo . . Região SJRP Bauru mínima alocado SJRP 0,00 0,55 0,00 1 IlP 0,5!) 1,05 0,59 1 Bailrti 0,55 o 00 ' ' o,oo 2 Campinas 2,74 2,89 2,74 1 Soro caba 2,37 2,24 2,24 2 e 5,57 Região SJilP RP SJIU) 0,00 0,59 0,00 1 RP 0,59 0,00 0,00 2 Bauru 0,55 1,05 0;55 1 Campinas 2,74 ' 2,27 2,27 2 Soro caba 2,37 2,17 2,17 2 e 4,99 Região SJRP Soro caba SJRP 0,00 2,37 0,00 1 RP 0,59 2,17 0,59 1 Bauru 0,55 2,24 . 0,55 1 e Ulll pi na.s 2,74 1,37 1,37 2 Soro caba 2,:n 0,00 0,00 2 o 2,51 pelos métodos hierá.rgulcos. Nos métodos hierárquicos, uma vez que dois objetos são agrupados, eles passam a. pertencer ao mesmo grupo até o final do procedimento. Não se leva. em conta que a introdução de novos elementos nos grupos pode fazer com que um ponto acabe ficando ma.is próximo a um agrupamento vizinho. Os métodbs hlerárqllicmi, por sua vez, não requerem que se conheça a priori o número de grupos a serem formados. Essa vantagem sugere a , utilização de um método hierárquico de agrupamento pa~·a determinação de um número inicial de grupos, para a posterior utilização do método das k-~édi~; Nesse cMo, ·recomenda-se que a adoção dos métodos do vizinho mars longe ou de Ward, uma vez que esBes tendem a formar grupos mais ho~ogêneos interna.mente. O método de Ward tem a vantagem adiciona.! de U11iv•roid~s"FwdcriU d• L"vru • DepU\IUllenlo de Clincill.ll ExAt._.. 4vraa-MO 36 · 1a> llcu11ilio da IUJRAS e 10° SEAGllO - 7 11 1 J de Julho de 2003 ' utilizar como critério de agrupamento a mesma medida que é utilizada. pelo ' método das k-m~clia.s. O método das k-méclias é mai.s sen.sível à presenç.a de .valores :1berrantes1 fazendo com que sua prévia identificação seja necessá.ria. A éLplicação de métodos hlerárquicos a gra.ndes massas de dado;· pode aer proibitiva, tanto em termos computacionâis, como, muitas vezes, nu. análise ' dos resultados obtidos. Nessas circunstãncia3 o método da.s k-médi;L1 parece :;er mais indicado. Uma recomendação que deve ser seguida por aplica.dores da.~ técnicas de agrupamento é, na. medida do possível, utilizar ma.is de um método sobre um mesmo conjunto de dados. Posteriormente, através da comparação dos grupos formados, pode-se adotar a solução que se apresentar melhor. 1.5 Validação e interpretação Validí:!.r o agrupamento significa. certi.ficar_.se de que os grupos realrnenté diferem. Nesta etapa da análise, podem ser empregados vários tesks es- tatísticos desde univariados para comparação de médias até testes multi-· variados, como por exemplo a MANOVA (ver John.sou e Wic.:.hern, 1998, por exemplo), no qual busca.se verificar se há diferença estatisticamente :significante entre os vetores média de cada grupo. A análise discriminante é uma outra técnica multivariada que pode ser utilizada na yalidaçãu dos : o.grupamentos. 1.5.1 Correlação cofenética A corrcl;1ção · cofenética. é uma medida de vc1,lidação utilizada, principalmente nos métodos de agrupamento hierárquicos. A idéia bá..'3ica é realizar uma campa.ração entre as distâncias efetivamente observadas entre os objetos e distâncias previ'3tas a partir do processo de agrupamento. Para ilustrar a obtenção da. distância prevista1 considere a Tabela 1.1:3, que resume a aplicação do método vizinho mais longe aos dados do ExemÍJlo 1. Observe que SJRP e Bauru foram unidas a uma distância 0,55, essa será é1 di::itância previtita entre essas duas regiões. No Passo 2, RP foi unido ao grupo anterior, isso faz com que a distância prevista entre RP e SJil.P e U11 ivcr!t idadc Fo-dera.l de L-Avra.o - Oeput a..m ento de Ci~nci&.'\ Exala.a .. LavrM-o-MG 37 ' · --\ ---;. , . \ ' 48 1 llcunill-o elo. RBllAS e 10• SEAOltO • 7 o. 11 de Julho de 200:1 entre RP e Bauru seja de\05. Procedendo desse modo, podemos conatruir a Matriz Cofenética (Tabela 1.26) que resume todas asdistâncias previstas. Tu.bela 1.26: Matriz Cofenética Deinter SJRP RP Bauru Campiri~., S.orocaba SJRP 0,00 RP 1,05 º)ºº Bauru 0,55 1,05 0,00 Campinas 2,89 2,89 2,89 0,00 Soro caba 2,89 2,89 2,89 1,37 0,00 Num bom agrupamento espera-se que a.s distâncias previstas respeitem a ordem determi.ruLda pelas distâncias observada.s, ou seja, se duas ob- servações estão próximas, espera-se que a distância prevista entre elas seja pequena. Para avaliar a ocorrência desse comportamento, ·define-se a .E2l: relação cofenética como sendo a correlação entre as distânCÍ(J..'l efetivamente observadas e as previstas. A Tabela.1.27 apresentu, lado a lado, a distâncias. obs~rvadas no e.xemplo (Tabela 1.10) e as a.presentadas na matriz cofenétíca. No ca.':lo, a correlação cofenética foi de 0,95, indicando um agrupa.menta de boa qualidade. Tabela 1.27: Comparação da matriz de distâncias e a matriz cofenética Região distância distância prevista SJilP RP . ·. 0,5!) 1,05 SJRP Bauru 0,55 0,55 SJRP Campinas 2,74 2,89 SJilP Sorocaba 2,37 2,8!) RP Bauru 1,05 1,05 IlP Campinas 2,27 2,89 IlP Sorocaba 2,17 2,8!J Baur u Campinas 2,89 2,89 . Bauru Soro caba 2,24 2,89 CampinaB Sorocaba 1,37 J ,37 Correlação cofenética 0,95 Univcr9ida.de F'cdcrn.l d e LnvrM - Dcµartn.mcnlo de Ci~uciti.3 Exaln.n - Ln.vrU!J-MO 38 ~ d, \ ·IA1 fl.cunil\o d" RBRAS e IOQ SEAGRO • 7 & 11 de Julho de 200!1 '"" 1.5.2 Gráfico da silhueta O grcí.fico da silhueta é um procedimento descritivo para verificar a qualidade dos agrupa.mentas form.a.dos1. A idéia. do método é verificar se um ponJ2_ está mais próximo dos elementos do Beu próprio giupo ou de elementos de !QUPOS vizinhos. Ele baseia-se no cálculo de duas medidas: ~a distância média entre o objeto i e os elementos de seu próprio grupo e b(i), a distância média entre o objeto i e os elementos do grupo mafo próximo do de i, que não seja o seu próprio grupo. Seja G( i) o grupo que contém. o objeto i, admita a existência de nG(i) observações ne8te grupo. Temos então que :z= t41 ( ') jEG(i), jf:.i a t =------ . nG(i) ~ 1 onde chi é a distância euclidia.na entre ol:! objetos i e j. Para cada grupo diferente de G(i), determine a distância média entre sem; elementos e i. Defina o grupo H(i) como o de menor distância média entre seus elementos e o ponto i, admita que a cordinaJidade de H(i) seju. n H( i). O grupo H( i ) é denominado vizinho de i. Assim, temos :z= dij b(i) = jEH(i), jf;i nH(i) O valor da silhueta no ponto i é definido 2or . . b(i) - a(i) s(i) = max:{a(i), b(i)} · . ' . Essa medida reflete quão adequada foi a alocação de i em sem grupo. Note que s(i) é um número que varia entre -1 e l. Valores próximos de 1 indicam boa aJocação do ponto, uma vez que, nesse caso, b(i) >> a(i); por outro lado, valore3 nega.ti vos sugerem uma. má. alocação, uma vez que o ponto . e:;tá, em média, ma.is próximo dos elementos do grupo vizinho do que de seu próprio grupo. ~um bom texto sobre este gráfico é S-plus(2001). Univcr~idndo Feder&! de Lavna • Dopo.rtlllllor.to de CiõnciM. EJtiltM • L~v1M-MO :m •8ª fu:un il.o. dA fiBllAS ~ !!)li SEAGJtO - 7 a. .11 dt Julho de 200!1 Coxri.o' ilruitr~ão, retomemos o agrupamento obtido pelo método das k- medóides. Tínhamos a formação dos seguintes grupos: G1 =(SJRP,RP,Bauru) e G2=(Campin.as, Sarocaba). A Tabela. 1.28 apresenta o resumo dos cálculos necessários :para a deter- JJ?.inaç[q, da silhueta. Por exemplo, para SJRP, temos a(SJRP) = O, 59 +O, 55 . 2 Tà.bela 1.28: Cálc.:ulo da silhueta Região a(-i) b(i) s( i) SJRP 0,57 2,56 0,78 U.P 0,82 2,22 0,63 Bauru 0,80 2,56 0,69 Campinas 1;37 2,63 0,48 Soro caba 1,37 2,26 0,39 Analisando a Tabela 1.28, percebemos que todos os valores da silhueta sã.o positivos, o que indica uma boa a.loca.ção da.s regiões aos grupos. Em grandes amostras, pode ser inviável a aruí.lise de cada valor de sil- hueta encontra.do. Nesse caso, recomendarse a construção de um gráfico que permita a análise geral dos resultados. O gráfico da Figura 1.11 é denominado de gráfico da silhueta. Para ~ma construção·, devemos dividir os opjet'o's em grupos, de. acordo com o re~ultado da análise de agrupamentos. Em ca.da grupo, ordenamos os objetos em or- dem decrescente segundo o valor da silhueta. Cada objeto será representado por uma barra horizontal, cujo comprimento é o valor da silhueta. Entre um grupo e outro, reêomenda~se deixar um espaço. Analisando o gráfico, chegamos a coridusões equivalentes às tiradas da a.rui.li.se da tabela: 1.6 Interpretação Na fuse de interpretação dos resultados, busca-se obter u..ma caracterização dos grupos. Nesse momento deve-se ressaltar as diferenças e semelhanças 40 ~ó~ llcunil!D da HERAS < JOU 3E:AGHO - 7 " J l de Julho de 200:1 ~:;J,.f?:pii' ·' s.~~ro(f \e Ri') :· . .. ·:.·, . sciocabâ : . :. ·:· -~ . ~~.·~ ~i.:.' Figura 1.11: Crú.fico da silhueta para os dados do Exemplo 1 encontradas nos diferentes agrupamentos. Para isso, é necessano lançar mão de técnicas descritivas (medidas descritivd..S e gráficos) e eventualmente utilizar os resultados . dos testes de validação como ba.li~a da interpre!a,çã.o. ' 1.6.1 Representação gráfica de casos Para facilitar a interpret<LÇão dos grupos, pod~se utilizar representações gráficas multivariadas das médias observadas para as variáveis em cada grupo. Como ilustração, ut ilizamos os resultados da aplicação do método do vizinho mais longe aos dados padronizados, obtidos a partir da Té.Lbdri: 1.29. ?oram forma.dos três grupos: Gl:(GSP, SP), d2: (SJRP, RP1 Bauru, SJC 1 Campinas, Sorocaba) e G3: (Santos). A Tabela 1.30 apresenta <Ui. uiédias observd.da.s em cada grupo. Através da. aná.lllie desses dados, notam<?::i'.'1que o.) G 1 caracteriza-se por possuir as ma.is altas taxas médias de Homicídio doloso, Roubo e Roubo e furto de veículos e a mais balx;:i. de Furtos. b) G2 possui a..5 menores incidências médiCLS de crime, exceto para l' lirto. e). G3 destaca-se por possuir eleV(.Ldas ta.xas de Furto, Homicídios dolosos e Roubo, mas apresenta t a.xa relativa.mente baixa de Roubo e furto de veículos. Univenid..de Fedcr&.I de Lavn_, - Depart&monlo de Citncill.:! Exala.a - Lo.vro.a-MO 41 ( :.1 · , • : !ª~ lw'!t11t.o ~ JlBILAS e JOO Sl~J\GllO • 111. 11 do Julho de 2003 Quando o número de variáveis é muito alto, fica difícil interpretar uma tabelà ·coma a 1.30. Nesse contexto, a utilização de gráficos de representação de casos facilita a observação de semelhanças e di.ssemelhançaB entre os gru- pos~ ' ;SerãÓ apresentados dois tipos de gráficos, em ambos é conveniente que os valores máximos de cada variável não difiram muito. Para garantir a igualdade dos v.i.lores máximos, os gráficos serão construídos com os dados da 'I~abela 1.31, que foram obtidos dividindo-se o valor de _cada média, pela maior média observada para a variável. Ta.bela. 1.29: Tà.xa de delitos por 100.000 habitantes por divisão territorial das policias do Estado de São Paulo (Deinter), em 2002 Deinter Homicídio Furto Roubo Roubo e furto dolo::io de veículo::i SJRP 10,85 l.500,80 149,35 108,:58 PJl 14,l:l 1.49ü,07 187,99 116,66 Bàuru 8,62 1.448,79 130,97 69,98 Campinas .23,04 1.277,33 424,87 435,75 Soro caba 16,04 1.204,02 214,36 207,06 SP 43,74 1.190,94 1.139,52 . 909,21 SJC 25,39 . 1.292,91 358,39 268,24 Santos 42,BG 1.590,66 721,90 275,89 GSP 42,55 797,16 520,73 602,ú::l Média. 25,_25 1.310,96 427,56 332,64 DP 14,3(i 239,48 330,76 . 275,01 fonte: Secreta.ria de Segurança Pública do Estado de Síi.o Paulo http://WUJUJ . .ssp .sp.gav.br/estatisticD.3/criminais/, acessada ew 11/02/2003. S.JRJ>: Sã.o José do Rio Preto RP: 1Ubeirã.o Preto Sl)_: Sã.o Paulo (capital) SJC: São José dos Ciilllpm1 ._ OSP: GrandeSão Paulo, exceto SP G~á6co de perfil No · gráfico de perfil a.s observações de cada grupo 1:Jerão repreBentadaB sep- arada.mente. No eixo x indicamos as variáveis. O eixo Ja.s ordenadas traz 42 , - ' \ ~8"' llcur.õ&o da RnrtAs e 10° S G/\G T1.0 - 7 11 11 de Julho de W0.1 .Tabela 1.30:· Médias segundo grupos Variável Homicídio doloso Furto Roubo e furto de veículos Roubo Gl 43,15 994,05 830,13 755,n G2 16,35 1369,99 . 244,32 201,22 G3 42,86 ' 1590,66 121;'90 275,89 as escalas de medida. Cada. média é reprcBentada por um ponto nos el:xos cartesianos. Unindo-se os pontos obtêm-se os perfu de cada grupo (Figura 1.12) . Figura 1.12: Grifico de perfis para os dados da Tabela 1.31 . A Figura 1.12 ilustra bem as conclusões tiradas anteriormente. Gnífico radar O gráfico radar deve ser construído a partir de um círculo. Cadn. V'J.riável é representada por um raio, esses raios devem estar distribuídos tiniforme- mente. O valor da vari.á.vel será. o comprimento elo re5pectivo_ raio. A ·Figura 1.13 ilustra o gráfico radar conatruído para ao ip.édias dos 3 grupos. Quanto maior o raio, maior a incidência do crime. Uni'lcr>id&de Fodou.l do La.vrn• - Dép!Utn.l'lltnlo do Gitncfo~ E>eP.ta.:i - La.nM-MG . 43 .i.s.i. llcuniil.o do. RiHlAS e 10° SEAO llO • T " 11 de Julho de '.:!005 Tabela 1.31: Médias reescalonadas Variável X 1: Homicídio doloso . X2: Furto X:;1: Roubo e furto de veícufog X4: Roubo 01 . "02 1,00 0,38 0,62 0,86 1,00 0,27 1,00 0,29 ·····~~< :i3,ég:~e.' ',~,;1g:ªgé~.;x·~.\E;.: 03 0,99 1,00 Ll,36 0,87 Figura 1.13: Gráfico radar para os dados da Tabela 1.31 1. 7 Aplicações Nesta seção apresentamos algumas aplicações de análise de agrupamentos à solução de problemas reais. 1.7.1 Método do vizinho mais longe Apresentu.inos a análise de dados executada por Barroso e Gabriel, (1996), que uti1izou o coeficiente de correlação como medida de similaridade. Define-se como agricultor familiar moderno a unidades de produção voltadas prioritariamente para o mercado interno e cujo tra.balho é exercido predomina.ntt:meHte por membros de uma fumília. Neste exemplo, deseja- Univer~id .. de Poder") <l• L11.vrll.!I - Depu.rtllJnentu d• Cilinci11a Exc.tiu • Lu.vr....,...MG 44 ,. 48' lleuniA.o da llDTlAS e l oP SE/\GHO • 7 o. 11 de Julho de WO:l se identificar tipologia.s cJ e agricultores f.a.rniliares mugua.ios em função do uso de estufa. Um aumento no uso da estufa represento. uma melhora rui. produçáo, uma vez que essa. tecnologÍiL leva, via de regra, a um aumento u.a. produção. . Há dados di.9poníve.is :mbre 40 agricultores da região de Salto (norte do Uruguai), que foram pesquisados ern 1990; 1992 e 1994. Para esses agricul- tores, obervou-se a ár('.<i. cultivada (m 2) sob estufa nesses três períodos. O objetivo da pesquisa era identificar padrões de comportamentv, U."l- i;irn, mais importante do que o ta,ma.nho da área cultivada é saber o padrão dei>sa variável ao longo do tempo: Por exemplo, dois agricultores que apre- scmta.'>sem um crescimento na área cultivada ao longo do tempo, poderiam fazer parte da mesma tipologia. Devido a isso, utilizou-se como medida de 8imilarídade o coeficiente de correlação de Pearson: quanto mais próximo de 1, maior a similaridade entre os agricultores e quanto mais próximo de -1 1 maior a d.i..s8imilarida dc5. A análise foi realizada com o a.UX11io do aplicativo SPSS. O deudrogru.rua (Figura 1.14) :rngere a e:xistência de três grupos. Admitindo a solução com três grupos, o primeiro grupo conta com 23 agricultores e, em geral, apresenta um crescimento na. área plantada sob estn:f..'1 (Figura 1.15). O 8egundo grupo é formu.do por 12 agricultores que, em geral aumentaram a área plantada em )!J92 em relação a l!J90, ma.s diminuiram essa área em 1994 (Figura 1.16). 'Por fim, o terceiro grupn., com 5 agricultores, a.presenta, em geral um decrescimento na área plantada sob estufa, principalmente quando se compara. 1992 e 1990. A Figura 1.18 traz oo comportamentos médios dos três grupos. \ 1. 7.2 Método das k-médias Defi.ne-8e como cultura organizD.cion.al de uma empresa os mecani.smo8 de adaptação e comportamento adotados para lidar com os problema.s de ajuste ao ambiente externo e de integração interna. E8tá ligada a.O clima existynte no ambiente d8 trabalho. 5 Para transformar a correlação numa medid.n de ~imila.rid;i.<le b~ta efetuar a segulnte operação d= 3 - (r + 2), onde ré o coeficiente de correlação. Fn:zendo assim, tem.;s que rJ V<lria entre O e 2, :iendo O quõ.lldo r = 1 e 2 quando r = -1. Uni vcr!lidn.dc F'cdcrnl de LnvrQ..!) .. Oepnrto..mc11to do CianciM Exatõ.5 - Lnvro.a-MG 45 ~ 8 "' flcunill.o dn ltBltAS e 100 SEAGltO - 7 a 11 de Julho d • 20~ .:·-i. ' ~ -~ -~'<ii A'i~- i; _:L°~: -:.;.~ .. '!i-• .· .-::rj ··~~·~~ <~ ': · :~~· ·:; :;;: . ·-~l-!~ j- "1l ": ":!'f- (: 1;~ :;:;.'Ili:: :.:.-::: ;s& . :~f ·-. ;:~ ç~ , -~~ ·- ~ -?-: ;/vi · :·~r; : . ... i ... ~: ·; · .~".~ . ::J.:. .:'" •: .. ·-:*·:.- -~:~:.; : ·:~:;.,. ;·::;,: tw $~ ~( .,.: ) ,_ ~ •: . -:;~' '. ... ;:, .. :;· :\ .. :~:; "• ' '' ·1. ' 1" :. r . ~- . . :4 .. :. : ~;:.: ,: ... . .. .: ·<:::.·· ·;:. •' '. ;.. ~. : ~: ··• . l r: · t : " i .:<·f . ~ r T l~igura 1.14: Dendrograma U11iwr~id..de l~dorul de L1wru:i - DeplU"tll.lllunto de Ciaucill.!> l:.'l<ll.tllJI - 1.-uvru..:.-MG 46 ~ 8~ llcuniiio da l1. 8 fl.AS e lOQ SEAGllO - T" 11 do Julho ac JOO:l Figura 1.15: Gráficos de perfis para. o Grupo 1 r. ' l . : 1 !; j r l: ----------,-·---~-..,.,.-.,,--,....-.. :·-. . -.-.. ---------------' Figura 1.16: Gráficos de perfis para o Grupo 2 Univcroidl\dc Fedcro.J d• L11nM - Doptu"tlllnonto de Ciê!nciM l ~x11lll..'l - L11vrM-MO 47 1 l ' 1 ! . 1 1· 1 1 l 48' Jluu11Jll.o d1o JlUJlAS • 10~ S EAOltO • 1 o. 11 d• JuJl10 do ~003 r--,~--·-··-·- .......... ,~-·;~, ... ~ ...... ~ ~·~·~~-~;..~.~~~~~~~.,.;...,. , . .,,;,;.,,;.. :.:. ;..;.~;.;.;;.:.,.M,:.:....:..;.;;... ... _ ..... ..:_..;_;..,,,;;;,,.,'r~-._..,,;;...,..,_ .. _ _ ,;;_~,.,-· ........ 1 i \~pç;ç;):·i·:·.'· · · ....... '" .... ' . "'""" .. "···• .. ····•"'"····"·"'" '"'""""•••• ..... .... '''"'"·"'"·· ·······"·-'•'". . ! " .! .> • • ·· . .. 1: ·l ~~89,9,9;':1 1: · . ~1! *-i'.i&ki:J .. · ·. :'::·· . i,. • ~;,q ,f, i ~t.. :~\909\:j" . " ! ·i ~~ 1 1 ~~si.~.••[ ! f.\t4'-·-"- · --·. ~ . } :r -::T---- _______ .. ..:.:: .- i,," ! ::. \ • .. OOQi.. f 99"''.>- ' °E)9 4 ; i tAJ;;g ~·- L .. ............ _.,,,_ ................. _, .... ,, __ ... , ___ ,, ...... , _______ , _____ , __ ,,,,,_, .. , ... - ......... ______ ,,.,,,, .. ,_, ___________ ,,,,, ,,, ,J . Figura. 1.17: Gráficos de perfis para o Grupo 3 Figura 1.18: Perfis médios dos grupos Uui voroiduda Jo'odoro.J de I. uvrl4.0 • Dop1>rlum~nto d o Ciõncill.!I ExatllJI - 1.uvrlL!l-M...; 48 ~, <a~ ncuniJ\.o dn TlBllAS • JOA SEAGno - 7 11 t J de Julho de ~003 Há. uma teoria que fala. sobre a existência de quatro tipos de cultura organizacional: a. Cultura Grupul: tratarse de uma cultura voltada principalmente para o ambiente interno, tem como caracterfatica.s gerais a fi~ibilida.de com- binada com a preocupaçiio com o ambiente interno. S~aa meta.s são o de!3envolvimento do potencia.! humano e pleno desenvolvimento do indivíduo. b. Cultura Sistêmicu: esse tipo de cultura caracteriza-se pela flexibili- dade e pela preocupação com o ambiente externo. Visa o crescimento da empr.esa, a aquisição de recursos e a adaptação ao ambiente externo. Suas metas são o crescimento, desenvolvimento de novos mercados e aquisição de recursos. e. Cultura Hierúrquica: caracteriza-sepela preocupação com o controle e com o ambiente interno. Ela objetiva. o controle das relaçÕC>~'l e dos processos e visa a estabilidade. d. Cultura Racional: também caracterizarse pela importância dada ao controle, mas suas preocupações voltam-se ao ambiente externo. Tem como meta.s o planejamento e a produtividade. Diz a teoria que um íJ.mbiente organizacional saudável é obtido quél.ndo as quatro cultura.ci co-e...'Cis tem de maneira ÍD;tensa. Barroso, Artes e Kurauti (1991) analisaram dados de uma pesquisa re- alizada com membros do corpo gerencial de 13 empr~as do setor têxtil com açõe5 na BOVESPA. A amostra foi composta por 478 funcionários que deveriam preencher um questionú.rio. AtraYé3 da. análise do questionário mediar-se o grau da. presença das quatro culturas (de 6 a 30) que era perce- bido pelo respondente. Nosso objef;ivo é identificar grupos de funcionários que tenham percepções semelhant.es sobre suas empresas. A Tabela 1.32. traz aJgumas medidas descritir"'8 para as va.riáveis de interesse. Note que suas variâncias são muito próximas indicando que. é desnecessário padron.i.zar <J.5 va.riávei3 para a aplicação do método de ae;ru- pamento. O primeiro probk..ma do método das k-médias é a. de.finiç5.o do número de grupos. lima maneira de :fazê-lo é obter soluções paro. vú.rior~ números de grupos e através da soma de quadrados da partição decidir se vale a Uniyeroida.de FcdcreJ de l~tlvrM. Dcµnrtl\1Denlo da Ci6nci e..a E.xata.:s • LavrlJ.3.-MG 49 : 1 1 1 1 1 ' 1 1 ~ai lleLHoiil<> d11. TlllltAS e 100 SEAOJlO • 7 "' 11 d• Julho de 2003 Tabela 1.32: Medidas descritiv-d.S por indicador de cultura Cultura Mínimo Máximo Média. Va;-iii.ncia Grupal 6 30 20,0 19,2 Sistêmica 6 30 20,6 18,8 Hierárquica. G 30 23 ,1 16,0 Raciona.l 6 30 21 ,3 17,6 pena aceitar um número dt:!. grupos mais alto. P ara fazer essa comparação, utilizamos o seguinte índice G = SQDP(k) ,._. SQDP(k + 1) , SQDP(k + 1) ' no qual, SQDP(k) é a soma de quadrados dentro dos grupos da partição para uma solução com k grupos. Quanto menor o valor de G menor é a vantagem de se trabalhar com um número maior .de grupos. A 'I'abela 1.33 traz informações sobre soluções com diferentes números de grupos. Tabela 1.:13: Comparação de agrupamentos formados com diferentes números de grupos Grupos SQDP G 1 34.156,5 2 16.109,9 1,12 3 ll.175,0 - 0,44 4 . 9.761,7 0,14 5 9,040,8 0,08 6 8.078,3 0,12 7 7.549,0 0,07 8 6.837,6 0,10 A Figura 1.19 ilustra o comportamento do índice G. Note que G estabi- liza., ao redor de um valor baixo, a partir de. uma solução com 4 grupos, isso indica pouca vantagem ao se passar de uma solução de 4 para 5, 5 para 6 e ill:i:Ürn :mcei:rnivamente. Isso nos levd a adotar uma sol uçã.o com 4 grupos. U11iversidl>de F"dernl de Lnvrl1S ·- Depnrtum~nto de Cibnc\1e> Ex..tu,a - i...v,w;-M C 50 (. .r \ " 1 48~ Rcuni1l<> da TlBilAS e J o<> Sl':AG llO • T" 11 de Jullio do 2003 Figura 1.10: G él.nho na soma de quadrados da partição O passo seguinte é éJ. , -,ü idação ela. a.Ilálise. Para isso, coru;idera.nc.lo cada grupo t:omo uma. v.most;rQ. de 1.1.illa. população, aplicou-se um teste F de com- paração de médias para. w dü. variável. Todos os níveis descritivos. foram inferiores· a 0,001, indicando haver difercnça1i entre as rnédi;1s dos grupos . . A Tubela 1.34 traz a.lgnmas medidas descritivas pa.ra auxiliar na inter- pretação dos grupos. A Figura 1.20 é o gnílico radar construído·com as médias das variáveis. Tabela 1.34: Comparação dos grupos - (média± desvio-padrão) Va.dú.vel . . Grupos Grupa.l Sistê.mica Hierárquicu Racionai n 1 16,6 ± 2,2 16,9 ± 1,9 20,1 ± 2,3 17,6 ± 2,5 105 2 24 ,6 ± 2,4 25,4 ± 2,4 27,0 ± 1,!J 25,6 ± 2,5 137 3 12,5 ± 2,5 13,7 ± 2,4 15,6 ± 2,7 15,2 ± 3,5 . 44 4 20,4 ± 2,3 20,7 ± 2,2 23,6 ± l,!) 21,7 ± 2,1 192 Observando a Tabela 1.34 e a Figura 1.20 concluímos que os grupos diferem no nível da presença das quatro culturas. · Assim, o Grupo 2 é aquele com os funcioná.rios que percebem uma forte presença das quatro culturas e o Grupo 3, no outro extremo, é forma.do por gerentes que, em média, n.iio Univcr!lido.de Federal d~ LavT M - Dap&T\o.Jlltm\.o de OiOnciD...! T-.::.xntn:J - Lo,vro.!>-MG 51 18• JleuuiiUJ d,. lUIRAS e JOU SEAOJlO • 7 a 1 l de Julho de 200~ identificam a presença das quatro culturas de maneira forte. 1 1 Figura 1.20: Ganho na soma de quadrados da partição Univcrsidw:lc Fndor..i do L11vr..,, - Deµu.rt1Ulle11lo do Cif11cill:I E:<11l"3 · !.11vrll:l·MC 52 , - Capítulo 2 i\ _nálise de Comp onentes Princip-ais 2.1 Introdução A nálise dP. Gomponente:J Pr-incipai.s é urna técnica, estatística que trans- formi'1 linearmente um conj unto de p variáveis em um conjunto com um número menor (k) de variáveis não-correlacionadas, que explica uma parcela substa.ncial das inforrnaçõçs do conjunto original. A8 p variáveis originajs (X1, ... , Xp) são trll.IL.'lforrnadas em p va.riá.vé.is (Y1, ... , Yp), denominada.s componentei; principais, de modo que Y1 é ;:i,quela que explica a maior parcela da variabilidade total dol3 d ados, Y2 ex.plic;:i. a segunda maior parcela e assim por diante. · 9s principais objet ivos d a a.ná.lise de componentes ~pa,ís sã.o: e ~dJ;lÇ- da~~~~~51dO;l_j e Q__~ç~dliO-@..b.i~ -- es inter-Pretá VJ!Ís.--9as,sariá v.el§.; n 9~~3~n-dlgJe-n-to_d ; es aj_m~~ de_.C9_r!,~la ~~~-.,;eis_. A análise é realizada com o intuito de resumir o padrão de correlação entre a.s vrl.riáveis e muita.s vezes é possível chegar a conjuntos de Ya!:iá.veis que sejam não correlaciollél.dos uns com os outros, levu.ndo assim a um agru- pamento delas. 53 " 4 8 ~ llcu11i~u du HIJllAS e JOU SgACrtO • 7,. 1 l de Julho do 200~ Algebricamente, as componentes principais siio combína.~ões lineares das variá.veis origina.is. Geometricamente, as componentes principais sã.o as co- ordenadas dos pontos amostrais em um sistema de eixos obtido pela rotação do sistema de eixos original, na direção de vcJiiabilidade máxima dos dados. A- análiBe de componentes principais q_f!Q~gg~_s_C?,!P.~E~.Aa ma~riz de co- va.riância (:E) ou da matriz de correlação (p) de X:1, ... , XP:.. Não requer qual- quer suposição sobre a forma da distribuição multivariada dessai; Vdiiáveis . Segundo Tabachnick e Fidell (2001), se a normalidade existe, a análise é engrandecida, i;eniio ela ainda vale a pena. As demonstrações deste capítulo sã.o baseadas no texto de Johnson e Wichern (1998), onde maiores detalhes podem ser encontra.dos. 2.2 Como obter a.S componentes principais Seja x o vetor elas p variáveis originais x T = (X1 , ... X p), com Cov(x) = :E. Considere p combinações lineares de X 1 , ... , XP Yí = l{ X = l11X1 + l12X2 + ... + /ipXp Y2 = ll X= l21X1 + l22X2 + .. .'+ l2pXp Entiio ar Yi) = l~).!J;;;.:. lf ~1:Jr-e, :: ê)'e.l ~ , e.',e,. QçrvJt"i.,_:i:.i·.)._= .9._9_~(!{ x, zJ::51..::=J[E!.i-: ""'- \ ;~) - \e'· t", z ... ti l.J ;- "' (' I 1 , ,,, As componentes principais são as combina~'.Ões lineares Y1 , ... , Yp não correlacionadas, cujas variâncias são as maiores possíveis. · A primeira componente principal_ é a combLru.LÇão linear l "[ x que maxi- miza Va.r(l{ x) sujeita à restrição l{ l1 = 1. Se essa restrição não é imposta, pode-se ra;er a V'Miâ.ncia de Yí tiio grande quanto se queira. A seg_End'!- componente principal é a. combinação linear zr X que maxi- miza Var(lix) sujeita às restriç.ões tih= 1 e Cov(l[x,lJx) =O. A i-ésima componente prht~ipal é a combinação linear l"[ x que maximiza Var(lf x) sujeita às restrições l[li = l e Oov(l[ x, lj x) = O, para qualquer j < i . Univi:rsidude FodtnJ d• LuvrlUI • Dtµurla.roe11to de Ciêuciua Bxnt "" • Luvrua- M G 54 ~a• 11.ouniãc d.a 11.BllAS e 1 o0 SE A ORO - T " 11 do Julho
Compartilhar