Lucia Pereira Barroso (2003), Análise Multivariada

•
USP-PR

Samuel A C Campos
14/05/2019
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 160 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 160 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 160 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Análise Multivariada

332 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
~\ 
\ 
' 
\ 
~ 
\ 
\ 
-\ 
\ 
\ 
\ 
\ 
\ 
\ 
-1 
--, 
\ 
-, 
_, 
\ , 
\ 
~ 
\ 
• ~ 
\ 
~ 
\ 
'\ 
( ' . 1 SGfPt 
~t~u \f }?\ 
i. .:,. . .. :. ·• . · ~ . :• ... . '· . '· ,-- <. r •. ,•; . 1. •• "·.i: . ... ·• 
Análise M ultivariada 
Lúcia Pereira Barroso 
Departamento de Estatística 
Universidade de São · Paulo 
e 
Rinalc.Io Artes1 
Ibrnec/SP 
1 Licenciado do Departamento de Estatística da Universidade de São Paulo 
{ . 
• ' 
.·•·:· •,;11 .... ~\. 
' ' .. ... · · ~. : ' • :" .1 • 
•· . 
1 
' 1 
-----
1 
\ .. . 
' 1 
1 ' 
481 llcun ido da llBH.AS e 10ª SEAOllO - 7 o. li de Julho de 2003, 
Prefácio 
Estas notas foram escritas com base em material utilizado e~ aulas min-
istra.das no Curso de Análise Multivarida do Departamento de Ei:,tatística 
da Universidade de São Paulo e do Ibmec/SP e sã.o adequadas para alunofl 
de graduação de diversas áreas como Estatística, Agronomia, Biologia, Ad-
ministração de Empresas e outra.8. Esse texto . poderá servir como uma 
leitura introdutória a outros textos da área. citados na lista de referência.s 
bibliográficas . 
. Dada a limitação de tempo e da carga horária do minicUI3o, tivemos 
que seleciona.r alguns tópicos da área. Escolhemos· a.queles que sã.q mais 
utilizados e que formam a base da Análise Multivarjada. · 
Agradecemos· à Comissão Organizadora do 10º- SEAGRO - Simpósio de 
Estatística Aplicada à Experimentação Agronômica e 48~ Reunião Anual 
da H.egiü.o Br asileira da Socieda.9e Internacional de Biometria pelo convite 
a apresentar este minicurso e pela edição deste texto 1 ·• 
Lúcia Pereira· Barroso 
Rinaldo 'Artes 
Lavras, julho de 2003 
1 Este t rabalho fui parcialmente .financiado pela Fnpesp (Projeto Tumá.tico 99/10611-8} 
e pelu CNPq (PROHEX 76.97.1081.00) 
U11i v cr~i d n.d c Fcd ern l d i: L11vr t.CJ - DepadnmeuLo de Ci~od ll' Eratn.s .. Lav rna-Jvi G 1 
~91 l:•unill<> da Rllll.AS e 100 SEAORO - 7 " 11 de Julho de 2003 
Univtrald..d. l-wd.n.J de L .. vrM - Ocp11Zt11.111enlo de Cilnciu Ru.t.u - Lo.vr1L:J-MO 2 
---, 
Conteú do 
1 Análise de Agrupamentos 
1.1 Conceitos básicos .... 
1.2 Notação e medidas de parecença 
1.2.1 Variáveis quantitativas . 
1.2.2 Va.riávei.B categorizadas 
1.2.3 Variáveis categorizadas e quantita.tíVCJB . 
1.2.4 Outra.'.! abordagens .. 
1. 3 Aigoritmo::: de agrupamentos 
L::U Métodos hierárquicos aglomera.tivas 
1.3.2 Métodos de partição 
1.4 Comparação do8 métodos 
1.5 Validação e interpretação 
1.5.l Correlação cofenética . 
1.5.2 Gráfico da silhueta 
1.G Interpretação . . ... . . 
1.6.1 Representação gráfica. de Cél.'30S · 
1.7 Aplicações ........ . 
7 
8 
14 
. . 14 
16 
19 
20 
21 
21 
28 
35 
37 
37 
39 
40 
41 
44 
48il llcuuiLo d& lllillAS e i()ll SEAOltO - 7 " 11 de Julho do 200:1 
1. 7.1 Método do vizinho mais longe. 
1.7.2 Método das k-média.s ..... . 
2 Análise de Componentes Principais 
2.1 Introdução .......... : ... . 
2.2 Como obter as componentea principais 
2.3 Propriedades das_ componentes principais 
2.4 Comentá.rios gerais . . . . . . . . . . . . . 
3 Análise Fatorial 
3.1 Introdução . 
3.2 Constructos 
·3_3 Análise fatorial ortogonal 
3.3.l Cargas fatoriais .. 
3.3.2 Matriz de cova.riância de x 
. . . -
3.3.3 Comunalidades e especificidades 
3.3.4 Padronização das variáveis 
3.4 Métodos de obtenção de fatores . . 
3.4.1 Método das componentes principais 
3.4.2 Método da máxima vermrnimilhança 
3.5 Rotações ortogonais ........ . 
· 3.5.1 Escolha do número de fatores 
· 3.6 Escores fatoriais 
3.6.1 Método dos mínimos quadrados ponderados 
3.6.2 Método da. regressão .........• 
' , ... 
'\)ni~i:~aldo.<lo Pwdu..t do L"vn.11 - l>eµll.OIW\UlltO de Cilucil>B Esi.t&U - L1>vr ... ·MO 
44 
45 
53 
53 
54 
57 
61 
71 
71 
72 
75 
77 
77 
78 
80 
81 
81 
87 
89 
91 
94 
94 
95 
4 
f áf.o J. %JcjJ cMv.J 
com~ u.u 
~slullillcei v-?9.C·tt~ 
~81 l\enn;&o da ll.DRAS e 10• SEAGRO • 7 a 11 de Julho de 1003 
3.7 Estudo da viabilidade da AF 
3.7.1 Matriz anti-imagem . 
3. 7.2 KMO: Kaiser-Meyer-01.kin . 
3.7.3 MSA: Measure of sa.mpling adequacy . 
3 .8 A vc1.liação do aju.ate do modelo 
·. 
3 .9 Análise fatorial confirmatória 
3 .1 O Comentários gerais 
4 Análise Discriminunte 
4.1 Introdução . . . . . . . 
4.2 Análise discriminante para duas populações 
4.2.1 O Método de Fisher ...... . 
4.2.2 O problema geral de· classificação 
4.3 Análise di:;crimin.a.nte para mais de duas populações 
4.3.l O Método de Fisher ...... . 
4.3.2 O problema geral de dassificação 
4.4 Avaliação da função de classificação 
4.5 Aplicação . . . . . . . . 
. 95 
95 
96 
' . 97 
98 
100 
101 
105 
105 
107 
110 
.. 115 
124 
125 
129 
132 
. 135 
A Resultados sobre distribuições de vetores aieatórios e sobre 
álgebra de matrizes 141 
B Dados aberrantes multivnrio.dos 
B.l Valores aberrantes unidimeIIBiona.is 
B.2 Valores aberrantes bidimensionais . 
B.2.1 Distância de Ma.haJanobi.s . 
U11ivcroidadc Fcdcro.J da LavrM • Dcp..,.truncnto de Oi3ncio..i ExatM • LavrM-MO 
145 
l46 
146 
148 
5 
{ 
,ai ll~uuíw d" ILBJtAS e Ú>º SEAOILO - 7 11. 11 de Jullio de 200!1 
B.3 Valores aberrantes multidimensionals . 
B.4 Comentários de ordem prática. . . . . . 
Bibliografia 
U11lver•idi1d~ l"uderul de L1&vr11.11 • Dup1>rt"10e11lo .d• Oil11ci..a Ex"I"". L uv r""·MG 
150 
151 
156 
6 
\ 
' 1 
:Jdl:io J. 'Jf:ci:J ~ 
CONRf ;r621 
Ellofíillco 9">9l-•<rZ9 
~ Capítulo 1 
\ 
Análise de Agrupamentos 
Análise de Agrupamentos é o nome dado a um conjunto de técnicas uti-
lizada.'3 na identificação de padrões de comportamento em bancos de dados 
atra.vés da formação de grupos homogêneos de casos. Essas técnica.8 têm 
aplicabilidade em vá.rias área.s do conhecimento. Apresenta.mos abaixo u.l-
guns problemas cuja solução pa.s.sa. pela. aplicação de métodos de aná.Ii.3e de 
agrupamentos1 . · 
Problema 1: Uma empresa deseja conhecer o perfil de seua co03umidores. 
Pa.ra tanto, elabora uma pesquisa na qual é feito o levantamento de dados de 
uma grande amostra. A análise dos dados ger~ algumaB dúvidas: os consum-
idores têm um perfil homogêneo, em relação às caracterfoticas levantadas? 
Se o perfil não for homogêneo, é possível identificar grupos homogêneos? 
Quantos grupos existem? 
Problema 2: A Pesquisa Emprego-Desemprego do DIEESE/SEADE é um 
levantamento amostral realizado· na . Região Metropolitana. de São Paulo. 
Na tma fase de planejamento, coD.Btatou-se que os municípfos da Grande São 
Pu.ulo e os dü:1tritos administrativos da capital não eram homogêneos em 
relaçã.o a da.dos sobre o tipo de ocupaç.ã.o da. população residente. Levar 
em conta a heterogeneidade da amostra num plano a.mostra,.J aca.rreta um 
aumento n a eficiência doa estima.deres. Uma maneira de consider'a.r essa. 
heterogeneidade é realizar uma amootra estratificada. Cada estrato seria 
formado por municípios (ou distritos a.dmin.Wtrativos, no caso da c.:api ta.I) 
1 Os problemas abaixo foram extraídos do relatório de iniciação cieat!.fica YruLamoto, 
2002. Esse trabalho também foi utilizo.do no dcscovolvi.mento de parte deste ca.pít1úo. 
7 
! 
41f~ ll<:imit.u d& llli llAS e lOg SEAOltO • T " li de juJho de 200~ 
-~· I 
• ~. 
cuja,s pGpulações tivessem um perfil ocupacional semelhante. _É necess<Í!..~.9 
. ent~~ .saber como definir estrato~, quantos estratos existem e quais são os :.....,. 
municípios (distritos) de cada estrato. (ver Bussab e Dini, 1985). 
Problema 3: Um arqueólogo tem dados sobre a localizaçãDde restos de 
cer~ca encontrados em um sítio arqueológico. Para conhecer como era a 
organiz<Lção espacial da tribo que lá habitava.1 ele necessita ter uma idéia 
mais precisa da dispersão dessas peças. Há. locais com alta concentração de 
peça!i? Quantos? (ver Ta.nuka e Matos, 2000). · 
1.1 Conceitos básicos 
Para ilustrar os conceitos b<íf>lcos comllllil aos métodos de análise de agru-
. pamentrn~, considere o exemplo a seguir. 
Exemplo 1: a Tabela 1.1 mostra as taxas de delitos por 100.000 habitantes 
por Deinter (divisão territorial das políciUB) do Estado de São Paulo, ob-
. ser:v'cLda.'l em 2002. Admita que se deseja dividir os dados em 4 grupos de 
r.egiaes que sejam homogêneas quanto à incidência de Homicídios dolosos e 
Furtos. 
Uma vez que coruiiderarnos apenas duas variáveis, p0demos visualizar 
08 dados através da. construção de um diagrama de dispersão (Figura 1.1). 
O primeiro passo da an.á.li..':le é definir um critério para a formação dos gru-
pos. Um critério que parece ser razoável é considerar a prax:imidade entre os 
. pontos. Pontos próximos representam regiões com comportamentos semel-
hantes rio que se refere às variáveis do gráfico1 ou seja1 regiões que podem 
fazer parte de um mesmo grupo. Através de uma simples inspeção visual 
percebemos que podemos formar os se.e;uintes gru.pos: (Santm1), (Bauru, RP, 
SJllP), (Campinas, SJC) e (Sorocaba, SP), conforme pode ser visualizado 
na Figura 1.2 . 
No entanto, percebemos que a.a distâncias no sentido vertical sã.o muito 
maiores ·do que no sentido horizontal (Figura 1.3) 1 o que reflete o fato da 
variabilidade da variável Furtos ser muito maior do que a de Homicídios 
.dolosos (Tabela 1.1). Em termos práticos, a V"diiável Homicídios dolosos 
çontribuiu muito pouco para a defini<;ão dos grupos. E se quiséssemos dar 
igual importância às duas variáveis? 
Há várias maneiras de lidar com esse problem~ Uma das mais popu_=-
U11ivt1r~idu.dt J.'\dt:r~I du Luvru.a • D~pllrt.u..uu.uato de Ci6nci11B Exlitw. .. L.a.vru-MG 8 
' \ 
<1a• ncunillo dA RBRAS • 1 CJ.D SE A ano - T .. 11 d« Julho de '.1003 
,i) .~ ;rr.;~o;,T'y,~: 
. )~~~\;~-~\'i ji;J\ 
~:~:·~ 
· .· ~ · :::~ .y~·?.;;~:#:Y11 ~:.·:. 
· ·o . 
'· ~. ' ; 
· u.. . ... . ··.· i •' ... 
:t ;1;) U,Ç-U.! ~ .: ' 
. f :" ~ ~-f 
'' l,:1~~~1'~:++;~~i 
1§:.~~i ~.·~~~;,,,.,"'"'";m~:·::;~~1~~:: .. ~~~~::J~~t:;;,~·::··~~·::;~~ ,'. 
Figura 1.1: Diagramu de dispersão das Deinter 
Figura 1.2: Diagrama de dispersão das Deinter 
Univu:o id ade Fcderl\l do Ll\VTM - Dop&r\1UI1anto do Cinnciu fü<&L.U - L&vro.5-MG 
i 
1 
1 
l 
1 
. , . . 
· I 
' : 
°'ªª Jt.eurl)~ c!.idU31lAS t JOD SEAOllO • '1 & li d11 Julho de 200!1 
'' .1 ; 
· Tabela · Ll: Taxa de delitos por 100.000 habitantes por divisão territorial 
das poJícias do Estado de São Paulo (Deinter), em 2002 
. . Deiuter Homiddio F\irto Roubo Roubo e furto 
> 
doloso de veículos 
~ SJIU'. · 10,85 1.500,80 149;35 108,38 
~ ·nP 14,13 1.496,07 187,99 116,56 
··Bauru 8,62 1.448,79 130,97 69,98 
'r Campinas 23,04 1.277,33 424,87 4::S5,75 
1" Sorncaba 16,04 1.204,02 214,36 2ü7,0G 
0SP 43,74 '1-190,94 1.139,52 909,21 
~SJC 25,39 1.292,91 358,39 268,24 
.si.Santos 42,86 1.590,66 721,90 275,89 
Métli.n. 23,0B 1.375,Hl 415,92 298,90 
DP 13,69 152,05 351,62 273,35 
foute: Secretaria de Segurança Pública do Esta.do de SÜL.l Paulo 
http ://www.ssp.sp.gov. br /e~ ta tistica.s/ criminai3/, uc~ada cm 11/02 /2003. 
SJR.P: Siio José do ruo jlreto 
R.P: Ribeir:i.JJ Preto 
SP: $fio Paulo (capital) 
S;JC: São José dos Campos 
lares é ci uso de va.tiáveis padronizadas2• Os dados padroniza.dos podem ser 
vL'iua.l~u.dos na Tabela. 1.2 e · Figura 1.4. Nota-se agora, que as distâncias 
no senti.do vertical e horizontal 1:1ão da mesma ordem de grandeza (Figura 
1.5), o que garante que as duas variáveis estã.o sendo consideradas com im-
portâ.oc.:ías egulva.lentes. 
Ag~ra, a.O dividk os pontos em quatro grupos, obtemow (SP), (Santos), 
(CampSnM, SJC, Sorocaba), (Bauru, RP, SJRP). Note que esses grupos 
diferem dbs anteriores. · 
Baseado nesse exemplo, identificamos as etapa.9 da aplicação de uma 
análise. de agrupamentos,: 
1. Escolha do critério de parecença - Nessa etapa, deve-se definir se 
2Por exemplo, subtrnindo-ae de cadu vurió.vel :rna média e dividindo ~e o re:mltado pelo 
desvíLJ.-pudrii.o. 
\Joiver;ido.<l• l"l:dtri.J da L"vr1'11 - U•vurtu.ic1mtu do Ciéuci"" Exlit11:> - Luvru.a-MO 10 
~n• Reuni li.o d A RliRAS e 1 oa SEAORO - 7 a. l l d• Julho de 2003 
Figura 1.3: Diagrama de dispersão das Deinter · 
Figura. L4: Diagrama de dispersão da.s Deinter - dados padroni"iados . 
Vnivcmiid..de Federú.l <la W.vrM - Dero.rtamento de Ci6nclM Ex&lM - La.vrM-MG 11 
•Bª llc1.rnir.o da llliRAS e 10ª SEAOnO - 7 .. 11 de Julho do 2oos 
~~ ~ . . . 
Figura 1.5: Diagrama de dispersão das Deinter - dados padronizado8 
Fígl.lra 1.6: Diagrama ·de dispersão da.S Deinter. - dados padronizados 
Uuiver~id&d~ r'tderu.I do L"vr""' - Dop11rt11.J11e11to d• Cióociua Exüt...,. Lllvr1U-MG 12 
/""\ 
<B• Heurii/lo da IUIIlAS e 10° SEAGRO - 7" 11 de Julho de lOO!l 
Tabela 1.2: Taxa de delito::i por 100.000 habitantes padroniza.da.s 
Deinter Homicídio Furto 
Doloso 
SJRP -0,89 0,83 
RP -0,65 0,80 " 
Bauru 
-1,06 0,48 
Campinas 0,00 
-0,64 
Soro caba -0,51 
-1,13 
SP 1,51 -1,21 
• 
SJC 0,17 -0,54 
Santos 1,44 1,42 
Média 0, 00 0,00 
DP 1,00 1,00 
fonte: Secretaria de Segurança Pública do Estado de Siío Paulo 
éL.'i ~~s~~~ n.izada.'3 e o critério que :ierú. .uti-
fo~ a<lo illL deterrnin.aça.o dos gr upos; no caso, proximidade dos pontos , 
(distância euclidiana entre as observações). 
2. Definição do n úmero de grupos - O número de grupos pode ser 
definido a priori, através de algum co~ecimento que se tenha. cobre 
os dados (por e.xempb, se os dados referem-se a. característica.a de 
espécimes de insetos e sabe-se que existem três espécies , o pesquisador 
pode forçar a criação de triis grupos), conveniência de análise (aa seg-
mentar um mercado, o pesquisador pode, pQr simplicidade, e:;taJ" in.-
tere3sado na construção de apena.a doi.a a.grupamentos) .~ ainda pode 
ser definido a poBteriori com ba.se nos resultados da análise. · 
3 . lffir:~ç~~3Jl.9s - Nesta etapa deve-se definir o ~~e__ 
~~o na identificação dos grupos. 
4 . ~icl~ç_ií~~ - Deve-se gara.ntrr que de fato as varia.vem 
têm comportamento diferenciado nos diversos grupos. Nesta etapa, é 
comum supor que cada grupo seja uma. amostra alca.tória de alguma. 
imbpopula.ção e ~c~er ~~para compará-las. 
5 . Interpretação dos grupos -Ao final do proce3SO de formação de grupoti 
· é importante caracterizar os grupos formados. O ~t.®s.tl.9JB~ 
\ l11 i v cr:iidB-de Federal de l..n.v râ.3 ·. Dcpn.rt&mento de Ci6ncia.s Exn..Lft..1 - f,avru--MO . 13 
... 
( 
48~ iteuul&Q da IUlllAS e 1ou SEAOHO • 7 11. 11 do Jullio de 2003 
descriti~ é r,ecomendado para esta fase da análise. 
-~ 
· O exemplo utilizado foi bastante reduzido permitind0 a identific:açã.o de 
grupos através apenlli:i de uma inspeção visual. O que fazer quando temos 
urriâ.grande amostra, ou um número maior de variá.veis? Obviamente a 
visualização dos dados estará prejudica.da o que dificulta a coru;trução de 
gr~p os através de procedimentos tão ingênuos. É necessário então uma 
maior formalização do problema para a aplicação da técnica. a uma grande · 
variedade de situações. 
1. 2 · Notação e medidas de parecença 
As medidas de parecença têm '. um papel central nos algoritmos de agrupa-
mentos. Através delas sã.o definidos critérios para avaliar se dois pontos 
estão próximos, e portanto podem fazer parte de urn mesmo grupo, ou não. 
Há doíS tipos de medidas de parecença: medidas de similaridade (quanto 
maior o valor, maior a semelhança entre os objetos) e .medidas de dissimi-
laridade(quanto maior o valor, mais diferentes são os objetos). 
Seja Xi = (Xi1, · · ·, Xip) T o vetor de observL1.Ções do indivíduo i, i = 
1,. , :, n, no qual Xij representa o valor assumido pela vc1.riá.vel j no indivíduo 
i. Por razões didáticas, dividiremos o estudo das medi_das de parecença para. 
dados numéricos, dados categorizados e conjuntos de dadmi c.:om variáveis 
numéricas e variáveis categorizadas: . 
1.2.l Variáveis quantitativas 
As distâncias são a.s medidaB de dissimilaridade mais utilizadas no estudo 
de bancos de-dados com variáveis quantitativas. 
Uma. medida lÍ.ik representa uma distância entre os pontos i e k se 
a) do. ~ O para qualquer escolha de i e k; 
b) "·· ~-O· - u - J 
U11iversida.d1 fi:deral de Lavrll.l.I. Dep~a.menlo de CilncilfJI EXll.l.U. Lii.vr...,.·MO 14 
\ . 
\ 
' 
.. . 
~ 8 1 Reuni ao d" RBRAS e 1 Oº SE AGllO - 7 n. 11 d• J ulho de ~003 
A distância euclidiana. entre os indivíduos i e k é dada por . 
p ·: L (Xij - X~j) 2 • 
j=l ··. 
A idéia básica é considerar cada observação como um ponto num e::ipaço 
euclidiano e, desse modo, a fórmulél. acima nos dá a distância. física entre os 
pontos. 
Uma outra. d.Wtância utilizada em an.ál.ise de agrupamentos é a distância 
Manhn.tta.n ou quarteirá? ( city block). Essa distância é definida por 
p 
d~i) = ~ 1 Xii - Xki 1 . 
j=l 
Kaufman e Rousseeuw (1990) comentam sobre a origem deBse nome. Imag-
ine uma cidade na qual os quarteirões sejam quadrados de largurçi. 1 (Figura 
1. 7). Na Figura 1. 7 se· q uisennos n(Js mover entre os pontos A e B percor-
reremos 1 no mínimo, uma distância 3, u.ma vez que não podemos cruzar um 
quarteirão. Esse valor é obtido através da expressão a.cima. 
Figura 1.7: Distância quarteirão entre os pontos A e B 
Td.Ilto a distância euclid.i..a.n.a como a quarteirão são CMos particulare::i da 
V11iveroid...d• F•dern.I de Lnvr"" - Dopo.rta.mento de Ci~ncio.o Exntu • LavrM-MO 15 
41l~ Hcuull.o d• IUHtAS e lOU Sll:AGnO. 7 u li de Julho de 200.s 
distância de Minkowsky que é dada por 
p 
d~r;1) = m I:; (Xij - Xk;·)'n 1 m ~ 1. 
j=l 
Alternativamente às medidas de dis'tância, outras medidas de similari-
dade ou di.ssimilarida.de podem ser utiliza.da.ci. Na Seção 1.7.l apresentamos 
l.lill· exemplo no qual utilizarse o coeficiente de correlação como medida de 
similaridade. 
1.2.2 Variáveis categorizadas 
Exemplo 2: a Tabela 1.3 tiaz informações sobre clientes de um posto de 
gasolina. Ao a.nallimr as V'cJ.riaveis desse cadastro1 notamos a presença. de 
V'cJ.r1áveis qualitativas nominais (Combustível e Modelo), ardina.is (Classe 
imcial e Potência) e quantitativa.':! (Idade e Número de carros). Apresentare-
UJOl:l1. nesta seção, medidas de parecença para V'ariáveis quaJitativa.B. Analis-
. aremos separadamente as V'ã.riáveis nominais e ordinais. 
Tc;beJa 1.3: Canastro àe cJjentes àe um posto àe gasoll.na 
N. de 
.. 
Classe Oombus-
Cliente Idade carros ,social Potência tível Modelo 
1 20 1 A Baixa Gasolina Esporte 
2 37 3 
: 
A Alta · Gasolina Luxo 
3 22 2 B Média Gasolina Esporte 
4 26 2 e· B Alta Gasolina . Esporte 
5 45 2 o Média Áleool Standard 
6 42 1 D BaiXa Álcool Standard 
,O tratamento básico das variáveis qualitativas consiste na codificação 
de suas respostas através de V'c1Ii<iveis indicadoras (dummieii) . Desse modo1 
podemos ter: · 
N _ { 1, se Gasolina 
1 ~ O, se Álcool · 
N
2 
= { 1, se Esp_orte N
3 
= { 1, se Luxo 
O, se Nao O, se Não 
Uuivei-uidu.dc l~dc.r.a.l de LuvrlL!I - Dtl!J>~ü.mcm~o de Ciênciu Bxo.lU-3 - Lu.vr1U-MG 16 
-
í 
18~ lleunlllo da RllRJ\S e 1 o• SEI\ ORO - 1 a 11 de Julho de 2003 
01 = { 1, se Cl~se A O, se Nao 02 = { 1, se Cla~se B O = { 1, se Cla:J~e C . O, se Nao 3 O, se Não 
O _ { l 1 se Potência Média 
4 
- O, se Outra potência 0 
~ { 1, se Potência Alta 
5 
- O, se Outra potência 
A Tabela L4 traz os dados codificados segundo aB variáveis indicado~aa 
recém definidas. 
Tabela 1.4: Codificação das vc:.Lriáveis qualitativas 
Cliente N1 N2 N3 01 02 Ç)3 04 Os 
1 1 1 n 1 o o o .O V 
2 1 o 1 1 o o o 1 
3 1 1 o o 1 o 1 o 
4 1 1 o o 1 o o 1 
5 o o o o o l 1 o 
6 o o o o o o o o 
' 
Para coillltrução da.s mcdidM de parecença,· iremos resumir aa observa~ões 
de dois indivíduos conforme indicado na Tabela 1.5. 
Tabela 1.5: Comparação entre oa indivíduos i e k 
CHente k 
Cliente i 1 o Total 
1 a b a+b 
o e d e+ d 
Total a+c b+d m 
UnT-.....sidA<le F'eder&l de Ll>VT M - D ep!V"tamento de Ci&nciM Ex&lM - LavrM-MO 17 
1 
"' • 
·11!1 llcu11i&o d& IUlllAS e Wª SEAGltO - 7 • 11 de Julho de ~003 
· ra.c)ocíllio1 podemos sugerir1 respectivamente 1 as scguinteP medida.s de simi-
laridade e dissimilaridade: 
a+d 
Sjk = --
m 
b+c 
e óik = --. 
m 
Note que Sik é a proporção de concordânciii-9 entre aB V"Miáveis indicadoras e 
Dik à de di.Bcordâ:ncias. Em Bussab et al.{1990) e Kaufman e RoUBseeuw (1990) 
são apresentadas outras alternativas para mensurar a parecença entre variáveis 
qualitativas. 
·A Ta.bela. Lo traz a comparação entre os indivíduos 1 e 2. Note que das 
oito combinações1 5 encontr<l:m-se na diagonal principal e 3 na secundária. 
A simil;Ú-idade entre esses indivíduos pode ·aer dada por s 12 = 5/8 = 62, 5% 
e a dissimilarída.de por 012 = 3/8 = 371 53. 
Td.bela 1.6: Comp~ação entre os indivíduos 1 e 2 
Cliente 2 
Cliente 1 1 o Total 
1 2 1 3 
o 2 3 5 
Total 4 4 8 
Note que se calcularmos a distância. euclidiana entre a. primeira e segunda 
linha da Tabela 1.4 teremos exatamente o numera.dor de 012. Podemos, · 
então, interpretar óik corno sendo a distância. euclidiana a.e quadrado média 
entre os vetores de variáveis indicadoras dos indivíduos i e k. 
o método acima apresent~ alguma.9 deficiências n.o. que se refere à8 
variá.veis ordinais. Note que ao não levar em conta a ordinalida.de da v-c1.riável, 
a.o compara.r1 por exemplo 1 um indivíduo da classe social A com um da B 
teremo1:1. uma. medida de similaxidade menor do que entre um indivíduo da 
classe A com D. No entanto, A e B sã.o mais parecidos do que A e D. Uma 
maneira de cbntornar esse problema é utilizar a ordinalidade das variáveis 
na. CGD.$truçã.o .das variáveis indica.doras. No exemplo, poderíamos ter 
0 .. = {·1, se Classe A o•= { 1, se B ou A O~ = { 1, .se C, B ou A 1 O, se Não 2 O, se Não 3 O, se Não 
A T.i.bela 1. 7 compara as variáveis 0 1 , 0 2 e 03 com a criadas segundo o 
critério acima. Considerando apenas esses dados 1 se nã.o leva.rmos em conta 
Univcraldu.dc l'l:dcr.U de Ll4vr...., - De111U111.Wc11iu de Oihu:l11:1 Exll.41>:1 - L&vru.a-MO 18 
' \ ~a• Reunil\o d& Rl:lllAS e· tOO Sk~AO fl.O - T & 11 d~ Jlllho do '.lOO!l 
a ord.i.nalida.de da variável {três últimas colunas da tabela), teríamos que 
a dissin;.ilariàade entre alguém da cia.sse A e B ser~a 2/3 e entre pessoas 
das clMses A e D seria 1/3, menor do · que a dissimila.ridade entre A .e ·B. 
Levando-se em conta. a ardina.lida.de (três primeiras colunas da tabela), entre 
A e B ter.íamos uma dissimilaridade de 1/3 e entre A e D 3/3. 
' •, . 
Tabela 1.7: Codificação das Vru-iáveia ordinaiH 
Cliente Oi 02 03 01 02 . 03 
1 1 1 1 1 o o 
2 1 1 1 1 o o 
3 o 1 1 o 1 o 
4 o 1 1 o 1 o 
5 o o 1 o o 1 
6 o o o o o o 
1.2.3 Variáveis categorizadas e quantitativas 
Na Tabela 1.3 temos tanto variáveis categorizadas como quantitativas. Nesta 
seção, discutiremos como determinar uma. medida de parecença que envolva 
os doi.Y tipos de variáveis. 
Na seção anterior, afirmam mi que Ôik era a distância euclidiana ao qtiadrado 
média entre os vetores formados com as varjáveiB indicadorá.s. Uma solução 
para a mistura de vari.áveiR encontrada. nesses dadosJ seria calcular também 
a distância euclidiana ao quadrado média utili.Zarido as va,riáveia gua:ntita-
tivcLS e ponderar o resultad~ com a diatâ.ncia obtida utilizandoas ~iá.veí; 
indicadoras. O problema é que Ôik eBtá re::itrita entre zero e um, o qué.?J'.10 é 
comparável com as distância.s ba.seade.s m.s va,riáveia Idade e Nú.mero de car-
ros. Uma saída é _:padronizar as variáveis quantitativas atravé::i da seguinte 
fórmula: 
'rV _ X - min(X) 
- ma:x(X) - min(X) -
, · Idade - 20 
Note que O ~ W ~ 1. Para a. va.riavel Idade, teríamos W1 = 
45 _ 20 
e 
para Número de carros, :W2 = i:- ,~- · A Tabela 1.8 traz e31l~ cák~lo::i. 
v - J. 
Univeraida.dc Federal de L~vrM - D~p:..:ta.mento ô~ Cii!ndM ExatM - Ln.vro.3-MG 19 
1a1· nu111il.o d11 ll.llllAS e 100 Si::AGfiO . 7., 11 dr Julho de 2oos 
Tabela 1.8: Cadastro de clientes de um posto de gasolina 
N. de 
Cliente Idade carros W1 W2 
1 20 1 0,00 0,00 
,. •'· 2 37 . . 3 0,68 1,00 
3 22 2 0,08 0,50 
4 26 2 0,24 0,50 
5 45 2 1,00 0,50 
6 42 1 0,88 0,00 
mínimo 20 1 o o 
máximo 45 3 1 1 
A partir da Tabela 1.8, determinamos que~ distânc.:ia euclidiana. padroojzadél:. 
entre os clientes 1 e 2, com base em W1 e W2 é da.da por 
d2 . = {O, 00 - O, G8)2 + {O, 00 - 1, 00) 2 = 0 731 pl2 2 , . 
Anteriormente, havíamos concluído que ó12 , =O, 375. A questão que se 
coloca é como definir uma medida de dissimilaridade que leve em conta q e 
~- Uma ·p ossível solução seria coIUJtruir uma. distância ponderada do tipo 
dik = WqÓik + Wnd;iki 
. onde Wq é um pe.':.lO atribuído às V"d.IÍIÍ.Veis qualitativas e Wn UID peso atribuído 
às numéricas. Uma sugestão de ponderação seria utilizar o número de 
va.riáveis de cada tipo no banco de dados, assim, teríamos 
dik = 4Óik + 2d~};· 
Note.que ao ponderar a pa,.rte referente às variáveis qualitativa.'.!, coruiderou-
se .apenas. o número de variáveis originais e não o número de variávei.B indi-
cadoras. A distância entre os indivíduos 1 e 2 seria. dada. por d12 = 2, 962. 
l.2.4 Outras abordagens 
Há outras maneiras de obter med.ida.s de similaridade ou de dissimilar.idade 
que não pressupõem a existência de um conjunto de variá.veis. Pode-se, por 
20 
~\ 
~a• ncuni!l.o d,. nBRA S e 100 SE A G rtO - 7 a li do Julho de 200.:l 
exemplo, apresentar os objetos aos pares e pedir aos entrevistados que ava-
liem o grau de semelhança ou dissemelha.nça entre eles através da atribuição 
de um escore. Desse modo, é possível construir para cada elemento da 
amostra uma matriz de parecença. Para a amostra como um todo, pode-
se utilizar uma matriz de parecença. média utilizando os dados de todas a.s 
pessoa.s, ou de pessoas que pertençam · a grupos uniformes (por eXemplo, 
residam numa mesma á.r:ea). Métodos de a.grupamento podem ser apl;cados 
a essas matrizes. 
1.3 Algoritmos de agrupamentos 
A maioria àos algoritmos utifuados na formação dos agrupamentos pode ser 
classificada em duas grandes famílias de métodos: hierárquicos e de partição. 
1.3.1 Métodos hierárquicos aglomerativos 
Nesses métodos os .agrupamentos são formados a. partir de uma m();triz de 
parncr-mça. Num primeiro pa..'lso, a matriz é utilizada para identificar. o par 
de objetos que mais se parece. A partir desse instante esse par é agrupado e 
8erá. considerado como sendo um único objeto. Isso requer que se defina uma 
nova matri7. de parecen_ç~ em seguida identificarse o par mais semelhante, 
que formará um novo grupo, e assim sucessiYa.mente até que toàos os obje.tos 
estejam _reunidos num mesmo grupo. Através da análise do histórico do 
~_grupamento, ·pode-se definir a posteriori o número de grupos existentes nos 
d ados. 
O que diferencia esses métodos é a. reEQ:a. para a redefinição da ma:triz de 
parecença a cada união de pares de objetos. Neste texto~ veremos '.algumas 
da~ mais comun.s. Como ilustração do método !a.remos uma aplicaçãO passo 
a pa:;so de uma dessas técnicas , aos dados das cinco primeiras linhM da 
Tabela 1.2. Na. Tabela 1.9 são apresentados os dados. Serão utilizadas as 
variáveis padronizadas. 
A Tabela 1.10 traz as ilistâncias euclidiana.s cu.lculu..da.s entré QS p<u-es 
de Deinters. O primeiro passo da análise é identificar os ~,xµ· is ~tl:. 
h· tes. Observar-se a. menor drntància entre SJH.P e Bauru (ü,55). Lóbo es::lél.':l 
duas regiões farão parte do primeiro agrupamento e serão consideradas como 
sendo urri.a ünlca a.té ·o final do p~nio. · 
Univcroid!>dc Federtl.l de Lavrn.o . D ep11rtn.menlo de Ci~ncirui Exatiu • Lavr..,,.MO 21 
~ai ILcunilM> d" IUHl.AS e 100 SEAGRO - 7" 11 de Julho de 2003 
Tabela 1.9: Ta:X:a de delitos por 100.000 habitantes padronizada.s 
.Dados brutos Dados padronizados 
De inter Homicídio FUrto Homicídio Furto 
doloso .. doloso 
SJRP 10,85 1.500,80 -0,66 0,85 
RP 14,13 1.496,07 -0,07 0,81 
Bauru 8,62 1.44-8,79 -1,07 0,47 
Campinas 23,04 1.277,33 1,53 -0,79 
Soro caba 16,04 1.204,02 0,27 -1,33 
Média 14,54 1.385,40 0 ,00 0,00 
DP 5,55 136,Hi 1,00 1,00 . 
fonte: Secretaria de Segurança Pública do Estado de São Paulo 
Tabela 1.10: Matriz de Distâncias 
·Deinter SJR.P RP Bauru Campinas Soro caba 
SJRP o,oo 
IlP 0,59 0,00 
Di·mru 0,55 1,05 0,00 
Ca.mpina.s 2,74 2,27 2,89 . 0,00 
Sorocaba 2,37 2,17 2,24 1,37 0,00 . 
. O próximo passo é obter a nova matriz de distâncias. O problema est4 
em definir a distância entre o grupo (SJRP, Bauru) e as demais cidades. 
'lbme, por exemplo, · RP, temos que d[SJRP, RP}= 0,59 e d[Bauru, RP} = 
1,05. Como podemos definir d((SJRP, Bauru), RP)? 
É, neste ponto que os métodos hierárquicos se diferenciam. Sejam G 1 
e G2 dois)çrupos de objetos, com 91 ~ 1 e 92 ~ 1 objetos, respectiva-
mente. Abaixo apresentamos a definição da distâ.ncia d[G1 > G2] segundo 
alglins' métodos hierárquicos de agrupamento. 
L fyfétodo do vizinho mrus próximo: A distância é a menor distância 
-entre um elemento de G1 e um elemento de G2, ou seja, 
d[G1, G2] = min dik· 
iEG1 kEG:i 
Univer>idiuie l'ederll.I de L~vru. DcµIU"tiunen~o do Ciluciu Ex!Ltu - La.vrll4-MC 22 
' \ 
48" Rcunillo d11 RBRAS • 1 o0 SEAGno - 7 a 11 d~ Julho do 200:1 
2. Método do vizinho ruais longe. Define-se a distância como a ina.ior 
distância entre um elemento de G1 e um elemento de G2, ou seja, 
3. Método das médias dl.15 distâncias. Nesse caso caJcuJ~,se a média 
das distâ.nciM entre os elementos de G1 e os de G2 . 
4. Método da centróide. Este método define a coordenada de c:ada 
grupo como sendo a média das coordena.das de seus objetos. Uma vez 
obtida essa coordenada, denominada centróide, a distância .entre o:; 
grupos é obtida através do cálculo das distâncias entre M centróides. 
5. Método de Ward. A alocação de um elemento a um grupo é feita 
de modo 'L minimizar uma medida de homogeneidade interna. · 
A seguir construiremos os grupos utili..Zando alguoo dos ruétodo::i descritos 
'""" acima. 
Método do vizinho ma.is longe 
Retomando o Exemplo 1, temos d[SJRP, RP] = O, 59 e d[Bauru, RP] =: 1, 05, 
logo, d((SJRP, Bauru), RPJ = ma.x{O, 59; 1, 05} ·= 1, 05. Procedendo desae 
modo, eucontramo's a nova matriz de dissimilaridades reproduzida na rabeia 
.. ' 
1.11. 
Tabela 1.11: Matriz de Distâncias 
Deinter SjRP,Bauru RP CampinaE. Sorocabà. 
SJHP, Bauru 0,00 
IlP 1105 0,00 
Caro pi.nas 2,89 2,27 0,00 
So.roc.aba 2,37 2,17 1,37 0,00 
2:.l 
( 
<~ª IU:uni ll.tl d" IWllAS e 1ou SEAGJlO - 7" li de JuJJ.o de 2003 
. .r.L· ' ~ .. . ;~'"'·· · " 
•' ' .· ·1' ~Jff:9: ~ t'.1 .. ;. ! · :::1 ~~~~ 
i; .. .... .. ,,,;;11~ 
Analisando a i:l.OV"à. matriz 1 temos que as regiões ma.is próximas são (SJRP, ' 
Bauru). e RPi que passam a fazer parte do mesmo grupo. Redefinida a ma-
triz de distâncias (Tabela 1.12), not amos que a menor distância é 1,37, entre 
a.q regiões de Campinas e Sorocaba, doravante agrupadas. 
Td.bela 1.12: Matriz de Distâncias 
Deinter SJRP1 Bauru, RP Campinas Sorocaba 
SJRP1 Bauru1 RP 0,00 
Campinas 2,89 0,00 
Soro caba 2,37 1,37 0,00 
Por fim, agrupamos todas ás regiões a ~a distância de 2,89. 
Para definiro número de grupos existente nos dados, podemos comtruir 
um resumo do procedimento ('l'c:1.bela 1.13). 1\g_a.Ila.Jisp.r Q...hj.Btór ieçt,,p9.tarp.,0!3 
u.i:p g~4e.. i~emiz;ito..n9'-dist_ij,__ncj_a e;üre 9s p_a.ssos_ 3 e,A_. ;tsso ~Rocle ~:q_dicµ_ 
gue a J1!1Itir dÇLpasso 4_co:r:µe,çamos a -ªgnn?ar r~giQ.es ~e.tergg~n~ª'1J,,v.9U S5=ja 
q~e~d.!:!v~r.(a.Il!.os_J_~r___en~n:.ª'32-0~ ~x:·tmo~no---.p~sg ~3. Somos lev-<Ldôs a 
formar dois grupos (SJRP, Bauru, RP) e (Campinas, Sorocaba). 
. Pruiso 
l 
Tabela. 1.13: Resumo do procedimento 
Grupo Distância. 
0,55 
. . 2 
SJRP, Bauru 
SJRP; Bauru, RP 
Campinas, Sorocaba 
1,05 ~'"' 
3 
,. ,-1' 
1137 J 1 L •}..~, ; ~· 1 
.. 1. SJRP, Bauru, RP, Campinas, Sorocaba 2,89 .,~ . 
"· 
Para facilitar a identificação do número de grupos, podemos lançar mão 
de um procedimento gráfico denominado dendrograma (Figura 1.8). Neste 
gráfico, dispomos no eixo das u.bscllisas os objetos (preferencialmente na 
ordem em que foram agrupados) e no eixo das ordenadas as distâ.ncia.s em 
que llil uniões se realizaram. A altura das barrru:i coincide com a distância 
do agrupamento. Ao analisar o gráfico, bUBcamos Ahservar grandes saltos. 
' 1:__.,~----J "--.r-'°''-. '- ' 
Esses saltos indicam a união de objetos heterogêneos . . 
24 
' 
' 
' 
.•'" 
48• Jlt11ni1J.o da JlBRAS e 10• SE/\G110 - 7 o. 11 d• Julho de 200~ 
· ; 
' , • 
Figura 1.8: Dendrograma 
Método .de Ward 
A cada etapa do método de Ward, ~, unir objetos que tornem os 
agrup ntos formados os ~o.Q!.og~e s p.os_si:v~_l. A ~Q
~n~e utilizada baseia-se na ~a~de~qu~a,Qç,s-t.Qia.lde~ 
~d~D.Ç,.ÍiJ. . . Como il.ustração, coDBidere apenM a primeiru. vi.U"iá.vei 
do vetor de observações (X1) e admita a formação de k grupos. Nes.;e caso 
a partição da soma de quadrados total será '.dada por: 
. \:,~1.t. ~-l'l'\, .llt" 
,1'.J V 
SQT(l) = SQE(l) + SQD(l) 
k k k 
I: :L (xn -X1)2 = L:ni (x11 -x1)2+ I: I: (xn - X;1) 2 .• 
j=I iEG1 j=l j=l iEG; . : · :, 
onde SQT(l) denota a soma de quadrados total da variável 1, SQE(l) a 
soma de quadrados entre grupos da variável 1, SQD(l) a soma de quadra-
dos dentro de grupo da variável 1, Gj é o conjunto que indica. os ele.l..Gentos 
do grupo j, n1 é o número de elementos do grupo j, X 1 sendo a média 
da variável Xi · e Xj1 é a média da variável 1 no grupo j. Nessa partição, 
29lJJJ, mede o a d ho og~dade .... Uit~@s.._gr_up_g~l~ã..q_,a_ 
Xi, enquanto que ®E-(1}.J;,xJ.e e o g a.u e heterogen id@e nt~s.,,_g~ . ~_,_ Desse modo, uma boa partição, para X 1 ~aquela que ~ · 
~e, consequentemente~ e S • 1 . Para. considerar todas a.~ 
Univcr>idu.de Federal de Le.vro.,, - Depl\rta.monto de Ci~nciM ExnLM - LnvrM-MG 25 
1 
18~ ll•uniAü' d1> lllilLAS • 100 SBAGHO - 7 lL 11 d• Julho de 2005 
variáveis simult'aneamente define-se a soma de quadrados da partição como: 
p 
SQDP = l:SQD(i). (1.1) 
i=l 
O primeiro passo do procedimento consiste na construçã.o de n-1 grupos, 
sendo n o número total de observaç.ões. A Tabela 1.14 traz a soma de 
quadrados da. partição para os possíveis agrupamentos obtidos para os dados 
do exemplo. Note que no agrupamento 2 obtemos a menor SQDP, o que nos 
leva a unir SJUP e Bauru. 
Tabela 1.14: Primeiro passo do Método de Wa.rd 
Agrupamento Grupos SQD(l) SQD(2) SQDP 
1 (SJRP,RP}, (B), (C), (S) 0,1~4 01001 0,175 
2 (SJRP1B)1 (UP) 1 (C), (S) 0,081 0,073 0,154 
3 (SJRP,C), (RP), (B), (S) 2,410 1,347 31757 
• 4 (SJRP,S), (RP), (B), (C) 
.. 
0,437 21375 2,812 
5 (SJRP)1 (11.P,B), (C), ($) 0,492 0,060 0,552 
6 (SJRP), (RP,C), (B), (S) 1,287 1,290 2,577 
7 (SJRP), (RP,S), (B), (C) 01059 2,300 2,359 
8 (SJRP), (RP), (B,O), (S) . 3,372 0,793 4,165 
9 (SJRP), (RP), (B,S), (O) : 0,893 1,616 2,509 
10 (SJllP), (R.P), (B), (C,S) 0,795 0,145 0,940 
Os próximos passos consistem na formação de (n-2), (n-3), ... , 1 grupos, 
sendo que o critério de seleção é a escolha do agrupamento com menor SQDP 
. em cada passo. Retomando o Exe~plo l,' à Tabela 1.15 descreve 08 pa~rnos 
restantes do procedimento. 
A' Ta.bela 1.16 resume a aplicação dQ 1 método ao exemplo. A escolha 
'do númer.'o de grupos é feita de maneira, ~im.ila.r à, indicada no método do 
·· · vizinho mais longe. No ca.so, notamos que .~so ~o um salto muito 
ai_or~9_p._g_3.e~s~J..CL nos as os an~eriore . Isso ~~olha & 2 
. gr_!!P~_(S.&,-1~11J1m.J1l?-)~(-Ca_mpim!S Sor:oc@a). 
Pi:lia. a colll5truçã.u <lo <leudrogru.mu. (Figuru. 1.9) optirmoH por colocar na 
ordena.da a raiz quadrada da SQDP de cada passo. Essa opção garante que 
a e:::;cala de medida <la distância seja a m~sma das obsA.rvações origina.is. Não 
há, no entanto, a obrigatoriedade de se .proceder desse modo . 
. . 
Unive~id 11de l'tderAI de L1>vr"" • D•pllrt~ento d• Cifnciwi Eu.tu - Lnvr..,.·MG 26 
--
\ 
~aa lleu nil\o dn nBR.AS o IOQ SEAGRO • i"' li do Julho do WO.:l 
Tabela 1.15: Demais passos do Método de Ward · 
Passo 2 Grupos SQD(l) SQD(2) SQDP 
1 (SJRP,B,RP), (C), {S) 0,498 0)089 . 0,587 . 
2 (SJRP,B,C), (RP), (S) 3,908 1,475 5,,383 
3 (SJRP1B,S), (RP), (C) 0,940 2,709 3,649 
4 (SJRP,B), (RP,C) 1 (S) 1,368 1,363 2,731 
5 (SJRP,B), (RP,S) 1 (C) 0,140 2,373 2,513 
5 (SJRP1B), (RP), (C,S) 0,875 0,218 . 1,093 ·. 
Passo 3 Grupos 1 SQD(l) SQD(2) SQDP 
1 (SJRP1B1RP,C), (S) 3,908 1,782 5,690 
2 (SJRP,B 1RP1S), (C) 1,068 3,213 4,281 
3 (SJRP,B,RP), (C,S) 1,292 0,234 1,5.27 
Passo 4 Grupos SQD(l) SQD(2) SQDP 
1 (SJRP,B,RP,C,S) 4 4 8 
Tabela 1.16: Resum o da aplicação do método de Ward 
Passo União SQDP y!SQDP 
1 SJRP, Bauru 0,154 0,3!12 
2 SJ1lP, Bauru, RP . 0,587 o, 76() . 
3 Campinas, Sorocaba 1,527 1,236 
4 .. SJRP, Bauru, RP, Campinas, Sorócaba 8,000 2,82S 
-, Comparação dos métodos hierárquicos 
.. 
étod _d.Q,"Y:'. • ." ó maia 0~1~d a E m~s ~h mogê os.:-do 
, ue o~éto.do a v· inb....!?_, ·s ertg. Isso se deve ao fato de ser um critério 
bastante rigoroso. Note que uma distância pequena. entre doi3 grupos implica 
na proximidade de todos os elementos desses grupos. A primeira coluna. da 
' Figura 1.10 representa a distància entre dois grupos de objetos calculada peb 
critério do vizinho mais longe. Para que os dois grupos sejam consiqeradoa 
próximos, é necessário que n. linha que os une tenha comprimento pequeno, 
o que só aconteceria se todos 06 pontos representados por círculos est~~essem 
próximos aoo pontos representados por quadra.dos. Já na segunda coluna., 
representamos a distância obtida pelo método . do vizinho mais perto, note· 
U 11iversida.de J.'c<l ie r.G.1 de Lavoe.:: · Depa..rta.m:nto de Ci~ncio..! E:satM .. J, av ru.-MG 27 
1 
49a ll.cuuilo d" llliJlAS e tOR SEAGllO . 7 " l l d• Julho do 2003 
; . 
Figura, 1.9: Dendrograma 
que apúsar da distância ser pequena há pontos, nos dois grupos, que diferem 
m,uito entre si. O método das médias das distâncias posiciona-se entre os 
dois . 
. O Método de Ward, é atraente por basear-se numa medida com .[g.rJ,e 
~o.__e por g~iQ)l.P.J> l:l que, assim como os do método vizinho 
ma.is longe, possuem uma alta homogeneid e interna. 
~ _,- ~_,,... 
1.3.2 . ·Métodos de partição 
·considere a existência de 4 objetos: A, B, C e D. De quantas i;g~a{!. 
~~~Q~ _ _çj is~~ co , to_~o~ ~~bJ~o,s? Cada uma dessas 
maneiras ~~IDJt~pgt1ç~. A Tabela 1.17 apresenta toda.s as 
partições possíveis desses quatro objetos. 
Intuitivumente, podemos realizar uma análise de agrupamentos avaliando 
todas as pos'síveis partições e identificando a melhor dela.R segundo algum 
critério de. qualidade. A aplicação de tal método sempre levaria à melhor 
divisão em grupos. Apesar de eficaz esse processo é extremamente inefi-
ciente, uma vez que o número de partições a serem avilidas é 2n - 1, sendo 
n o número de objetos em consideração. Desse modo, para uma amostra 
pequena, com apenas 10 objetos, terí.amos que avaliar 1C23 partições; se a 
amostra fosse de-40 objetos, o número de partições a serem avaliadas é da 
\Júiveraid..<11 FtdrruJ do Luvr..a • Oep""1u.mo11to de C lD nci"" Ex..ta.a - L"vr1U-MG 28 
, . 
~si Rwnl&o de. llDRAS e lo• S!!;AGHO • 7" 1 l de Julho d• 2003 
·q· 
!l "tit~ 
: :.: ~, [::: :. ::·.~-;,.~~:~ ... ::~ ·.:· ::.:: ::: ;l.:~ :i. :.:.:-. :;:·:~ :l~: :n~~:.:.;.;.:;i;~(~i.:..\';.r.i ,:· 
\ 
::\f: 
r 
1 ~~rckJi1*1'. ;;,;,,,l=,,,~~····~"'"'·'·"'""~' '· 
.J 
' 1Y·~.·,·.:.~.:·.~i:.'.1·.;·?·: .. :~.,.~ .... ·.1·:'J··.· .. :.~;ri:··t····~.··.·~·.·,': ·11·.··:.•(·.1·:·~:~.·.·.·.:1i .. ,~1·.~ .. c.~g~:· ·,f_· .•. ·t·~;··.·.::·:;··: .. ~ .. ~ .... :~.·;:.1.·.~··.~~. :.:.r.~ .. i:.:: .. 1.:.::.~~.?.{.;,;;~.·~.·~.:.~.6 .. t.;r.1.il.·.:.:1.~.~.:1 !J}j~~~~\~11t\~~\~H~:~&~~~~w~n~~~~ ::,. : ... ,:; . .. ,- · ~ ·, · · ·· Eiir~f~qít~t~~rd.·. ~;,, ... .. ·. 
Figura 1.10: Distãncia entre dois grupos calculadaº'3 pelo método do vi.únho 
mais longe e pelo méto do elo vizinho ma.is perto 
ordem de 1012 • Do ponto de vista computac~ona.l, tal método é de aplicação 
inviável para a.mostra.g não muito grandes. · 
Os métodos de partição resumem algoritmos que permitem é!- identi-
fic.:a,ção de boas partições segundo critérior; de qu.alidade específicos. 
Método das k-méd.ius 
Para diminuir o espectro das possíveis partições, o método das k-média.s 
~zy, que se estipule a priori o número de grup~~ que devem iier gerados. 
~ ' 
Critério de qualidade da partição 
, 
. · .. , ! 
Denote por Xi= (Xi!, ... , Xip) T o vetor de observações do objeto i. 
Os métodos de partição buscam encontrar a partição cujos .~ ap-
resentem alta homogeneidade interna (observações parecidas) e que sejam 
diferentes entre s1. Os critérios -de qualidade procuram a.valia.r essa. pro-
priedade. 
O critério empregado pelo método das k-médias basei0rse na. partição 
UnivoTOidade Federe.! do Lavra.o - o ·opnrtn.monto de Oi,ncin.o Exalas • Lavr..,,.MO 29 
·. 
,. 
'. 
~ . . ' ' 
-'8~ R.e1rnílo d6 JlBltAS e 10• SEAOJlO - 7 & li de J11JJ.o de ~003 
Tabela 1.17: Partições de quatro objetos 
Partição Grupos formados Número de grupos 
1 {A} {B} {C} {D} 4 
2 {A,B} {O} {D} 3 
3 {A,C} {B} {D} : 3 
4 {A,D} {B} {C} 3 
5 {B, C} {A} {D} 3 
. .l fi {B, D} {A} {O} 3 
7 {O, D} {A} {B} 3 
8 {A,B,C} {D} 2 
9 {A,B ,D} {O} 2 
10 {A,C,D} {B} 2 
11 {B 1C,;D} {A} 2 
12 {A,B} {C,D} 2 
13 {A,C} {B,D} 2 
14 {A,D} {B,C} . 2 
15 {A,B,C,D} 1 
da soma de quadrados total de uma análise de variância, tal como empre-
gado ~o Método de Ward. O critério de qualidade adotado no método das 
k-médiaB baseia-se na minimização da soma de quadrados da partição, tal 
~ definida em (Ll). Uma partição será considerada ótima se minimizar ; 
SQDP. · 
Algoritmo de fonnação dos grupos 
Pàra ilust~ , um algoritmo utilizado no método das k-médias, considere 
. os dados padrori:iza.dos da 'rã.bela 1.9. Admita que desejdl'.Oos formar dois 
<:.,, • . • 
grupos. 
O algoritmo começa com a .formação d~ uma p~tição inic·al. Uma 
maneira de obter essa partição é adotar ~___,-@~ co~E.QP-~ ~ 
,~t-id~,_.,t-ax.@ém~~n.Q_~i.n.a.@.s- sementes (por exemplo, as duas primeiras do 
banco de dados1 no caso, SJRP e RP). A partição in icial é obtida a partir 
das distii.ncias entre cada observ-d.Ção e a.'J sementes. Desse modo, cada ob-
U11íverald1>de F\?denu de L1>vr..a - Depiu-tD.meuto de Ci!11ci"4 Ex11t..., - W.vru.o -M C 30 
.--,. 
\· 
\ 
' 
1 
1 
' 
' 
' \ 
~ a • ll cu n; llo da nBRAS e 1 o 0 SEAGllO - 7 a 11 de Julho d e ~003 
:-;ervação pertencerá ao grupo com a semente mais próxima. · No . exemplo, 
SJRP gerará a formação inicial do Grupo 1 e RP do Grupo 2. As distânciaB 
euclidianas entre cada ponto e as sementes estão na Tabela 1.18. 
Tabela 1.18: Distâncias entre os pontos e a:i. sement~s 
Distância euclidiana. Grupo mais 
Região. d(ponto, SJRP) d(pouto, RP) próximo 
Bauru 0,55 1,05 1 
CampinM 2,74 2,27 2 
Sorocaba 2,37 2,17 2 
A análise da Tabela 1.18 sugere a segulnte formação dos seguintes grupos: 
Grupo 1: SJRP e B <J.uru, 
Grupo 2: RP, Campinas e Sorocaba. 
A Tabela 1.19 apresenta um resumo dos grupos formados. A SQDP 
corre~pondente é 5,30. P or se tratar de um grupo inkial, é bem poss(vel que 
· tam partições melhores do que essa. ü~g~~p~o~ 
por bas§__a d~tância entre e a obs rvaçª9.-_e os_Y.etores médias dos gru o , 
~~-- -----~ ,...- .____ ~ denominados de centróides. A Tabela 1.20 traz esses dados. 
r---.---...___- ~,,.--.-
Tabela 1.19: Análise da partição inicial 
Grupo 1 Grupo 2 
Região Z1 '7 Região Z1 Zz ú2 
SJTI.P -0,66 0,85 RP -0,07 0,81 
Bauru -1,07 0,47 Campinas 1,53 -0,7U 
Soro caba 0,27 -1,33 
Média -0,86 0,66 Média rr,-1..0°, ') -r 010-r 
Variância 0,08 0107 Variância 1,,2~. ' Y,lU ~ 
n 2 2 D. 
1
'3 3 
SQDU) 0,08 0,07 SQD(j) 2,57 2,58 
SQDPa.rt 0,15 5,15 
Un; vcrnidnde Feder1>I de J,iivr""' - D cp<U't o.mcnt o de Ci!ndo.:i Ex 1>to.o - L1>vTM-MG 31 
48ª 11..,1.rnilo dlL llB'llAS a 100 SEACfiO - T" 11 do Julho de WOS 
Tabela 1.20: D.istfi.ncirui entre os pontos e as centróides 
Distância euclidiaru.L Grupo Grupo mais 
: ; < RegiãD até a centróide próximo 
G1 G2 
SJRP 0,28 -1-,ê-3- l 23 I ; 1 1 
IlP 0,81 };-J:-4- O, ?-11 2 1 
Bauru 0,28 -i-;-s-s- 1, (:,., 1 l 
Campinas 2,80 l-;-1-4- I , s ~ 2 2 
Soro caba 2,29 -1-,42 1, 1)) 2 2 
Notamos que R.P está. mais ,próxima da centróide do Grupo 1 do que da 
centróide de seu próprio grupo' (Tabela 1.20), o que sugeri.! que ela está em 
grupo errado. A Tabela 1.21 resume o que acontece a.o rnuJar IlP de grupo. 
···.Tabela 1.21: Análise da segunda partiÇão 
Grupo 1 Grupo 2 
Regifw Z1 Z2 Região Z1 Z2 
SJilP -0,66 0,85 Campinas 1153 ·-O 79 
•. 1 
Bauru -1,07 0,47 Soro caba 0127 -1,:33. 
IU) 
-0,07 0,81 
Média -0,60 0,71 Média 0 ,90 -1 OG 
' . 
· Variância 0,25 0,04 Variância 0,79 0,14 
n 3 3 n · 2 2 
SQD(j) 0,50 0,09 SQD(j) 0,79 0,14 
SQDPart 0,59 0,94 
~o~po2 -élQl-9 -Qru_P-o_l, notamo31 urna grande di}nÍJ}ui__ç~o 
e.a SQD.P,_ que p~sa de _5,3.Q_p,ara:.1 ,53. Isso indica que a nova partição é, 
melhor do · que a anterior. · 
O próximo passo da análise é procurar identificar nov·cU:l mudanças que 
possam levar a uma melhora na partição. Para tanto, calculamos a distância 
entre cada observação e as centróides dos dois grupos. A análise desses 
dados, Tabela 1.221 não sugere nenhuma alteração adicional. 
Univeroidi.dc l'"~dcrll.l do 1.· .. vru.:i. Dop1ut1W1t11lo de Cii nci.., &:at&W. l.&vru-MC 32 
~a~ lleunill.o dn llDllllS e IOg SE AO H.O - 7 " I l cc J u lho de 200J · 
.. 
Tabela 1.22: Distâncias entre os pontos e as centróides da segunda partição 
Distâ.ncia euclidiana Grupo Grupo maia 
Região a,té a centróide próximo 
G1 G2 ., 
SJRP 0,15 2,47 1 1 
., 
RP 0,54 2,11 1 1 
Bauru · 0,52 2,49 . 1 1 
Campinas 2,61 0,69 2 2 
Soroca.ba 2,22 0,6!) 2 2 
A escolha do número de grupos 
Urna restrição na aplicação do método dM k-médias é a nece~mid~de de 
He definir a priori o número de g.!:.!:!QOS a serem formados, o que nem :-iem-
pre acontece em sit uações rea.is. O que fazer quando não sabemos quantos 
grupos existem nos dados? 
ara identi.fi.~ do núme o de upos a serem formados é...nec sári~ ~-...._..r --.......__... _____,,,,,,- __,, ---
it i 1 i za ção do a.1 oritmo para a obtenção de nartições com diferentes nú.roer.os 
'------- ------ ~ ---- .- .t-"'--._....-~ ,/ -- - ~ 
e grupos. Em seguida, sugere-se ~alisar q comportamen~o da SQDP CQ.ll-
... ~ ,,_ --....~ ~ - - .........._ , - _, ·- - . 
forme aumenta-se o número de nartiç·ões. ~. 
---. - __.,,.- ,,.,,,,. J.:' _,,. ...._ 
Método das k-medóides 
O método das k-medóides3 é um método de partição baseMlo numa·' matriz 
de di:;tância entre objetos. A medóide de um grupo é definida coi:no o 
membro do grupo que possui a menor distância euclidiana média:. em relação 
a.os deroa.IB membrosdo grupo. O critério de qualidade utilizado no método 
consite na. minimização da soma da.s diBtâ.ncias entre as · observa.ções . e as 
respectivas medóídes. 
Sendo k o número de grupos a serem formados, o algoritmo l.>usca. iden-
tificar k pontos que sejam representativos dos grupos (medóides). Desse .· 
3 Kaufrn:ui e Rousseeuw (1990) aprezentam uma boa descrição do método. 
U>1iveroido..de Federo.! do Lnv r M - Dc p M\o.mcn\o do Citnciru Exatu • L1wriu-MO 33 
1 
1 
1 
1 
1 
i 
4Bii Jltuioil.u ·d"' llllllAS e 1()11 SEAOllO - 1 .. li de Jul ho d• ~ oos 
· rnodo,·p critério de qualidade do método é dado por: 
n 
G= 2.:Gj 
j=l 
onde O é o critério de qualidade e dlm1, j] representa a d!stância entre a 
.n;i~dqid,ç i (mi) e a observaçãoj. Uma vez identificados essu> pontos, aloca-
8e cada objeto ao grupo de med6ide mais próxima. · 
Apresentaremos o algoritmo descrito na Seção 2.1 de Chu et al. (2002). 
Ilustraremos o algoritmo util.i.zando os dados da Tabela 1.10. 
Admita que desejamos formar dois grupos. O primeiro pa.'lso consiHte 
num chute inicial para as 2 medóides. Admita a escolha de Campinas e 
Bauru. A Tabela 1.23 traz as distâncias entre cada observcLÇão e as medóides, 
a distância mínima e a indicaç~ do grupo a que cada obsel-vaçãoperte~ceria 
se adotássemos essas medóides. 
Tabela 1.23: Distâncias entre cada observação e as medóides inicia.is 
Me d ó ide Distância ,Grupo 
Região Campinas B;LUru mínima a.locado 
SJllP 2,74 0,55 0,55 2 
H.P 2,27 1,05 1,05 2 
.Bauru. 2,89 0,00 0,00 2 
Campinas 0,00 2,89 0,00 1 
Soro caba 1,37 2,24 1,37 1 
- -e 2,97 
Por se .tratar de uma escolha inicial, é possível que existam agrupamentos 
melhores d'o que o apresentado. Para checar isso, sugere-se <tva.liar a. escolha. 
de c<tda .medó+de separada.mente. Inicialmente, manteremos Campinas como 
medóide e subs.titu.iremos Bauru pelas outras regiões. A cada substituição, 
determlllil.IDOS (]. Caso encontremos algum Vã.lar menor do que 2,97, deve-
. mos substituir Bauru pela região que acarretar. o menor C A Tabela 1.24. 
ilustra ~sse processo. 
AnallBando os dados da Tabela·l.24, vemos que a escolha de SJRP como 
medóide minimiza C. No próximo passo, mantemos SJRP cprno medóide e 
~mbstituiinos Campinas (Tabela 1.25). · 
U11ivoroidud• l"rdor .. 1 de Lllvr"" • DcµurtlUn~nto d• Ci!lncilUI l':x11t1U1 - Lnvrna-MG 34 
\ · 
\ 
\ 
\ 48ª Rcunillo da llBilAS e l e>ll SEAGJlO - 7 a l l do Julho do 1003 
1 
1 
\ 
Tabela 1.24: Substituição da primeiréJ. medóide 
Medóide Distância Grupo 
Região Campinas SJRP , . alocado mm1ma 
SJRP 2,74 0,00 0,00 2 
., 
RP 2,27 0,59 0,59 2 ., 
Bauru 2,89 0,55 0,55 2 
Campinas o,oo 2,74 0,00 1 
Soro caba 1,37 2,37 1,37 1 -
e 2,51 
Regiã,o Campinas RP 
SJRP 2,74 0,59 0,59 2 
RP 2,27 0,00 0,00 2 
Bauru 2,89 1,05 1,05 ' 2 
Campina.3 0,00 2,27 0,00 1 
Soro caba 1,37 2,17 1,37 1 
e 3,01 
Região Campinas Sorocaba 
SJRP 2;74 2,37 2,37 2 · 
RP 2,27 2,17 2,17 2 
.. 
Bauru 2,89 2,24 2,24 2 
Campinas 0,00 1,37 0,00 1 
Soro caba 1,37 0,00 0,00 2 
e 6,78 
O bserva.ndo a Tabela 1.25 nã.o observa.mos nenhuma melhora em relação 
às medóides anteriores. Na verdade o valor de C para M metlóides SJRP e 
Sorocaba é o mesmo observado para CampinM e SJRP. O que nos· fkul~a . 
escolher qualquer um desses pares como medóides. Note que os grupos · 
formados sobre as dlli.l.3 e3colhas são· exatamente iguais. 
1.4 Comparação dos métodos 
· A cada passo do método da.s k-médias o algoritmo checa se os objetos estão 
alocados da melhor maneira possível, se não estiverem eles podem 3er re-
alocados. Essa é a principal vantagem do método, que nã.o é compa.rtilha..da. 
Univorsidu.do Fodcrrd de LnvrM - Dop<U"~o.monto de Oillncio.o ExatM • LnvrM-MG 35 
( 
• 1 
1 ' 
i 
· I 
411ª lle'uull<> d~ llUHA!'l e 10ª SEAOILO • T"' 11 de Julho do 200!! 
Tabela 1.25: Substituição de Campinas como m2dóide 
Medóide Distância Grupo . 
. Região SJRP Bauru mínima alocado 
SJRP 0,00 0,55 0,00 1 
IlP 0,5!) 1,05 0,59 1 
Bailrti 0,55 o 00 ' 
' 
o,oo 2 
Campinas 2,74 2,89 2,74 1 
Soro caba 2,37 2,24 2,24 2 
e 5,57 
Região SJilP RP 
SJIU) 0,00 0,59 0,00 1 
RP 0,59 0,00 0,00 2 
Bauru 0,55 1,05 0;55 1 
Campinas 2,74 ' 2,27 2,27 2 
Soro caba 2,37 2,17 2,17 2 
e 4,99 
Região SJRP Soro caba 
SJRP 0,00 2,37 0,00 1 
RP 0,59 2,17 0,59 1 
Bauru 0,55 2,24 . 0,55 1 
e Ulll pi na.s 2,74 1,37 1,37 2 
Soro caba 2,:n 0,00 0,00 2 
o 2,51 
pelos métodos hierá.rgulcos. Nos métodos hierárquicos, uma vez que dois 
objetos são agrupados, eles passam a. pertencer ao mesmo grupo até o final 
do procedimento. Não se leva. em conta que a introdução de novos elementos 
nos grupos pode fazer com que um ponto acabe ficando ma.is próximo a um 
agrupamento vizinho. 
Os métodbs hlerárqllicmi, por sua vez, não requerem que se conheça 
a priori o número de grupos a serem formados. Essa vantagem sugere a 
, utilização de um método hierárquico de agrupamento pa~·a determinação 
de um número inicial de grupos, para a posterior utilização do método das 
k-~édi~; Nesse cMo, ·recomenda-se que a adoção dos métodos do vizinho 
mars longe ou de Ward, uma vez que esBes tendem a formar grupos mais 
ho~ogêneos interna.mente. O método de Ward tem a vantagem adiciona.! de 
U11iv•roid~s"FwdcriU d• L"vru • DepU\IUllenlo de Clincill.ll ExAt._.. 4vraa-MO 36 
· 1a> llcu11ilio da IUJRAS e 10° SEAGllO - 7 11 1 J de Julho de 2003 
' utilizar como critério de agrupamento a mesma medida que é utilizada. pelo 
' método das k-m~clia.s. 
O método das k-méclias é mai.s sen.sível à presenç.a de .valores :1berrantes1 
fazendo com que sua prévia identificação seja necessá.ria. 
A éLplicação de métodos hlerárquicos a gra.ndes massas de dado;· pode aer 
proibitiva, tanto em termos computacionâis, como, muitas vezes, nu. análise ' 
dos resultados obtidos. Nessas circunstãncia3 o método da.s k-médi;L1 parece 
:;er mais indicado. 
Uma recomendação que deve ser seguida por aplica.dores da.~ técnicas de 
agrupamento é, na. medida do possível, utilizar ma.is de um método sobre 
um mesmo conjunto de dados. Posteriormente, através da comparação dos 
grupos formados, pode-se adotar a solução que se apresentar melhor. 
1.5 Validação e interpretação 
Validí:!.r o agrupamento significa. certi.ficar_.se de que os grupos realrnenté 
diferem. Nesta etapa da análise, podem ser empregados vários tesks es-
tatísticos desde univariados para comparação de médias até testes multi-· 
variados, como por exemplo a MANOVA (ver John.sou e Wic.:.hern, 1998, 
por exemplo), no qual busca.se verificar se há diferença estatisticamente 
:significante entre os vetores média de cada grupo. A análise discriminante 
é uma outra técnica multivariada que pode ser utilizada na yalidaçãu dos 
: o.grupamentos. 
1.5.1 Correlação cofenética 
A corrcl;1ção · cofenética. é uma medida de vc1,lidação utilizada, principalmente 
nos métodos de agrupamento hierárquicos. A idéia bá..'3ica é realizar uma 
campa.ração entre as distâncias efetivamente observadas entre os objetos e 
distâncias previ'3tas a partir do processo de agrupamento. 
Para ilustrar a obtenção da. distância prevista1 considere a Tabela 1.1:3, 
que resume a aplicação do método vizinho mais longe aos dados do ExemÍJlo 
1. Observe que SJRP e Bauru foram unidas a uma distância 0,55, essa será 
é1 di::itância previtita entre essas duas regiões. No Passo 2, RP foi unido ao 
grupo anterior, isso faz com que a distância prevista entre RP e SJil.P e 
U11 ivcr!t idadc Fo-dera.l de L-Avra.o - Oeput a..m ento de Ci~nci&.'\ Exala.a .. LavrM-o-MG 37 
' · 
--\ 
---;. 
, . 
\ 
' 
48 1 llcunill-o elo. RBllAS e 10• SEAOltO • 7 o. 11 de Julho de 200:1 
entre RP e Bauru seja de\05. Procedendo desse modo, podemos conatruir 
a Matriz Cofenética (Tabela 1.26) que resume todas asdistâncias previstas. 
Tu.bela 1.26: Matriz Cofenética 
Deinter SJRP RP Bauru Campiri~., S.orocaba 
SJRP 0,00 
RP 1,05 º)ºº 
Bauru 0,55 1,05 0,00 
Campinas 2,89 2,89 2,89 0,00 
Soro caba 2,89 2,89 2,89 1,37 0,00 
Num bom agrupamento espera-se que a.s distâncias previstas respeitem 
a ordem determi.ruLda pelas distâncias observada.s, ou seja, se duas ob-
servações estão próximas, espera-se que a distância prevista entre elas seja 
pequena. Para avaliar a ocorrência desse comportamento, ·define-se a .E2l: 
relação cofenética como sendo a correlação entre as distânCÍ(J..'l efetivamente 
observadas e as previstas. 
A Tabela.1.27 apresentu, lado a lado, a distâncias. obs~rvadas no e.xemplo 
(Tabela 1.10) e as a.presentadas na matriz cofenétíca. No ca.':lo, a correlação 
cofenética foi de 0,95, indicando um agrupa.menta de boa qualidade. 
Tabela 1.27: Comparação da matriz de distâncias e a matriz cofenética 
Região distância distância prevista 
SJilP RP . ·. 0,5!) 1,05 
SJRP Bauru 0,55 0,55 
SJRP Campinas 2,74 2,89 
SJilP Sorocaba 2,37 2,8!) 
RP Bauru 1,05 1,05 
IlP Campinas 2,27 2,89 
IlP Sorocaba 2,17 2,8!J 
Baur u Campinas 2,89 2,89 . 
Bauru Soro caba 2,24 2,89 
CampinaB Sorocaba 1,37 J ,37 
Correlação cofenética 0,95 
Univcr9ida.de F'cdcrn.l d e LnvrM - Dcµartn.mcnlo de Ci~uciti.3 Exaln.n - Ln.vrU!J-MO 38 
~ 
d, 
\ ·IA1 fl.cunil\o d" RBRAS e IOQ SEAGRO • 7 & 11 de Julho de 200!1 
'"" 1.5.2 Gráfico da silhueta 
O grcí.fico da silhueta é um procedimento descritivo para verificar a qualidade 
dos agrupa.mentas form.a.dos1. A idéia. do método é verificar se um ponJ2_ 
está mais próximo dos elementos do Beu próprio giupo ou de elementos de 
!QUPOS vizinhos. Ele baseia-se no cálculo de duas medidas: ~a distância 
média entre o objeto i e os elementos de seu próprio grupo e b(i), a distância 
média entre o objeto i e os elementos do grupo mafo próximo do de i, que 
não seja o seu próprio grupo. 
Seja G( i) o grupo que contém. o objeto i, admita a existência de nG(i) 
observações ne8te grupo. Temos então que 
:z= t41 
( ') jEG(i), jf:.i a t =------
. nG(i) ~ 1 
onde chi é a distância euclidia.na entre ol:! objetos i e j. 
Para cada grupo diferente de G(i), determine a distância média entre 
sem; elementos e i. Defina o grupo H(i) como o de menor distância média 
entre seus elementos e o ponto i, admita que a cordinaJidade de H(i) seju. 
n H( i). O grupo H( i ) é denominado vizinho de i. Assim, temos 
:z= dij 
b(i) = jEH(i), jf;i 
nH(i) 
O valor da silhueta no ponto i é definido 2or 
. . b(i) - a(i) 
s(i) = max:{a(i), b(i)} · 
. ' . 
Essa medida reflete quão adequada foi a alocação de i em sem grupo. Note 
que s(i) é um número que varia entre -1 e l. Valores próximos de 1 indicam 
boa aJocação do ponto, uma vez que, nesse caso, b(i) >> a(i); por outro 
lado, valore3 nega.ti vos sugerem uma. má. alocação, uma vez que o ponto . 
e:;tá, em média, ma.is próximo dos elementos do grupo vizinho do que de seu 
próprio grupo. 
~um bom texto sobre este gráfico é S-plus(2001). 
Univcr~idndo Feder&! de Lavna • Dopo.rtlllllor.to de CiõnciM. EJtiltM • L~v1M-MO :m 
•8ª fu:un il.o. dA fiBllAS ~ !!)li SEAGJtO - 7 a. .11 dt Julho de 200!1 
Coxri.o' ilruitr~ão, retomemos o agrupamento obtido pelo método das k-
medóides. Tínhamos a formação dos seguintes grupos: G1 =(SJRP,RP,Bauru) 
e G2=(Campin.as, Sarocaba). 
A Tabela. 1.28 apresenta o resumo dos cálculos necessários :para a deter-
JJ?.inaç[q, da silhueta. Por exemplo, para SJRP, temos 
a(SJRP) = O, 59 +O, 55 
. 2 
Tà.bela 1.28: Cálc.:ulo da silhueta 
Região a(-i) b(i) s( i) 
SJRP 0,57 2,56 0,78 
U.P 0,82 2,22 0,63 
Bauru 0,80 2,56 0,69 
Campinas 1;37 2,63 0,48 
Soro caba 1,37 2,26 0,39 
Analisando a Tabela 1.28, percebemos que todos os valores da silhueta 
sã.o positivos, o que indica uma boa a.loca.ção da.s regiões aos grupos. 
Em grandes amostras, pode ser inviável a aruí.lise de cada valor de sil-
hueta encontra.do. Nesse caso, recomendarse a construção de um gráfico que 
permita a análise geral dos resultados. 
O gráfico da Figura 1.11 é denominado de gráfico da silhueta. Para ~ma 
construção·, devemos dividir os opjet'o's em grupos, de. acordo com o re~ultado 
da análise de agrupamentos. Em ca.da grupo, ordenamos os objetos em or-
dem decrescente segundo o valor da silhueta. Cada objeto será representado 
por uma barra horizontal, cujo comprimento é o valor da silhueta. Entre 
um grupo e outro, reêomenda~se deixar um espaço. Analisando o gráfico, 
chegamos a coridusões equivalentes às tiradas da a.rui.li.se da tabela: 
1.6 Interpretação 
Na fuse de interpretação dos resultados, busca-se obter u..ma caracterização 
dos grupos. Nesse momento deve-se ressaltar as diferenças e semelhanças 
40 
~ó~ llcunil!D da HERAS < JOU 3E:AGHO - 7 " J l de Julho de 200:1 
~:;J,.f?:pii' 
·' s.~~ro(f 
\e Ri') 
:· . .. ·:.·, 
. sciocabâ : 
. :. ·:· -~ . 
~~.·~ ~i.:.' 
Figura 1.11: Crú.fico da silhueta para os dados do Exemplo 1 
encontradas nos diferentes agrupamentos. Para isso, é necessano lançar 
mão de técnicas descritivas (medidas descritivd..S e gráficos) e eventualmente 
utilizar os resultados . dos testes de validação como ba.li~a da interpre!a,çã.o. 
' 1.6.1 Representação gráfica de casos 
Para facilitar a interpret<LÇão dos grupos, pod~se utilizar representações 
gráficas multivariadas das médias observadas para as variáveis em cada 
grupo. Como ilustração, ut ilizamos os resultados da aplicação do método do 
vizinho mais longe aos dados padronizados, obtidos a partir da Té.Lbdri: 1.29. 
?oram forma.dos três grupos: Gl:(GSP, SP), d2: (SJRP, RP1 Bauru, SJC 1 
Campinas, Sorocaba) e G3: (Santos). A Tabela 1.30 apresenta <Ui. uiédias 
observd.da.s em cada grupo. Através da. aná.lllie desses dados, notam<?::i'.'1que 
o.) G 1 caracteriza-se por possuir as ma.is altas taxas médias de Homicídio 
doloso, Roubo e Roubo e furto de veículos e a mais balx;:i. de Furtos. 
b) G2 possui a..5 menores incidências médiCLS de crime, exceto para l' lirto. 
e). G3 destaca-se por possuir eleV(.Ldas ta.xas de Furto, Homicídios dolosos e 
Roubo, mas apresenta t a.xa relativa.mente baixa de Roubo e furto de 
veículos. 
Univenid..de Fedcr&.I de Lavn_, - Depart&monlo de Citncill.:! Exala.a - Lo.vro.a-MO 41 
( 
:.1 · 
, • : 
!ª~ lw'!t11t.o ~ JlBILAS e JOO Sl~J\GllO • 111. 11 do Julho de 2003 
Quando o número de variáveis é muito alto, fica difícil interpretar uma 
tabelà ·coma a 1.30. Nesse contexto, a utilização de gráficos de representação 
de casos facilita a observação de semelhanças e di.ssemelhançaB entre os gru-
pos~ ' ;SerãÓ apresentados dois tipos de gráficos, em ambos é conveniente que 
os valores máximos de cada variável não difiram muito. Para garantir a 
igualdade dos v.i.lores máximos, os gráficos serão construídos com os dados 
da 'I~abela 1.31, que foram obtidos dividindo-se o valor de _cada média, pela 
maior média observada para a variável. 
Ta.bela. 1.29: Tà.xa de delitos por 100.000 habitantes por divisão territorial 
das policias do Estado de São Paulo (Deinter), em 2002 
Deinter Homicídio Furto Roubo Roubo e furto 
dolo::io de veículo::i 
SJRP 10,85 l.500,80 149,35 108,:58 
PJl 14,l:l 1.49ü,07 187,99 116,66 
Bàuru 8,62 1.448,79 130,97 69,98 
Campinas .23,04 1.277,33 424,87 435,75 
Soro caba 16,04 1.204,02 214,36 207,06 
SP 43,74 1.190,94 1.139,52 . 909,21 
SJC 25,39 . 1.292,91 358,39 268,24 
Santos 42,BG 1.590,66 721,90 275,89 
GSP 42,55 797,16 520,73 602,ú::l 
Média. 25,_25 1.310,96 427,56 332,64 
DP 14,3(i 239,48 330,76 . 275,01 
fonte: Secreta.ria de Segurança Pública do Estado de Síi.o Paulo 
http://WUJUJ . .ssp .sp.gav.br/estatisticD.3/criminais/, acessada ew 11/02/2003. 
S.JRJ>: Sã.o José do Rio Preto 
RP: 1Ubeirã.o Preto 
Sl)_: Sã.o Paulo (capital) 
SJC: São José dos Ciilllpm1 
._ OSP: GrandeSão Paulo, exceto SP 
G~á6co de perfil 
No · gráfico de perfil a.s observações de cada grupo 1:Jerão repreBentadaB sep-
arada.mente. No eixo x indicamos as variáveis. O eixo Ja.s ordenadas traz 
42 
, -
' 
\ ~8"' llcur.õ&o da RnrtAs e 10° S G/\G T1.0 - 7 11 11 de Julho de W0.1 
.Tabela 1.30:· Médias segundo grupos 
Variável 
Homicídio doloso 
Furto 
Roubo e furto de veículos 
Roubo 
Gl 
43,15 
994,05 
830,13 
755,n 
G2 
16,35 
1369,99 . 
244,32 
201,22 
G3 
42,86 ' 
1590,66 
121;'90 
275,89 
as escalas de medida. Cada. média é reprcBentada por um ponto nos el:xos 
cartesianos. Unindo-se os pontos obtêm-se os perfu de cada grupo (Figura 
1.12) . 
Figura 1.12: Grifico de perfis para os dados da Tabela 1.31 . 
A Figura 1.12 ilustra bem as conclusões tiradas anteriormente. 
Gnífico radar 
O gráfico radar deve ser construído a partir de um círculo. Cadn. V'J.riável 
é representada por um raio, esses raios devem estar distribuídos tiniforme-
mente. O valor da vari.á.vel será. o comprimento elo re5pectivo_ raio. 
A ·Figura 1.13 ilustra o gráfico radar conatruído para ao ip.édias dos 3 
grupos. Quanto maior o raio, maior a incidência do crime. 
Uni'lcr>id&de Fodou.l do La.vrn• - Dép!Utn.l'lltnlo do Gitncfo~ E>eP.ta.:i - La.nM-MG . 43 
.i.s.i. llcuniil.o do. RiHlAS e 10° SEAO llO • T " 11 de Julho de '.:!005 
Tabela 1.31: Médias reescalonadas 
Variável 
X 1: Homicídio doloso . 
X2: Furto 
X:;1: Roubo e furto de veícufog 
X4: Roubo 
01 . "02 
1,00 0,38 
0,62 0,86 
1,00 0,27 
1,00 0,29 
·····~~< 
:i3,ég:~e.' ',~,;1g:ªgé~.;x·~.\E;.: 
03 
0,99 
1,00 
Ll,36 
0,87 
Figura 1.13: Gráfico radar para os dados da Tabela 1.31 
1. 7 Aplicações 
Nesta seção apresentamos algumas aplicações de análise de agrupamentos à 
solução de problemas reais. 
1.7.1 Método do vizinho mais longe 
Apresentu.inos a análise de dados executada por Barroso e Gabriel, (1996), 
que uti1izou o coeficiente de correlação como medida de similaridade. 
Define-se como agricultor familiar moderno a unidades de produção 
voltadas prioritariamente para o mercado interno e cujo tra.balho é exercido 
predomina.ntt:meHte por membros de uma fumília. Neste exemplo, deseja-
Univer~id .. de Poder") <l• L11.vrll.!I - Depu.rtllJnentu d• Cilinci11a Exc.tiu • Lu.vr....,...MG 44 
,. 
48' lleuniA.o da llDTlAS e l oP SE/\GHO • 7 o. 11 de Julho de WO:l 
se identificar tipologia.s cJ e agricultores f.a.rniliares mugua.ios em função do 
uso de estufa. Um aumento no uso da estufa represento. uma melhora rui. 
produçáo, uma vez que essa. tecnologÍiL leva, via de regra, a um aumento u.a. 
produção. . 
Há dados di.9poníve.is :mbre 40 agricultores da região de Salto (norte do 
Uruguai), que foram pesquisados ern 1990; 1992 e 1994. Para esses agricul-
tores, obervou-se a ár('.<i. cultivada (m 2) sob estufa nesses três períodos. 
O objetivo da pesquisa era identificar padrões de comportamentv, U."l-
i;irn, mais importante do que o ta,ma.nho da área cultivada é saber o padrão 
dei>sa variável ao longo do tempo: Por exemplo, dois agricultores que apre-
scmta.'>sem um crescimento na área cultivada ao longo do tempo, poderiam 
fazer parte da mesma tipologia. Devido a isso, utilizou-se como medida de 
8imilarídade o coeficiente de correlação de Pearson: quanto mais próximo 
de 1, maior a similaridade entre os agricultores e quanto mais próximo de 
-1 1 maior a d.i..s8imilarida dc5. 
A análise foi realizada com o a.UX11io do aplicativo SPSS. O deudrogru.rua 
(Figura 1.14) :rngere a e:xistência de três grupos. 
Admitindo a solução com três grupos, o primeiro grupo conta com 23 
agricultores e, em geral, apresenta um crescimento na. área plantada sob 
estn:f..'1 (Figura 1.15). O 8egundo grupo é formu.do por 12 agricultores que, 
em geral aumentaram a área plantada em )!J92 em relação a l!J90, ma.s 
diminuiram essa área em 1994 (Figura 1.16). 'Por fim, o terceiro grupn., com 
5 agricultores, a.presenta, em geral um decrescimento na área plantada sob 
estufa, principalmente quando se compara. 1992 e 1990. A Figura 1.18 traz 
oo comportamentos médios dos três grupos. 
\ 1. 7.2 Método das k-médias 
Defi.ne-8e como cultura organizD.cion.al de uma empresa os mecani.smo8 de 
adaptação e comportamento adotados para lidar com os problema.s de ajuste 
ao ambiente externo e de integração interna. E8tá ligada a.O clima existynte 
no ambiente d8 trabalho. 
5 Para transformar a correlação numa medid.n de ~imila.rid;i.<le b~ta efetuar a segulnte 
operação d= 3 - (r + 2), onde ré o coeficiente de correlação. Fn:zendo assim, tem.;s que 
rJ V<lria entre O e 2, :iendo O quõ.lldo r = 1 e 2 quando r = -1. 
Uni vcr!lidn.dc F'cdcrnl de LnvrQ..!) .. Oepnrto..mc11to do CianciM Exatõ.5 - Lnvro.a-MG 45 
~ 8 "' flcunill.o dn ltBltAS e 100 SEAGltO - 7 a 11 de Julho d • 20~ 
.:·-i. 
' ~ -~ 
-~'<ii 
A'i~-
i; _:L°~: 
-:.;.~ 
.. '!i-• 
.· .-::rj 
··~~·~~ 
<~ 
': · :~~· 
·:; :;;: 
. ·-~l-!~ 
j- "1l 
": ":!'f-
(: 1;~ 
:;:;.'Ili:: 
:.:.-::: 
;s& 
. :~f 
·-. ;:~ ç~ 
, -~~
·- ~ -?-: 
;/vi 
· :·~r; : 
. ... i ... ~: 
·; · .~".~ 
. ::J.:. 
.:'" •: .. 
·-:*·:.-
-~:~:.; 
: ·:~:;.,. ;·::;,: tw $~ ~( .,.: ) ,_ ~ •: 
. -:;~' '. 
... ;:, .. :;· 
:\ .. :~:; 
"• ' '' ·1. 
' 1" 
:. r . 
~-
. . :4 .. :. : ~;:.: ,: ... . .. .: ·<:::.·· ·;:. •' '. ;.. ~. : ~: ··• . l 
r: 
· t : 
" i 
.:<·f . 
~ 
r 
T 
l~igura 1.14: Dendrograma 
U11iwr~id..de l~dorul de L1wru:i - DeplU"tll.lllunto de Ciaucill.!> l:.'l<ll.tllJI - 1.-uvru..:.-MG 46 
~ 8~ llcuniiio da l1. 8 fl.AS e lOQ SEAGllO - T" 11 do Julho ac JOO:l 
Figura 1.15: Gráficos de perfis para. o Grupo 1 
r. 
' l 
. : 1 
!; 
j 
r 
l: 
----------,-·---~-..,.,.-.,,--,....-.. :·-. . -.-.. ---------------' 
Figura 1.16: Gráficos de perfis para o Grupo 2 
Univcroidl\dc Fedcro.J d• L11nM - Doptu"tlllnonto de Ciê!nciM l ~x11lll..'l - L11vrM-MO 47 
1 
l 
' 1 
! . 
1 
1· 
1 
1 
l 
48' Jluu11Jll.o d1o JlUJlAS • 10~ S EAOltO • 1 o. 11 d• JuJl10 do ~003 
r--,~--·-··-·- .......... ,~-·;~, ... ~ ...... ~ ~·~·~~-~;..~.~~~~~~~.,.;...,. , . .,,;,;.,,;.. :.:. ;..;.~;.;.;;.:.,.M,:.:....:..;.;;... ... _ ..... ..:_..;_;..,,,;;;,,.,'r~-._..,,;;...,..,_ .. _ _ ,;;_~,.,-· ........ 1 
i \~pç;ç;):·i·:·.'· · · ....... '" .... ' . "'""" .. "···• .. ····•"'"····"·"'" '"'""""•••• ..... .... '''"'"·"'"·· ·······"·-'•'". . ! " 
.! .> • • ·· . .. 1: 
·l ~~89,9,9;':1 1: 
· . ~1! *-i'.i&ki:J .. · ·. :'::·· . i,. • ~;,q ,f, i ~t.. :~\909\:j" . " ! 
·i ~~ 1 
1 ~~si.~.••[ ! f.\t4'-·-"- · --·. ~ . } :r -::T---- _______ .. ..:.:: .- i,," 
! ::. \ • .. OOQi.. f 99"''.>- ' °E)9 4 ; i tAJ;;g ~·-
L .. ............ _.,,,_ ................. _, .... ,, __ ... , ___ ,, ...... , _______ , _____ , __ ,,,,,_, .. , ... - ......... ______ ,,.,,,, .. ,_, ___________ ,,,,, ,,, ,J . 
Figura. 1.17: Gráficos de perfis para o Grupo 3 
Figura 1.18: Perfis médios dos grupos 
Uui voroiduda Jo'odoro.J de I. uvrl4.0 • Dop1>rlum~nto d o Ciõncill.!I ExatllJI - 1.uvrlL!l-M...; 48 
~, 
<a~ ncuniJ\.o dn TlBllAS • JOA SEAGno - 7 11 t J de Julho de ~003 
Há. uma teoria que fala. sobre a existência de quatro tipos de cultura 
organizacional: 
a. Cultura Grupul: tratarse de uma cultura voltada principalmente para 
o ambiente interno, tem como caracterfatica.s gerais a fi~ibilida.de com-
binada com a preocupaçiio com o ambiente interno. S~aa meta.s são 
o de!3envolvimento do potencia.! humano e pleno desenvolvimento do 
indivíduo. 
b. Cultura Sistêmicu: esse tipo de cultura caracteriza-se pela flexibili-
dade e pela preocupação com o ambiente externo. Visa o crescimento 
da empr.esa, a aquisição de recursos e a adaptação ao ambiente externo. 
Suas metas são o crescimento, desenvolvimento de novos mercados e 
aquisição de recursos. 
e. Cultura Hierúrquica: caracteriza-sepela preocupação com o controle 
e com o ambiente interno. Ela objetiva. o controle das relaçÕC>~'l e dos 
processos e visa a estabilidade. 
d. Cultura Racional: também caracterizarse pela importância dada ao 
controle, mas suas preocupações voltam-se ao ambiente externo. Tem 
como meta.s o planejamento e a produtividade. 
Diz a teoria que um íJ.mbiente organizacional saudável é obtido quél.ndo 
as quatro cultura.ci co-e...'Cis tem de maneira ÍD;tensa. 
Barroso, Artes e Kurauti (1991) analisaram dados de uma pesquisa re-
alizada com membros do corpo gerencial de 13 empr~as do setor têxtil 
com açõe5 na BOVESPA. A amostra foi composta por 478 funcionários que 
deveriam preencher um questionú.rio. AtraYé3 da. análise do questionário 
mediar-se o grau da. presença das quatro culturas (de 6 a 30) que era perce-
bido pelo respondente. Nosso objef;ivo é identificar grupos de funcionários 
que tenham percepções semelhant.es sobre suas empresas. 
A Tabela 1.32. traz aJgumas medidas descritir"'8 para as va.riáveis de 
interesse. Note que suas variâncias são muito próximas indicando que. é 
desnecessário padron.i.zar <J.5 va.riávei3 para a aplicação do método de ae;ru-
pamento. 
O primeiro probk..ma do método das k-médias é a. de.finiç5.o do número 
de grupos. lima maneira de :fazê-lo é obter soluções paro. vú.rior~ números 
de grupos e através da soma de quadrados da partição decidir se vale a 
Uniyeroida.de FcdcreJ de l~tlvrM. Dcµnrtl\1Denlo da Ci6nci e..a E.xata.:s • LavrlJ.3.-MG 49 
: 
1 
1 
1 
1 
1 ' 
1 
1 
~ai lleLHoiil<> d11. TlllltAS e 100 SEAOJlO • 7 "' 11 d• Julho de 2003 
Tabela 1.32: Medidas descritiv-d.S por indicador de cultura 
Cultura Mínimo Máximo Média. Va;-iii.ncia 
Grupal 6 30 20,0 19,2 
Sistêmica 6 30 20,6 18,8 
Hierárquica. G 30 23 ,1 16,0 
Raciona.l 6 30 21 ,3 17,6 
pena aceitar um número dt:!. grupos mais alto. P ara fazer essa comparação, 
utilizamos o seguinte índice 
G = SQDP(k) ,._. SQDP(k + 1) 
, SQDP(k + 1) ' 
no qual, SQDP(k) é a soma de quadrados dentro dos grupos da partição 
para uma solução com k grupos. Quanto menor o valor de G menor é a 
vantagem de se trabalhar com um número maior .de grupos. 
A 'I'abela 1.33 traz informações sobre soluções com diferentes números 
de grupos. 
Tabela 1.:13: Comparação de agrupamentos formados com diferentes 
números de grupos 
Grupos SQDP G 
1 34.156,5 
2 16.109,9 1,12 
3 ll.175,0 - 0,44 
4 . 9.761,7 0,14 
5 9,040,8 0,08 
6 8.078,3 0,12 
7 7.549,0 0,07 
8 6.837,6 0,10 
A Figura 1.19 ilustra o comportamento do índice G. Note que G estabi-
liza., ao redor de um valor baixo, a partir de. uma solução com 4 grupos, isso 
indica pouca vantagem ao se passar de uma solução de 4 para 5, 5 para 6 e 
ill:i:Ürn :mcei:rnivamente. Isso nos levd a adotar uma sol uçã.o com 4 grupos. 
U11iversidl>de F"dernl de Lnvrl1S ·- Depnrtum~nto de Cibnc\1e> Ex..tu,a - i...v,w;-M C 50 
(. 
.r \ 
" 1 
48~ Rcuni1l<> da TlBilAS e J o<> Sl':AG llO • T" 11 de Jullio do 2003 
Figura 1.10: G él.nho na soma de quadrados da partição 
O passo seguinte é éJ. , -,ü idação ela. a.Ilálise. Para isso, coru;idera.nc.lo cada 
grupo t:omo uma. v.most;rQ. de 1.1.illa. população, aplicou-se um teste F de com-
paração de médias para. w dü. variável. Todos os níveis descritivos. foram 
inferiores· a 0,001, indicando haver difercnça1i entre as rnédi;1s dos grupos . . 
A Tubela 1.34 traz a.lgnmas medidas descritivas pa.ra auxiliar na inter-
pretação dos grupos. A Figura 1.20 é o gnílico radar construído·com as 
médias das variáveis. 
Tabela 1.34: Comparação dos grupos - (média± desvio-padrão) 
Va.dú.vel 
. . 
Grupos Grupa.l Sistê.mica Hierárquicu Racionai n 
1 16,6 ± 2,2 16,9 ± 1,9 20,1 ± 2,3 17,6 ± 2,5 105 
2 24 ,6 ± 2,4 25,4 ± 2,4 27,0 ± 1,!J 25,6 ± 2,5 137 
3 12,5 ± 2,5 13,7 ± 2,4 15,6 ± 2,7 15,2 ± 3,5 . 44 
4 20,4 ± 2,3 20,7 ± 2,2 23,6 ± l,!) 21,7 ± 2,1 192 
Observando a Tabela 1.34 e a Figura 1.20 concluímos que os grupos 
diferem no nível da presença das quatro culturas. · Assim, o Grupo 2 é aquele 
com os funcioná.rios que percebem uma forte presença das quatro culturas 
e o Grupo 3, no outro extremo, é forma.do por gerentes que, em média, n.iio 
Univcr!lido.de Federal d~ LavT M - Dap&T\o.Jlltm\.o de OiOnciD...! T-.::.xntn:J - Lo,vro.!>-MG 51 
18• JleuuiiUJ d,. lUIRAS e JOU SEAOJlO • 7 a 1 l de Julho de 200~ 
identificam a presença das quatro culturas de maneira forte. 
1 
1 
Figura 1.20: Ganho na soma de quadrados da partição 
Univcrsidw:lc Fndor..i do L11vr..,, - Deµu.rt1Ulle11lo do Cif11cill:I E:<11l"3 · !.11vrll:l·MC 52 
, -
Capítulo 2 
i\ _nálise de Comp onentes 
Princip-ais 
2.1 Introdução 
A nálise dP. Gomponente:J Pr-incipai.s é urna técnica, estatística que trans-
formi'1 linearmente um conj unto de p variáveis em um conjunto com um 
número menor (k) de variáveis não-correlacionadas, que explica uma parcela 
substa.ncial das inforrnaçõçs do conjunto original. A8 p variáveis originajs 
(X1, ... , Xp) são trll.IL.'lforrnadas em p va.riá.vé.is (Y1, ... , Yp), denominada.s 
componentei; principais, de modo que Y1 é ;:i,quela que explica a maior parcela 
da variabilidade total dol3 d ados, Y2 ex.plic;:i. a segunda maior parcela e assim 
por diante. · 
9s principais objet ivos d a a.ná.lise de componentes ~pa,ís sã.o: 
e ~dJ;lÇ- da~~~~~51dO;l_j 
e Q__~ç~dliO-@..b.i~ -- es inter-Pretá VJ!Ís.--9as,sariá v.el§.; 
n 9~~3~n-dlgJe-n-to_d ; es aj_m~~ de_.C9_r!,~la ~~~-.,;eis_. 
A análise é realizada com o intuito de resumir o padrão de correlação 
entre a.s vrl.riáveis e muita.s vezes é possível chegar a conjuntos de Ya!:iá.veis 
que sejam não correlaciollél.dos uns com os outros, levu.ndo assim a um agru-
pamento delas. 
53 
" 
4 8 ~ llcu11i~u du HIJllAS e JOU SgACrtO • 7,. 1 l de Julho do 200~ 
Algebricamente, as componentes principais siio combína.~ões lineares das 
variá.veis origina.is. Geometricamente, as componentes principais sã.o as co-
ordenadas dos pontos amostrais em um sistema de eixos obtido pela rotação 
do sistema de eixos original, na direção de vcJiiabilidade máxima dos dados. 
A- análiBe de componentes principais q_f!Q~gg~_s_C?,!P.~E~.Aa ma~riz de co-
va.riância (:E) ou da matriz de correlação (p) de X:1, ... , XP:.. Não requer qual-
quer suposição sobre a forma da distribuição multivariada dessai; Vdiiáveis . 
Segundo Tabachnick e Fidell (2001), se a normalidade existe, a análise é 
engrandecida, i;eniio ela ainda vale a pena. 
As demonstrações deste capítulo sã.o baseadas no texto de Johnson e 
Wichern (1998), onde maiores detalhes podem ser encontra.dos. 
2.2 Como obter a.S componentes principais 
Seja x o vetor elas p variáveis originais x T = (X1 , ... X p), com Cov(x) = :E. 
Considere p combinações lineares de X 1 , ... , XP 
Yí = l{ X = l11X1 + l12X2 + ... + /ipXp 
Y2 = ll X= l21X1 + l22X2 + .. .'+ l2pXp 
Entiio ar Yi) = l~).!J;;;.:. lf ~1:Jr-e, :: ê)'e.l ~ , e.',e,. 
QçrvJt"i.,_:i:.i·.)._= .9._9_~(!{ x, zJ::51..::=J[E!.i-: ""'- \ ;~) - \e'· t", z ... ti l.J ;- "' (' I 1 , ,,, 
As componentes principais são as combina~'.Ões lineares Y1 , ... , Yp não 
correlacionadas, cujas variâncias são as maiores possíveis. 
· A primeira componente principal_ é a combLru.LÇão linear l "[ x que maxi-
miza Va.r(l{ x) sujeita à restrição l{ l1 = 1. Se essa restrição não é imposta, 
pode-se ra;er a V'Miâ.ncia de Yí tiio grande quanto se queira. 
A seg_End'!- componente principal é a. combinação linear zr X que maxi-
miza Var(lix) sujeita às restriç.ões tih= 1 e Cov(l[x,lJx) =O. 
A i-ésima componente prht~ipal é a combinação linear l"[ x que maximiza 
Var(lf x) sujeita às restrições l[li = l e Oov(l[ x, lj x) = O, para qualquer 
j < i . 
Univi:rsidude FodtnJ d• LuvrlUI • Dtµurla.roe11to de Ciêuciua Bxnt "" • Luvrua- M G 54 
~a• 11.ouniãc d.a 11.BllAS e 1 o0 SE A ORO - T " 11 do Julho