Buscar

Tecnicas Estatísticas Agrupamento

Prévia do material em texto

Profa. Dra. Alessandra de Ávila Montini 
 
Disciplina: EAD 351 
 
Técnicas Estatísticas de Agrupamento 
Faculdade de Economia, Administração e 
Contabilidade da Universidade de São Paulo 
Profa. Dra. Alessandra de Ávila Montini 
Avisos 
Profa. Dra. Alessandra de Ávila Montini 
3 
Prova 1 – 5 de Outubro 
 
Trabalho – Entrega até 25 de novembro – Atividade 
em dupla 
 
Prova 2 – Unificada 30 de novembro ou 7 de 
dezembro 
Prova 1 – 30 % ; Prova 2 – 50 % ; Exercícios – 10 % ; 
Trabalhos – 10 % 
Pesos das Avaliações 
Profa. Dra. Alessandra de Ávila Montini 
Trabalho 
 
As duplas devem obter uma base de dados com pelo menos 4 
variáveis e 20 elementos. 
 
A entrega será feita por envio do trabalho até as 23:00 hs do dia 
25 de novembro para um por email a ser definido. Deverá ser 
enviada a base de dados em Excel e o trabalho em Word. 
Profa. Dra. Alessandra de Ávila Montini 
As faltas serão abonadas somente com atestado 
médico do HU. O atestado será aceito desde que 
entregue ao professor até 7 dias após o retorno às 
aulas. 
Faltas 
5 
Profa. Dra. Alessandra de Ávila Montini 
Horário de atendimento – quinta-feira das 17:00 às 18:00 hs 
Horário de Atendimento 
6 
 
Turma 2 - 13h30 – 15h10 
Turma 1 - 15h20 – 17h00 
 
Para a entrada na aula será considerada uma tolerância de 15 
minutos. Após a tolerância não será permitida a entrada. 
 
Horário das Aulas 
Profa. Dra. Alessandra de Ávila Montini 
Programa da Disciplina 
Profa. Dra. Alessandra de Ávila Montini 
Programa da Disciplina 
• Introdução 
 
• Revisão – análise exploratória de dados 
 
• Análise de Cluster 
 
• Análise Fatorial 
Profa. Dra. Alessandra de Ávila Montini 
Análise de Cluster 
Profa. Dra. Alessandra de Ávila Montini 
Introdução 
Profa. Dra. Alessandra de Ávila Montini 
O que significa fazer um 
agrupamento ? 
Profa. Dra. Alessandra de Ávila Montini 
Por que fazer agrupamento ? 
• Atender melhor as necessidades dos clientes / consumidores; 
 
• Lançar produtos de acordo com a necessidade dos clientes / 
consumidores; 
 
• Redução de custo; 
 
• Controle de estoque; 
 
• Controle de logística; 
Profa. Dra. Alessandra de Ávila Montini 
Análise estratégica para tomada de decisão 
• Definição do Problema 
• Análise Exploratória da Base de Dados 
• Padronização das Variáveis 
• Análise de Cluster 
•Tomada de Decisão Empresarial 
Profa. Dra. Alessandra de Ávila Montini 
Objetivo 
Profa. Dra. Alessandra de Ávila Montini 
O objetivo da análise de cluster é agrupar 
as observações em grupos de tal forma que 
dentro de cada grupo as observações são 
semelhantes e distintas entre os grupos. 
 
Dentro de cada grupo a variabilidade deve 
ser mínima e a variabilidade entre os 
grupos deve ser máxima. 
GRUPO 1 GRUPO 2 
GRUPO 3 
Profa. Dra. Alessandra de Ávila Montini 
Exemplos 
Profa. Dra. Alessandra de Ávila Montini 
Agrupar países de acordo com as 
variáveis sócio demográficas. 
 
 
Exemplos 
Profa. Dra. Alessandra de Ávila Montini 
Agrupar municípios dentro de um país 
por meio de variáveis como: 
distribuição de renda, pib, população, 
importações, exportações dentre 
outras. 
 
Exemplos 
Profa. Dra. Alessandra de Ávila Montini 
Agrupar pessoas segundo hábitos 
alimentares semelhantes. 
 
 
Exemplos 
Profa. Dra. Alessandra de Ávila Montini 
Agrupar alimentos de acordo com as 
calorias. 
Exemplos 
Profa. Dra. Alessandra de Ávila Montini 
Agrupar clientes de acordo com o 
hábito de consumo. Alguns clientes 
adquirem mais produtos eletrônicos, 
outros adquirem cosméticos, viagem 
etc. 
Exemplos 
Profa. Dra. Alessandra de Ávila Montini 
Métodos de Agrupamento 
Profa. Dra. Alessandra de Ávila Montini 
Métodos de Agrupamentos 
 
• Método Hierárquico 
 
• Método das K médias 
 
Profa. Dra. Alessandra de Ávila Montini 
Análise Exploratória de Dados 
Profa. Dra. Alessandra de Ávila Montini 
25 
Tipos de Variáveis 
• Qualitativas 
• Ordinal (Nível de escolaridade) 
• Nominal (Sexo) 
 
• Quantitativas 
• Discreta (Número de cursos de aperfeiçoamento 
realizados nos últimos 3 anos) 
• Contínua (Salário anual) 
Profa. Dra. Alessandra de Ávila Montini 
26 
Distribuição Simétrica 
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
%
0 1 2 3 4 5 6
Dias de Uso do Cheque Especial
Quantidade de cursos de aperfeiçoamento 
Profa. Dra. Alessandra de Ávila Montini 
27 
Distribuição Assimétrica à Direita 
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
%
0 1 2 3 4 5 6
Dias de Uso do Cheque Especial
Quantidade de cursos de aperfeiçoamento 
Profa. Dra. Alessandra de Ávila Montini 
28 
Distribuição Assimétrica à Esquerda 
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
%
0 1 2 3 4 5 6
Dias de Uso do Cheque Especial
Quantidade de cursos de aperfeiçoamento 
Profa. Dra. Alessandra de Ávila Montini 
29 
Distribuições 
Profa. Dra. Alessandra de Ávila Montini 
30 
Amostra Salário Anual
1 R$ 51.814,00
2 R$ 52.669,70
3 R$ 51.780,30
4 R$ 51.587,90
. .
. .
. .
500 R$ 51.752,00
Salário anual
Freqüência 
Absoluta
Freqüência 
Relativa
49.500,00 a 49.999,99 2 0,004
50.000,00 a 50.499,99 16 0,032
50.500,00 a 50.999,99 52 0,104
51.000,00 a 51.499,99 101 0,202
51.500,00 a 51.999,99 133 0,266
52.000,00 a 52.499,99 110 0,220
52.500,00 a 52.999,99 54 0,108
53.000,00 a 53.499,99 26 0,052
53.500,00 a 53.999,99 6 0,012
Total 500 1
Salário Anual 
Resumo dos Dados – Tabela de Freqüência 
Profa. Dra. Alessandra de Ávila Montini 
31 
Distribuição de Probabilidade do Salário Anual 
Resumo dos Dados – Histograma 
Profa. Dra. Alessandra de Ávila Montini 
32 
• Média Aritmética 
• Moda 
• Mediana 
• Quartil 
Medidas de Posição 
• Variância 
• Desvio Padrão 
• Amplitude 
• Coeficiente de Variação 
Medidas de Dispersão 
Profa. Dra. Alessandra de Ávila Montini 
Medidas de Posição 
Profa. Dra. Alessandra de Ávila Montini 
Média Aritmética 
Profa. Dra. Alessandra de Ávila Montini 
A média aritmética é obtida a partir da soma das 
observações dividindo-se pelo total de 
observações. 
 
A média aritmética será denotada por 
X
50000
4
50000480005000052000
X 

Exemplo 
A média aritmética para o salário dos analistas é dada por: 
Considere os salários anuais dos quatro analistas apresentados na tabela 
Profa. Dra. Alessandra de Ávila Montini 
Moda 
Profa. Dra. Alessandra de Ávila Montini 
38 
 
Moda 
É a realização mais freqüente do conjunto de valores observados 
Valor Freqüência
3.03 1
3.10 1
3.11 1
3.12 1
3.13 3
3.15 1
3.18 1
Profa. Dra. Alessandra de Ávila Montini 
Mediana 
Profa. Dra. Alessandra de Ávila Montini 
40 
Mediana 
30,3 31,0 31,1 31,2 31,3 31,4 31,8 32,5 33,8 
É a realização que ocupa a posição central da série de observações 
arranjadas na ordem ascendente (classificação do menor valor para o maior). 
30,3 31,0 31,1 31,2 31,3 31,4 31,8 32,5 35,8 37,0 n par 
1 2 3 4 5 6 7 8 9 10 
n ímpar 
1 2 3 4 6 7 8 9 
Quando o n for par a mediana é a média aritméticas das observações 
centrais. 
Mediana = (31,3 + 31,4)/2 =31,35 
Profa. Dra. Alessandra de Ávila Montini 
Quartis 
Profa. Dra. Alessandra de Ávila Montini 
42 
Primeiro quartil ( Q1 ) 
Percentil 25 % - valorda amostra tal que 25 % das 
observações são menores do que ele; 
Segundo quartil ( Q2 ) 
Percentil 50 % - valor da amostra tal que 50 % das 
observações são menores do que ele (mediana); 
Terceiro quartil ( Q3 ) 
Percentil 75 % - valor da amostra tal que 75 % das 
observações são menores do que ele; 
 
Profa. Dra. Alessandra de Ávila Montini 
Box-plot 
Profa. Dra. Alessandra de Ávila Montini 
Como saber se em sua base de dados existe alguma 
observação muito diferente das demais ? 
 
Profa. Dra. Alessandra de Ávila Montini 
As observações muito diferente das demais são 
denominadas ponto fora da curva ou OUTLIER. 
0
5000
10000
15000
20000
25000
30000
35000
0 20 40 60 80 100 120 140 160
Profa. Dra. Alessandra de Ávila Montini 
 46 
O Gráfico apresentado é denominado Box-plot. O 
objetivo do Box-plot é deteminar se existe na base 
de dados alguma observação muito diferentes das 
demais (OUTLIER). 
Profa. Dra. Alessandra de Ávila Montini 
47 
Q1 Q3 
Q2 
O primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil 
(Q3) são apresentados no Box-plot . 
Profa. Dra. Alessandra de Ávila Montini 
48 
A fronteira inferior é dada por: Q1 - 1,5(Q3-Q1) 
 
A fronteira superior é dada por: Q3 + 1,5(Q3-Q1) 
 
 
 
Fronteira inferior 
Fronteira superior 
Profa. Dra. Alessandra de Ávila Montini 
49 
O valor mínimo do conjunto de observações e 
valor máximo do conjunto de observações são 
destacados no Box-plot. 
máximo 
mínimo 
Profa. Dra. Alessandra de Ávila Montini 
50 
Quando o valor mínimo for superior a fronteira inferior e o 
valor máximo for inferior a fornteira supeior não existe 
OUTLIER, ou seja, não existe nenhuma observação fora 
do padrão. 
máximo 
mínimo 
Profa. Dra. Alessandra de Ávila Montini 
51 
Quando o valor mínimo for inferior a fronteira inferior existe 
OUTLIER, ou seja, existe uma ou mais observações fora do 
padrão. Todas as observações inferiores a fronteira inferior 
são denominadas outlier. 
Profa. Dra. Alessandra de Ávila Montini 
52 
Quando o valor máximo for superior a fronteira superior existe 
OUTLIER, ou seja, existe uma ou mais observações fora do 
padrão. Todas as observações superiores a fronteira superior 
são denominadas outlier. 
Profa. Dra. Alessandra de Ávila Montini 
5 7 9 11 13 15 17 19
Q1 Q3 
Q2 
máximo mínimo 
Q3+1,5(Q3-Q1) Q1-1,5(Q3-Q1) 
O Box-plot contém as fronteiras que aparecem pontilhadas e deve-se ter atenção ao 
mínimo, máximo, primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3). 
53 
Profa. Dra. Alessandra de Ávila Montini 
Medidas de Dispersão 
Profa. Dra. Alessandra de Ávila Montini 
Desvio 
Profa. Dra. Alessandra de Ávila Montini 
 56 
O desvio é a distância de cada observação à média. 
Profa. Dra. Alessandra de Ávila Montini 
Variância Amostral 
e 
Desvio Padrão Amostral 
Profa. Dra. Alessandra de Ávila Montini 58 
66,666.666.2
3
000.000.8
3
)0()2000()0()2000(
S
2222
2 

A variância amostral, denotada por S2, é obtida por meio da soma dos desvios elevados ao quadrado dividindo-se pelo total de observações menos um. 
A variância amostral é dada por: 
Profa. Dra. Alessandra de Ávila Montini 59 
633.166,666.666.2S 
O desvio padrão amostral, denotado por S, é a raiz quadrada da 
variância amostral. 
Como a variância amostral está na unidade ao quadrado, para retornar 
a unidade original deve-se obter a raiz quadrada da variância amostral. 
Profa. Dra. Alessandra de Ávila Montini 
Coeficiente de Variação 
Profa. Dra. Alessandra de Ávila Montini 
 61 
O Coeficiente de Variação é uma medida de dispersão relativa. 
 
O Coeficiente de Variação é obtido por meio da divisão do 
desvio padrão pela média multiplicando-se por 100. 
Média
PadrãoDesvio
 CV = x 100 
Profa. Dra. Alessandra de Ávila Montini 
62 
Média
PadrãoDesvio
 CV = x 100 
Analista Gerente
52000 40000
50000 50000
48000 60000
50000 50000
Média 50000 50000
Desvio Padrão 1633 8165
Coef. de Variação 3,3 16,3
Exemplo 
Considere os salários anuais de quatro analistas e de 
quatro gerentes apresentados na tabela. O coeficiente 
de variação é obtido por meio da divisão do desvio 
padrão pela média multiplicando-se por 100. 
 
Profa. Dra. Alessandra de Ávila Montini 
63 
Analista Gerente
52000 40000
50000 50000
48000 60000
50000 50000
Média 50000 50000
Desvio Padrão 1633 8165
Coef. de Variação 3,3 16,3
Como o coeficiente de variação para o grupo de 
gerentes é maior do que o coeficiente de variação do 
grupo de analistas há evidência de que a 
variabilidade de salários no grupo de gerentes é 
maior do que a variabilidade no grupo de analistas. 
Profa. Dra. Alessandra de Ávila Montini 
 64 
Média 2000 4000 10000 20000 50000
Desvio Padrão 200 200 200 200 200
Coeficiente de Variação 10.00 5.00 2.00 1.00 0.40
Menor Variabilidade Maior Variabilidade 
 
 
O grupo com o maior Coeficiente de 
Variação é considerado o grupo com 
maior variabilidade. 
Profa. Dra. Alessandra de Ávila Montini 
Padronização de variável 
 
Profa. Dra. Alessandra de Ávila Montini 
66 
S
)XX(
Z


X: variável aleatória com média e desvio padrão S 
Z: variável aleatória padronizada com média 0 e variância 1. 
Para padronizar uma variável deve-se subtrar da 
variável original o valor da média e dividir o resultado 
pelo desvio padrão. 
X
A variável padronizada é denominada Z. 
Profa. Dra. Alessandra de Ávila Montini 
Considere um executivo realizou uma pesquisa de preço para a 
compra de um computador. Com base nos preços obtidos com 5 
fornecedores calcule as medidas descritivas. 
Exercício 1 
Qual foi o valor médio? 
 
Qual foi o valor médiano? 
 
Obtenha o desvio padrão amostral. 
 
Obtenha o coeficiente de variação. 
 
Preço
R$ 5.800,00
R$ 6.300,00
R$ 5.900,00
R$ 5.400,00
R$ 6.200,00
Profa. Dra. Alessandra de Ávila Montini 
Medidas de Similaridade 
 e 
Dissimilaridade 
Profa. Dra. Alessandra de Ávila Montini 
Na análise de cluster as observações 
são agrupadas de acordo com medidas 
de similaridade ou dissimilaridade. 
 
Existem várias formas de medir 
similaridade ou dissimilaridade depende 
do critério a ser considerado. 
Profa. Dra. Alessandra de Ávila Montini 
A leoa é mais parecida com a gata ou com a cadela ? 
Profa. Dra. Alessandra de Ávila Montini 
Para determinar se a leoa é mais parecida com a 
gata ou com a cadela é necessário definir um 
critério de similaridade. 
 
Considere como critério de similaridade o porte 
do animal. Neste caso a leoa será mais parecida 
com a cadela. 
Profa. Dra. Alessandra de Ávila Montini 
 
Considere agora como critério de similaridade o 
formato da orelha. Neste caso a leoa será mais 
parecida com a gata. 
Profa. Dra. Alessandra de Ávila Montini 
Medidas de Similaridade: Quanto 
maior for a medida de similaridade maior 
será a semelhança entre os elementos. O 
coeficiente de correlação linear de Pearson é 
uma medida de similaridade. 
 
Medidas de Dissimilaridade: 
Quanto maior for a medida de 
dissimilaridade menor será a semelhança 
entre os elementos. A distância euclidiana e 
a distância euclidiana ao quadrado são 
medidas de dissimilaridade. 
Profa. Dra. Alessandra de Ávila Montini 
Exemplo 1 
Banco de Dados: dados1.xls 
Profa. Dra. Alessandra de Ávila Montini 
Considere o exemplo de uma analistade gestão de 
pessoas que deseja agrupar os candidatos em 
três grupos considerando duas variáveis: o tempo 
de formação do candidato e o tempo que o 
candidato permaneceu na empresa anterior. A 
Tabela apresenta os valores das variáveis para os 
cinco candidatos. 
Profa. Dra. Alessandra de Ávila Montini 
O Gráfico de dispersão apresenta os 
valores das variáveis para os cinco 
candidatos. 
Candidato 1 
Candidato 2 
Candidato 4 
Candidato 5 
Candidato 3 
Tempo de formação 
T
e
m
p
o
 n
a
 e
m
p
re
s
a
 a
n
te
ri
o
r 
Profa. Dra. Alessandra de Ávila Montini 
Candidato 1 
Candidato 2 
Candidato 4 
Candidato 5 
Candidato 3 
Tempo de formação 
T
e
m
p
o
 n
a
 e
m
p
re
s
a
 a
n
te
ri
o
r 
Como a analista de gestão de pessoas deseja 
agrupar os candidatos em três grupos 
considerando duas variáveis o gráfico 
apresenta uma sugestão de agrupamento. Os 
candidatos foram agrupados de acordo com 
um critério. 
Grupo1 
Grupo 2 
Grupo 3 
Profa. Dra. Alessandra de Ávila Montini 
Candidato 1 
Candidato 2 
Candidato 4 
Candidato 5 
Candidato 3 
Tempo de formação 
T
e
m
p
o
 n
a
 e
m
p
re
s
a
 a
n
te
ri
o
r 
Grupo1 
Grupo 2 
Grupo 3 
O grupo 1 é formado por candidatos com pouco tempo de 
formação e pouco tempo na empresa anterior. 
 
O grupo 2 é formado por candidatos com tempo de formação 
superior a 7 anos e com tempo na empresa anterior superior a 11 
anos. 
 
O grupo 3 é formado por um candidato com 12 anos de formação 
e 2 anos na empresa anterior. 
 
Profa. Dra. Alessandra de Ávila Montini 
Um critério de dissimilaridade que pode 
ser considerado para agrupar observações 
é a distância Euclidiana. A distância 
Euclidiana entre os candidatos 2 e 4 é 
dada pela reta vermelha. 
Candidato 1 
Candidato 2 
Candidato 4 
Candidato 5 
Candidato 3 
Tempo de formação 
T
e
m
p
o
 n
a
 e
m
p
re
s
a
 a
n
te
ri
o
r 
Profa. Dra. Alessandra de Ávila Montini 
A distância Euclidiana ao Quadrado entre os 
candidatos 2 e 4 é dada por: 
 
 
 
    16912541638 22222 D
A distância Euclidiana entre os candidatos 2 e 4 é obtida 
por meio da raiz quadrada positiva da distância 
Euclidiana ao Quadrado . 
 
 
13169D 
Profa. Dra. Alessandra de Ávila Montini 
A distância Euclidiana entre os 
candidatos 1 e 2 é dada pela reta 
vermelha. 
Candidato 1 
Candidato 2 
Candidato 4 
Candidato 5 
Candidato 3 
Tempo de formação 
T
e
m
p
o
 n
a
 e
m
p
re
s
a
 a
n
te
ri
o
r 
Profa. Dra. Alessandra de Ávila Montini 
A distância Euclidiana ao Quadrado entre os candidatos 1 e 2 é 
dada por: 
 
 
 
    5212423D 22222 
A distância Euclidiana entre os candidatos 1 e 2 é obtida por meio da raiz 
quadrada positiva da distância Euclidiana ao Quadrado. 
 
 
23,25D 
Profa. Dra. Alessandra de Ávila Montini 
A matriz de distância Euclidiana ao Quadrado é 
uma matriz simétrica. 
 
As distâncias Euclidianas ao Quadrado, entre todos 
os elementos, localizadas acima da diagonal 
principal são apresentadas na matriz. 
Profa. Dra. Alessandra de Ávila Montini 
A distância Euclidiana é obtida por meio da raiz 
quadrada da distância Euclidiana ao quadrado. 
A matriz de distância Euclidiana é uma matriz simétrica. 
 
As distâncias Euclidianas, entre todos os elementos, 
localizadas acima da diagonal principal são apresentadas na 
matriz. 
Profa. Dra. Alessandra de Ávila Montini 
 
1 - Obter a matriz de distância Euclidiana para as variáveis 
padronizadas. 
 
2 – Quais os dois lanches mais parecidos? 
 
EXERCÍCIO 2 
Profa. Dra. Alessandra de Ávila Montini 
EXERCÍCIO 3 
 
1 - Obter a matriz de distância Euclidiana para as variáveis padronizadas. 
 
2 – Quais os dois lanches mais parecidos? 
 
Profa. Dra. Alessandra de Ávila Montini 
EXERCÍCIO 4 
 
1 - Obter a matriz de distância Euclidiana para as variáveis padronizadas. 
 
2 – Quais os dois lanches mais parecidos? 
 
Profa. Dra. Alessandra de Ávila Montini 
Técnicas de Agrupamento 
 
Vizinho mais Próximo 
(Nearest Neighbor ) 
 
 
 
Profa. Dra. Alessandra de Ávila Montini 
Para a realização dos agrupamentos 
considerando como técnica de 
agrupamento o vizinho mais próximo 
pode-se partir da matriz de distância 
Euclidiana entre todos os candidatos. 
Profa. Dra. Alessandra de Ávila Montini 
90 
Passo 1 
Distância entre 1 e 3 = 14,14 
Distância entre 2 e 3 = 12,04 
A menor distância é 12,04. 
• Nesse passo deve-se agrupa-se as observações com as menores 
distâncias. Como as observações 1 e 2 possuem as menores 
distâncias elas serão agrupadas no passo 1. 
• Calcula-se a distância entre as observações 1 e 2 e as demais observações. 
Distância entre 1 e 4 = 15,23 
Distância entre 2 e 4 = 13,0 
A menor distância é 13,0. 
Distância entre 1 e 5 = 10,0 
Distância entre 2 e 5 = 9,22 
A menor distância é 9,22. 
Profa. Dra. Alessandra de Ávila Montini 
Passo 1 
• Elabora-se uma nova matriz de distância com as observações 1 e 2 grupadas. 
Profa. Dra. Alessandra de Ávila Montini 
92 
Passo 2 
Distância entre 3 e (1+2) = 12,04 
Distância entre 4 e (1+2) = 13,00 
A menor distância é 12,04. 
• Nesse passo deve-se agrupa-se as observações com as menores 
distâncias. Como as observações 3 e 4 possuem as menores 
distâncias elas serão agrupadas no passo 2. 
• Calcula-se a distância entre as observações 3 e 4 e as demais observações. 
Distância entre 3 e 5 = 10,00 
Distância entre 4 e 5 = 14,56 
A menor distância é 10,00 
Profa. Dra. Alessandra de Ávila Montini 
Passo 2 
• Elabora-se uma nova matriz de distância com as observações 3 e 4 
grupadas. 
Profa. Dra. Alessandra de Ávila Montini 
94 
Passo 3 
Distância entre (1+2) e (3+4)= 12,04 
Distância entre 5 e (3+4) = 10,00 
A menor distância é 10,00. 
• Nesse passo deve-se agrupa-se as observações com as menores 
distâncias. Como as observações (1+2) e 5 possuem as menores 
distâncias elas serão agrupadas no passo 3. 
• Calcula-se a distância entre as observações (1+2) e 5 e as demais observações. 
Profa. Dra. Alessandra de Ávila Montini 
Passo 3 
• Elabora-se a matriz de distância final. 
Profa. Dra. Alessandra de Ávila Montini 
Técnicas de Agrupamento 
 
Vizinho mais Próximo 
(Nearest Neighbor ) 
 
Dendograma 
 
 
 
 
 
Profa. Dra. Alessandra de Ávila Montini 
O dendograma é um gráfico que 
tem como objetivo representar 
graficamente os passos realizados 
em um agrupamento feito por um 
método hierárquico. 
Com base na análise do 
dendograma é possível determinar 
o número de grupos para o 
conjunto de observações. 
Profa. Dra. Alessandra de Ávila Montini 
Este é o Dendograma gerado a partir dos 
agrupamentos realizados nos passos de 1 a 
3. 
Dendrograma 
2,236 
5,657 
9,220 
10,00 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
O elemento 1 foi agrupado ao elemento 2 na distância 2,236. 
 
O elemento 3 foi agrupado ao elemento 4 na distância 5,657. 
 
O grupo (1+2) foi agrupado ao elemento 5 na distância 9,220. 
 
O grupo (1+2+5) foi agrupado ao grupo (3+4) na distância 10,00. 
Dendrograma 
2,236 
5,657 
9,220 
10,00 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
Profa. Dra. Alessandra de Ávila MontiniPor meio do dendograma pode-se sugerir o número de 
grupos a serem considerados. Em geral, observa-se quando 
o próximo agrupamento é realizado em uma distância muito 
superior ao agrupamento anterior. 
Dendrograma 
2,236 
5,657 
9,220 
10,00 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
Profa. Dra. Alessandra de Ávila Montini 
Os elementos 1 e 2 foram agrupados a uma distância 
de 2,236, os elementos 3 e 4 foram agrupados a uma 
distância de 5,657. O próximo agrupamento ocorreu na 
distância 9,220. Como distância entre 9,220 e 5,657 é 
grande pode-se sugerir separar os grupos em uma 
distância superior a 5,657 e inferior a 9,220. A linha 
vermelha representa a separação. 
Dendrograma 
2,236 
5,657 
9,220 
10,00 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
Profa. Dra. Alessandra de Ávila Montini 
Considerando a linha vermelha como a separação 
dos grupos nota-se que os elementos 1 e 2 formam 
um grupo, o elemento 5 forma um grupo e os 
elementos 3 e 4 formam um grupo. 
Dendrograma 
2,236 
5,657 
9,220 
10,00 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
Profa. Dra. Alessandra de Ávila Montini 
Caso o objetivo do problema seja separar os 
elementos em 2 grupos pode-se considerar a linha 
vermelha como a separação. 
 
Nota-se que os elementos 1, 2 e 5 formam um grupo e 
os elementos 3 e 4 formam o outro grupo. 
Dendrograma 
2,236 
5,657 
9,220 
10,00 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
Profa. Dra. Alessandra de Ávila Montini 
Obter o dendograma considerando o método do vizinho mais próximo e matriz de 
distância Euclidiana para as variáveis padronizadas. 
EXERCÍCIO 5 
Profa. Dra. Alessandra de Ávila Montini 
EXERCÍCIO 6 
Obter o dendograma considerando o método do vizinho mais próximo e 
matriz de distância Euclidiana para as variáveis padronizadas. 
Profa. Dra. Alessandra de Ávila Montini 
EXERCÍCIO 
Obter o dendograma considerando o método do vizinho mais próximo 
e matriz de distância Euclidiana para as variáveis padronizadas. 
Profa. Dra. Alessandra de Ávila Montini 
Técnicas de Agrupamento 
 
Vizinho mais Distante 
(Furthest neighbor ) 
 
 
Profa. Dra. Alessandra de Ávila Montini 
Para a realização dos agrupamentos considerando como técnica de 
agrupamento o vizinho mais distante deve-se partir da matriz de distância 
Euclidiana entre todos os candidatos. 
Profa. Dra. Alessandra de Ávila Montini 
109 
Passo 1 
Distância entre 1 e 3 = 14,14 
Distância entre 2 e 3 = 12,04 
A maior distância é 14,14. 
• Nesse passo deve-se agrupa-se as observações com as menores distâncias. 
Como as observações 1 e 2 possuem as menores distâncias elas serão 
agrupadas no passo 1. 
• Calcula-se a distância entre as observações 1 e 2 e as demais observações. 
Distância entre 1 e 4 = 15,23 
Distância entre 2 e 4 = 13,0 
A maior distância é 15,23. 
Distância entre 1 e 5 = 10,0 
Distância entre 2 e 5 = 9,22 
A maior distância é 10,00. 
Profa. Dra. Alessandra de Ávila Montini 
Passo 1 
• Elabora-se uma nova matriz de distância com as observações 1 e 2 grupadas. 
1+2 3 4 5
1 + 2 14,14 15,23 10,00
3 5,66 10,00
4 14,56
5
Profa. Dra. Alessandra de Ávila Montini 
111 
Passo 2 
Distância entre 3 e (1+2) = 14,14 
Distância entre 4 e (1+2) = 15,23 
A maior distância é 15,23. 
• Nesse passo deve-se agrupa-se as observações com as menores distâncias. 
Como as observações 3 e 4 possuem as menores distâncias elas serão 
agrupadas no passo 2. 
• Calcula-se a distância entre as observações 3 e 4 e as demais observações. 
Distância entre 3 e 5 = 10,00 
Distância entre 4 e 5 = 14,56 
A maior distância é 14,56 
1+2 3 4 5
1 + 2 14,14 15,23 10,00
3 5,66 10,00
4 14,56
5
Profa. Dra. Alessandra de Ávila Montini 
Passo 2 
• Elabora-se uma nova matriz de distância com as observações 3 e 4 grupadas. 
Profa. Dra. Alessandra de Ávila Montini 
113 
Passo 3 
Distância entre (1+2) e (3+4)= 15,23 
Distância entre 5 e (3+4) = 14,56 
A maior distância é 15,23. 
• Nesse passo deve-se agrupa-se as observações com as menores distâncias. 
Como as observações (1+2) e 5 possuem as menores distâncias elas serão 
agrupadas no passo 3. 
• Calcula-se a distância entre as observações (1+2) e 5 e as demais observações. 
Profa. Dra. Alessandra de Ávila Montini 
Passo 3 
• Elabora-se a matriz de distância final. 
Profa. Dra. Alessandra de Ávila Montini 
Técnicas de Agrupamento 
 
Vizinho mais Distante 
(Furthest neighbor ) 
 
Dendograma 
Profa. Dra. Alessandra de Ávila Montini 
Este é o Dendograma gerado a partir dos 
agrupamentos realizados nos passos de 1 
a 3. 
Dendrograma 
2,24 
5,66 
10,00 
15,23 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
Dendrograma 
Profa. Dra. Alessandra de Ávila Montini 
Dendrograma 
2,24 
5,66 
10,00 
15,23 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
Dendrograma 
Considerando a linha vermelha como a separação dos grupos 
nota-se que os elementos 1 e 2 formam um grupo, o elemento 5 
forma um grupo e os elementos 3 e 4 formam um grupo. 
Profa. Dra. Alessandra de Ávila Montini 
Obter o dendograma considerando o método do vizinho mais próximo e matriz 
 de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos 
calcule a média para as variáveis originais em cada grupo e caracterize os grupos . 
EXERCÍCIO 
Profa. Dra. Alessandra de Ávila Montini 
Caracterização dos grupos : 
Média - Valor 
Energético
Média - 
Carboidratos Lanches
Grupo 1
Grupo 2
Grupo 3
Profa. Dra. Alessandra de Ávila Montini 
EXERCÍCIO 
Obter o dendograma considerando o método do vizinho mais 
próximo e matriz de distância Euclidiana para as variáveis 
padronizadas. Considerando 3 grupos calcule a média para as 
variáveis originais em cada grupo e caracterize os grupos . 
Profa. Dra. Alessandra de Ávila Montini 
Caracterização dos grupos : 
Profa. Dra. Alessandra de Ávila Montini 
EXERCÍCIO 
Obter o dendograma considerando o método do vizinho mais próximo 
e matriz de distância Euclidiana para as variáveis padronizadas. 
Considerando 3 grupos calcule a média para as variáveis originais em 
cada grupo e caracterize os grupos . 
Profa. Dra. Alessandra de Ávila Montini 
Caracterização dos grupos : 
Profa. Dra. Alessandra de Ávila Montini 
Técnicas de Agrupamento 
 
Método da Centróide 
(Centroid clustering) 
Profa. Dra. Alessandra de Ávila Montini 
Exemplo 2 
Profa. Dra. Alessandra de Ávila Montini 
126 
Dada a matriz de distância agrupe os elementos por meio do 
método da centróide e construa o dendograma. 
1 2 3 4 5
1 2,24 14,14 15,23 10,00
2 12,04 13,00 9,22
3 5,66 10,00
4 14,56
5
Profa. Dra. Alessandra de Ávila Montini 
127 
Como a menor distância é entre os elementos 1 e 2 
eles serão agrupados no passo 1. 
1 2 3 4 5
1 2,24 14,14 15,23 10,00
2 12,04 13,00 9,22
3 5,66 10,00
4 14,56
5
Profa. Dra. Alessandra de Ávila Montini 
Os elementos que serão agrupados são denominados p e q 
A novo grupo (p+q) é denominado t. 
1 2 3 4 5
1 2,24 14,14 15,23 10,00
2 12,04 13,00 9,22
3 5,66 10,00
4 14,56
5
Neste caso p = 1 , q = 2 e t = (1+2) 
Passo 1 
Os elementos 1e 2 eles serão agrupados no passo1. 
Profa. Dra. Alessandra de Ávila Montini 
  q,p2
qp
qp
r,qqp
q
r,p
qp
p
r,t S
NN
N*N
S
NN
N
S
NN
N
S






Os elementos que serão agrupados são denominados p e q 
 
A novo grupo (p+q) é denominado t. 
A distância entre o novo grupo t e o elemento/grupo r é dada 
por 
Em que, 
Np é o número de observações no grupo p, 
Nq é o número de observações no grupo q, 
Sp,r é a distância entre p e r, 
Sq,r é a distância entre q e r, 
Sp,q é a distância entre p e q. 
Profa. Dra. Alessandra de Ávila Montini 
Cálculo da distância do grupo 1+2 
para o elemento 3 
Profa. Dra. Alessandra de Ávila Montini 
1 2 3 4 5
1 2,24 14,14 15,23 10,00
2 12,04 13,00 9,22
3 5,66 10,00
4 14,56
5
  q,p2
qp
qp
r,q
qp
q
r,p
qp
p
r,t S
NN
N*N
S
NN
N
S
NN
N
S






p = 1 e q=2 
 
t = (1+2) 
 
r = 3   2,1221
21
3,2
21
2
3,1
21
1
3),21( S
NN
N*N
S
NN
N
S
NN
N
S






 
53,1224,2*)25,0(04,12*5,014,14*5,0S
11
1*1
S
11
1
S
11
1
S 2,123,23,13),21( 






Profa. Dra. Alessandra de Ávila Montini 
Cálculo da distância do grupo 1+2 
para o elemento 4 
Profa. Dra. Alessandra de Ávila Montini 
1 2 3 4 5
1 2,24 14,14 15,23 10,00
2 12,04 13,00 9,22
3 5,66 10,00
4 14,56
5
  q,p2
qp
qp
r,q
qp
q
r,p
qp
p
r,t S
NN
N*N
S
NN
N
S
NN
N
S






p = 1 e q=2 
 
t = (1+2) 
 
r = 4   2,1221
21
4,2
21
2
4,1
21
1
4),21( S
NN
N*N
S
NN
N
S
NN
N
S






 
55,1324,2*)25,0(00,13*5,023,15*5,0S
11
1*1
S
11
1
S
11
1
S 2,124,24,14),21( 






Profa. Dra. Alessandra de Ávila Montini 
Cálculo da distância do grupo 1+2 
para o elemento 5 1+2 3 4 5
1 + 2
3
4
5
Profa. Dra. Alessandra de Ávila Montini 
1 2 3 4 5
1 2,24 14,14 15,23 10,00
2 12,04 13,00 9,22
3 5,66 10,00
4 14,56
5
  q,p2
qp
qp
r,q
qp
q
r,p
qp
p
r,t S
NN
N*N
S
NN
N
S
NN
N
S






p = 1 e q=2 
 
t = (1+2) 
 
r = 5   2,1221
21
5,2
21
2
5,1
21
1
5),21( S
NN
N*N
S
NN
N
S
NN
N
S






 
05,924,2*)25,0(22,9*5,000,10*5,0S
11
1*1
S
11
1
S
11
1
S 2,125,25,15),21( 






Profa. Dra. Alessandra de Ávila Montini 
Matriz de distância após agrupar 
os elementos 1 e 2 1+2 3 4 5
1 + 2 12,53 13,56 9,05
3 5,66 10,00
4 14,56
5
Profa. Dra. Alessandra de Ávila Montini 
Passo 2 
Os elementos 3 e 4 eles serão agrupados no passo 2. 
1 + 2 3 4 5
1 + 2 12,53 13,56 9,05
3 5,66 10,00
4 14,56
5
Profa. Dra. Alessandra de Ávila Montini 
Cálculo da distância do grupo 3+4 
para o grupo (1+2) 
1+2 3+4 5
1 + 2
3+4
5
Profa. Dra. Alessandra de Ávila Montini 
1 + 2 3 4 5
1 + 2 12,53 13,56 9,05
3 5,66 10,00
4 14,56
5
p = 3 e q=4 
 
t = (3+4) 
 
 r = (1+2) 
  q,p2
qp
qp
r,q
qp
q
r,p
qp
p
r,t S
NN
N*N
S
NN
N
S
NN
N
S






  4,3243
43
)21(,4
43
4
)21(,3
43
3
)21(),43( S
NN
N*N
S
NN
N
S
NN
N
S





 
 
63,1166,5*)25,0(56,13*5,053,12*5,0S
11
1*1
S
11
1
S
11
1
S 4,32)21(,4)21(,3)21(),43( 





 
Profa. Dra. Alessandra de Ávila Montini 
Cálculo da distância do grupo 3+4 
para o elemento 5 
1+2 3+4 5
1 + 2
3+4
5
Profa. Dra. Alessandra de Ávila Montini 
1 + 2 3 4 5
1 + 2 12,53 13,56 9,05
3 5,66 10,00
4 14,56
5
p = 3 e q=4 
 
t = (3+4) 
 
 r = 5 
  q,p2
qp
qp
r,q
qp
q
r,p
qp
p
r,t S
NN
N*N
S
NN
N
S
NN
N
S






  4,3243
43
5,4
43
4
5,3
43
3
5),43( S
NN
N*N
S
NN
N
S
NN
N
S






 
86,1066,5*)25,0(56,14*5,000,10*5,0S
11
1*1
S
11
1
S
11
1
S 4,325,45,35),43( 






Profa. Dra. Alessandra de Ávila Montini 
Matriz de distância após agrupar 
os elementos 3 e 4 
1+2 3+4 5
1 + 2 11,63 9,05
3+4 10,86
5
Profa. Dra. Alessandra de Ávila Montini 
Passo 3 
Os elementos (1+2) e 5 eles serão agrupados no 
passo 3. 
1+2 3+4 5
1 + 2 11,63 9,05
3+4 10,86
5
Profa. Dra. Alessandra de Ávila Montini 
Cálculo da distância do grupo 
(1+2)+5 para o grupo (3+4) 
1+2+5 3+4
1 + 2 + 5
3+4
Profa. Dra. Alessandra de Ávila Montini 
p = (1+2) e q=5 
 
t = (1 + 2) + (5) 
 
r = (3+4) 
  q,p2
qp
qp
r,q
qp
q
r,p
qp
p
r,t S
NN
N*N
S
NN
N
S
NN
N
S






  5),21(2
5)21(
5)21(
)43(,5
5)21(
5
)43(),21(
5)21(
)21(
)43(,5)21( S
NN
N*N
S
NN
N
S
NN
N
S 














 
36,905,9
12
1*2
87,10
12
1
63,11
12
2
S
2)43(,5)21(






1+2 3+4 51 + 2 11,63 9,053+4 10,865
Profa. Dra. Alessandra de Ávila Montini 
Matriz de distância final 
1+2+5 3+4
1 + 2 + 5 15,23
3+4
Profa. Dra. Alessandra de Ávila Montini 
Técnicas de Agrupamento 
 
Método da Centróide 
(Centroid clustering) 
 
Dendograma 
 
Profa. Dra. Alessandra de Ávila Montini 
Este é o Dendograma gerado a partir dos 
agrupamentos realizados nos passos de 1 
a 3. 
Dendrograma 
2,24 
5,66 
9,05 
15,23 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
Dendrograma 
Profa. Dra. Alessandra de Ávila Montini 
Dendrograma 
2,24 
5,66 
9,05 
15,23 
1 2 5 3 4 
D
is
tâ
n
c
ia
 E
u
c
li
d
ia
n
a
 
Dendrograma 
Considerando a linha vermelha como a separação dos grupos 
nota-se que os elementos 1 e 2 formam um grupo, o elemento 5 
forma um grupo e os elementos 3 e 4 formam um grupo. 
Profa. Dra. Alessandra de Ávila Montini 
Exercício 
Pokémon 
 
 
Profa. Dra. Alessandra de Ávila Montini 
HP (hit points) 
Representam a quantidade de vida, ou saúde do Pokémon e a quantidade de dano 
que ele consegue levar antes de ser liquidado . Quanto maior o HP, mais vida o 
Pokémon terá e, portanto, mais difícil será liquidá-lo. 
 
Attack (Ataque) 
Determina a quantidade de dano que um Pokémon pode infligir no outro usando um 
movimento de ataque físico. Quanto maior o ataque, mais dano o Pokémon pode 
infligir em seu adversário. 
 
Defense (Defesa) 
Mostra a capacidade do Pokémon se defender quando recebe um ataque físico. 
Quanto maior a Defense (defesa), menor dano ele receberá quanto atacado 
fisicamente. 
Profa. Dra. Alessandra de Ávila Montini 
Pokemon HP Attack Defense HP Attack Defense
Chansey 250 5 5 1,50 -1,47 -1,33
Snorlax 160 110 65 0,39 0,42 0,00
Dragonite 91 134 95 -0,46 0,85 0,66
Rhydon 105 130 120 -0,29 0,78 1,22
Pikachu 35 55 40 -1,15 -0,57 -0,55
Média 128,2 86,8 65
Desvio Padrão 81,32 55,53 45,14
Profa. Dra. Alessandra de Ávila Montini 
Profa. Dra. Alessandra de Ávila Montini 
Profa. Dra. Alessandra de Ávila Montini 
Profa. Dra. Alessandra de Ávila Montini 
Profa. Dra. Alessandra de Ávila Montini 
Exercício 1 
Profa. Dra. Alessandra de Ávila Montini 
Considere o exemplo de um diretor que deseja 
agrupar seus vendedores de acordo com as vendas 
diárias realizadas no estado de São Paulo e no 
estado do Rio de Janeiro. A Tabela apresenta os 
valores dasvariáveis para os cinco vendedores 
para um dia de venda. 
Vendedor Venda SP Venda RJ
1 2 8
2 5 3
3 5 2
4 2 2
5 3 7
Profa. Dra. Alessandra de Ávila Montini 
a - Obtenha os elementos que estão acima da diagonal 
principal da matriz de distância Euclidiana dos 
vendedores. Responder com 3 casas decimais. 
1 2 3 4 5
1
2
3
4
5
Profa. Dra. Alessandra de Ávila Montini 
b - Obtenha todas as matrizes de agrupamentos 
e faça o dendograma. 
Profa. Dra. Alessandra de Ávila Montini 
Exercício 2 
Profa. Dra. Alessandra de Ávila Montini 
Considere o exemplo de um diretor que deseja 
agrupar seus vendedores de acordo com as 
vendas diárias realizadas no estado de São Paulo e 
no estado do Rio de Janeiro. A Tabela apresenta os 
valores das variáveis para os cinco vendedores 
para um dia de venda. 
Vendedor Venda SP Venda RJ
1 1 8
2 3 3
3 5 5
4 2 2
5 3 8
Profa. Dra. Alessandra de Ávila Montini 
a - Obtenha os elementos que estão acima da 
diagonal principal da matriz de distância 
Euclidiana dos vendedores. Responder com 3 
casas decimais. 
 
1 2 3 4 5
1
2
3
4
5
Profa. Dra. Alessandra de Ávila Montini 
b - Obtenha todas as matrizes de 
agrupamentos e faça o dendograma. 
Profa. Dra. Alessandra de Ávila Montini 
Exercício 3 
Profa. Dra. Alessandra de Ávila Montini 
Considere o exemplo de um diretor que deseja 
agrupar seus vendedores de acordo com as 
vendas diárias realizadas no estado de São Paulo e 
no estado do Rio de Janeiro. A Tabela apresenta os 
valores das variáveis para os cinco vendedores 
para um dia de venda. 
Profa. Dra. Alessandra de Ávila Montini 
a - Obtenha os elementos que estão acima da diagonal 
principal da matriz de distância Euclidiana dos 
vendedores. Responder com 3 casas decimais. 
 
1 2 3 4 5
1
2
3
4
5
Profa. Dra. Alessandra de Ávila Montini 
b - Obtenha todas as matrizes de 
agrupamentos e faça o dendograma. 
Profa. Dra. Alessandra de Ávila Montini 
Aplicação no PASW Statistics 
Profa. Dra. Alessandra de Ávila Montini 
Exemplo 3 
Profa. Dra. Alessandra de Ávila Montini 
Considere o exemplo de uma analista de gestão de 
pessoas que deseja agrupar os candidatos em 
três grupos considerando duas variáveis: o tempo 
de formação do candidato e o tempo que o 
candidato permaneceu na empresa anterior. A 
Tabela apresenta os valores das variáveis para os 
cinco candidatos. 
Profa. Dra. Alessandra de Ávila Montini 
Neste exemplo será utilizado o software PASW Statistics versão 18. 
Profa. Dra. Alessandra de Ávila Montini 
Importar a Base de Dados 
Profa. Dra. Alessandra de Ávila Montini 
Para importar um arquivo clicar em File, localizar o arquivo no computador e 
clicar em open. 
Caso a primeira linha do arquivo a ser importado tiver o nome das variáveis 
deixar a opção que está marcada selecionada e clicar em OK. 
O PASW Statistics importou de forma adequada a a base de dados. 
 
Clicar em Variable View para verificar o tipo de cada variável. 
 
A variável candidato é uma string e não uma variável numérica. Para trocar o 
tipo de variável clicar em TYPE , selecionar o tipo desejado e clicar em OK. 
 
Agora a variável candidato é uma string. 
Profa. Dra. Alessandra de Ávila Montini 
Cluster Hierárquico 
Selecionar Analyze , Classify e Hierarchical Cluster 
Selecionar as variáveis que deverão ser utilizadas para formar os grupos e 
selecionar a variável Label. 
 
As variáveis que deverão ser utilizadas para formar os grupos e a variável 
Label foram selecionadas. 
No menu Statistics, 
Fazer estas seleções : 
No menu Plots. 
Fazer estas seleções : 
Selecionar um dos métodos de agrupamento 
No menu Method, 
Neste exemplo selecionar o vizinho mais próximo (Nearest Neighbor ) 
Selecionar uma das medidas 
No menu Method, 
Neste exemplo selecionar a Distância Euclidiana 
Após a seleção das opções clicar em ok 
O PASW Statistics gera um output com todos os resultados. 
Número de elementos da base de dados e a matriz com as distâncias Euclidianas. 
O PASW Statistics mostra quais os elementos que foram agrupados e em que 
distância. 
 
No estágio 1, o elemento 1 foi agrupado ao elemento 2 na distância 2,236. 
 
No estágio 2, o elemento 3 foi agrupado ao elemento 4 na distância 5,657. 
 
No estágio 3, o grupo (1+2) foi agrupado ao elemento 5 na distância 9,220. 
 
No estágio 4, o grupo (1+2+5) foi agrupado ao grupo (3+4) na distância 10,00. 
Dendrograma 
O PASW Statistics gera o dendograma. 
 
Neste dendograma o PASW Statistics não apresenta no eixo vertical as 
distâncias euclidianas originais. O PASW Statistics faz uma mudança de 
escala. 
Profa. Dra. Alessandra de Ávila Montini 
Exemplo 4 
Banco de Dados: MCDONALDS.xls 
 
Profa. Dra. Alessandra de Ávila Montini 
Neste exemplo pretende-se agrupar os 
lanches do Mcdonalds de acordo com as 
variáveis apresentadas. 
Profa. Dra. Alessandra de Ávila Montini 
Método Hierárquico 
Profa. Dra. Alessandra de Ávila Montini 
As variáveis que deverão ser utilizadas no cluster foram 
selecionadas e a variável Label foi selecionada. 
No menu Statistics, 
Fazer estas seleções : 
No menu Plots, 
Fazer estas seleções : 
Profa. Dra. Alessandra de Ávila Montini 
Método Hierárquico 
 
Vizinho mais próximo 
(Nearest neighbor) 
 
Profa. Dra. Alessandra de Ávila Montini 
Selecionar: 
 
Cluster Method: Vizinho mais próximo (Nearest neighbor) 
 
Measure : Distância Euclidiana (Euclidian distance) 
 
Transform Values: Z scores (transforma cada variável e considera as variáveis 
padronizadas). 
Profa. Dra. Alessandra de Ávila Montini 
S
)XX(
Z


X: variável aleatória com média e desvio padrão S 
Z: variável aleatória padronizada com média 0 e variância 1. 
A variável padronizada é denominada Z. 
X
Profa. Dra. Alessandra de Ávila Montini 
Dendrograma 
Profa. Dra. Alessandra de Ávila Montini 
Método Hierárquico 
 
Vizinho mais distante 
(Furthest neighbor) 
 
Profa. Dra. Alessandra de Ávila Montini 
Selecionar: 
 
Cluster Method: Vizinho mais distante (Furthest neighbor) 
 
Measure : Distância Euclidiana (Euclidian distance) 
 
Transform Values: Z scores (transforma cada variável e considera as variáveis 
padronizadas 
Profa. Dra. Alessandra de Ávila Montini 
Dendrograma 
Profa. Dra. Alessandra de Ávila Montini 
Método Hierárquico 
 
Centróide 
Profa. Dra. Alessandra de Ávila Montini 
Selecionar: 
 
Cluster Method: Centróide (Centroid clustering) 
 
Measure : Distância Euclidiana (Euclidian distance) 
 
Transform Values: Z scores (transforma cada variável e considera as variáveis 
padronizadas 
Profa. Dra. Alessandra de Ávila Montini 
Dendrograma 
Profa. Dra. Alessandra de Ávila Montini 
Como pode ser observado os 
dendogramas gerados pelos métodos 
vizinho mais próximo, vizinho mais 
distante e centróide são diferentes. 
 
Para exemplificar os agrupamentos 
considere o método do vizinho mais 
distante. 
Profa. Dra. Alessandra de Ávila Montini 
Dendrograma 
Profa. Dra. Alessandra de Ávila Montini 
Exercício 1 
 
base de dados: MCdonalds1.xls 
 
Profa. Dra. Alessandra de Ávila Montini 
Considerando as variáveis padronizadas, o 
método da centróide e a matriz de distância 
Euclidiana , faça o dendograma. Obtenha 5 
grupos com a base de dados: MCdonalds1.xls1 – Quais os lanches estão em cada grupo. 
Responder com o numero do lanche e não 
com o nome. Considerar a formação da 
esquerda para a direita: 
 
Grupo 1: 
Grupo 2: 
Grupo 3: 
Grupo 4: 
Grupo 5: 
 
 
Profa. Dra. Alessandra de Ávila Montini 
Exercício 2 
 
base de dados: POKEMON1.xls 
Profa. Dra. Alessandra de Ávila Montini 
Todas as variáveis devem estar como : 
ESCALA. 
 
 
 
 
 
Profa. Dra. Alessandra de Ávila Montini 
Considerando as variáveis padronizadas, o método do 
vizinho mais distante e a matriz de distância 
Euclidiana, faça o dendograma. Obtenha 4 grupos 
com a base de dados: POKEMON1.xls. Considerar a 
formação da esquerda para a direita: 
 
1 – Complete a tabela abaixo e caracterize os grupos. 
 
Profa. Dra. Alessandra de Ávila Montini 
Método das k médias 
Profa. Dra. Alessandra de Ávila Montini 
No método das K médias é necessário definir, a priori, o 
número de grupos (clusters). 
219 
Profa. Dra. Alessandra de Ávila Montini 
Padronização da Base de Dados 
Profa. Dra. Alessandra de Ávila Montini 
Antes de iniciar o método das K médias deve-se padronizar as variáveis. 
 
Para padronizar as variáveis, selecionar Analyze, Descriptive Statistics e 
Descriptives. 
Profa. Dra. Alessandra de Ávila Montini 
Selecionar todas as variáveis que serão utilizadas para realizar o agrupamento 
Profa. Dra. Alessandra de Ávila Montini 
O PASW Statistics gera colunas novas com as variáveis padronizadas. 
 
Profa. Dra. Alessandra de Ávila Montini 
Método das K médias 
Profa. Dra. Alessandra de Ávila Montini 
225 
Para fazer os agrupamentos pelo método das k médias, 
selecionar Analyze, Classify e K-Means Cluster. 
Profa. Dra. Alessandra de Ávila Montini 
226 
As variáveis padronizadas que deverão ser utilizadas no cluster foram 
selecionadas, a variável Label foi selecionada e foi determinado o número 
de grupos desejados (neste exemplo 3 grupos). 
Profa. Dra. Alessandra de Ávila Montini 
Na opção Iterate, 
Colocar 100 iterações. 
Profa. Dra. Alessandra de Ávila Montini 
Na opção Save, 
Fazer esta seleção. 
Profa. Dra. Alessandra de Ávila Montini 
Na opção options, 
Fazer estas seleções. 
Profa. Dra. Alessandra de Ávila Montini 
O PASW Statistics gera um output com todos os resultados. 
 
Profa. Dra. Alessandra de Ávila Montini 
Método das K médias 
 
Análise de Variância 
Profa. Dra. Alessandra de Ávila Montini 
O PASW Statistics gera um output com todos os resultados. 
 
Esta tabela gerada faz uma comparação das médias das variáveis entre os grupos. 
H0: as médias da variável são iguais para todos os grupos; 
 
H1: as médias da variável são diferentes em pelo menos um grupo; 
 
Teste F para comparação de médias 
A variável Zscore:Valor energético é a variável Valor energético 
padronizada (com média zero e desvio padrão 1). 
 
A hipótese testa se a média dessa variável para o grupo 1 é 
igual a média dessa variável para o grupo 2 e é igual a média 
dessa variável para o grupo 3. 
Teste F para comparação de médias 
Considere o teste F feito para a variável: Zscore:Valor energético 
A estatística do teste possui distribuição F com 2 e 22 
graus de liberdade. 
Distribuição F 
Teste F para comparação de médias 
O valor da estatística do teste é 86,075. 
A área a direita da estatística do teste é denominada 
nível descritivo (Sig). 
86,075 
Nível descritivo 
Regra de decisão: Quando o Sig (Nível descritivo do teste) 
for menor do que α (0,10) rejeitamos H0, ou seja, há 
evidência de que as médias da variável são diferentes em 
pelo menos um grupo 
Teste F para comparação de médias 
H0: as médias da variável são iguais para todos os grupos; 
 
H1: as médias da variável são diferentes em pelo menos um grupo; 
 
Profa. Dra. Alessandra de Ávila Montini 
Como o Sig associado `a variável Zscore: Fibra Alimentar é maior do 
que 0,10 há evidência de que as médias dessa variável são iguais 
para todos os grupos. Desta forma esta variável não é importante 
para a formação dos grupos. Como o Sig associado as demais 
variáveis são inferiores a 0,10 as demais variáveis são importantes. 
Profa. Dra. Alessandra de Ávila Montini 
Ajusta-se novamente a análise de cluster pelo método das k médias sem a variável 
Zscore: Fibra Alimentar. 
Como o Sig associado as variáveis são inferiores a 0,10 todas essas variáveis 
são importantes. 
Profa. Dra. Alessandra de Ávila Montini 
Método das K médias 
 
Número de Observações nos Grupos 
Profa. Dra. Alessandra de Ávila Montini 
O PASW Statistics gera um output com o número de observações em 
cada grupo. 
 
Agora é necessário caracterizar os grupos. 
Profa. Dra. Alessandra de Ávila Montini 
O PASW Statistics coloca na base de dados o grupo 
relacionado a cada elemento. Esta nova variável é 
 
denominada: 
Profa. Dra. Alessandra de Ávila Montini 
Análise Exploratória dos Grupos 
 
Box-plot 
Profa. Dra. Alessandra de Ávila Montini 
Para obter o Box-plot de cada um dos grupos para cada 
variável deve-se selecionar Graphs, Legacy Dialogs e 
Box-plot. 
Profa. Dra. Alessandra de Ávila Montini 
Fazer esta seleção. 
Profa. Dra. Alessandra de Ávila Montini 
Selecionar a variável, colocar a variável grupo em 
category Axis e colocar a variável com o nome dos 
lanches em label. 
Profa. Dra. Alessandra de Ávila Montini 
Box-plot da variável Valor Energéticos para cada um dos 
grupos. 
Profa. Dra. Alessandra de Ávila Montini 
Análise Exploratória dos Grupos 
 
Split File 
Profa. Dra. Alessandra de Ávila Montini 
Para obter um análise para cada grupo deve-se partir o 
banco de dados por grupo. 
 
Selecionar Data e Split File. 
Profa. Dra. Alessandra de Ávila Montini 
Selecionar Organize output by groups e colocar a variável grupo. 
Profa. Dra. Alessandra de Ávila Montini 
Análise Exploratória dos Grupos 
 
Medidas Descritivas 
Profa. Dra. Alessandra de Ávila Montini 
Para obter as estatísticas descritivas selecionar Analyze, 
Descriptive Statistics e Descriptives. 
cv 
Profa. Dra. Alessandra de Ávila Montini 
Selecionar as variáveis originais. 
Profa. Dra. Alessandra de Ávila Montini 
Selecionar as medidas descritivas desejadas. 
Profa. Dra. Alessandra de Ávila Montini 
O PASW Statistics gera uma tabela com as medidas 
descritivas selecionadas para cada grupo. 
Profa. Dra. Alessandra de Ávila Montini 
Análise Exploratória dos Grupos 
 
Caracterização dos Grupos 
Profa. Dra. Alessandra de Ávila Montini 
Variável Grupo 1 Grupo 2 Grupo 3
 Valor Energético 408,24 855,67 567,40
 Ferro 2,76 5,33 8,88
 Colesterol 44,41 129,33 77,40
 Calcio 113,35 257,00 216,20
 Proteínas 23,35 48,67 29,20
 Carboidratos 39,53 52,67 40,80
 Gorduras Saturadas 5,08 22,00 13,80
 GordurasTrans 0,28 1,70 1,00
 Sódio 1073,82 1714,67 1094,00
 GordurasTotais 17,30 50,00 32,00
Com base nas medidas descritivas geradas no PASW Statistics pode-se 
obter a seguinte tabela com as médias das variáveis para cada grupo. 
Adicionalmente pode-se obter uma tabela similar para cada medida 
descritiva. 
OBS: a cor vermelho representa o grupo de maior média para a variável, a 
cor cinza representa o grupo com a segunda maior média para a variável e 
a cor verde representa o grupo de menor média para a variável. 
Profa. Dra. Alessandra de Ávila Montini 
Variável Grupo 1 Grupo 2 Grupo 3
 Valor Energético 408,24 855,67 567,40
 Ferro 2,76 5,33 8,88
 Colesterol 44,41 129,3377,40
 Calcio 113,35 257,00 216,20
 Proteínas 23,35 48,67 29,20
 Carboidratos 39,53 52,67 40,80
 Gorduras Saturadas 5,08 22,00 13,80
 GordurasTrans 0,28 1,70 1,00
 Sódio 1073,82 1714,67 1094,00
 GordurasTotais 17,30 50,00 32,00
Nota-se que o grupo 1 apresenta as menores médias para todas as 
variáveis. 
 
O grupo 2 apresenta as maiores médias para todas as variáveis 
(exceto para o ferro). 
 
O grupo 3 apresenta valores médios intermediários (próximos do 
grupo 2) para as variáveis e maior valor médio para a variável ferro. 
Profa. Dra. Alessandra de Ávila Montini 
Grupo 1 - apresenta as menores médias para 
todas as variáveis. 
 
Chicken Club Crispy
Chicken Club Grill
Chicken Bacon Crispy
Chicken Classic Crispy
McChicken
Chicken Lemon Crispy
Chicken Classic Grill
Chicken Bacon Grill
Chicken Lemon Grill
McFish
Wrap Crispy Maionese
Wrap Grill Maionese
Wrap Crispy Lemon
McChicken Jr
Cheeseburger
Wrap Grill Lemon
Hamburger
Profa. Dra. Alessandra de Ávila Montini 
Grupo 2 
Grupo 2 – Colesterol médio e sódio médio 
muito maior que os demais grupos. 
Profa. Dra. Alessandra de Ávila Montini 
Grupo 3 – maior valor médio para a variável ferro 
Profa. Dra. Alessandra de Ávila Montini 
Exercício 1 
Profa. Dra. Alessandra de Ávila Montini 
Considere o dendograma realizado por meio da técnica de agrupamento do 
vizinho mais distante e considere a matriz de distância Euclidiana. 
Suponha que o objetivo seja separar os lanches em três grupos. 
Profa. Dra. Alessandra de Ávila Montini 
 ValorEnergético Carboidratos Proteínas 
Angus Deluxe 863 56 51 
Angus Bacon 861 57 54 
Big Tasty 843 45 41 
CBO 643 56 27 
Mcnifico Bacon 625 38 34 
Chicken Club Crispy 610 54 31 
Quarterão 558 36 31 
Chicken Club Grill 545 46 41 
Chicken Bacon Crispy 515 45 27 
Cheddar McMelt 507 33 29 
Big Mac 504 41 25 
 
a) Média: _______________ ; 
 
b) Desvio padrão:_____________; 
 
c) Coeficiente de Variação _____________; 
Considere o agrupamento em três grupos e considere o grupo do lanche 
Quarteirão. Obtenha a média, o desvio padrão e o coeficiente de variação 
para a variável valor energético para os lanches do grupo do lanche 
Quarteirão. 
Profa. Dra. Alessandra de Ávila Montini 
Exercício 2 
Profa. Dra. Alessandra de Ávila Montini 
Considere um colecionador de motos que deseja agrupar as motos de acordo 
com algumas variáveis. A tabela apresenta a ANOVA. Marque as variáveis que 
você acha adequado utilizar na análise de clusters considerando o método das k 
médias. Considerar α = 0,10. 
 
( ) Cilindrada 
( ) Potencia 
( ) Torque 
( ) Cambio 
( ) Velocidade 
( ) Aceleração 
 
 
 
 
 
Cluster Error 
F Sig. Mean Square Df Mean Square df 
Cilindrada 865784,046 2 89808,716 12 9,640 ,003 
Potencia 11173,286 2 411,478 12 27,154 ,000 
Torque 63,177 2 6,405 12 9,863 ,003 
Cambio 8,571 2 3,571 12 2,400 ,133 
velocidade 9842,493 2 1303,274 12 7,552 ,008 
aceleracao 36,796 2 14,635 12 2,514 ,122

Continue navegando