Buscar

Analise Cluster no Minitab Tutorial

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Tutorial:
Estatística Multivariada
no Minitab
UFOP – ICEA/DEENP
Disciplina: Estatística II
Análise de Agrupamentos (Cluster)
O que é?
O agrupamento de observações, ou Cluster Observations, é uma das técnicas que 
compõem a metodologia de análise de agrupamentos. O objetivo dessa análise é 
dividir os elementos da amostra (ou população) em grupos, de modo que os 
elementos mais similares entre si fiquem no mesmo grupo. A similaridade é 
mensurada através das variáveis medidas em cada elemento. 
Agrupamento de Observações
Quando usar?
Use agrupamento de observações para classificar observações similares em 
grupos, quando os grupos são inicialmente desconhecidos. Essa metodologia usa 
um procedimento hierárquico de agrupamento. 
Agrupamento de Observações
Por que usar?
O agrupamento de observações pode ajudar a responder perguntas tais como:
• Com base nas características dos produtos, quais são mais similares entre si?
• Como podemos classificar várias observações em grupos? 
• Qual o posicionamento do produto em relação a seus concorrentes de mercado?
Por exemplo:
• Entre 12 marcas de cereais matinais diferentes, quais são mais similares entre si no 
que se refere às 5 características nutricionais avaliadas?
• Como um psiquiatra pode agrupar seus pacientes para submetê-los a diferentes 
tratamentos, de acordo com seus perfis de personalidade?
• Comparando com as marcas de sabão em pó concorrentes, qual o posicionamento da 
marca X no que se refere à preferência dos consumidores?
Agrupamento de Observações
Problema
A secretaria de desenvolvimento de um município brasileiro deseja implementar um 
novo programa de políticas públicas. Esse programa visa acelerar o 
desenvolvimento do município, atacando os problemas mais alarmantes que 
acometem a população local.
O município em questão é composto por 20 bairros, com perfis sócio-econômicos 
diferenciados. Para que a implementação do programa seja efetiva, é necessário 
trabalhar individualmente em cada bairro, detectando as principais necessidades e 
alocando as políticas mais adequadas à região.
Para facilitar a viabilização do programa, analistas da secretaria decidiram estudar 
os perfis dos 20 bairros, agrupando-os de acordo com a semelhança entre eles. 
Dessa forma, bairros que tiverem características mais similares, e portanto 
pertencerem a um mesmo grupo, podem receber políticas semelhantes. 
Exemplo: Políticas Públicas em um Município
Coleta de dados
Com base nos resultados da PNAD (Pesquisa Nacional por Amostragem de
Domicílios) mais recente, os analistas selecionaram um conjunto de variáveis
medidas nos 20 bairros do município. As 11 variáveis consideradas caracterizam
condições sociais e econômicas da população de cada bairro.
Exemplo: Políticas Públicas em um Município
Ferramentas
•Cluster Observations
Arquivo de dados
Políticas Públicas.MTW
Variável Descrição
Bairro Nome do bairro
Pessoas/domicílio Número médio de pessoas por domicílio
Domicílios próprios Percentual de domicílios próprios
Esgoto Percentual de domicílios atendidos com rede de esgoto
Lixo Percentual de domicílios atendidos com coleta de lixo
Energia Elétrica Percentual de domicílios atendidos com energia elétrica
Automóveis Razão média de automóveis para uso particular por domicílio
Dependência Razão média do número de pessoas dependentes pelo número de
pessoas em idade ativa por domicílio
Analfabetismo Percentual de pessoas com idade acima de 15 anos que não sabe
ler nem escrever
Anos de estudo Número médio de anos de estudo
Desocupação Percentual de pessoas desocupadas
Pobreza Percentual de domicílios com renda per capita abaixo da linha de
pobreza
Exemplo: Políticas Públicas em um Município
A worksheet POLÍTICAS PÚBLICAS.MTW do Minitab contém 20 linhas de dados, cada 
uma referente a um bairro do município. Para cada bairro foram consideradas as 
seguintes informações sobre a população local:
Condições domiciliares da população:
• Número médio de pessoas por domicílio
• Percentual de domicílios próprios
Infra-estrutura:
• Percentual de domicílios atendidos com rede de esgoto
• Percentual de domicílios atendidos com coleta de lixo
• Percentual de domicílios atendidos com energia elétrica
• Razão média de automóveis para uso particular por domicílio
Entendendo os dados coletados
Condições dos indivíduos:
• Razão média do número de pessoas dependentes pelo número de pessoas em 
idade ativa por domicílio
• Percentual de pessoas com idade acima de 15 anos que não sabe ler nem 
escrever 
• Número médio de anos de estudo
• Percentual de pessoas desocupadas
Indicador de pobreza:
• Percentual de domicílios com renda per capita abaixo da linha de pobreza
Baseando-se nessas 11 variáveis, os 20 bairros do município serão agrupados de acordo 
com seu nível de similaridade. Assim, os bairros que ficarem no mesmo grupo terão 
valores mais próximos nessas variáveis do que bairros que forem alocados a grupos 
diferentes.
Entendendo os dados coletados
Realize o agrupamento inicial dos bairros, unindo todos em um único grupo. Isso
lhe permitirá conhecer todos os passos seguidos para chegar a esse agrupamento,
e então usar essas informações em uma nova análise.
Agrupamento de observações
Cluster Observations
1) Abra o arquivo POLÍTICAS PÚBLICAS.MTW.
2) Selecione Stat > Multivariate > Cluster Observations.
3) Preencha a caixa de diálogo como mostra a figura abaixo:
Agrupamento de observações
Distance Measure
A medida de distância, ou medida de
dissimilaridade, representa o quão distante
dois grupos são entre si. Portanto, quanto
menor o seu valor, mais similares serão os
elementos que estão sendo comparados. O
Minitab fornece cinco métodos diferentes
para medir a distância, e cada um deles
produz um determinado tipo de
agrupamento. Nesse exemplo, use a
Distância Euclidiana, que é o default.
Agrupamento de observações
Linkage Method
O método de ligação utilizado irá determinar
como a distância entre dois agrupamentos é
definida. Utilize o Método de Ligação
Simples, que é o default.
Agrupamento de observações
Standardize variables
As 11 variáveis desse exemplo foram 
medidas em escalas diferentes, como 
percentual, número médio, e razão. Para 
que essas diferenças nas unidades não 
interfiram nos resultados da análise, 
trabalhar com os dados padronizados é a 
melhor opção. A padronização consiste em 
transformar todas as variáveis em uma 
escala comum, subtraindo as médias e 
dividindo pelo desvio-padrão. 
Marcar a opção Standardize variables na 
caixa de diálogo Cluster Observations é 
similar a padronizar as variáveis usando o 
menu Calc > Standardize, e usar as 
variáveis padronizadas resultantes na 
análise.
Agrupamento de observações
Cluster Observations
4) Clique em OK.
Agrupamento de observações
Entendendo o agrupamento de observações
Esse procedimento usa um método hierárquico aglomerativo que começa com todas 
as observações separadas, cada uma formando seu próprio agrupamento. No 
primeiro passo, as duas observações mais próximas são agrupadas. No próximo 
passo, uma observação se junta às duas primeiras, ou duas outras observações se 
juntam em um agrupamento diferente. Este processo continuará até que todos os 
agrupamentos estejam aglomerados em um só.
Interpretando os resultados
Entendendo o agrupamento de observações
O Minitab mostra na janela Session os passos de aglomeração que foram seguidos. 
A cada passo, duas observações (ou grupos) são unidas. A tabela mostra quais 
grupos foram unidos, a distância entre eles, o nível de similaridade correspondente, 
o númerode identificação do novo grupo (que é sempre o menor entre os números 
dos dois grupos que foram unidos), o número de observações no novo grupo, e o 
número de grupos.
Interpretando os resultados
Entendendo o agrupamento de observações
A coluna “Step” designa os passos executados até se chegar ao agrupamento final. 
E a coluna “Clusters joined” mostra o número (referente à linha da worksheet) das 
observações que foram unidas em cada passo. Assim, o primeiro passo consistiu na 
união dos bairros 15 e 16 (Pinheiros e Pompéia), que são os mais similares entre si 
no que se refere às 11 variáveis medidas. Esses dois bairros foram então unidos em 
um grupo só, nomeado de grupo 15 (coluna “New cluster”). 
Interpretando os resultados
Entendendo o agrupamento de observações
Já o segundo passo uniu os bairros 3 e 4 (Brasilândia e Cangaíba), que formaram 
o novo grupo designado como 3 (“New cluster”). Esse procedimento foi repetido 
até se chegar a um único grupo, composto pelos 20 bairros.
Interpretando os resultados
Entendendo o agrupamento de observações
Porém, este agrupamento único não é útil para propósitos de classificação. Assim, 
você deve decidir quantos grupos são ideais para descrever seus dados e 
classificá-los da melhor maneira. 
Interpretando os resultados
Distance level
Os valores exibidos na coluna Distance level foram calculados através da Distância 
Euclidiana. Por esse método, cada par de bairros é comparado em cada uma das 11 
variáveis coletadas.
Interpretando os resultados
Distance level
Em cada passo, após calcular a Distância Euclidiana entre cada par de bairros, o 
Minitab utilizou o Método de Ligação Simples para unir os bairros mais similares, ou 
seja, aqueles que apresentam menor distância. 
Interpretando os resultados
Distance level
No primeiro passo, foram unidos os elementos 15 e 16, que representam os bairros 
Pinheiros e Pompéia. O valor de 0,39113 representa a Distância Euclidiana 
calculada entre esses dois bairros, que foi a menor entre todos os pares de bairros. 
Nesse passo, os bairros 15 e 16 passaram a formar um único grupo, nomeado como 
15.
Interpretando os resultados
Distance level
No segundo passo, calculou-se novamente as Distâncias Euclidianas entre todos os 
grupos. Nesse momento, havia 19 grupos, 18 deles compostos cada um por um 
bairro, e um deles composto pelos bairros 15 e 16, grupo formado no primeiro 
passo. Entre todas as medidas de distância calculadas, verificou-se que a menor 
delas era de 0,60276, obtida entre os bairros 3 e 4. Então, esses bairros formaram o 
grupo 3. 
Interpretando os resultados
Distance level
Portanto, os valores mostrados na coluna Distance level representam as Distâncias 
Euclidianas calculadas entre os grupos unidos em cada passo. Observe que os 
valores de distância aumentam a cada passo, pois os elementos ou grupos mais 
similares são unidos primeiro. Por isso, esse procedimento é chamado de 
hierárquico. 
Interpretando os resultados
Similarity level
O nível de similaridade representa o percentual da distância mínima em cada passo 
em relação à distância máxima entre as observações dos dados. Quanto maior o 
valor de similaridade, mais parecidos são os grupos unidos em relação às variáveis 
medidas.
Interpretando os resultados
Similarity level
Na tabela, percebe-se que o nível de similaridade decresce à medida em que o 
agrupamento avança. Os dois primeiros elementos unidos, os bairros 15 e 16, 
possuem nível de similaridade de 95,206, enquanto os dois últimos grupos unidos 
possuem similaridade bem inferior, de 54,2676. 
Interpretando os resultados
Similarity level
Você pode avaliar o nível de similaridade e a distância entre os grupos unidos para 
escolher o número de grupos para a partição final dos dados. Uma sugestão é 
procurar detectar pontos nos quais há um decréscimo acentuado na similaridade 
dos grupos unidos; esses pontos indicam que o agrupamento deveria ser 
interrompido. No agrupamento final, você deseja níveis de similaridade 
razoavelmente altos e distâncias razoavelmente pequenas entre os grupos unidos. 
Escolha a faixa de similaridade para determinar o número adequado de 
agrupamentos.
Interpretando os resultados
Similarity level
Para os dados dos bairros, a tabela mostra que:
• O nível de similaridade decresce em passos de 3 ou menos, até os passos 17 e 
18, no qual a similaridade diminuiu em 6 unidades (de 80,9732 a 74,9622).
Interpretando os resultados
Similarity level
Para os dados dos bairros, a tabela mostra que:
• A distância entre os grupos aumenta, primeiro em passos de aproximadamente 
0,22 unidade, e então em cerca de 0,5 (de 1,55236 a 2,04278) nos passos 17 a 
18 (de 3 para 2 grupos).
Esses fatos poderiam indicar que 3 grupos são razoavelmente suficientes para a 
partição final, desde que tenha sentido prático
Interpretando os resultados
Baseando-se na análise anterior, foi possível avaliar o número ideal de grupos a ser
utilizado. Use esse conhecimento para prosseguir com a análise e chegar em um
número adequado de agrupamentos, tanto no sentido matemático quanto prático.,
Definindo o número de grupos
Cluster Observations
1) Selecione Stat > Multivariate > Cluster Observations, ou pressione “Ctrl+E”.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
Definindo o número de grupos
Number of clusters
Com base nos valores de similaridade e
distâncias calculados anteriormente, definiu-
se que a utilização de 3 grupos seria
razoável. Porém, os analistas da secretaria
de desenvolvimento consideram mais
adequado dividir os 20 bairros em 4 grupos,
para então alocar as políticas públicas
adequadas ao perfil de cada grupo.
Portanto, digite 4 nessa opção.
Definindo o número de grupos
Cluster Observations
3) Clique em Customize. Em Case labels, entre com Bairro. 
4) Clique em OK em cada caixa de diálogo.
Definindo o número de grupos
Interpretando os resultados
A tabela com os passos do agrupamento é a mesma mostrada na análise anterior. 
Porém, nesse caso, como você definiu a formação de 4 grupos finais, avalie os 
resultados mostrados no passo 16.
O nível de similaridade entre os dois últimos grupos unidos foi alto (81,0324), 
indicando que os elementos (bairros) pertencentes a um mesmo grupo são muito 
similares entre si, para os 4 agrupamentos finais formados.
Interpretando os resultados
Quando você especifica a partição (número de grupos) final, que nesse caso foi de 4, 
o Minitab exibe três tabelas adicionais. 
A primeira tabela resume cada grupo da partição final pelas seguintes informações:
• Number of observations: Mostra o número de observações (bairros) em cada 
grupo final. O primeiro grupo é composto por 6 bairros, o segundo grupo por 3 
bairros, o terceiro grupo por 4 bairros e o quarto grupo por 7 bairros.
Interpretando os resultados
• Within cluster sum of squares: A soma de quadrados dentro do grupo mede a 
variabilidade dentro de cada grupo, no que se refere às 11 variáveis medidas em 
cada bairro. Em geral, um grupo com uma soma de quadrados pequena é mais 
compacto que um grupo com uma soma de quadrados grande. Nesse caso, os 4 
bairros que compõem o grupo 3 (soma de quadrados igual a 1,86772) são mais 
similares entre si do que os 6 bairros que compõem o grupo 1 (soma de quadrados 
igual a 5,37685).
Interpretando os resultados
• Average distance from the observation to the cluster centroid: A distância média 
das observações ao centróide do grupo.
Interpretando os resultados
• Maximum distance of the observation to the cluster centroid: A distância máxima 
das observações ao centróide do grupo.O centróide se refere ao vetor de médias das variáveis para as observações naquele 
grupo, e é usado como o ponto central de um grupo. 
Realize análises adicionais nos dados para certificar-se de que esse agrupamento faz 
sentido. Lembre-se que a melhor partição final é a que gera menor variabilidade 
interna, ou seja, gera grupos compostos por elementos mais similares entre si quanto 
possível.
Interpretando os resultados
A segunda tabela exibe os centróides para os grupos individuais, enquanto a terceira 
tabela fornece as distâncias entre os centróides dos grupos.
Os valores mostrados na tabela Cluster Centroids são os centróides dos grupos, e 
representam as médias das variáveis (padronizadas) para os elementos nos grupos. 
Eles são usados como pontos centrais nos grupos. Comparando esses valores, é 
possível verificar como os grupos diferem em termos das variáveis medidas. Por 
exemplo, considerando a variável Pessoas/domicílio (padronizada), verifica-se que 
enquanto os bairros que compõem o grupo 3 têm uma média de 1,55046, os bairros 
que compõem o grupo 4 têm uma média de -0,98822 para essa mesma variável. 
Interpretando os resultados
Já a tabela Distances Between Cluster Centroids (calculada usando a medida de 
Distância Euclidiana entre as observações) mostra o quão distantes entre si são os 
grupos formados. Esses números não são muito informativos por si só, mas você 
pode comparar as diferenças entre os grupos para interpretar os resultados. Os 
grupos 2 e 4 apresentam menor valor de distância (2,18723), sendo portanto os mais 
semelhantes entre si. Já os grupos 2 e 3 são os mais diferentes, pois apresentam o 
maior valor de distância (6,32729).
Isso apóia a conclusão de que os bairros que ficaram no mesmo grupo são mais 
semelhantes entre si, enquanto bairros alocados a grupos diferentes têm menos 
semelhança no que se refere às variáveis medidas.,
Interpretando os resultados
Dendogram
O dendrograma exibe os grupos formados pelo agrupamento de observações, e seus 
respectivos níveis de similaridade. No eixo x do gráfico, tem-se os 20 bairros 
analisados, enquanto no eixo y, estão as medidas de similaridade. 
Interpretando os resultados
Dendogram
Nesse gráfico, quanto mais próximos os elementos estiverem entre si, mais 
semelhantes são os valores dos mesmos nas 11 variáveis medidas. A caixa que liga 
cada par de observações (ou grupos) tem altura correspondente à similaridade. 
Assim, o dendrograma hierarquiza a similaridade entre as observações, de modo que 
você tenha uma visão bidimensional da similaridade ou dissimilaridade de todos os 
elementos avaliados no estudo.
Interpretando os resultados
Dendogram
É opcional exibir os níveis de distância no eixo y, em vez das similaridades. Você 
deve analisar os dados para ver se as classificações fazem sentido.
Interpretando os resultados
Dendogram
A partição final para os dados dos bairros contém quatro grupos, classificados por 
suas similaridades. O Minitab diferencia os grupos colorindo o gráfico:
Grupo vermelho: Aparecida, Liberdade, Pinheiros, Pompéia, São Bento, Jacuí
Interpretando os resultados
Dendogram
A partição final para os dados dos bairros contém quatro grupos, classificados por 
suas similaridades. O Minitab diferencia os grupos colorindo o gráfico:
Grupo azul: Brasilândia, Cangaíba, Grajaú, Ipiranga
Interpretando os resultados
Dendogram
A partição final para os dados dos bairros contém quatro grupos, classificados por 
suas similaridades. O Minitab diferencia os grupos colorindo o gráfico:
Grupo verde: Barroca, Floresta, Santa Mônica
Interpretando os resultados
Dendogram
A partição final para os dados dos bairros contém quatro grupos, classificados por 
suas similaridades. O Minitab diferencia os grupos colorindo o gráfico:
Grupo alaranjado: Centro, Pedra Branca, Cosme Velho, Glória, Santa Tereza, Vila Maria 
e Laranjeiras
Considerações finais
Resumo e conclusões
Com a aplicação da técnica multivariada de agrupamento de observações, foi 
possível criar grupos de bairros que apresentam níveis semelhantes de 
desenvolvimento em termos das condições sociais, domiciliares, de infra-estrutura, 
educação e ocupação dos indivíduos da população local. 
Baseando-se nos resultados da análise, os bairros foram agrupados da seguinte 
forma:
• Grupo 1 – Aparecida, Liberdade, Pinheiros, Pompéia, São Bento, Jacuí
• Grupo 2 – Barroca, Floresta, Santa Mônica
• Grupo 3 – Brasilândia, Cangaíba, Grajaú, Ipiranga
• Grupo 4 – Centro, Pedra Branca, Cosme Velho, Glória, Santa Tereza, Vila Maria 
e Laranjeiras
Com essas informações em mãos, a secretaria de desenvolvimento do município 
pode implementar o novo programa de políticas públicas considerando os perfis dos 
bairros que constituem cada um dos quatro grupos. 
Considerações finais
Considerações adicionais
Os analistas podem realizar uma análise complementar nesses dados, estudando o 
perfil de cada um dos quatro grupos separadamente, no que se refere às 11 
variáveis analisadas. Dessa forma, será possível identificar quais grupos são 
compostos por bairros com maiores necessidades, e quais políticas podem ser 
implementadas para trazer ganhos à população local. Técnicas estatísticas simples, 
como estatísticas descritivas, gráficos, correlações, entre outras, podem levantar 
essas informações de modo efetivo.

Outros materiais

Outros materiais