Analise Cluster no Minitab Tutorial

•

UFOP

6

0

6

0

Beatriz Moreira

07.12.2017

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

56.052 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Tutorial:
Estatística Multivariada
no Minitab
UFOP – ICEA/DEENP
Disciplina: Estatística II
Análise de Agrupamentos (Cluster)
O que é?
O agrupamento de observações, ou Cluster Observations, é uma das técnicas que
compõem a metodologia de análise de agrupamentos. O objetivo dessa análise é
dividir os elementos da amostra (ou população) em grupos, de modo que os
elementos mais similares entre si fiquem no mesmo grupo. A similaridade é
mensurada através das variáveis medidas em cada elemento.
Agrupamento de Observações
Quando usar?
Use agrupamento de observações para classificar observações similares em
grupos, quando os grupos são inicialmente desconhecidos. Essa metodologia usa
um procedimento hierárquico de agrupamento.
Agrupamento de Observações
Por que usar?
O agrupamento de observações pode ajudar a responder perguntas tais como:
• Com base nas características dos produtos, quais são mais similares entre si?
• Como podemos classificar várias observações em grupos?
• Qual o posicionamento do produto em relação a seus concorrentes de mercado?
Por exemplo:
• Entre 12 marcas de cereais matinais diferentes, quais são mais similares entre si no
que se refere às 5 características nutricionais avaliadas?
• Como um psiquiatra pode agrupar seus pacientes para submetê-los a diferentes
tratamentos, de acordo com seus perfis de personalidade?
• Comparando com as marcas de sabão em pó concorrentes, qual o posicionamento da
marca X no que se refere à preferência dos consumidores?
Agrupamento de Observações
Problema
A secretaria de desenvolvimento de um município brasileiro deseja implementar um
novo programa de políticas públicas. Esse programa visa acelerar o
desenvolvimento do município, atacando os problemas mais alarmantes que
acometem a população local.
O município em questão é composto por 20 bairros, com perfis sócio-econômicos
diferenciados. Para que a implementação do programa seja efetiva, é necessário
trabalhar individualmente em cada bairro, detectando as principais necessidades e
alocando as políticas mais adequadas à região.
Para facilitar a viabilização do programa, analistas da secretaria decidiram estudar
os perfis dos 20 bairros, agrupando-os de acordo com a semelhança entre eles.
Dessa forma, bairros que tiverem características mais similares, e portanto
pertencerem a um mesmo grupo, podem receber políticas semelhantes.
Exemplo: Políticas Públicas em um Município
Coleta de dados
Com base nos resultados da PNAD (Pesquisa Nacional por Amostragem de
Domicílios) mais recente, os analistas selecionaram um conjunto de variáveis
medidas nos 20 bairros do município. As 11 variáveis consideradas caracterizam
condições sociais e econômicas da população de cada bairro.
Exemplo: Políticas Públicas em um Município
Ferramentas
•Cluster Observations
Arquivo de dados
Políticas Públicas.MTW
Variável Descrição
Bairro Nome do bairro
Pessoas/domicílio Número médio de pessoas por domicílio
Domicílios próprios Percentual de domicílios próprios
Esgoto Percentual de domicílios atendidos com rede de esgoto
Lixo Percentual de domicílios atendidos com coleta de lixo
Energia Elétrica Percentual de domicílios atendidos com energia elétrica
Automóveis Razão média de automóveis para uso particular por domicílio
Dependência Razão média do número de pessoas dependentes pelo número de
pessoas em idade ativa por domicílio
Analfabetismo Percentual de pessoas com idade acima de 15 anos que não sabe
ler nem escrever
Anos de estudo Número médio de anos de estudo
Desocupação Percentual de pessoas desocupadas
Pobreza Percentual de domicílios com renda per capita abaixo da linha de
pobreza
Exemplo: Políticas Públicas em um Município
A worksheet POLÍTICAS PÚBLICAS.MTW do Minitab contém 20 linhas de dados, cada
uma referente a um bairro do município. Para cada bairro foram consideradas as
seguintes informações sobre a população local:
Condições domiciliares da população:
• Número médio de pessoas por domicílio
• Percentual de domicílios próprios
Infra-estrutura:
• Percentual de domicílios atendidos com rede de esgoto
• Percentual de domicílios atendidos com coleta de lixo
• Percentual de domicílios atendidos com energia elétrica
• Razão média de automóveis para uso particular por domicílio
Entendendo os dados coletados
Condições dos indivíduos:
• Razão média do número de pessoas dependentes pelo número de pessoas em
idade ativa por domicílio
• Percentual de pessoas com idade acima de 15 anos que não sabe ler nem
escrever
• Número médio de anos de estudo
• Percentual de pessoas desocupadas
Indicador de pobreza:
• Percentual de domicílios com renda per capita abaixo da linha de pobreza
Baseando-se nessas 11 variáveis, os 20 bairros do município serão agrupados de acordo
com seu nível de similaridade. Assim, os bairros que ficarem no mesmo grupo terão
valores mais próximos nessas variáveis do que bairros que forem alocados a grupos
diferentes.
Entendendo os dados coletados
Realize o agrupamento inicial dos bairros, unindo todos em um único grupo. Isso
lhe permitirá conhecer todos os passos seguidos para chegar a esse agrupamento,
e então usar essas informações em uma nova análise.
Agrupamento de observações
Cluster Observations
1) Abra o arquivo POLÍTICAS PÚBLICAS.MTW.
2) Selecione Stat > Multivariate > Cluster Observations.
3) Preencha a caixa de diálogo como mostra a figura abaixo:
Agrupamento de observações
Distance Measure
A medida de distância, ou medida de
dissimilaridade, representa o quão distante
dois grupos são entre si. Portanto, quanto
menor o seu valor, mais similares serão os
elementos que estão sendo comparados. O
Minitab fornece cinco métodos diferentes
para medir a distância, e cada um deles
produz um determinado tipo de
agrupamento. Nesse exemplo, use a
Distância Euclidiana, que é o default.
Agrupamento de observações
Linkage Method
O método de ligação utilizado irá determinar
como a distância entre dois agrupamentos é
definida. Utilize o Método de Ligação
Simples, que é o default.
Agrupamento de observações
Standardize variables
As 11 variáveis desse exemplo foram
medidas em escalas diferentes, como
percentual, número médio, e razão. Para
que essas diferenças nas unidades não
interfiram nos resultados da análise,
trabalhar com os dados padronizados é a
melhor opção. A padronização consiste em
transformar todas as variáveis em uma
escala comum, subtraindo as médias e
dividindo pelo desvio-padrão.
Marcar a opção Standardize variables na
caixa de diálogo Cluster Observations é
similar a padronizar as variáveis usando o
menu Calc > Standardize, e usar as
variáveis padronizadas resultantes na
análise.
Agrupamento de observações
Cluster Observations
4) Clique em OK.
Agrupamento de observações
Entendendo o agrupamento de observações
Esse procedimento usa um método hierárquico aglomerativo que começa com todas
as observações separadas, cada uma formando seu próprio agrupamento. No
primeiro passo, as duas observações mais próximas são agrupadas. No próximo
passo, uma observação se junta às duas primeiras, ou duas outras observações se
juntam em um agrupamento diferente. Este processo continuará até que todos os
agrupamentos estejam aglomerados em um só.
Interpretando os resultados
Entendendo o agrupamento de observações
O Minitab mostra na janela Session os passos de aglomeração que foram seguidos.
A cada passo, duas observações (ou grupos) são unidas. A tabela mostra quais
grupos foram unidos, a distância entre eles, o nível de similaridade correspondente,
o númerode identificação do novo grupo (que é sempre o menor entre os números
dos dois grupos que foram unidos), o número de observações no novo grupo, e o
número de grupos.
Interpretando os resultados
Entendendo o agrupamento de observações
A coluna “Step” designa os passos executados até se chegar ao agrupamento final.
E a coluna “Clusters joined” mostra o número (referente à linha da worksheet) das
observações que foram unidas em cada passo. Assim, o primeiro passo consistiu na
união dos bairros 15 e 16 (Pinheiros e Pompéia), que são os mais similares entre si
no que se refere às 11 variáveis medidas. Esses dois bairros foram então unidos em
um grupo só, nomeado de grupo 15 (coluna “New cluster”).
Interpretando os resultados
Entendendo o agrupamento de observações
Já o segundo passo uniu os bairros 3 e 4 (Brasilândia e Cangaíba), que formaram
o novo grupo designado como 3 (“New cluster”). Esse procedimento foi repetido
até se chegar a um único grupo, composto pelos 20 bairros.
Interpretando os resultados
Entendendo o agrupamento de observações
Porém, este agrupamento único não é útil para propósitos de classificação. Assim,
você deve decidir quantos grupos são ideais para descrever seus dados e
classificá-los da melhor maneira.
Interpretando os resultados
Distance level
Os valores exibidos na coluna Distance level foram calculados através da Distância
Euclidiana. Por esse método, cada par de bairros é comparado em cada uma das 11
variáveis coletadas.
Interpretando os resultados
Distance level
Em cada passo, após calcular a Distância Euclidiana entre cada par de bairros, o
Minitab utilizou o Método de Ligação Simples para unir os bairros mais similares, ou
seja, aqueles que apresentam menor distância.
Interpretando os resultados
Distance level
No primeiro passo, foram unidos os elementos 15 e 16, que representam os bairros
Pinheiros e Pompéia. O valor de 0,39113 representa a Distância Euclidiana
calculada entre esses dois bairros, que foi a menor entre todos os pares de bairros.
Nesse passo, os bairros 15 e 16 passaram a formar um único grupo, nomeado como
15.
Interpretando os resultados
Distance level
No segundo passo, calculou-se novamente as Distâncias Euclidianas entre todos os
grupos. Nesse momento, havia 19 grupos, 18 deles compostos cada um por um
bairro, e um deles composto pelos bairros 15 e 16, grupo formado no primeiro
passo. Entre todas as medidas de distância calculadas, verificou-se que a menor
delas era de 0,60276, obtida entre os bairros 3 e 4. Então, esses bairros formaram o
grupo 3.
Interpretando os resultados
Distance level
Portanto, os valores mostrados na coluna Distance level representam as Distâncias
Euclidianas calculadas entre os grupos unidos em cada passo. Observe que os
valores de distância aumentam a cada passo, pois os elementos ou grupos mais
similares são unidos primeiro. Por isso, esse procedimento é chamado de
hierárquico.
Interpretando os resultados
Similarity level
O nível de similaridade representa o percentual da distância mínima em cada passo
em relação à distância máxima entre as observações dos dados. Quanto maior o
valor de similaridade, mais parecidos são os grupos unidos em relação às variáveis
medidas.
Interpretando os resultados
Similarity level
Na tabela, percebe-se que o nível de similaridade decresce à medida em que o
agrupamento avança. Os dois primeiros elementos unidos, os bairros 15 e 16,
possuem nível de similaridade de 95,206, enquanto os dois últimos grupos unidos
possuem similaridade bem inferior, de 54,2676.
Interpretando os resultados
Similarity level
Você pode avaliar o nível de similaridade e a distância entre os grupos unidos para
escolher o número de grupos para a partição final dos dados. Uma sugestão é
procurar detectar pontos nos quais há um decréscimo acentuado na similaridade
dos grupos unidos; esses pontos indicam que o agrupamento deveria ser
interrompido. No agrupamento final, você deseja níveis de similaridade
razoavelmente altos e distâncias razoavelmente pequenas entre os grupos unidos.
Escolha a faixa de similaridade para determinar o número adequado de
agrupamentos.
Interpretando os resultados
Similarity level
Para os dados dos bairros, a tabela mostra que:
• O nível de similaridade decresce em passos de 3 ou menos, até os passos 17 e
18, no qual a similaridade diminuiu em 6 unidades (de 80,9732 a 74,9622).
Interpretando os resultados
Similarity level
Para os dados dos bairros, a tabela mostra que:
• A distância entre os grupos aumenta, primeiro em passos de aproximadamente
0,22 unidade, e então em cerca de 0,5 (de 1,55236 a 2,04278) nos passos 17 a
18 (de 3 para 2 grupos).
Esses fatos poderiam indicar que 3 grupos são razoavelmente suficientes para a
partição final, desde que tenha sentido prático
Interpretando os resultados
Baseando-se na análise anterior, foi possível avaliar o número ideal de grupos a ser
utilizado. Use esse conhecimento para prosseguir com a análise e chegar em um
número adequado de agrupamentos, tanto no sentido matemático quanto prático.,
Definindo o número de grupos
Cluster Observations
1) Selecione Stat > Multivariate > Cluster Observations, ou pressione “Ctrl+E”.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
Definindo o número de grupos
Number of clusters
Com base nos valores de similaridade e
distâncias calculados anteriormente, definiu-
se que a utilização de 3 grupos seria
razoável. Porém, os analistas da secretaria
de desenvolvimento consideram mais
adequado dividir os 20 bairros em 4 grupos,
para então alocar as políticas públicas
adequadas ao perfil de cada grupo.
Portanto, digite 4 nessa opção.
Definindo o número de grupos
Cluster Observations
3) Clique em Customize. Em Case labels, entre com Bairro.
4) Clique em OK em cada caixa de diálogo.
Definindo o número de grupos
Interpretando os resultados
A tabela com os passos do agrupamento é a mesma mostrada na análise anterior.
Porém, nesse caso, como você definiu a formação de 4 grupos finais, avalie os
resultados mostrados no passo 16.
O nível de similaridade entre os dois últimos grupos unidos foi alto (81,0324),
indicando que os elementos (bairros) pertencentes a um mesmo grupo são muito
similares entre si, para os 4 agrupamentos finais formados.
Interpretando os resultados
Quando você especifica a partição (número de grupos) final, que nesse caso foi de 4,
o Minitab exibe três tabelas adicionais.
A primeira tabela resume cada grupo da partição final pelas seguintes informações:
• Number of observations: Mostra o número de observações (bairros) em cada
grupo final. O primeiro grupo é composto por 6 bairros, o segundo grupo por 3
bairros, o terceiro grupo por 4 bairros e o quarto grupo por 7 bairros.
Interpretando os resultados
• Within cluster sum of squares: A soma de quadrados dentro do grupo mede a
variabilidade dentro de cada grupo, no que se refere às 11 variáveis medidas em
cada bairro. Em geral, um grupo com uma soma de quadrados pequena é mais
compacto que um grupo com uma soma de quadrados grande. Nesse caso, os 4
bairros que compõem o grupo 3 (soma de quadrados igual a 1,86772) são mais
similares entre si do que os 6 bairros que compõem o grupo 1 (soma de quadrados
igual a 5,37685).
Interpretando os resultados
• Average distance from the observation to the cluster centroid: A distância média
das observações ao centróide do grupo.
Interpretando os resultados
• Maximum distance of the observation to the cluster centroid: A distância máxima
das observações ao centróide do grupo.O centróide se refere ao vetor de médias das variáveis para as observações naquele
grupo, e é usado como o ponto central de um grupo.
Realize análises adicionais nos dados para certificar-se de que esse agrupamento faz
sentido. Lembre-se que a melhor partição final é a que gera menor variabilidade
interna, ou seja, gera grupos compostos por elementos mais similares entre si quanto
possível.
Interpretando os resultados
A segunda tabela exibe os centróides para os grupos individuais, enquanto a terceira
tabela fornece as distâncias entre os centróides dos grupos.
Os valores mostrados na tabela Cluster Centroids são os centróides dos grupos, e
representam as médias das variáveis (padronizadas) para os elementos nos grupos.
Eles são usados como pontos centrais nos grupos. Comparando esses valores, é
possível verificar como os grupos diferem em termos das variáveis medidas. Por
exemplo, considerando a variável Pessoas/domicílio (padronizada), verifica-se que
enquanto os bairros que compõem o grupo 3 têm uma média de 1,55046, os bairros
que compõem o grupo 4 têm uma média de -0,98822 para essa mesma variável.
Interpretando os resultados
Já a tabela Distances Between Cluster Centroids (calculada usando a medida de
Distância Euclidiana entre as observações) mostra o quão distantes entre si são os
grupos formados. Esses números não são muito informativos por si só, mas você
pode comparar as diferenças entre os grupos para interpretar os resultados. Os
grupos 2 e 4 apresentam menor valor de distância (2,18723), sendo portanto os mais
semelhantes entre si. Já os grupos 2 e 3 são os mais diferentes, pois apresentam o
maior valor de distância (6,32729).
Isso apóia a conclusão de que os bairros que ficaram no mesmo grupo são mais
semelhantes entre si, enquanto bairros alocados a grupos diferentes têm menos
semelhança no que se refere às variáveis medidas.,
Interpretando os resultados
Dendogram
O dendrograma exibe os grupos formados pelo agrupamento de observações, e seus
respectivos níveis de similaridade. No eixo x do gráfico, tem-se os 20 bairros
analisados, enquanto no eixo y, estão as medidas de similaridade.
Interpretando os resultados
Dendogram
Nesse gráfico, quanto mais próximos os elementos estiverem entre si, mais
semelhantes são os valores dos mesmos nas 11 variáveis medidas. A caixa que liga
cada par de observações (ou grupos) tem altura correspondente à similaridade.
Assim, o dendrograma hierarquiza a similaridade entre as observações, de modo que
você tenha uma visão bidimensional da similaridade ou dissimilaridade de todos os
elementos avaliados no estudo.
Interpretando os resultados
Dendogram
É opcional exibir os níveis de distância no eixo y, em vez das similaridades. Você
deve analisar os dados para ver se as classificações fazem sentido.
Interpretando os resultados
Dendogram
A partição final para os dados dos bairros contém quatro grupos, classificados por
suas similaridades. O Minitab diferencia os grupos colorindo o gráfico:
Grupo vermelho: Aparecida, Liberdade, Pinheiros, Pompéia, São Bento, Jacuí
Interpretando os resultados
Dendogram
A partição final para os dados dos bairros contém quatro grupos, classificados por
suas similaridades. O Minitab diferencia os grupos colorindo o gráfico:
Grupo azul: Brasilândia, Cangaíba, Grajaú, Ipiranga
Interpretando os resultados
Dendogram
A partição final para os dados dos bairros contém quatro grupos, classificados por
suas similaridades. O Minitab diferencia os grupos colorindo o gráfico:
Grupo verde: Barroca, Floresta, Santa Mônica
Interpretando os resultados
Dendogram
A partição final para os dados dos bairros contém quatro grupos, classificados por
suas similaridades. O Minitab diferencia os grupos colorindo o gráfico:
Grupo alaranjado: Centro, Pedra Branca, Cosme Velho, Glória, Santa Tereza, Vila Maria
e Laranjeiras
Considerações finais
Resumo e conclusões
Com a aplicação da técnica multivariada de agrupamento de observações, foi
possível criar grupos de bairros que apresentam níveis semelhantes de
desenvolvimento em termos das condições sociais, domiciliares, de infra-estrutura,
educação e ocupação dos indivíduos da população local.
Baseando-se nos resultados da análise, os bairros foram agrupados da seguinte
forma:
• Grupo 1 – Aparecida, Liberdade, Pinheiros, Pompéia, São Bento, Jacuí
• Grupo 2 – Barroca, Floresta, Santa Mônica
• Grupo 3 – Brasilândia, Cangaíba, Grajaú, Ipiranga
• Grupo 4 – Centro, Pedra Branca, Cosme Velho, Glória, Santa Tereza, Vila Maria
e Laranjeiras
Com essas informações em mãos, a secretaria de desenvolvimento do município
pode implementar o novo programa de políticas públicas considerando os perfis dos
bairros que constituem cada um dos quatro grupos.
Considerações finais
Considerações adicionais
Os analistas podem realizar uma análise complementar nesses dados, estudando o
perfil de cada um dos quatro grupos separadamente, no que se refere às 11
variáveis analisadas. Dessa forma, será possível identificar quais grupos são
compostos por bairros com maiores necessidades, e quais políticas podem ser
implementadas para trazer ganhos à população local. Técnicas estatísticas simples,
como estatísticas descritivas, gráficos, correlações, entre outras, podem levantar
essas informações de modo efetivo.