Baixe o app para aproveitar ainda mais
Prévia do material em texto
Tutorial: Estatística Multivariada no Minitab UFOP – ICEA/DEENP Disciplina: Estatística II Análise de Agrupamentos (Cluster) O que é? O agrupamento de observações, ou Cluster Observations, é uma das técnicas que compõem a metodologia de análise de agrupamentos. O objetivo dessa análise é dividir os elementos da amostra (ou população) em grupos, de modo que os elementos mais similares entre si fiquem no mesmo grupo. A similaridade é mensurada através das variáveis medidas em cada elemento. Agrupamento de Observações Quando usar? Use agrupamento de observações para classificar observações similares em grupos, quando os grupos são inicialmente desconhecidos. Essa metodologia usa um procedimento hierárquico de agrupamento. Agrupamento de Observações Por que usar? O agrupamento de observações pode ajudar a responder perguntas tais como: • Com base nas características dos produtos, quais são mais similares entre si? • Como podemos classificar várias observações em grupos? • Qual o posicionamento do produto em relação a seus concorrentes de mercado? Por exemplo: • Entre 12 marcas de cereais matinais diferentes, quais são mais similares entre si no que se refere às 5 características nutricionais avaliadas? • Como um psiquiatra pode agrupar seus pacientes para submetê-los a diferentes tratamentos, de acordo com seus perfis de personalidade? • Comparando com as marcas de sabão em pó concorrentes, qual o posicionamento da marca X no que se refere à preferência dos consumidores? Agrupamento de Observações Problema A secretaria de desenvolvimento de um município brasileiro deseja implementar um novo programa de políticas públicas. Esse programa visa acelerar o desenvolvimento do município, atacando os problemas mais alarmantes que acometem a população local. O município em questão é composto por 20 bairros, com perfis sócio-econômicos diferenciados. Para que a implementação do programa seja efetiva, é necessário trabalhar individualmente em cada bairro, detectando as principais necessidades e alocando as políticas mais adequadas à região. Para facilitar a viabilização do programa, analistas da secretaria decidiram estudar os perfis dos 20 bairros, agrupando-os de acordo com a semelhança entre eles. Dessa forma, bairros que tiverem características mais similares, e portanto pertencerem a um mesmo grupo, podem receber políticas semelhantes. Exemplo: Políticas Públicas em um Município Coleta de dados Com base nos resultados da PNAD (Pesquisa Nacional por Amostragem de Domicílios) mais recente, os analistas selecionaram um conjunto de variáveis medidas nos 20 bairros do município. As 11 variáveis consideradas caracterizam condições sociais e econômicas da população de cada bairro. Exemplo: Políticas Públicas em um Município Ferramentas •Cluster Observations Arquivo de dados Políticas Públicas.MTW Variável Descrição Bairro Nome do bairro Pessoas/domicílio Número médio de pessoas por domicílio Domicílios próprios Percentual de domicílios próprios Esgoto Percentual de domicílios atendidos com rede de esgoto Lixo Percentual de domicílios atendidos com coleta de lixo Energia Elétrica Percentual de domicílios atendidos com energia elétrica Automóveis Razão média de automóveis para uso particular por domicílio Dependência Razão média do número de pessoas dependentes pelo número de pessoas em idade ativa por domicílio Analfabetismo Percentual de pessoas com idade acima de 15 anos que não sabe ler nem escrever Anos de estudo Número médio de anos de estudo Desocupação Percentual de pessoas desocupadas Pobreza Percentual de domicílios com renda per capita abaixo da linha de pobreza Exemplo: Políticas Públicas em um Município A worksheet POLÍTICAS PÚBLICAS.MTW do Minitab contém 20 linhas de dados, cada uma referente a um bairro do município. Para cada bairro foram consideradas as seguintes informações sobre a população local: Condições domiciliares da população: • Número médio de pessoas por domicílio • Percentual de domicílios próprios Infra-estrutura: • Percentual de domicílios atendidos com rede de esgoto • Percentual de domicílios atendidos com coleta de lixo • Percentual de domicílios atendidos com energia elétrica • Razão média de automóveis para uso particular por domicílio Entendendo os dados coletados Condições dos indivíduos: • Razão média do número de pessoas dependentes pelo número de pessoas em idade ativa por domicílio • Percentual de pessoas com idade acima de 15 anos que não sabe ler nem escrever • Número médio de anos de estudo • Percentual de pessoas desocupadas Indicador de pobreza: • Percentual de domicílios com renda per capita abaixo da linha de pobreza Baseando-se nessas 11 variáveis, os 20 bairros do município serão agrupados de acordo com seu nível de similaridade. Assim, os bairros que ficarem no mesmo grupo terão valores mais próximos nessas variáveis do que bairros que forem alocados a grupos diferentes. Entendendo os dados coletados Realize o agrupamento inicial dos bairros, unindo todos em um único grupo. Isso lhe permitirá conhecer todos os passos seguidos para chegar a esse agrupamento, e então usar essas informações em uma nova análise. Agrupamento de observações Cluster Observations 1) Abra o arquivo POLÍTICAS PÚBLICAS.MTW. 2) Selecione Stat > Multivariate > Cluster Observations. 3) Preencha a caixa de diálogo como mostra a figura abaixo: Agrupamento de observações Distance Measure A medida de distância, ou medida de dissimilaridade, representa o quão distante dois grupos são entre si. Portanto, quanto menor o seu valor, mais similares serão os elementos que estão sendo comparados. O Minitab fornece cinco métodos diferentes para medir a distância, e cada um deles produz um determinado tipo de agrupamento. Nesse exemplo, use a Distância Euclidiana, que é o default. Agrupamento de observações Linkage Method O método de ligação utilizado irá determinar como a distância entre dois agrupamentos é definida. Utilize o Método de Ligação Simples, que é o default. Agrupamento de observações Standardize variables As 11 variáveis desse exemplo foram medidas em escalas diferentes, como percentual, número médio, e razão. Para que essas diferenças nas unidades não interfiram nos resultados da análise, trabalhar com os dados padronizados é a melhor opção. A padronização consiste em transformar todas as variáveis em uma escala comum, subtraindo as médias e dividindo pelo desvio-padrão. Marcar a opção Standardize variables na caixa de diálogo Cluster Observations é similar a padronizar as variáveis usando o menu Calc > Standardize, e usar as variáveis padronizadas resultantes na análise. Agrupamento de observações Cluster Observations 4) Clique em OK. Agrupamento de observações Entendendo o agrupamento de observações Esse procedimento usa um método hierárquico aglomerativo que começa com todas as observações separadas, cada uma formando seu próprio agrupamento. No primeiro passo, as duas observações mais próximas são agrupadas. No próximo passo, uma observação se junta às duas primeiras, ou duas outras observações se juntam em um agrupamento diferente. Este processo continuará até que todos os agrupamentos estejam aglomerados em um só. Interpretando os resultados Entendendo o agrupamento de observações O Minitab mostra na janela Session os passos de aglomeração que foram seguidos. A cada passo, duas observações (ou grupos) são unidas. A tabela mostra quais grupos foram unidos, a distância entre eles, o nível de similaridade correspondente, o númerode identificação do novo grupo (que é sempre o menor entre os números dos dois grupos que foram unidos), o número de observações no novo grupo, e o número de grupos. Interpretando os resultados Entendendo o agrupamento de observações A coluna “Step” designa os passos executados até se chegar ao agrupamento final. E a coluna “Clusters joined” mostra o número (referente à linha da worksheet) das observações que foram unidas em cada passo. Assim, o primeiro passo consistiu na união dos bairros 15 e 16 (Pinheiros e Pompéia), que são os mais similares entre si no que se refere às 11 variáveis medidas. Esses dois bairros foram então unidos em um grupo só, nomeado de grupo 15 (coluna “New cluster”). Interpretando os resultados Entendendo o agrupamento de observações Já o segundo passo uniu os bairros 3 e 4 (Brasilândia e Cangaíba), que formaram o novo grupo designado como 3 (“New cluster”). Esse procedimento foi repetido até se chegar a um único grupo, composto pelos 20 bairros. Interpretando os resultados Entendendo o agrupamento de observações Porém, este agrupamento único não é útil para propósitos de classificação. Assim, você deve decidir quantos grupos são ideais para descrever seus dados e classificá-los da melhor maneira. Interpretando os resultados Distance level Os valores exibidos na coluna Distance level foram calculados através da Distância Euclidiana. Por esse método, cada par de bairros é comparado em cada uma das 11 variáveis coletadas. Interpretando os resultados Distance level Em cada passo, após calcular a Distância Euclidiana entre cada par de bairros, o Minitab utilizou o Método de Ligação Simples para unir os bairros mais similares, ou seja, aqueles que apresentam menor distância. Interpretando os resultados Distance level No primeiro passo, foram unidos os elementos 15 e 16, que representam os bairros Pinheiros e Pompéia. O valor de 0,39113 representa a Distância Euclidiana calculada entre esses dois bairros, que foi a menor entre todos os pares de bairros. Nesse passo, os bairros 15 e 16 passaram a formar um único grupo, nomeado como 15. Interpretando os resultados Distance level No segundo passo, calculou-se novamente as Distâncias Euclidianas entre todos os grupos. Nesse momento, havia 19 grupos, 18 deles compostos cada um por um bairro, e um deles composto pelos bairros 15 e 16, grupo formado no primeiro passo. Entre todas as medidas de distância calculadas, verificou-se que a menor delas era de 0,60276, obtida entre os bairros 3 e 4. Então, esses bairros formaram o grupo 3. Interpretando os resultados Distance level Portanto, os valores mostrados na coluna Distance level representam as Distâncias Euclidianas calculadas entre os grupos unidos em cada passo. Observe que os valores de distância aumentam a cada passo, pois os elementos ou grupos mais similares são unidos primeiro. Por isso, esse procedimento é chamado de hierárquico. Interpretando os resultados Similarity level O nível de similaridade representa o percentual da distância mínima em cada passo em relação à distância máxima entre as observações dos dados. Quanto maior o valor de similaridade, mais parecidos são os grupos unidos em relação às variáveis medidas. Interpretando os resultados Similarity level Na tabela, percebe-se que o nível de similaridade decresce à medida em que o agrupamento avança. Os dois primeiros elementos unidos, os bairros 15 e 16, possuem nível de similaridade de 95,206, enquanto os dois últimos grupos unidos possuem similaridade bem inferior, de 54,2676. Interpretando os resultados Similarity level Você pode avaliar o nível de similaridade e a distância entre os grupos unidos para escolher o número de grupos para a partição final dos dados. Uma sugestão é procurar detectar pontos nos quais há um decréscimo acentuado na similaridade dos grupos unidos; esses pontos indicam que o agrupamento deveria ser interrompido. No agrupamento final, você deseja níveis de similaridade razoavelmente altos e distâncias razoavelmente pequenas entre os grupos unidos. Escolha a faixa de similaridade para determinar o número adequado de agrupamentos. Interpretando os resultados Similarity level Para os dados dos bairros, a tabela mostra que: • O nível de similaridade decresce em passos de 3 ou menos, até os passos 17 e 18, no qual a similaridade diminuiu em 6 unidades (de 80,9732 a 74,9622). Interpretando os resultados Similarity level Para os dados dos bairros, a tabela mostra que: • A distância entre os grupos aumenta, primeiro em passos de aproximadamente 0,22 unidade, e então em cerca de 0,5 (de 1,55236 a 2,04278) nos passos 17 a 18 (de 3 para 2 grupos). Esses fatos poderiam indicar que 3 grupos são razoavelmente suficientes para a partição final, desde que tenha sentido prático Interpretando os resultados Baseando-se na análise anterior, foi possível avaliar o número ideal de grupos a ser utilizado. Use esse conhecimento para prosseguir com a análise e chegar em um número adequado de agrupamentos, tanto no sentido matemático quanto prático., Definindo o número de grupos Cluster Observations 1) Selecione Stat > Multivariate > Cluster Observations, ou pressione “Ctrl+E”. 2) Preencha a caixa de diálogo como mostra a figura abaixo: Definindo o número de grupos Number of clusters Com base nos valores de similaridade e distâncias calculados anteriormente, definiu- se que a utilização de 3 grupos seria razoável. Porém, os analistas da secretaria de desenvolvimento consideram mais adequado dividir os 20 bairros em 4 grupos, para então alocar as políticas públicas adequadas ao perfil de cada grupo. Portanto, digite 4 nessa opção. Definindo o número de grupos Cluster Observations 3) Clique em Customize. Em Case labels, entre com Bairro. 4) Clique em OK em cada caixa de diálogo. Definindo o número de grupos Interpretando os resultados A tabela com os passos do agrupamento é a mesma mostrada na análise anterior. Porém, nesse caso, como você definiu a formação de 4 grupos finais, avalie os resultados mostrados no passo 16. O nível de similaridade entre os dois últimos grupos unidos foi alto (81,0324), indicando que os elementos (bairros) pertencentes a um mesmo grupo são muito similares entre si, para os 4 agrupamentos finais formados. Interpretando os resultados Quando você especifica a partição (número de grupos) final, que nesse caso foi de 4, o Minitab exibe três tabelas adicionais. A primeira tabela resume cada grupo da partição final pelas seguintes informações: • Number of observations: Mostra o número de observações (bairros) em cada grupo final. O primeiro grupo é composto por 6 bairros, o segundo grupo por 3 bairros, o terceiro grupo por 4 bairros e o quarto grupo por 7 bairros. Interpretando os resultados • Within cluster sum of squares: A soma de quadrados dentro do grupo mede a variabilidade dentro de cada grupo, no que se refere às 11 variáveis medidas em cada bairro. Em geral, um grupo com uma soma de quadrados pequena é mais compacto que um grupo com uma soma de quadrados grande. Nesse caso, os 4 bairros que compõem o grupo 3 (soma de quadrados igual a 1,86772) são mais similares entre si do que os 6 bairros que compõem o grupo 1 (soma de quadrados igual a 5,37685). Interpretando os resultados • Average distance from the observation to the cluster centroid: A distância média das observações ao centróide do grupo. Interpretando os resultados • Maximum distance of the observation to the cluster centroid: A distância máxima das observações ao centróide do grupo.O centróide se refere ao vetor de médias das variáveis para as observações naquele grupo, e é usado como o ponto central de um grupo. Realize análises adicionais nos dados para certificar-se de que esse agrupamento faz sentido. Lembre-se que a melhor partição final é a que gera menor variabilidade interna, ou seja, gera grupos compostos por elementos mais similares entre si quanto possível. Interpretando os resultados A segunda tabela exibe os centróides para os grupos individuais, enquanto a terceira tabela fornece as distâncias entre os centróides dos grupos. Os valores mostrados na tabela Cluster Centroids são os centróides dos grupos, e representam as médias das variáveis (padronizadas) para os elementos nos grupos. Eles são usados como pontos centrais nos grupos. Comparando esses valores, é possível verificar como os grupos diferem em termos das variáveis medidas. Por exemplo, considerando a variável Pessoas/domicílio (padronizada), verifica-se que enquanto os bairros que compõem o grupo 3 têm uma média de 1,55046, os bairros que compõem o grupo 4 têm uma média de -0,98822 para essa mesma variável. Interpretando os resultados Já a tabela Distances Between Cluster Centroids (calculada usando a medida de Distância Euclidiana entre as observações) mostra o quão distantes entre si são os grupos formados. Esses números não são muito informativos por si só, mas você pode comparar as diferenças entre os grupos para interpretar os resultados. Os grupos 2 e 4 apresentam menor valor de distância (2,18723), sendo portanto os mais semelhantes entre si. Já os grupos 2 e 3 são os mais diferentes, pois apresentam o maior valor de distância (6,32729). Isso apóia a conclusão de que os bairros que ficaram no mesmo grupo são mais semelhantes entre si, enquanto bairros alocados a grupos diferentes têm menos semelhança no que se refere às variáveis medidas., Interpretando os resultados Dendogram O dendrograma exibe os grupos formados pelo agrupamento de observações, e seus respectivos níveis de similaridade. No eixo x do gráfico, tem-se os 20 bairros analisados, enquanto no eixo y, estão as medidas de similaridade. Interpretando os resultados Dendogram Nesse gráfico, quanto mais próximos os elementos estiverem entre si, mais semelhantes são os valores dos mesmos nas 11 variáveis medidas. A caixa que liga cada par de observações (ou grupos) tem altura correspondente à similaridade. Assim, o dendrograma hierarquiza a similaridade entre as observações, de modo que você tenha uma visão bidimensional da similaridade ou dissimilaridade de todos os elementos avaliados no estudo. Interpretando os resultados Dendogram É opcional exibir os níveis de distância no eixo y, em vez das similaridades. Você deve analisar os dados para ver se as classificações fazem sentido. Interpretando os resultados Dendogram A partição final para os dados dos bairros contém quatro grupos, classificados por suas similaridades. O Minitab diferencia os grupos colorindo o gráfico: Grupo vermelho: Aparecida, Liberdade, Pinheiros, Pompéia, São Bento, Jacuí Interpretando os resultados Dendogram A partição final para os dados dos bairros contém quatro grupos, classificados por suas similaridades. O Minitab diferencia os grupos colorindo o gráfico: Grupo azul: Brasilândia, Cangaíba, Grajaú, Ipiranga Interpretando os resultados Dendogram A partição final para os dados dos bairros contém quatro grupos, classificados por suas similaridades. O Minitab diferencia os grupos colorindo o gráfico: Grupo verde: Barroca, Floresta, Santa Mônica Interpretando os resultados Dendogram A partição final para os dados dos bairros contém quatro grupos, classificados por suas similaridades. O Minitab diferencia os grupos colorindo o gráfico: Grupo alaranjado: Centro, Pedra Branca, Cosme Velho, Glória, Santa Tereza, Vila Maria e Laranjeiras Considerações finais Resumo e conclusões Com a aplicação da técnica multivariada de agrupamento de observações, foi possível criar grupos de bairros que apresentam níveis semelhantes de desenvolvimento em termos das condições sociais, domiciliares, de infra-estrutura, educação e ocupação dos indivíduos da população local. Baseando-se nos resultados da análise, os bairros foram agrupados da seguinte forma: • Grupo 1 – Aparecida, Liberdade, Pinheiros, Pompéia, São Bento, Jacuí • Grupo 2 – Barroca, Floresta, Santa Mônica • Grupo 3 – Brasilândia, Cangaíba, Grajaú, Ipiranga • Grupo 4 – Centro, Pedra Branca, Cosme Velho, Glória, Santa Tereza, Vila Maria e Laranjeiras Com essas informações em mãos, a secretaria de desenvolvimento do município pode implementar o novo programa de políticas públicas considerando os perfis dos bairros que constituem cada um dos quatro grupos. Considerações finais Considerações adicionais Os analistas podem realizar uma análise complementar nesses dados, estudando o perfil de cada um dos quatro grupos separadamente, no que se refere às 11 variáveis analisadas. Dessa forma, será possível identificar quais grupos são compostos por bairros com maiores necessidades, e quais políticas podem ser implementadas para trazer ganhos à população local. Técnicas estatísticas simples, como estatísticas descritivas, gráficos, correlações, entre outras, podem levantar essas informações de modo efetivo.
Compartilhar