Baixe o app para aproveitar ainda mais
Prévia do material em texto
Nome: Lucas da Silva Santos – RA:2022202781 – CENTRO UNIVERSITÁRIO FMU Curso: Engenharia Elétrica – Disciplina: Estatística Aplicada ao Dara Science Data: 04/11/2023 – Unidade 4 – Análise exploratória com Algoritmos de Agrupamento ___________________________________________________________________________ Vamos praticar 4 ANÁLISE EXPLORATÓRIA COM ALGORITMOS DE AGRUPAMENTO Um dos mais relevantes poluentes do ar atmosférico é o dióxido de enxôfre, fórmula química 𝑆𝑂2, que tem sua origem principalmente associada a queima de combustíveis fósseis, ou pelos meios de transporte, ou de atividades industriais, ou de calefação, em regiões mais frias. A base de dados USairpollution do software estatístico R (SOKAL) apresenta dados relativos à concentração de dióxido de enxôfre em 41 municípios americanos, ao lado de registros, para cada um dos municípios, da temperatura média anual, do número de indústrias com mais de 20 funcionários, da população, da velocidade média anual dos ventos (que dispersam poluentes), da precipitação pluviométrica anual (que limpa o ar), e da quantidade de dias com chuva no ano. Selecionamos 5 dessas cidades para uma análise simples de agrupamento hierárquico, cujos dados são exibidos na tabela adiante: Para esses cinco municípios, rodamos um algoritmo de agrupamento hierárquico, cujo resultado é exibido na figura adiante, na forma de um dendrograma: Figura 1 - Dendrograma do agrupamento das cinco cidades Nome: Lucas da Silva Santos – RA:2022202781 – CENTRO UNIVERSITÁRIO FMU Curso: Engenharia Elétrica – Disciplina: Estatística Aplicada ao Dara Science Data: 04/11/2023 – Unidade 4 – Análise exploratória com Algoritmos de Agrupamento ___________________________________________________________________________ Analisando o estudo de caso vou responder às suas perguntas com base no dendrograma apresentado: 1. Quantos grupos iniciais de uma só observação há neste dendrograma? Há 5 grupos iniciais, correspondendo a cada um dos 5 municípios: Chicago, Dallas, Houston, Memphis e Miami. 2. Qual o município que, claramente, se destaca dos demais no dendrograma? Pelo dendrograma, parece que o município de Chicago se destaca claramente dos demais, pois está em um nível mais alto no dendrograma, indicando que ele é o primeiro a se agrupar. 3. Na altura (Height) 5, quantos e quais grupos o algoritmo de agrupamento formou? Na altura 5, o algoritmo de agrupamento formou um único grupo que inclui todos os 5 municípios, ou seja, todos estão agrupados juntos. 4. Na altura (Height) 3, quantos e quais grupos o algoritmo de agrupamento formou? Na altura 3, o algoritmo de agrupamento formou 2 grupos: Grupo 1: Chicago, Dallas e Memphis. Grupo 2: Houston e Miami. 5. O que significam esses grupos formados pelo algoritmo? Os grupos formados pelo algoritmo representam similaridades nas características dos municípios. No caso, o Grupo 1 (Chicago, Dallas e Memphis) parece incluir cidades com características semelhantes, e o Grupo 2 (Houston e Miami) agrupa cidades que também são mais semelhantes entre si do que com as do Grupo 1. A altura no dendrograma indica a dissimilaridade entre os grupos; quanto mais baixa a altura, maior a dissimilaridade. Portanto, na altura 5, todos os municípios são considerados semelhantes o suficiente para estarem em um único grupo, enquanto na altura 3, há uma divisão com base nas características dos dados.
Compartilhar