Buscar

RA2022202781-Lucas Santos-Estatística Aplicada ao Data Science-Vamos praticar unidade 4

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Nome: Lucas da Silva Santos – RA:2022202781 – CENTRO UNIVERSITÁRIO FMU 
Curso: Engenharia Elétrica – Disciplina: Estatística Aplicada ao Dara Science 
Data: 04/11/2023 – Unidade 4 – Análise exploratória com Algoritmos de Agrupamento 
 
___________________________________________________________________________ 
Vamos praticar 4 
ANÁLISE EXPLORATÓRIA COM ALGORITMOS DE AGRUPAMENTO 
Um dos mais relevantes poluentes do ar atmosférico é o dióxido de enxôfre, fórmula química 
𝑆𝑂2, que tem sua origem principalmente associada a queima de combustíveis fósseis, ou pelos 
meios de transporte, ou de atividades industriais, ou de calefação, em regiões mais frias. 
A base de dados USairpollution do software estatístico R (SOKAL) apresenta dados relativos à 
concentração de dióxido de enxôfre em 41 municípios americanos, ao lado de registros, para 
cada um dos municípios, da temperatura média anual, do número de indústrias com mais de 20 
funcionários, da população, da velocidade média anual dos ventos (que dispersam poluentes), 
da precipitação pluviométrica anual (que limpa o ar), e da quantidade de dias com chuva no ano. 
Selecionamos 5 dessas cidades para uma análise simples de agrupamento hierárquico, cujos 
dados são exibidos na tabela adiante: 
 
Para esses cinco municípios, rodamos um algoritmo de agrupamento hierárquico, cujo resultado 
é exibido na figura adiante, na forma de um dendrograma: 
 
Figura 1 - Dendrograma do agrupamento das cinco cidades 
 
 
Nome: Lucas da Silva Santos – RA:2022202781 – CENTRO UNIVERSITÁRIO FMU 
Curso: Engenharia Elétrica – Disciplina: Estatística Aplicada ao Dara Science 
Data: 04/11/2023 – Unidade 4 – Análise exploratória com Algoritmos de Agrupamento 
 
___________________________________________________________________________ 
Analisando o estudo de caso vou responder às suas perguntas com base no dendrograma 
apresentado: 
1. Quantos grupos iniciais de uma só observação há neste dendrograma? 
Há 5 grupos iniciais, correspondendo a cada um dos 5 municípios: Chicago, Dallas, 
Houston, Memphis e Miami. 
 
2. Qual o município que, claramente, se destaca dos demais no dendrograma? 
Pelo dendrograma, parece que o município de Chicago se destaca claramente dos 
demais, pois está em um nível mais alto no dendrograma, indicando que ele é o 
primeiro a se agrupar. 
 
3. Na altura (Height) 5, quantos e quais grupos o algoritmo de agrupamento formou? 
Na altura 5, o algoritmo de agrupamento formou um único grupo que inclui todos os 5 
municípios, ou seja, todos estão agrupados juntos. 
 
4. Na altura (Height) 3, quantos e quais grupos o algoritmo de agrupamento formou? 
Na altura 3, o algoritmo de agrupamento formou 2 grupos: 
Grupo 1: Chicago, Dallas e Memphis. 
Grupo 2: Houston e Miami. 
 
5. O que significam esses grupos formados pelo algoritmo? 
Os grupos formados pelo algoritmo representam similaridades nas características dos 
municípios. No caso, o Grupo 1 (Chicago, Dallas e Memphis) parece incluir cidades com 
características semelhantes, e o Grupo 2 (Houston e Miami) agrupa cidades que 
também são mais semelhantes entre si do que com as do Grupo 1. A altura no 
dendrograma indica a dissimilaridade entre os grupos; quanto mais baixa a altura, 
maior a dissimilaridade. Portanto, na altura 5, todos os municípios são considerados 
semelhantes o suficiente para estarem em um único grupo, enquanto na altura 3, há 
uma divisão com base nas características dos dados.

Continue navegando