RA2022202781-Lucas Santos-Estatística Aplicada ao Data Science-Vamos praticar unidade 4

•

FMU

0

Lucas Santos

24/02/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.260 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Nome: Lucas da Silva Santos – RA:2022202781 – CENTRO UNIVERSITÁRIO FMU
Curso: Engenharia Elétrica – Disciplina: Estatística Aplicada ao Dara Science
Data: 04/11/2023 – Unidade 4 – Análise exploratória com Algoritmos de Agrupamento

___________________________________________________________________________
Vamos praticar 4
ANÁLISE EXPLORATÓRIA COM ALGORITMOS DE AGRUPAMENTO
Um dos mais relevantes poluentes do ar atmosférico é o dióxido de enxôfre, fórmula química
𝑆𝑂2, que tem sua origem principalmente associada a queima de combustíveis fósseis, ou pelos
meios de transporte, ou de atividades industriais, ou de calefação, em regiões mais frias.
A base de dados USairpollution do software estatístico R (SOKAL) apresenta dados relativos à
concentração de dióxido de enxôfre em 41 municípios americanos, ao lado de registros, para
cada um dos municípios, da temperatura média anual, do número de indústrias com mais de 20
funcionários, da população, da velocidade média anual dos ventos (que dispersam poluentes),
da precipitação pluviométrica anual (que limpa o ar), e da quantidade de dias com chuva no ano.
Selecionamos 5 dessas cidades para uma análise simples de agrupamento hierárquico, cujos
dados são exibidos na tabela adiante:

Para esses cinco municípios, rodamos um algoritmo de agrupamento hierárquico, cujo resultado
é exibido na figura adiante, na forma de um dendrograma:

Figura 1 - Dendrograma do agrupamento das cinco cidades

Nome: Lucas da Silva Santos – RA:2022202781 – CENTRO UNIVERSITÁRIO FMU
Curso: Engenharia Elétrica – Disciplina: Estatística Aplicada ao Dara Science
Data: 04/11/2023 – Unidade 4 – Análise exploratória com Algoritmos de Agrupamento

___________________________________________________________________________
Analisando o estudo de caso vou responder às suas perguntas com base no dendrograma
apresentado:
1. Quantos grupos iniciais de uma só observação há neste dendrograma?
Há 5 grupos iniciais, correspondendo a cada um dos 5 municípios: Chicago, Dallas,
Houston, Memphis e Miami.

2. Qual o município que, claramente, se destaca dos demais no dendrograma?
Pelo dendrograma, parece que o município de Chicago se destaca claramente dos
demais, pois está em um nível mais alto no dendrograma, indicando que ele é o
primeiro a se agrupar.

3. Na altura (Height) 5, quantos e quais grupos o algoritmo de agrupamento formou?
Na altura 5, o algoritmo de agrupamento formou um único grupo que inclui todos os 5
municípios, ou seja, todos estão agrupados juntos.

4. Na altura (Height) 3, quantos e quais grupos o algoritmo de agrupamento formou?
Na altura 3, o algoritmo de agrupamento formou 2 grupos:
Grupo 1: Chicago, Dallas e Memphis.
Grupo 2: Houston e Miami.

5. O que significam esses grupos formados pelo algoritmo?
Os grupos formados pelo algoritmo representam similaridades nas características dos
municípios. No caso, o Grupo 1 (Chicago, Dallas e Memphis) parece incluir cidades com
características semelhantes, e o Grupo 2 (Houston e Miami) agrupa cidades que
também são mais semelhantes entre si do que com as do Grupo 1. A altura no
dendrograma indica a dissimilaridade entre os grupos; quanto mais baixa a altura,
maior a dissimilaridade. Portanto, na altura 5, todos os municípios são considerados
semelhantes o suficiente para estarem em um único grupo, enquanto na altura 3, há
uma divisão com base nas características dos dados.