Prévia do material em texto
Bootcamp: Arquiteto(a) de Big Data Desafio Final Módulo 1 Fundamentos de Big Data Objetivos Exercitar o entendimento teórico e prático apresentado nas videoaulas. Enunciado Uma operadora de seguro de saúde identificou que as variáveis de peso e nível de colesterol influenciam no desenvolvimento de doenças cardíacas. Pensando nisso, faz- se necessário identificar os perfis de pessoas com maior risco à saúde e delimitar os limites entre os grupos de risco. A operadora de seguro de saúde identificou quatro grandes grupos: 1. Alto Risco; 2. Risco Moderado alto; 3. Risco Moderado baixo; 4. Baixo Risco. Para alcançar esse objetivo, vamos utilizar o modelo agrupamento pelo algoritmo das K- Means. Atividades Os alunos deverão desempenhar as seguintes atividades: 1. Criar um projeto no Google Drive; 2. Coletar e analisar os dados dos seguintes datasets: a. dados_clientes; b. estados_brasileiros; c. idade_clientes. 3. Manipular dados e corrigir erros, se necessário; 4. Implementar algoritmo não supervisionado; 5. Criar agrupamento para quatro grupos distintos; 6. Responder às questões teóricas e práticas do trabalho. Observações: 1. Implemente o algoritmo não supervisionado K-means; 2. Para o cálculo do WCSS, vocês devem escolher apenas os atributos de peso e colesterol; 3. Utilize, se necessário, a estratégia de substituição de dados ausentes pela média para os dados numéricos e moda para dados categóricos; a. Utilize arredondamento de 2 casas decimais. 4. Atenção para os indicadores dos agrupamentos realizados.