Elaboração de um Jupyter Notebook com todos os passos de um projeto de Machine Learning e Socializaçaõ

•

Uniasselvi

Adjalma Aguiar

29/11/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

JOSE WELLINGTON DA COSTA BEZERRA
Grupo 14 | TURMA FLC15450
APRESENTAÇÃO
Acadêmicos: Adjalma Machado Aguiar Junior, Vinicius Caceres Paz, Raíssa Borges da Silva, Pedro Henrique Medeiros Pazini, Dayvid Netto Ribeiro, Ana Paula de Souza. 
Disciplina: Projeto I - Aplicação de Métodos de Aprendizagem de Máquina.
Tema: Diagnóstico de Diabetes com dados médicos
DESCRIÇÃO DO TEMA
Uma área específica que tem tido bastante pesquisa e investimento em torno de Machine Learning e Inteligência Artificial, é a área de saúde. Com dados médicos de uma pessoa, um algoritmo pode classificar e identificar se uma pessoa possui ou não diabetes, auxiliando um médico na examinação de um paciente de forma que ele seja mais preciso, e eficiente. Não só isso, algoritmos de machine learning podem trazer novos insights no diagnóstico de pacientes, ao aprender os dados e designar uma importância a cada uma das variáveis nos dados do paciente. Na área da saúde, é de extrema importância que haja o mínimo de falsos negativos possíveis, não seria nada ideal que um paciente com diabetes não fosse diagnosticado e tratado devidamente. Portanto um dos grandes desafios é encontrar modelos e algoritmos que equilibram a precisão com uma baixa taxa de falso negativo. Esse estudo busca aprofundar no diagnóstico de pacientes com suspeitas de diabetes, com dados comuns de consultas médicas, como idade do paciente e sua pressão sanguínea. Os dados são da National Institute of Diabetes and Digestive and Kidney Diseases nos Estados Unidos. Todos os sujeitos nos dados são mulheres nativo-americanas com pelo menos 21 anos. Uma das dificuldades dessa base de dados é a falta de dados para algumas variáveis, que precisam ser preenchidas, e a baixa quantia de dados (768 exemplos).
OBJETIVOS
Lidar com diferença de exemplos de classes
Preencher dados faltantes em dataset pequeno
Buscar o melhor modelo para o problema
Otimizar modelo de forma a reduzir diagnósticos falsos negativos, evitando que pessoas necessitadas não recebam diagnóstico e tratamento
ESPECIFICAÇÃO TÉCNICA
Dados de consulta médica e testes de diabetes
Pressão Sanguínea, Idade, Vezes Grávida, IMC, Espessura da dobra cutânea, Insulina, Glicose
Modelos: Random Forest, SVM, Regressão Logística
Métricas: F1 score, Revocação, Precisão
PREPARAÇÃO DOS DADOS
Preenchimento de dados faltantes com mediana da faixa etária
Criar pesos para classes, afim de equilibrar classes desbalanceadas
Normalizar dados com Z-Score para obter uma distribuição comum entre as features
Separação treino/teste em 70%/30% 
MÉTODOS DE MACHINE LEARNING
Usamos Random Forest, Regressão Logística e Support Vector Machine para fazer a classificação dos dados. Foram escolhidos pela capacidade dos modelos de treinar com um conjunto pequeno de dados e pela eficácia dos mesmos apesar do dataset pequeno
RESULTADOS E DISCUSSÃO
O melhor modelo é um modelo que deixa o menor número possível de diabéticos não diagnosticados, ou seja, menor número de falsos negativos. O modelo que cumpriu isso foi Random Forest
Random Forest teve alta assertividade de ambas as classes 0 e 1 mesmo com classes desbalanceadas
Random Forest performou melhor sem pesos atribuidos as classes
SVM e Regressão Logística melhoraram performance significativamente com pesos associados a classes, mas ainda performaram abaixo de Random Forest.
Com ajuste de um parâmetro limite, diagnósticos com mais de 33% de chance de serem diabéticos, foram classificados como diabéticos, reduzindo drasticamente o número de falsos negativos, porém aumentando os falsos positivos
No final os resultados foram satisfatórios
CONSIDERAÇÕES FINAIS
Os modelos apresentados provavelmente não são os melhores para o diagnóstico de pacientes com diabetes, e os dados também não possuem muitos exemplos para termos certeza da acurácia do modelo, se usado em casos reais. Esse modelo e nenhum outro modelo deve ser usado para diagnosticar pessoas sem supervisão médica profissional. 
REFERÊNCIAS
Dados (https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database)
Eu imagino um mundo onde inteligência artificial nos permitirá ser mais produtivos, viver mais, e ter energia mais limpa
-Fei-Fei Li
“