Prévia do material em texto
JOSE WELLINGTON DA COSTA BEZERRA Grupo 14 | TURMA FLC15450 APRESENTAÇÃO Acadêmicos: Adjalma Machado Aguiar Junior, Vinicius Caceres Paz, Raíssa Borges da Silva, Pedro Henrique Medeiros Pazini, Dayvid Netto Ribeiro, Ana Paula de Souza. Disciplina: Projeto I - Aplicação de Métodos de Aprendizagem de Máquina. Tema: Diagnóstico de Diabetes com dados médicos DESCRIÇÃO DO TEMA Uma área específica que tem tido bastante pesquisa e investimento em torno de Machine Learning e Inteligência Artificial, é a área de saúde. Com dados médicos de uma pessoa, um algoritmo pode classificar e identificar se uma pessoa possui ou não diabetes, auxiliando um médico na examinação de um paciente de forma que ele seja mais preciso, e eficiente. Não só isso, algoritmos de machine learning podem trazer novos insights no diagnóstico de pacientes, ao aprender os dados e designar uma importância a cada uma das variáveis nos dados do paciente. Na área da saúde, é de extrema importância que haja o mínimo de falsos negativos possíveis, não seria nada ideal que um paciente com diabetes não fosse diagnosticado e tratado devidamente. Portanto um dos grandes desafios é encontrar modelos e algoritmos que equilibram a precisão com uma baixa taxa de falso negativo. Esse estudo busca aprofundar no diagnóstico de pacientes com suspeitas de diabetes, com dados comuns de consultas médicas, como idade do paciente e sua pressão sanguínea. Os dados são da National Institute of Diabetes and Digestive and Kidney Diseases nos Estados Unidos. Todos os sujeitos nos dados são mulheres nativo-americanas com pelo menos 21 anos. Uma das dificuldades dessa base de dados é a falta de dados para algumas variáveis, que precisam ser preenchidas, e a baixa quantia de dados (768 exemplos). OBJETIVOS Lidar com diferença de exemplos de classes Preencher dados faltantes em dataset pequeno Buscar o melhor modelo para o problema Otimizar modelo de forma a reduzir diagnósticos falsos negativos, evitando que pessoas necessitadas não recebam diagnóstico e tratamento ESPECIFICAÇÃO TÉCNICA Dados de consulta médica e testes de diabetes Pressão Sanguínea, Idade, Vezes Grávida, IMC, Espessura da dobra cutânea, Insulina, Glicose Modelos: Random Forest, SVM, Regressão Logística Métricas: F1 score, Revocação, Precisão PREPARAÇÃO DOS DADOS Preenchimento de dados faltantes com mediana da faixa etária Criar pesos para classes, afim de equilibrar classes desbalanceadas Normalizar dados com Z-Score para obter uma distribuição comum entre as features Separação treino/teste em 70%/30% MÉTODOS DE MACHINE LEARNING Usamos Random Forest, Regressão Logística e Support Vector Machine para fazer a classificação dos dados. Foram escolhidos pela capacidade dos modelos de treinar com um conjunto pequeno de dados e pela eficácia dos mesmos apesar do dataset pequeno RESULTADOS E DISCUSSÃO O melhor modelo é um modelo que deixa o menor número possível de diabéticos não diagnosticados, ou seja, menor número de falsos negativos. O modelo que cumpriu isso foi Random Forest Random Forest teve alta assertividade de ambas as classes 0 e 1 mesmo com classes desbalanceadas Random Forest performou melhor sem pesos atribuidos as classes SVM e Regressão Logística melhoraram performance significativamente com pesos associados a classes, mas ainda performaram abaixo de Random Forest. Com ajuste de um parâmetro limite, diagnósticos com mais de 33% de chance de serem diabéticos, foram classificados como diabéticos, reduzindo drasticamente o número de falsos negativos, porém aumentando os falsos positivos No final os resultados foram satisfatórios CONSIDERAÇÕES FINAIS Os modelos apresentados provavelmente não são os melhores para o diagnóstico de pacientes com diabetes, e os dados também não possuem muitos exemplos para termos certeza da acurácia do modelo, se usado em casos reais. Esse modelo e nenhum outro modelo deve ser usado para diagnosticar pessoas sem supervisão médica profissional. REFERÊNCIAS Dados (https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database) Eu imagino um mundo onde inteligência artificial nos permitirá ser mais produtivos, viver mais, e ter energia mais limpa -Fei-Fei Li “