Buscar

trabalho inteligencia artificial


Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

ANÁLISE DE UMA BASE DE DADOS DE CÂNCER DE MAMA
Ane G. G. Rosa1, Emilly M. Cazaroto2, Julia V. Pantaleão3, Stefany G. Queiroz4
1Faculdade de Tecnologia Professor José Camargo – Fatec Jales, ane.rosa@fatec.sp.gov.br 
2Faculdade de Tecnologia Professor José Camargo – Fatec Jales, emilly.cazaroto@fatec.sp.gov.br 
3Faculdade de Tecnologia Professor José Camargo – Fatec Jales, julia. pantaleão@fatec.sp.gov.br 
4Faculdade de Tecnologia Professor José Camargo – Fatec Jales, stefany.queiroz@fatec.sp.gov.br
RESUMO
O câncer de mama nos atuais dias vem tendo um grande impacto na vida das mulheres, e causando alterações físicas, sociais e emocionais, essa doença é causada por uma multiplicação desordenada de algumas células mamarias, formando massas. A detecção dessa doença antes do agravamento é essencial para começar o tratamento mais rápido e ter melhores resultados. Conseguimos analisar a partir de imagens histopatológicas que é um meio promissor para a discriminação do tecido que será examinado. Também temos os computadores que auxiliam na abordagem dessa doença.
Neste artigo objetiva a compreensão do câncer e realiza um pré-processamento avaliando a classificação dos dados utilizando dois algoritmos de classificação, realizando análises para melhor modelo classificador para o diagnóstico.
Foi utilizado o dataset fornecido pelo Breast Cancer Wisconsin com dados extraídos da análise. Os atributos extraídos foram utilizados para classificação nos algoritmos Random Forest e Support Vector Machine. Os resultados alcançaram uma acurácia de 97,66% assim, mostramos ser uma metodologia promissora para a classificação de tumores e câncer de mama.
Palavras-chave: Câncer de mama; Random Forest; Suport Vector Machine. 
INTRODUÇÃO
O câncer de mama é uma doença onde acomete as mulheres em todo o mundo, se desenvolve devido ao crescimento anormal e fora de controle das células da mama, cerca de 2,3 milhões de casos novos foram estimados no ano de 2020 em todo o mundo, o que representa cerca de 24,5% de todos os tipos de neoplasias diagnosticadas nas mulheres (INCA 2022).
A detecção do câncer de mama pode ocorrer nas fases iniciais, independentemente da idade, as mulheres podem conhecer seu corpo para saber o que é e o que não é normal em suas mamas. A maior parte dos cânceres de mama é descoberta pelas próprias mulheres e com isso possibilita um tratamento menos agressivo ao paciente e aumentando a chances de tratamento e cura.
Os principais sinais e sintomas de câncer de mama são nódulo na mama, dor mamária e alterações da pele que recobre a mama. Os cânceres de mama localizam-se, principalmente, no quadrante superior externo com isso a biopsia que torna o diagnóstico mais preciso na análise do crescimento maligno do tecido, tornando viável avaliar os elementos do tecido. Com isso detectamos o tecido normal de lesões benignas e malignas.
 No Brasil o câncer tem um grande impacto em todos os anos, são mais de 225 mil mortes no Brasil a cada ano sem contar no prejuízo econômico que acaba sendo gerado. Com isso, estima-se que que o país sofra um prejuízo de cerca de R$ 15 bilhões por ano o que corresponde a 0,21% de toda a riqueza gerada.
Segundo a última pesquisa realizada pela Agência Internacional de Pesquisa em Câncer (IARC) sobre a incidência do câncer no mundo, o câncer de mama é um dos três tipos de maior incidência, junto com o de pulmão e o colorretal, e é o que mais acomete as mulheres em 154 países dos 185 analisados.
Este tipo de câncer, é o quinto em questão de mortalidade no mundo, sendo estimadas mais de 627 mil mortes em 2018. Representando 6,6% do total de mortes por todos os tipos da doença. A pesquisa também aponta que uma a cada quatro mulheres que têm um caso de câncer diagnosticado têm câncer de mama, representando 24,2% do total (FEMAMA, 2019).
O câncer de mama pode apresentar alguns sintomas, dentre eles: alteração na pele: vermelhidão, inchaço, dores ou sensação de calor na pele dos seios, mesmo que ainda não seja possível sentir o nódulo, inchaço em uma das mamas atingida pelo edema e até mesmo inchaço nos braços e axilas, dor nos seios e secreção na mama, podendo indicar o início do câncer. Também podendo apresentar outros sintomas como alterações no tamanho e forma, surgimento de uma assimetria entre os seios e aparecimento de sulcos (regiões da mama ficam mais fundas, como se fossem ‘buracos’). A principal dica é a atenção com o próprio corpo e caso algum desses sintomas seja identificado deve-se procurar um médico (AMERICASAMIGAS, 2019).
Tendo em vista tudo isso, o movimento internacionalmente conhecido como “Outubro Rosa” remete à cor do laço rosa que simboliza, mundialmente, a luta contra o câncer de mama e estimula a participação da população, empresas e entidades. Movimento esse que começou nos Estados Unidos e posteriormente, com a aprovação do Congresso Americano, o mês de Outubro se tornou o mês nacional (americano) de prevenção do câncer de mama (UNIASSELVI, 2017).
Nesse cenário, percebemos um interesse crescente no desenvolvimento e aplicação de técnicas no processo das imagens e complementando e dando uma segunda opinião ao médico que está analisando os dados. 
Portanto, o presente trabalho, é proposta uma abordagem computacional para realizar a classificação dos dados e imagens de biopsia identificando se possuem ou não tecidos cancerígenos.
REFERENCIAL TEÓRICO
O câncer de mama é o tumor maligno com maior mortalidade entre as mulheres. (BUITRAGO; UEMURA; SENA, 2011). É uma doença que pode piorar sua condição quando o diagnóstico vem em um estágio tardio, o que reduz as chances de cura paciente.
Segundo a Organização Mundial da Saúde (OMS), existem duas estratégias de detecção precoce do câncer: diagnóstico precoce, ou seja, uma abordagem eficiente e oportuna para as pessoas com sinais e sintomas de câncer; e rastreamento, testes humanos regulares aparentemente saudáveis, pertencentes a uma faixa etária com maior risco de doença, a fim de identificá-los na fase pré-clínica e reduzir a mortalidade por esse (TOMAZELLI et al., 2016).
No início do desenvolvimento do projeto utilizamos um banco de dados com informações e diagnósticos do câncer. A partir disso, conseguimos fazer o pré processamento desta base.
 PDI é uma forma de processamento de dados cuja entrada e saída são fotos. Sendo usado para melhorar o efeito visual de certas características estruturais, subsídios adicionais para analistas humanos e sua interpretação, incluindo gerar produtos que podem ser posteriormente processados (CÂMARA et al., 1996).
	Durante o pré-processamento, é feita uma melhoria na qualidade de imagem. Essa melhoria diz respeito a duas grandes categorias: métodos no domínio espacial e métodos que operam no domínio da frequência.
As técnicas de processamento no domínio espacial estão nos filtros que manipulam o plano da imagem, enquanto as técnicas de processamento no domínio da frequência estão nos filtros que atuam no espectro da imagem.
	A segmentação é a etapa onde a imagem é separada dentro do todo em partes que constituem a mesma coisa, mas diferem entre si. Os pixels de interesse são geralmente chamados de "objetos ", os pixels que podem passar despercebidos ou que não têm utilidade são chamados de "fundo".
De todas as etapas do processamento da imagem, a segmentação é considerada uma das mais críticas no processamento da informação, pois é aqui que são definidas as regiões de interesse para análise e posterior processamento. Assim, distorções ou erros nesta etapa refletem em as demais, podendo resultar em indesejadas, causando contribuições negativas para a eficiência do processo.
	A etapa de extração de características é uma das etapas finais do sistema de processamento de imagem. É nesta fase que a informação útil é da imagem que foi segmentada ou pré-processada. Quando o objetivo do processamento é obter informações, é realizada uma extração de atributo.
É comum usar as duas técnicas em combinação para aprimorar certos recursos de uma imagem. O método proposto (SVM) resulta em uma prediçãocom 97,66% de acurácia, podendo ser considerado muito bom, O trabalho utiliza-se de uma base de dados de mamografias pública, e tem como objetivo fornecer a chances de a lesão encontrada ser benigna ou maligna.
Na classificação, o objetivo é identificar automaticamente os objetos segmentados na imagem. Isso é feito por um algoritmo que mede o tamanho dos objetos e das classes, define uma função discriminante que separa grupos e classifica os objetos de acordo com seu programa. Podemos subdividir os classificadores em dois tipos, supervisionados e não supervisionados. Nos dois casos, são necessárias duas fases, nas quais o treinamento e a classificação dos fatos.
A classificação supervisionada é baseada na identificação de diferentes com diferentes comportamentos espectrais. Para isso, algoritmos de classificação são adotados para identificar as feições de interesse em um espaço multidimensional (CARVALHO; JÚNIOR, 2007).
METODOLOGIA
A metodologia que será seguida para a realização deste trabalho consiste em: matriz de confusão com imagens e classificação com Random Foreste e Support Vector Machine para a validação dos resultados. A primeira é uma máquina de vetores de suporte, uma função do kernel RBF, bastante utilizado para resolução de problemas de aprendizagem, inclusive é usado computacionalmente como padrão em muitas bibliotecas de linguagens de programação que utilizam o algoritmo SVM. Já a segunda utilizamos o algoritmo Random Forest, que utiliza muitas árvores de decisão para obter melhores resultados utilizando uma única árvore, esta que pode acontecer de haver variação entre elas.
A matriz de confusão uma ferramenta muito usada para avaliações de modelos de classificação em Aprendizado de Máquina, classificado em algumas frequências como: verdadeiro positivo, quando a classe foi prevista corretamente; falso positivo: prevista incorretamente; falso verdadeiro: quando a classe que não estamos buscando prever é prevista corretamente e falso negativo: quando a classe que não estamos buscando prever é prevista incorretamente.
Figura 1 – Exemplo matriz de confusão
Fonte: Elaborado pelos autores, 2022
Vários algoritmos de classificação foram considerados e comparados na realização deste projeto, alguns dos quais já implementados e testados, que serão explicados aqui outros ainda serão fabricados, treinados e testados. Porém os que apresentaram melhores resultados foram o Random Foreste e Support Vector Machine, os classificadores produzidos são versões implementadas do scikit learn.
Com todas as informações que foram disponibilizadas no arquivo de apoio e juntamente com as aulas, o projeto foi iniciado com a ferramenta Google Colab que é um produto do Google Research, área de pesquisas científicas do Google. O Colab permite que qualquer pessoa escreva e execute código Python arbitrário pelo navegador e é especialmente adequado para aprendizado de máquina, análise de dados e educação. Mais tecnicamente, o Colab é um serviço de notebooks hospedados do Jupyter que não requer nenhuma configuração para usar e oferece acesso sem custo financeiro a recursos de computação como GPUs (GOOGLE).
A linguagem de programação que utilizada junto com a ferramenta do Google, foi a Python. Uma linguagem de alto nível, dinâmica, interpretada, multiplataforma e orientada a objetos. Onde os procedimentos estão submetidos a classes, possibilitando maior controle e estabilidade de códigos para projetos de grandes proporções.
ANÁLISE E DISCUSSÃO DOS RESULTADOS
 Para permitir que uma abordagem computacional ajude um especialista a classificar as biópsias de mama, é crucial que os testes realizados tenham um bom resultado e que as avaliações do método sejam bem equilibradas. Também é melhor se esses testes não demorarem tanto. Para realizar esses experimentos, foi utilizada a plataforma Google Colabory.
	 Este é um serviço baseado em nuvem, no Jupyter Notebooks para divulgar a pesquisa de aprendizado de máquina. No Colab, como também é chamado, é fornecido um ambiente totalmente pronto para uso, com acesso a uma GPU robusta.
Os testes foram realizados com os dois classificadores Random Forest e SVM que apresentaram resultados mais próximos de 100%. No classificador SVM, realizamos testes variando o parâmetro do kernel, chegando até a trocar: função de base radial, sigmoide, polinomial e linear. Também foram realizados testes com o parâmetro de custo variando de 1 a 10.A
Por meio da Figura 2 se exemplifica os resultados para o classificador Random Forest onde, se obteve 99% de acerto no 1 que representa o câncer maligno e 91% de acerto no 0 que representa o tipo benigno. 
Figura 2 – Resultados com Random Forest
Fonte: Elaborado pelos autores, 2022
 
Na Figura 3, é possível visualizar o desempenho do classificador com C=3 e em todos os núcleos, com os resultados de 97% para resultados de 1 como câncer de mama maligno e 98% para 0 como câncer benigno. 
 Figura 3 – Resultados com Support Vector Machine com C=3.0
Fonte: Elaborado pelos autores, 2022
Na Figura 4, utilizando o parâmetro de Custo = 2, os resultados foram inferiores aos da Figura 3 que utilizou C=3.0, sendo possível visualizar na figura abaixo que 98% para resultados de 1 como câncer de mama maligno e 94% para 0 como câncer benigno.
Figura 4 – Resultados com Support Vector Machine com C=2
Fonte: Elaborado pelos autores, 2022
	As redes pré-treinadas obtiveram bons números, em dois classificadores, uma vez que os índices obtiveram apenas médias ao longo dos experimentos. Entre as redes pré-treinadas, teve um desempenho melhor do que os outros extratores.
Observamos também que diante dos resultados o classificador SVM obteve melhores resultados que o Random Forest para o problema abordado. Após estes testes, podemos constatar que o melhor resultado foi utilizando as características extraídas no classificador SVM, com o kernel RBF e C=2.
A comparação com outras obras da literatura é tarefa um tanto complicada, pois existem algumas diferenças nas formas de abordar o problema e também nas técnicas utilizadas para resolvê-los. A Tabela 1 exibe alguns números comparativos.
Tabela 1 – Números comparativos
Fonte: Elaborado pelos autores
No trabalho de Carvalho, Filho e Dalilia, foram usados como descritores de textura, porém, no conjunto de dados para classificar mamografias como benignas-malignas. A base utilizada é a DDSM. Os resultados obtidos têm uma acurácia de 90%, sensibilidade de 88,5% e especificidade de 91,7%. No trabalho de Reis et al. (2012) utiliza- se método de análise de textura para a tarefa de texturização de imagens suspeitas de câncer de mama e também é investigado o grau de caracterização de textura, aplicado nas imagens digitais de faces humanas.
No mesmo caso apresentaram-se boas, mas nas imagens histopatológicas não tiveram tanto sucesso. A abordagem proposta aqui usa redes pré-treinadas, portanto, o tempo de execução é reduzido. Além disso, o teste foi feito no Colab, fornece hardware robusto para teste.
CONSIDERAÇÕES FINAIS
Por meio deste trabalho testamos e avaliamos a eficiência de algoritmos na tarefa de classificação com conjunto de dados para classificar mamografias como benignas-malignas, para a extração das características os resultados obtidos foram alcançados com rapidez na classificação com os classificadores Random Forest e SVM. 
A abordagem de aprendizado profundo forneceu aos discentes de que o custo 2 se mostrou superior nos resultados, já para a classificação, o SVM com custo 3 mostrou-se superior ao Random Forest, baseando-se nas métricas de avaliação que foram abordadas nesse trabalho. 
O uso de Transfer Learning combinado com o SVM pode ser usado em análise automática de biópsias mamárias, mesmo com números obtidos pequeno nas imagens, com a essa abordagem proposta poderá ser integrada a uma ferramenta de processo digital de imagens podendo ser aplicada em casos reais, com isso auxiliando os especialistas à uma segunda opinião no processo de diagnóstico e podendo garantir ao paciente uma melhorqualidade de vida.
O uso combinado de aprendizado de transferência com SVM pode ser usado de forma eficaz para análise automatizada de biópsias de mama, mesmo com um pequeno número de imagens. Acreditamos que o método proposto pode ser integrado a ferramentas de processamento digital de imagens aplicadas a casos reais, auxiliando os especialistas ao fornecer uma segunda opinião durante o diagnóstico da biópsia. Com isso, promete garantir ao paciente um melhor prognóstico para sua saúde e melhor qualidade de vida. Como trabalho futuro, destacamos:
· Novos testes com maior quantidade de imagens/outros conjuntos de dados; 
· Ajustes finos para obter melhores resultados;
REFERÊNCIAS
AMÉRICASAMIGAS. Sintomas iniciantes do câncer de mama. [Blog]. 2019. Disponível em: https://www.americasamigas.org.br/blog/sintomas-iniciais-cancer-de-mama?gclid=Cj0KCQiA-JacBhC0ARIsAIxybyNYeHAh6QjryS_eGyGx3H_4eARLL5BNjH3yo-2w7SE_EOKUFAGaB88aAiwAEALw_wcB. Acesso em: 30 nov. 2022.
ARAÚJO, F. H. et al. Redes neurais convolucionais com tensorflow: Teoria e prática. SOCIEDADE BRASILEIRA DE COMPUTAÇÃO. III Escola Regional de Informática do Piauí. Livro Anais-Artigos e Minicursos, Sociedade Brasileira de Computação, v. 1, p. 382–406, 2017. Citado na página 21.
ARAUJO.P; SILVA. S Câncer de mama: fatores de risco e detecção precoce. Disponível em:https://www.scielo.br/j/reben/a/TMQQbvwZ75LPkQy6KyRLLHx/?lang=pt#. Acesso em: 29 nov. 2022
BUITRAGO, F.; UEMURA, G.; SENA, M. C. F. Fatores prognósticos em câncer de mama. Comun. ciênc. saúde, v. 22, n. Sup. Espec. 1, p. 69–81, 2011. Citado na página 17.
CÂMARA, G. et al. Spring: Integrating remote sensing and gis by object-oriented data modelling. Computers & graphics, Elsevier, v. 20, n. 3, p. 395–403, 1996. Citado na página 17.
CARVALHO, L. M. T. de; JÚNIOR, F. W. A. Classificação digital do uso do solo comparando os métodos “pixel a pixel” e orientada ao objeto em imagem quickbird henriqueta veloso ferreira bernardi maíra dzedzej. 2007. Citado na página 20
CARVALHO, E. D.; FILHO, A. O. de C.; DALILIA, A. Classificaç ao de tecidos da mama em maligno e benigno baseado em mamografias digitais usando descritores de textura. 2017. Citado 3 vezes nas páginas 29, 39 e 40.
FEMAMA. O câncer de mama em números. Disponível em: https://femama.org.br/site/blog-da-femama/o-cancer-de-mama-em-numeros/?gclid=Cj0KCQiA-JacBhC0ARIsAIxybyNwXh_17hPN-V8J-jIFsqREG7IfwhL6Q85isGiT6duQ1JOqUMzyM6oaAmJBEALw_wcB. Acesso em: 30 dez. 2022.
GOOGLE. Colaboratory. Disponível em: https://research.google.com/colaboratory/intl/pt-BR/faq.html#:~:text=O%20Colaboratory%20ou%20“Colab”%20é,análise%20de%20dados%20e%20educação. Acesso em: 30 nov. 2022
INCA. Eu cuido da minha saúde todos os dias. E você? Disponível em:
https://www.inca.gov.br/campanhas/outubro-rosa/2022/eu-cuido-da-minha-saude-todos-os-dias-e voce#:~:text=O%20c%C3%A2ncer%20de%20mama%20%C3%A9, de%20neoplasias%20diagnosticadas%20nas%20mulheres. Acesso em: 18 nov. 2022.
INCA, I. N. do C. Câncer de mama. 2019. Disponível em: https://www.inca.gov.br/ tipos-de-cancer/cancer-de-mama. Acessado em: 23 de jun. 2019. Citado 2 vezes nas páginas 14 e 17. Acesso em: 01 dez. 2022
REIS, A. B. S. et al. Estudo de índices de diversidade como descritores de textura para classificação de imagens de faces. Universidade Federal do Maranhão, 2012. Citado na página 29
UNIASSELVI. Outubro Rosa vamos falar sobre o câncer de mama? [Blog]. 2017.Disponível em:https://portal.uniasselvi.com.br/noticias/saude/outubro-rosa-vamos-falar-sobre-o-cancer-de-mama?gclid=Cj0KCQiA-JacBhC0ARIsAIxybyPBrG6OzvJ5fQMKmZJxEiOmqxBMw8DQTsiMRA_B5RnLUVUt8b7KvFwaAo9xEALw_wcB. Acesso em: 30 nov. 2022.
 
WENTZEL, M. Quanto o câncer custa à economia do Brasil? BCC News Brasil, 2018. Disponível em: <https://www.bbc.com/portuguese/geral-43047430. Acesso em: 25 nov. 2022.

Mais conteúdos dessa disciplina