Prévia do material em texto
A APLICAÇÃO DA APRENDIZAGEM DE MÁQUINA NA DETECÇÃO DE FAKE NEWS Thallya INTRODUÇÃO O advento da era digital e das redes sociais trouxe consigo uma explosão de informações, tornando mais fácil do que nunca o compartilhamento de notícias e informações. No entanto, esse livre fluxo de informações também abriu as portas para um fenômeno preocupante: a disseminação descontrolada de notícias falsas, amplamente conhecidas como "fake news". Nesse sentido, esta pesquisa tem como objetivo geral explorar a aplicação da aprendizagem de máquina na detecção de fake news, analisando os desafios inerentes a essa tarefa e delineando perspectivas futuras. Como objetivos específicos, visa-se identificar as atribuições das fake news disseminadas na internet, examinar os procedimentos de processamento de linguagem natural e investigar as categorizações das notícias falsas. Os algoritmos de aprendizado de máquina emergiram como ferramentas promissoras para abordar o problema das fake news, levantando questões essenciais sobre sua eficácia e aplicabilidade. Neste contexto, este estudo investiga como os algoritmos de aprendizado de máquina podem ser aplicados de maneira eficaz para detectar fake news, considerando a complexidade das informações disponíveis on-line e a velocidade com que são compartilhadas. A identificação de notícias falsas envolve a análise de uma variedade de características linguísticas e padrões de comportamento humano. Assim, este artigo também busca responder à pergunta: quais características linguísticas e padrões de comportamento humano são mais relevantes para identificar notícias falsas? A análise de sentimentos, a verificação de fontes e outros atributos desempenham papéis cruciais nesse processo, e sua compreensão é essencial para o desenvolvimento de modelos eficazes de detecção de fake news. Além disso, a pesquisa avalia o impacto da detecção automatizada de fake news na disseminação de informações precisas. A implementação bem-sucedida de sistemas de detecção de fake news em plataformas de mídia social pode desempenhar um papel vital na contenção da propagação de informações enganosas, contribuindo para a criação de ambientes online mais confiáveis e seguros. A justificativa para este estudo é incontestável, dado o impacto abrangente da disseminação de fake news na sociedade contemporânea. A desinformação e a manipulação da opinião pública, a erosão da confiança nas fontes de informação, os riscos à segurança e à estabilidade política, a amplificação pelas redes sociais e os impactos na saúde pública são fatores que demandam uma abordagem multidisciplinar e baseada em evidências. Portanto, esta pesquisa é vital para o desenvolvimento de ferramentas e métodos que combatam eficazmente a disseminação de fake news. Além de criar algoritmos de detecção, é essencial compreender as raízes psicológicas e sociais da propagação de notícias falsas, bem como formular políticas e estratégias eficazes para enfrentar esse fenômeno. Ela desempenha nesta área um papel crucial na proteção da democracia, da confiança pública e na disseminação de informações precisas, contribuindo para um ambiente de informação mais saudável e responsável. 1. REFERENCIAL TEÓRICO O tópico abordado a seguir, estabelece as bases para compreensão das fake News. Explorando a importância da mineração de texto, o papel significativo das Máquinas de Vetores de Suporte e a influência profunda das notícias enganosas na sociedade. Essas informações fornecem uma fundação para a pesquisa em questão, permitindo uma análise do tema. 1.1 Fake news e suas características As fakes news, ou notícias falsas, são uma problemática recorrente no cenário contemporâneo da informação. Trata – se de informações deliberadamente enganosas apresentadas como notícias legítimas, com intuito de iludir e manipular o leitor. O impacto dessas notícias enganosas transcede a mera disseminação de informações incorretas, uma vez que são criadas com o propósito de confundir e enganar. Um exemplo notável da influência das fake news ocorreu durante as eleições presidenciais dos Estados Unidos em 2016, quando a internet se tornou um campo fértil para proliferação dessas informações falsas. A partir desse evento, o fenômeno das fake news ganhou destaque, tornando – se um desafio global que afeta desde comunidades locais até esferas de repercussão internacional. A identificação das fake news envolve a análise de várias características distintivas. Os sites que as hospedam costumam utilizar domínios com terminações “.com” ou “.org”, dificultando a verificação da autenticidade em comparação com os domínios “.br”. Além disso, esses sites frequentemente adotam nomes semelhantes aos de veículos de notícias respeitáveis, dificultando a distinção entre fonte confiáveis e enganosas. O conteúdo das fake news geralmente carece de autoria clara, é repleto de opiniões tendenciosas e exibe layouts desorganizados e cheios de propagandas. Raramente apresentam uma página de “quem somos” e quando fazem, a identificação dos autores costuma ser ambígua. A disseminação das fakes news foi exacerbada pelas redes sociais e pela automação. A automação se manifesta por meio de robôs ou bots, controlados por software, que desempenham um papel ativo nas redes sociais, participando de discussões e compartilhamento de notícias falsas. Esse cenário cria um ambiente propício para disseminação em massa de fake news, ampliando o alcance dessas informações enganosas. Curiosamente, as fake news compartilham semelhanças notáveis com o spam, que se refere ao envio de mensagens eletrônicas não solicitadas com objetos como publicidade indesejads. Ambos os tipos de conteúdo frequentemente incluem erros gramaticais, tentivas de manipulação da opinião do leitor, vocabulário limitado e poluição visual. Essas semelhanças permitiriam a aplicação de abordagens comuns para a filtragem de spam e a detecção de fake news. 1.2 Mineração de texto A mineração de texto, também conhecida como Knowledge Discovery in Texts (KDT), é uma área crucial para a detecção de fake news. Ela engloba o processo de extração de informações valiosas a partir de documentos de texto não estruturados. Esta disciplina é uma subárea da Descoberta de Conhecimento em Banco de Dados (KDD), que visa extrair informações significativas a partir de conjunto de dados. O processo de mineração de texto é composto por diversas etapas interligadas: Seleção de Amostras Na fase inicial, é essencial identificar o problema a ser resolvido e selecionar amostras de dados relevantes. Para a detecção de fake news, as amostras podem ser coletadas a partir de uma variedade de fontes, como sites de notícias e mídias sociais. Pré - Processamento dos Dados A etapa de pré-processamento envolve a formatação e preparação dos dados para análise. Isso geralmente envolve transformar os dados em vetores de características, onde cada característica representa a presença ou frequência de palavras em um documento. Aplicação dos Algoritmos de Mineração de Dados Nesta fase, são selecionados algoritmos de aprendizado de máquina para realizar a mineração de dados. Esses algoritmos são treinados com os dados de treinamento e posteriormente aplicados para fazer previsões em novos dados. Avaliação dos Resultados Na última etapa, ocorre a avaliação do desempenho dos algoritmos. Esse processo envolve o cálculo de métricas de desempenho, tais como acurácia (avaliando a precisão do modelo), precisão (mensurando a proporção de itens identificados como positivos que são verdadeiramente positivos), recall (quantificando quantos dos positivos reais foram corretamente identificados) e especificidade(determinando quantos dos negativos reais foram adequadamente identificados). Além disso, técnicas de validação cruzada, como o k-fold cross- validation, são empregadas para avaliar o desempenho do modelo em diferentes conjuntos de dados. 1.3 Aprendizado de Máquina O aprendizado de máquina desempenha um papel fundamental na detecção de fake news. É uma subárea da inteligência artificial que se concentra no desenvolvimento de técnicas computacionais capazes de adquirir conhecimento de forma automática. Os sistemas de aprendizado de máquina aprimoram seu desempenho em tarefas específicas com base na experiência adquirida. Existem duas categorias principais de tarefas no aprendizado de máquina: aprendizado supervisionado e aprendizado não supervisionado. O aprendizado supervisionado envolve a previsão de valores a partir de dados previamente rotulados, enquanto o aprendizado não supervisionado lida com a exploração e descrição de conjuntos de dados sem atribuições de classe. No contexto do aprendizado de máquina, o algoritmo chamado Máquinas de Vetores de Suporte (SVM) é uma ferramenta valiosa para detectar fake news. SVMs são especialmente úteis quando precisamos classificar dados em duas categorias. Elas trabalham encontrando uma “linha divisória” que maximize a distância entre as categorias, tornando-se uma abordagem eficaz quando os dados podem ser separados de forma linear. Mas, quando os dados não podem ser separados dessa maneira, as SVMs usam truques matemáticos, chamados de funções de kernel, para tornar a separação possível. Na detecção de fake news, frequentemente lidamos com dados que não podem ser separados linearmente. Nesse caso, as SVMs não-lineares, que usam essas funções de kernel para criar espaços de características mais complexos, são a melhor opção. A escolha do tipo de função de kernel e a configuração de parâmetros, como a constante de regularização C, são vitais para o sucesso das SVMs na detecção de fake news. Identificar fake news é um desafio na era da informação digital. A mineração de texto e o aprendizado de máquina, com foco nas SVMs, desempenham um papel essencial na solução desse problema. Dominar essas técnicas é fundamental para combater a disseminação de informações enganosas e promover a integridade da informação em nosso mundo cada vez mais conectado. 1.4 A influência das fake news na sociedade A influência das fake news na sociedade é um fenômeno complexo e multifacetado. Em primeiro lugar, as fake news têm o poder de moldar a opinião pública de maneiras significativas. Elas podem influenciar o resultado de eventos importantes, como eleições, ao disseminar informações falsas ou enganosas sobre candidatos ou questões. Isso é particularmente preocupante, pois pode minar a integridade do processo democrático e corroer a confiança do público nas instituições democráticas. Além disso, as fake news podem incitar violência e criar divisões na sociedade ao alimentar preconceitos e promover a desinformação. Em segundo lugar, as fake news podem ter um impacto significativo na saúde pública. Durante a pandemia da COVID-19, por exemplo, a disseminação de informações falsas ou enganosas sobre o vírus levou a comportamentos prejudiciais à saúde, como a recusa em usar máscaras ou a resistência à vacinação. Além disso, a desinformação sobre a COVID- 19 contribuiu para a desconfiança em relação às autoridades de saúde e dificultou os esforços para controlar a propagação do vírus. Em terceiro lugar, as fake news podem minar a confiança nas instituições. Quando as pessoas são constantemente expostas a informações falsas, elas podem começar a duvidar da veracidade de todas as notícias que consomem. Isso pode levar a um ceticismo generalizado em relação à mídia e ao governo, o que pode corroer ainda mais a confiança do público nas instituições. No entanto, apesar desses desafios, há esperança. O aprendizado de máquina emergiu como uma ferramenta promissora para combater o problema das fake news. Algoritmos de aprendizado de máquina podem ser treinados para detectar notícias falsas com base em várias características, como o estilo de escrita e a estrutura da notícia. Esses algoritmos podem então ser usados para filtrar notícias falsas antes que elas sejam disseminadas, ajudando a limitar seu alcance e impacto. Em conclusão, as fake news têm uma influência significativa na sociedade. É crucial que continuemos a pesquisar e desenvolver métodos eficazes para detectar e combater notícias falsas. Ao fazer isso, podemos ajudar a proteger a integridade de nossa sociedade e promover um ambiente de informação mais preciso e confiável. A luta contra as fake news é uma responsabilidade compartilhada que requer o esforço conjunto de indivíduos, comunidades, empresas de tecnologia e governos. METODOLOGIA Este presente trabalho, é uma pesquisa de revisão bibliográfica que se caracteriza pelo estudo de pesquisas prévias, como artigos acadêmicos, trabalhos e relatórios, com o objetivo de explorar a aplicação da aprendizagem de máquina na detecção de fake News e a compreensão dos desafios relacionados a essa questão. O trabalho foi conduzido por meio de busca externa em literaturas relevantes. Para coletar tais literaturas, utilizamos uma pesquisa sistemática em diversas fontes de dados, incluindo bases acadêmicas, repositórios institucionais e bibliotecas digitais. As principais fontes de dados usadas incluem PubMed, IEEE Xplore, Google Scholar e JSTOR. As palavras-chave utilizadas na pesquisa incluem "fake news", "detecção de fake news", "aprendizado de máquina", "processamento de linguagem natural", "algoritmos de classificação", entre outras. Os critérios de inclusão para os estudos consideraram trabalhos publicados entre os anos de 2000 e 2023, escritos em inglês e português. A análise dos estudos selecionados foi realizada por meio de uma leitura exploratória e, posteriormente, uma leitura seletiva, seguindo uma abordagem qualitativa. Essa análise visou extrair informações relevantes sobre a detecção de fake news, incluindo as técnicas, os algoritmos e as estratégias empregadas nos estudos. Essa metodologia permitirá uma análise abrangente do estado da arte da detecção de fake news, incorporando resultados e perspectivas de pesquisa relevantes que são fundamentais para a compreensão e mitigação desse fenômeno nas mídias digitais. REFERÊNCIAS APRENDER CIÊNCIA DE DADOS. Máquina de vetores de suporte (SVM) - Aprender Ciência de Dados. Disponível em: https://www.aprendeercienciadedados.com/svm. SCIELO. A avaliação da aprendizagem como um ato amoroso: o que o professor pratica? Disponível em: https://www.scielo.br/avaliacao-da-aprendizagem FERREIRA, João Rodrigo Santos; LIMA, Paulo Ricardo Silva; SOUZA, Edivanio Duarte de. Desinformação, infodemia e caos social: impactos negativos das fake news no cenário da COVID-19. Em Questão, v. 27, n. 1, jan./mar. 2021. Disponível em: https://doi.org/10.19132/1808-5245271.30-53. GARCIA, Gabriel Lino. Detecção de Fake News utilizando Aprendizado de Máquina. 2023. 79 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Estadual Paulista, Bauru, 2023. Disponível em: https://repositorio.unesp.br/bitstream/handle/11449/242304/garcia_gl_me_bauru.pdf?seq uence=3. OLIVEIRA, Leandro Massetti Ribeiro. Inteligência Artificial Aplicada a Detecção de Fake News. 2019. Trabalho de Conclusão de Curso (Graduação em Ciências Naturais/Química) - Universidade Federal do Maranhão, São Luís, 2019. Disponível em: https://monografias.ufma.br/jspui/handle/123456789/4251 ANDRADE, Renan Rocha de. Utilização de técnicas de aprendizado de máquina supervisionado para detecção de Fake News. Universidade do Sul de Santa Catarina (UNISUL), Tubarão, SC, Brasil. Disponível em: https://repositorio.animaeducacao.com.br/bitstream/ANIMA/8445/1/ArtigoTCC2.pdf. SILVA, Ithalo Henrique da. Análise de sentimentos em textos curtos para detecção de Fake News. 2021. 54 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Faculdade Doctum de Teófilo Otoni, Teófilo Otoni, 2021. Disponível em: http://dspace.doctum.edu.br:8080/bitstream/123456789/270/2/TCC Final entrega - Ithalo Henrique.pdf SANTOS, Jéssica Cristina dos; SILVA, Leandro Nunes da. Fake News e a influência na sociedade: um estudo de caso das eleições presidenciais de 2018. 2019. 57 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) - Universidade Federal do Maranhão, Imperatriz, 2019. Disponível em: https://monografias.ufma.br/jspui/handle/123456789/4251 SILVA, Rafael da; OLIVEIRA, Renan de. Projeto de um Sistema Web à Classificação de Notícias Falsas Utilizando Técnicas de Aprendizado de Máquina. 2021. 57 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal de Santa Catarina, Florianópolis, 2021. Disponível em: https://d1wqtxts1xzle7.cloudfront.net/69162145/10211- libre.pdf?1631037231=&response content disposition=inline%3B+filename%3DProjeto_d e_um_Sistema_Web_a_Classificaca.pdf&Expir es=1694613696&Signature=dqCuHXq5dItOAFtOby1- iROdTtK~o3el2~e7fyvcd9mBXTVs1N7SN3Wth6SMt7yWPmZ49- uE~byk1E2zwLDu pJBMV9yiXmINx~jHil8NAQXUfwNO1al7JyiCMydJpBocd9lM2DGta REPBuig0z- ~CzrydjVsYJLtCsboPxUqlSd3zMXmroCT9YDHmPW~GqZxfIU2mqr- MC7ayI qvD3LzasxsvEdKrch5-pagdFOhpUPpHyJ7SChPa78GZoYHR- 9~k6j9w Ps5Je0epf1k801vdJj5Bnc2Zr~cTQsP5XbInA1TK9aiZAoo8xoqW9TK3Dks2u8Ps Hl47wgxBwykqE A__&Key-Pair-Id=APKAJLOHF5GGSLRBV4ZA. SILVA, Thaís da; OLIVEIRA, Thiago de. Fake News: Uma análise sobre a influência das notícias falsas nas eleições presidenciais de 2018. 2019. 57 f. Trabalho de Conclusão de Curso (Graduação em Ciências Naturais/Química) - Universidade Federal de Santa Catarina, Florianópolis, 2019. Disponível em: https://sol.sbc.org.br/index.php/latinoware/article/view/10343 https://monografias.ufma.br/jspui/handle/123456789/4251 https://sol.sbc.org.br/index.php/latinoware/article/view/10343