Baixe o app para aproveitar ainda mais
Prévia do material em texto
Verificação de Fake News com uso de Deep Learning Fabiano Shiiti Marumo1, Sylvio Barbon Jr.1 1Departamento de Computação – Universidade Estadual de Londrina (UEL) Caixa Postal 10.011 – CEP 86057-970 – Londrina – PR – Brasil rizadom1@gmail.com, barbon@uel.br Abstract. With popularization of internet and facility of access to information allowed by social network and messaging applications, the propagation of false news has to become a worry to the society that a citizen has the right of access to information. Known as Fake News, the malicious use of this information can compromise the democracy. The objective of this work will check the veracity of news and then classifier in Fake News or not, by the use of an area of Machine Learning, the Deep Learning, that consists in the use of algorithms capable of extract some features that are pertinent in his classification. Resumo. Com a popularização da internet e facilidade de acesso às informações possibilitadas pelas redes sociais e aplicativos de troca de men- sagens, a propagação de notı́cias falsas vem se tornando uma preocupação em uma sociedade em que o cidadão tem direito de acesso à informação. Conhe- cido por Fake News, o uso mal intencionado dessas informações pode compro- meter a democracia. O objetivo desse trabalho será verificar a veracidade das notı́cias e assim classificá-la em Fake News ou não, através de um ramo da àrea de Machine Learning, a Deep Learning, que consiste no uso de algoritmos capazes de extrair caracterı́sticas que são pertinentes na sua classificação. 1. Introdução Diante de uma sociedade onde a troca de informações se tornaram um meio prático e de fácil acesso, a utilização de notı́cias falsas vem acarretando problemas para a sociedade. Uma delas foi a influência na escolha de candidatos no perı́odo de eleições[2]. É impor- tante salientar que o uso desses tipos de recursos podem comprometer a Democacria. Diferente de antigamente, onde os meios de informações como jornais e revistas eram os mais consumidos, hoje com o uso da internet, grande parte das pessoas consomem conteúdos online. As notı́cias publicadas em meios como redes socias e aplicativos de troca de mensagens possuem um baixo nı́vel de confiança da pessoas [10], principalmente causado pela falta de filtragem ou a inexistência da mesma. Para a resolução desse problema, existe uma área da inteligência artificial cha- mada aprendizado de máquina que possibilita a classificação de textos. Porém, devido a abstração do problema, a dificuldade de identificar quais parâmetros são os mais eficientes no seu aprendizado para classificação, acaba nos levando ao uso do Deep Learning, uma subárea de aprendizado de máquina, que consegue abstrair melhor um problema desse tipo. O crescimento da utilização da aprendizagem profunda foi proporcionado pelo au- mento do poder computacional, utilizando unidade de processamento gráfico (GPU) [13] A proposta desse trabalho será criar um ferramenta capaz de resolver o pro- blema de Fake News, capacitando-o em classificar um texto em notı́cia falsa ou não. A organização desse documento está feita da seguinte maneira: seção 2 descreve o objetivo desse trabalho, a seção 3 explica as metodologias propostas, a seção 4 apresenta conceitos relacionados ao assunto, assim como suas definições, a seção 5 despõe do cronograma de atividades e por último a seção 6 descreve os resultados esperados. 2. Objetivos O intuito desse trabalho será desenvolver um verificador de notı́cias falsas utilizando de modelos na área de Deep Learning. A partir dos resultados finais será feito uma análise de comparação e desempenho com outras propostas utilizadas na mesma área. 3. Procedimentos metodológicos/Métodos e técnicas Com o propósito de chegar ao objetivo esperado, será feito um levantamento bibliográfico na área de Deep Learning, visando entender os modelos e métodos que são utilizados atualmente. Após a finalização da parte teórica, será feito a implementação, seguido de testes e melhorias. A base de dados será adquirida de domı́nios públicos, e serão compostas por duas classificações: Fake News ou não Fake News. A primeira será retirada do site Kaggle [12] e a segunda de The Toronto Star and The New York Times [3] . 3.1. Frameworks As ferramentas que serão utilizadas nesse trabalho sãoa linguagem Python versão 3.5.2 64 bits [11] e o framework de aprendizado de máquina Tensorflow [1]. 3.2. Métrica de avaliacao A métrica de avaliação será composta de quatro classificações: • Verdadeiro positivo : Análise e texto são Fake News. • Verdadeiro negativo : Análise é Fake News e texto não é Fake News. • Falso positivo : Análise não é Fake News e texto é Fake News. • Falso negativo : Análise e texto não são Fake News. 4. Fundamentação Teórico-Metodológica e Estado da Arte Esta seção visa explicar os conceitos teóricos para um maior entendimento da proposta desse trabalho. 4.1. Machine Learning O aprendizado de máquina é definido como algoritmos capazes de realizar previsões de padrões dado um conjunto de dados, utilizando padrões que foram descobertos para pre- dizer dados futuros, ou para realizar tomadas de decisões. Os dados usados para a o aprendizado são definidos por variáveis numéricas que são extraı́dos de caracterı́sticas re- levantes para o aprendizado, e são conhecidas como features, attributes ou covariates. [8] A qualidade como a quantidade das informações dos dados utilizados para o treinamento do algoritimo são relevantes para uma melhor perfomance e acerto de previsão [7]. O aprendizado de máquina pode ser classificado principalmente em 2 tipos: su- pervisionado e não supervisionado. O Primeiro corresponde quando tentamos aprender um mapeamento dado um conjunto de entradas x, com suas caracterı́sticas já extraı́das, como pixels de uma imagem, para determinar um conjunto de saı́das y, também rotula- das, como por exemplo determinar se uma imagem é gato ou um ser humano. Na segunda classificação, o objetivo é aprender padrões de caracterı́sticas que são pertinentes em um conjunto de dados não classificados[8]. Existem dois tipos de problemas que o algoritmo tenta resolver, ambos para apren- dizados supervisionados. O chamado problema de classificação ocorre em casos onde a saı́da esperada é um valor discreto, citando como exemplo reconhecimento de dı́gitos, ou seja, um valor finito de saı́das. O outro problema à ser resolvido é conhecido como problema de regressão, onde a os valores da saı́da não são exatos, são valores contı́nuos, exemplificado por uma previsão de rendimento de uma empresa quı́mica onde as entradas seriam o valor de concentração de reagentes, temperatura e pressão[4]. 4.2. Deep Learning O aprendizado profundo, uma subcategoria do aprendizado de máquina, caracteriza-se pelo programa que é capaz de aprender com sua experiência e assim compreender termos em relação a hierarquia de conceitos. A baixa necessidade da interveção de seres hu- manos para expecificar os conhecimentos que a máquina precisa para o seu aprendizado se dá em conta da sua capacidade de utilizar da sua experiência adquirida. A hierarquia de conceitos permite ao programa definir conceitos complexos à partir de conceitos mais simples. Assim, se tivessemos que ilustrar esse conceito, um grafo poderia exemplificá-lo bem, devido há existência de várias camadas, onde a cada nı́vel está ligado ao nı́vel an- terior, aumentado a sua complexidade a cada novo nı́vel. Para casos onde há um grande número de elementos à serem estudados envolvendo aprendizado de funções e de concei- tos, o aprendizado profundo se sai melhor que o aprendizado de máquina, devido a sua capacidade de entender relações mais complexas [6]. A capacidade do aprendizado profundo de utilizar funções não lineares juntamente do entendimento de conceitos mais complexospelo uso de representação hierárquica através de uma base de dados não rotulados permite ao algoritmo encontrar padrões [5], onde seria difı́cil de entendimento para os seres humanos, como por exemplo associar quais elementos de um texto pode ser usados para determinar um Fake News ou não. Figura 1. Fluxograma em alto nı́vel de diferentes áreas da IA .Os quadrados em cinza representam passos onde o algoritmo aprende pelos dados[6]. 4.3. Deep Learning e Mineração de Texto Diferente das tarefas tradicionais do Deep Learning, cujo foco são processos envolvendo sinais como áudio e imagem, o processamento de texto é uma área crescente. Entre as tarefas aplicadas a texto, temos o chamado Text Summarization. Esta tarefa consiste na utilização de programas para a criação de um tı́tulo ou resumo que capta as ideias principais de um artigo, não se limitando apenas a escolhas de apenas algumas frases para análise, mas verificando o contexto principal [9]. 5. Cronograma de Execução Atividades previstas: 1. Revisão bibliográfica; 2. Escolha da base de dados a serem utilizados para o treinamento de aprendizado; 3. Escolha de modelos que servirão como base para implementação; 4. Treinamento dos algoritmos de aprendizagem profunda; 5. Testes envolvendo o algoritmo treinado junto de uma base de dados; 6. Análise e comparação dos resultados obtidos; 7. Desenvolvimento da escrita do TCC; Tabela 1. Cronograma de Execução mai jun jul ago set out nov Atividade 1 X X X Atividade 2 X X X Atividade 3 X X X Atividade 4 X X X Atividade 5 X X Atividade 6 X X Atividade 7 X X X X 6. Contribuições e/ou Resultados esperados Espera se que o resultado desse trabalho permita ao leitor entender melhor sobre o assunto de Deep Learning assim como algumas técnicas de boa perfomance na classificação de Fake News, além de despertar de interesse na área. 7. Espaço para assinaturas Londrina, data por extenso. —————————————— —————————————— Aluno Orientador Referências [1] Martı́n Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al. Ten- sorflow: A system for large-scale machine learning. In OSDI, volume 16, pages 265–283, 2016. [2] Hunt Allcott and Matthew Gentzkow. Social media and fake news in the 2016 election. Journal of Economic Perspectives, 31(2):211–36, 2017. [3] Samir Bajaj. “the pope has a new baby!” fake news detection using deep learning. [4] Christopher M. Bishop. Pattern Recognition and Machine Learning. Springer, 2006. [5] Li Deng, Dong Yu, et al. Deep learning: methods and applications. Foundations and Trends R© in Signal Processing, 7(3–4):4–6, 2014. [6] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016. http://www.deeplearningbook.org. [7] Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar. Foundations of machine learning. MIT press, 2012. [8] Kevin P Murphy. Machine learning: a probabilistic perspective. Cambridge, MA, 2012. [9] Ramesh Nallapati, Bowen Zhou, Cı́cero Nogueira dos Santos, Çaglar Gülçehre, and Bing Xiang. Abstractive text summarization using sequence-to-sequence rnns and beyond. In CoNLL, 2016. [10] Nic Newman, Richard Fletcher, Antonis Kalogeropoulos, David AL Levy, and Ras- mus Kleis Nielsen. Reuters institute digital news report 2017. 2017. [11] Fabian Pedregosa, Gaël Varoquaux, Alexandre Gramfort, Vincent Michel, Bertrand Thi- rion, Olivier Grisel, Mathieu Blondel, Peter Prettenhofer, Ron Weiss, Vincent Du- bourg, et al. Scikit-learn: Machine learning in python. Journal of machine learning research, 12(Oct):2825–2830, 2011. [12] Victoria Rubin, Niall Conroy, Yimin Chen, and Sarah Cornwell. Fake news or truth? using satirical cues to detect potentially misleading news. In Proceedings of the Second Workshop on Computational Approaches to Deception Detection, pages 7– 17, 2016. [13] Jürgen Schmidhuber. Deep learning in neural networks: An overview. Neural networks, 61:85–117, 2015. http://www.deeplearningbook.org Introdução Objetivos Procedimentos metodológicos/Métodos e técnicas Frameworks Métrica de avaliacao Fundamentação Teórico-Metodológica e Estado da Arte Machine Learning Deep Learning Deep Learning e Mineração de Texto Cronograma de Execução Contribuições e/ou Resultados esperados Espaço para assinaturas
Compartilhar