Projeto Integrado 1 - Fake News

•

UNIAN - NITERÓI

Elisa Schmidt

13/05/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Projeto Integrado I

88 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

2
CENTRO UNIVERSITÁRIO ANHANGUERA DE NITERÓI
SUPERIOR DE TECNOLOGIA EM INTELIGÊNCIA DE MERCADO E ANÁLISE DE DADOS
ALUNO
RA
PROJETO INTEGRADO I – PORTFÓLIO INDIVIDUAL
SITUAÇÃO PROBLEMA: FAKE NEWS
Niterói – RJ
2021
ALUNO
RA
PROJETO INTEGRADO I – PORTFÓLIO INDIVIDUAL
SITUAÇÃO PROBLEMA: FAKE NEWS
(
Projeto Integrado I –
Portfólio Individual –
Situação Problema: Fake News. A
presentado
ao

Centro Universitário Anhanguera de Niterói
,
do Curso Superior de Tecnologia em Inteligência de Mercado e Análise de Dados,
como re
quisito para a conclusão da disciplina

Projeto Integrado I do 1º semestre.
Tutor à dist
ância: XXXX
)
Niterói – RJ
2021
SUMÁRIO
1. INTRODUÇÃO

4
2. PROCESSAMENTO DE LINGUAGEM NATURAL

4
2.1 Tokenização

5
2.2 Notícias Falsas (Fake News)

5
2.3 Aprendizado de Máquina

6
2.3.1 Máquinas de Vetores Suporte

6
2.3.1.1 Máquinas de Vetores Suporte Lineares

7
2.3.1.2 Máquinas de Vetores Não Lineares

7
2.3.2 Adaboost

8
2.3.3 Redes Neurais Artificiais

8
2.3.3.1 Função de Ativação

9
2.3.3.1.1 Função Sigmoide

9
2.3.3.1.2 Função Tangente Hiperbólica

9
2.3.3.1.3 Função Softmax

10
2.3.3.1.4 Função Unidade Linear Retificada

10
2.4 Desempenho

10
2.4.1 Matriz de Confusão

11
2.4.2 Métricas

11
3. CONSIDERAÇÕES FINAIS

12
REFERÊNCIAS BIBLIOGRÁFICAS

12
1. INTRODUÇÃO
De uma forma geral, as notícias são de extrema importância na veiculação de qualquer tipo de informação, essa indústria influencia diretamente na sociedade para comunicar os acontecimentos. Com a popularidade das redes sociais, o consumo de notícias tornou-se simples e barato, mas quando uma informação é fácil de obter e é divulgada para diferentes leitores também permite falsas notícias tornando-as negativas. Como conhecidas, Fake News.
Fake News é um termo que apareceu em países de língua inglesa no final do século XIX para se referir a boatos de grande circulação [1]. Geralmente são escritas intencionalmente para enganar os leitores e na tentativa de legitimar a informação. É escrito em linguagem ou vocabulário simples e é facilmente digerido pelos leitores, o que o torna extremamente viral e prejudicial. Isso permite que os consumidores desta notícia compartilhem e se espalhem rapidamente para um grande número de pessoas, disseminando informações falsas. Isso teve um impacto negativo na sociedade e desafiou o jornalismo com informações erradas e todo o ecossistema de notícias que ele gera.
À medida que os autores avançam na produção da informação falsa, é difícil caracterizar e encontrar um padrão, portanto, classificar a informação como verdadeira ou falsa é uma tarefa difícil. Neste caso, a combinação da tecnologia de Aprendizado de Máquina e Processamento de Linguagem Natural é viável para a detecção de Fake News.
2. PROCESSAMENTO DE LINGUAGEM NATURAL
O processamento de linguagem natural é o uso de métodos e recursos computacionais para analisar dados de linguagem, ou seja, informações em uma determinada linguagem inerente à comunicação humana. Os mais comuns são documentos, artigos ou notícias em formato de texto. Portanto, representações e significados mais complexos são extraídos dessas fontes de informação.
Esta complexidade das linguagens naturais é processada de forma a tentar encontrar e compreender os conceitos linguísticos de palavras (como substantivo, adjetivo, verbo e outros) e buscar tratar um texto não só como uma sequência de caracteres, e sim como uma estrutura hierárquica da linguagem de modo a realizar uma análise léxica, sintática, semântica e morfológica [2]. Assim, esta área do conhecimento tem um papel fundamental nas tarefas, como traduções de texto e correções gramaticais. Para ter sucesso em uma compreensão natural da linguagem natural, é necessário ter um pré-processamento, para que haja uma "filtração" ou uma abstração e, em seguida, uma estrutura dessa linguagem. A grande quantidade de dados é reduzida em informações, ficando características convenientes para o processamento computacional.
Esta tarefa de processamento de linguagem natural se torna muito importante para uma estruturação de uma fonte de informação não estruturada, pois a linguagem humana é altamente diversa e com alto grau de complexidade. Assim, o processamento de linguagem natural com seus processos auxilia nas resoluções de ambiguidades na linguagem [2], adicionando uma estrutura numérica e mais plausível às máquinas a qualquer tipo de dados de fonte natural.
Técnicas de processamento de linguagem natural normalmente iniciam por um processo de separação de palavras, chamado de “tokenização” como uma etapa de pré-processamento, seguido de análises léxicas, sintáticas, semânticas e pragmáticas [2]. A análise semântica muitas vezes pode ser proferida por técnicas de Aprendizado de Máquina aplicadas no texto pré-processado.
2.1 Tokenização
A tokenização é um primeiro passo para processar um texto, sendo uma etapa determinante da segmentação da informação. Neste caso, é um fracionamento de palavras, delimitadas por caracteres predeterminados. Cada unidade separada é chamada de token.
Sendo o primeiro passo, ainda é um estágio básico de processamento, com a possibilidade de um token segmentado ter a mesma relevância ou interpretação, causando o problema de ambiguidade. Ainda, possui problemas de acordo com a linguagem natural a ser segmentada, nas suas diferenças de estrutura [2]. Em determinadas linguagens o caractere delimitador entre palavras é o espaço, como na maioria das linguagens ocidentais, havendo uma segmentação na linguagem e assim, facilitando o processo de tokenização.
Este processo é essencialmente complicado quando a abordagem é acerca de linguagens escritas em “scriptio continua” [3] onde são não segmentadas, onde as palavras não possuem um limite de espaço — como algumas linguagens do oriente, tal como o chinês. Com a partição do texto em tokens, o processamento do texto se beneficia nos passos seguintes, como na análise léxica.
2.2 Notícias Falsas (Fake News)
Um dos principais desafios para a detecção de Fake News consiste na linguagem natural, tendo como base a forma de escrita das notícias cada vez mais variadas com o crescimento exponencial de publicadores competentes na distorção da informação [4]. Como consequências, têm consumidores cada vez mais vulneráveis.
Estes desafios dificultam ainda mais o reconhecimento de um padrão nas produções destas desinformações, porém, é possível encontrar algumas regularidades na estrutura destas notícias [5]:
· Os títulos das notícias normalmente são escritos de forma exagerada e sensacionalista, com o objetivo do clickbait, conhecido como isca de cliques.
· O corpo do texto normalmente é composto por uma escrita mais simples e menos formal. Com utilização de alguns termos com o propósito de trazer mais confiabilidade e credibilidade para a notícia. Ao contrário, as notícias reais possuem uma complexidade maior na escrita, teoricamente escritas por jornalistas ou pessoas de alto conhecimento técnico.
2.3 Aprendizado de Máquina
Como o seu nome sugere, as técnicas de aprendizado de máquina aborda como tornar as máquinas aptas a aprender, dada a partir de um conjunto de exemplos para realizar métodos de inferência indutiva para obter resultados a partir deste aprendizado [5]. Este aprendizado indutivo pode ser divida em dois tipos fundamentais:
· Aprendizado Supervisionado: O aprendizado é realizado de maneira evidenciar ao ambiente, conjuntos de entrada e saída desejada, em que após a etapa de aprendizado, tem o objetivo de que o ambiente produza saídas corretas para as novas entradas não apresentadas anteriormente.
· Aprendizado Não-Supervisionado: Neste caso, não existem conjuntos rotulados ao ambiente. O próprio ambiente terá que aprender a detectar peculiaridades no conjunto de entrada.
2.3.1 Máquinas de Vetores Suporte
Máquinas de Vetores Suporte (Support Vector Machine) é uma técnica de Aprendizado de Máquina supervisionada que vemsendo amplamente utilizada em vários problemas de classificação e reconhecimento de padrões, sendo a categorização de textos como um exemplo.
As Máquinas de Vetores Suporte são baseadas na Teoria de Aprendizado Estatístico, em que tem como objetivo encontrar o melhor hiperplano (uma superfície em espaço n-dimensional) de separação entre classes, com a maior margem possível. Sendo estas margens definidas como a maior distância possível entre um ponto de dado (n classes) mais próximo e o hiperplano encontrado para a separação [7].
2.3.1.1 Máquinas de Vetores Suporte Lineares
As Máquinas de Vetores Suporte originalmente foram utilizadas para classificação binária, como representada na Figura 1, uma técnica para classificação de conjunto de dados contendo somente duas classes. Dado este conjunto de dados no espaço de p dimensões, as Máquinas de Vetores Suporte tem como propósito obter um hiperplano máximo de p − 1 dimensões que consiga separar estes pontos. Este hiperplano de separação é dada pela equação linear:
y (𝑥) = ⃗𝑤 · ⃗𝑥 + b
Na qual w é um vetor de pesos de dimensão p que são ajustados durante o processo de treinamento, enquanto 𝑏 é uma variável escalar (bias) desta equação. Assim, dividindo o espaço em duas áreas suficientes para classificação:
𝑤 · ⃗𝑥 + 𝑏 {< 0, classe 0 e > 0, classe 1
2.3.1.2 Máquinas de Vetores Não Lineares
Na maioria dos problemas, uma função linear não é suficiente para separação das classes, com isso, as máquinas de vetores não lineares conseguem remapear todo o conjunto de dados original para outro novo espaço de uma maior dimensão, onde [8]:
Φ : R𝑛 → R𝑚 , onde 𝑚 > n
Em que R𝑛 denota o espaço de dados original e R𝑚 o novo espaço mapeado, conhecido como espaço de características. A escolha de uma função Φ acertada faz com que encontre um hiperplano que os dados sejam melhores separados.
2.3.2 Adaboost
Cada algoritmo de aprendizado de máquina tem diferentes métodos de aplicação e fornece diferentes comportamentos finais com base nos parâmetros passados. Ao resolver o problema isoladamente, ele pode não fornecer o melhor desempenho para resolução do mesmo. Neste caso, o processo de Boosting é definido como um método de aprimoramento do algoritmo de aprendizagem, e uma combinação de várias dessas técnicas é proposta. Normalmente, o aprimoramento cria uma combinação de dezenas ou mesmo centenas de classificadores fracos (classificadores que são melhores do que adivinhação aleatória) para gerar um único classificador forte. Dessa forma, cada classificador fraco se encaixa em uma pequena parte do espaço de busca. O algoritmo conhecido como Adaboost ou Adaptive Boosting é um dos vários métodos que o boosting compõe, sendo o mais popular entre eles, introduzido por Freund e Schapire [9].
2.3.3 Redes Neurais Artificiais
Ao usar o programa de Processamento de Linguagem Natural, para processar informações de texto, todos os dados se tornam dados estatísticos. No entanto, o uso crescente de redes neurais artificiais no campo da inteligência artificial é extremamente importante para resolver problemas relacionados à predição e identificar e analisar padrões [10]. O objetivo do uso desta ferramenta é fornecer às máquinas a capacidade de realizar certas atividades humanas. Neste caso, a arquitetura da rede neural artificial envolve o compartilhamento de informações por meio de arestas interconectadas em uma tentativa de simular o próprio sistema nervoso humano, tratando-as como neurônios. Portanto, assim como o cérebro humano, a rede neural artificial tem a capacidade de aprender, interagir com o meio externo e se adaptar ao meio externo, podendo ser alterada de acordo com um problema específico e modificada e aprimorada para solucionar o problema. Por ser inspirado no cérebro humano, o primeiro modelo de rede neural é denominado Perceptron, que consiste em apenas um neurônio artificial para realizar classificação linear ou binária [11]. Matematicamente, o funcionamento do Perceptron pode ser descrito pela função 𝑓 (·) da combinação linear das entradas com parâmetros [10] e função 𝜎(·) de ativação, assim, 𝑥1são as entradas do neurônio, 𝑤𝑖 é peso que pondera a entrada e é ajustado durante o processo e b é o limiar de ativação ou bias.
𝑁
𝑓(𝑥1, 𝑥2, ..., 𝑥𝑁 ) = ∑ 𝑤𝑖 · 𝑥𝑖 + b
𝑖=1
Quando combinado com vários neurônios, forma uma arquitetura multicamadas, que possibilita a resolução de problemas não lineares [11]. É chamado de Multilayer Perceptron (MLP) ou Multilayer Perceptron, e é uma arquitetura mais complexa. A característica dessas redes é que existe uma camada de entrada que recebe os dados de entrada, pelo menos uma camada intermediária oculta (camada oculta) e uma camada de saída do neurônio. A rede tem como vantagens a flexibilidade e versatilidade em termos de construção da arquitetura e a abrangência dos mesmos problemas que podem ser aplicados [10].
2.3.3.1 Função de Ativação
A função de ativação é uma função usada nas redes neurais durante o processo de treinamento supervisionado para ajustar o peso de entrada e dos bias.
2.3.3.1.1 Função Sigmoide
É uma função de ativação não linear e bastante utilizada em uma etapa do treinamento das redes neurais [12]. É aplicada também em redes mais simples, por ser uma função mais compreensível, segue abaixo.
𝜎(𝑥) = 1/ (1 + 𝑒 −𝑥)
2.3.3.1.2 Função Tangente Hiperbólica
É também uma função amplamente utilizada em redes neurais multicamadas, e possui um melhor desempenho para este tipo de arquitetura [12], segue abaixo.
𝜎(𝑥) = (𝑒 𝑥 − 𝑒 –𝑥 / 𝑒 𝑥 − 𝑒 −𝑥 )
2.3.3.1.3 Função Softmax
É um tipo de função de ativação na qual é utilizada na computação da distribuição probabilística de vetor para números reais [12]. Esta função limita a saída um número no intervalo entre 0 e 1, onde a soma de todas as saídas da camada é igual a 1, segue abaixo.
𝜎(⃗𝑥) 𝑖 = 𝑒 𝑥𝑖 / ∑𝑁 𝑒 𝑥k
𝑘=1
2.3.3.1.4 Função Unidade Linear Retificada
É uma função amplamente utilizada nas camadas de arquiteturas de redes neurais e também a função mais rápida de aprendizado [12]. Possui um desempenho maior do que outras funções, a sigmoide e a tangente hiperbólica, segue abaixo.
𝜎(𝑥) = max (0, 𝑥)
2.4 Desempenho
Para analisar os resultados do desempenho da detecção de Fake News, alguns indicadores são necessários, os quais em aprendizado de máquina têm sido amplamente utilizados na literatura. Usando esses indicadores, será possível analisar o desempenho da própria máquina ou algoritmo e compará-lo com outras ferramentas existentes. Portanto, você pode determinar uma meta tangível para o próprio experimento e definir se o experimento atingiu um valor que pode ser considerado razoável. Para o cálculo dessas métricas, no contexto de Fake News, são necessárias as seguintes características [13]:
· Verdadeiro-Positivo (VP): Quando classificado uma notícia como verdadeira e de fato a notícia é verdadeira;
· Verdadeiro-Negativo (VN): Quando classificado uma notícia como falsa, e de fato é uma Fake News;
· Falso Negativo (FN): Quando classificado uma notícia como falsa, porém não se trata de uma;
· Falso Positivo (FP): Quando classificado uma notícia como verdadeira, porém se trata de uma notícia falsa.
2.4.1 Matriz de Confusão
Pode ser considerada uma forma de representação gráfica e intuitiva das características citadas anteriormente, na qual a demonstração é realizada no cruzamento dos números de amostras preditas por um classificador ou detector, com a classificação real das amostras, segue abaixo.
Classificação Real
(
Positivo
Negativo
Positivo
VP
FP
Negativo
FN
VN
)Classificação Predita
2.4.2 Métricas
𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑉 𝑃 / 𝑉 𝑃 + 𝐹 𝑃
𝑅𝑒𝑣𝑜𝑐𝑎çã𝑜 = 𝑉 𝑃 / 𝑉 𝑃 + 𝐹 𝑁
𝐹1 = 2 · Precisão · Revocação / Precisão + Revocação
𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑉 𝑃 + 𝑉 𝑁 / 𝑉 𝑃 + 𝑉 𝑁 + 𝐹 𝑃 + 𝐹 𝑁
· Precisão: Analisa apenas as classificações dadas como positivas, ou seja, a proporçãode todas as notícias classificadas como FN, de fato eram FN.
· Revocação: Analisa a proporção de notícias que de fato são FN, com todas as classificações realizadas e classificadas como FN. Os Falsos Negativos estão incluídos na formulação, pois a notícia é de fato FN, mesmo o detector ou classificador ter predito ao contrário.
· F1 Score: Combinação de Precisão e Revocação, indicando a qualidade geral do resultado de aprendizagem de máquina, sendo uma média harmônica que auxilia na experimentação com uma amostragem desproporcional, isto é, uma base de in- formação desigual. Uma quantidade de notícias verdadeiras muito maiores que a de falsas, ou o contrário.
· Acurácia: É uma métrica simples que calcula a proporcionalidade de números de acertos (classificação positiva) com o número total de amostragem. Todas as classificações acertadas, sendo FN ou não divididas com toda base de notícias presente na amostra.
3. CONSIDERAÇÕES FINAIS
Com o conhecimento adquirido na execução deste trabalho, devido a muitas variáveis, é possível perceber a dificuldade de classificar a autenticidade das notícias, assunto relativamente inédito no campo da inteligência artificial e aprendizado de máquina na literatura. Portanto, a aplicação de conhecimentos sobre processamento de linguagem natural à mineração de notícias e extração de recursos, auxilia diretamente as técnicas de aprendizado de máquina na etapa de classificação de textos, tendo um significado extremamente importante.
O impacto da Fake News nas organizações corporativas é muito grande, podendo comprometer sua imagem, sua saúde financeira, seus dados sigilosos, entre outras informações relevantes, tornando-se um caos nas organizações.
REFERÊNCIAS BIBLIOGRÁFICAS
[1] Merriam-Webster. The Real Story of ‘Fake News’. < How Is 'Fake News' Defined, and When Will It Be Added to the Dictionary? | Merriam-Webster > <Acesso em 04-Maio-2021>.
[2] DALE, R.; MOISL, H.; SOMERS, H. Handbook of natural language processing. [S.l.]: CRC Press, 2000. 3–30 p.
[3] IJAYARANI, S.; JANANI, R. et al. Text mining: open source tokenization tools-an analysis. Advanced Computational Intelligence: An International Journal (ACII), v. 3, n. 1, p. 37–47, 2016.
[4] CONROY, N. J.; RUBIN, V. L.; CHEN, Y. Automatic deception detection: Methods for finding fake news. Proceedings of the Association for Information Science and Technology, Wiley Online Library, v. 52, n. 1, p. 1–4, 2015.
[5] VESZELSZKI, Á. Linguistic and non-linguistic elements in detecting (hungarian) fake news. Acta Universitatis Sapientiae Communicatio, De Gruyter Open, v. 4, n. 1, p. 7–35, 2017.
[6] LORENA, A. C.; CARVALHO, A. C. de. Uma introdução às support vector machines. Revista de Informática Teórica e Aplicada, v. 14, n. 2, p. 43–67, 2007.
[7] DU, K. L.; SWAMY, M. Multilayer perceptrons: Architecture and error backpropagation. In:____. [S.l.: s.n.], 2014. p. 489–492. ISBN 978-1-4471-5570-6.
[8] LUNARDI, A. de C.; FILHO, J. V.; BERNARDINI, F. C. Um levantamento do uso de algoritmos de aprendizado supervisionado em mineração de opiniões.
[9] FREUND, Y.; SCHAPIRE, R. E. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci., Academic Press, Inc., Orlando, FL, USA, v. 55, n. 1, p. 119–139, ago. 1997. ISSN 0022-0000. Disponível em: < A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting-ScienceDirect <acesso em 11-maio-2021>.
[10] GOMIDE, F. A. Redes neurais artificiais para engenharia e ciências aplicadas: curso prático. scielo, v. 23, p. 649 – 652, 10 2012. ISSN 0103-1759. Disponível em: < Redes neurais artificiais para engenharia e ciências aplicadas: curso prático (scielo.br)> <acesso em 11-maio-2021>.
[11] HAYKIN, S. Neural Networks and Learning Machines, 3/E. [S.l.]: Pearson Education India, 2010.
[12] NWANKPA, C. et al. Activation functions: Comparison of trends in practice and research for deep learning. arXiv preprint arXiv:1811.03378, 2018.
[13] SHU, K. et al. Fake news detection on social media: A data mining perspective. SIGKDD Explor. Newsl., ACM, New York, NY, USA, v. 19, n. 1, p. 22–36, set. 2017. ISSN 1931-0145. Disponível em: < Fake News Detection on Social Media: A Data Mining Perspective: ACM SIGKDD Explorations Newsletter: Vol 19, No 1> <acesso em 11-maio-2021>.