Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DE GOIÁS Faculdade de Informação e Comunicação Análise de tweets de terroristas e atiradores em massa através de mineração de textos e aprendizado de máquina no apoio à identificação de possíveis autores de novos ataques Isadora Campos Vaz Goiânia 2019 Isadora Campos Vaz Análise de tweets de terroristas e atiradores em massa através de mineração de textos e aprendizado de máquina no apoio à identificação de possíveis autores de novos ataques Trabalho de Conclusão de Curso apresentado à Faculdade de Informação e Comunicação, como parte dos requisitos para obtenção do título de Bacharel em Gestão da Informação. VERSÃO REVISADA Orientador: Prof. Dr. Douglas Farias Cordeiro Goiânia 2019 Vaz, Isadora Campos V634a Análise de tweets de terroristas e atiradores em massa através de mineração de textos e aprendizado de máquina no apoio à identificação de possíveis autores de novos ataques / Isadora Campos Vaz; orientador Douglas Farias Cordeiro. – Goiânia – GO, 2020. 55 p. Trabalho de Conclusão de Curso (Graduação - Gestão da Informação) – Faculdade de Informação e Comunicação, Universidade Federal de Goiás, 2020. 1. Redes Sociais; Mineração de Textos; Terrorismo; Informação; Twitter. I. Cordeiro, Douglas Farias, orient. II. Título. Isadora Campos Vaz Análise de tweets de terroristas e atiradores em massa através de mineração de textos e aprendizado de máquina no apoio à identificação de possíveis autores de novos ataques Trabalho de Conclusão de Curso apresentado à Faculdade de Informação e Comunicação, como parte dos requisitos para obtenção do título de Bacharel em Gestão da Informação. VERSÃO REVISADA Trabalho aprovado. Goiânia, 11 de Dezembro de 2019: Douglas Farias Cordeiro Orientador Núbia Rosa da Silva Convidada Kátia Kelvis Cassiano Convidada Goiânia 2019 Prepare for the worst and hope for the best (Autor desconhecido). RESUMO VAZ, I. C.. Análise de tweets de terroristas e atiradores em massa através de mineração de textos e aprendizado de máquina no apoio à identificação de possíveis autores de novos ataques. 2020. 55 f. Trabalho de Conclusão de Curso (Graduação em Gestão da Informação) – Faculdade de Informação e Comunicação (FIC/UFG), Goiânia – GO. A aplicação de soluções voltadas ao levantamento de comportamentos, padrões e tendência a partir de dados provenientes de redes sociais é algo de bastante interesse. Neste sentido, diversos tipos de soluções têm sido exploradas e propostas. A partir disso, este estudo pretende realizar uma análise em tweets de autores de terrorismo ou tiroteio em massa para verificar se existe padrões nas publicações e permitir que novos tweets sejam analisados com base na semelhança entre eles. De modo empírico foram coletados 6.372 postagens por doze perfis de pessoas ou grupos responsáveis por atos terroristas ou tiroteios em massa identificados através de notícias veiculadas na mídia internacional. Foram aplicadas soluções de mineração de dados e análise de sentimentos e obtidos padrões semânticos referentes às relações entre eles. Palavras-chave: Redes Sociais; Mineração de Textos; Terrorismo; Informação; Twitter. ABSTRACT VAZ, I. C.. Análise de tweets de terroristas e atiradores em massa através de mineração de textos e aprendizado de máquina no apoio à identificação de possíveis autores de novos ataques. 2020. 55 f. Trabalho de Conclusão de Curso (Graduação em Gestão da Informação) – Faculdade de Informação e Comunicação (FIC/UFG), Goiânia – GO. The application of solutions aimed at surveying behaviors, patterns and trends based on data from social networks is of great interest. In this sense, several types of solutions have been explored and proposed. With that in mind, the present study intends to perform a tweet analysis of terrorism or mass shooters to see if there is a pattern in the publications and allow new tweets to be analyzed based on their similarity. Empirically 6,372 posts were collected from 12 profiles of people or groups responsible for terrorist acts or mass shootings identified through news. Were applied data mining solutions and sentiment analysis and obtained lexical patterns regarding the relations between them. Key-words: Social Media. Text Mining. Terrorism. Information. Twitter. LISTA DE ILUSTRAÇÕES Figura 1 – Representação do processo KDD . . . . . . . . . . . . . . . . . . . . . . . 23 Figura 2 – Quantidade de notícias sobre terrorismo publicadas por ano na Internet . . . 27 Figura 3 – Distribuição da quantidade de tweets por perfil. . . . . . . . . . . . . . . . 39 Figura 4 – Distribuição de sentimento dos textos. . . . . . . . . . . . . . . . . . . . . 40 Figura 5 – Distribuição de sentimento de cada autor. . . . . . . . . . . . . . . . . . . . 40 Figura 6 – Nuvem de palavras classificadas como positivas. . . . . . . . . . . . . . . . 41 Figura 7 – Nuvem de palavras classificadas como negativas. . . . . . . . . . . . . . . . 42 Figura 8 – Exemplos de postagens positivas e negativas. . . . . . . . . . . . . . . . . . 43 Figura 9 – Grafo de similaridade entre todas as instâncias . . . . . . . . . . . . . . . . 43 Figura 10 – Dendograma de classes dos termos. . . . . . . . . . . . . . . . . . . . . . . 44 Figura 11 – Gráfico de similaridade entre os termos. . . . . . . . . . . . . . . . . . . . 45 Figura 12 – Gráfico de similaridade entre os autores. . . . . . . . . . . . . . . . . . . . 46 SUMÁRIO 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.1 Aspectos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3 Justificativa/Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4 Estrutura da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2 INFORMAÇÃO EM REDES SOCIAIS . . . . . . . . . . . . . . . . . 14 2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2 Dado, Informação e Conhecimento . . . . . . . . . . . . . . . . . . . . 15 2.3 Ciclo de Vida da Informação . . . . . . . . . . . . . . . . . . . . . . . 16 2.4 Redes sociais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.5 Fluxo Informacional em Redes Sociais . . . . . . . . . . . . . . . . . . 19 2.6 Considerações parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3 MINERAÇÃO DE DADOS E TERRORISMO . . . . . . . . . . . . . 21 3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2 O Processo KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.3 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.4 Técnicas de Mineração de Dados para Textos Curtos . . . . . . . . . 25 3.5 Revisão de Trabalhos sobre Terrorismo . . . . . . . . . . . . . . . . . 26 3.6 Considerações parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.2 Seleção de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.3 Pré-processamento de Dados . . . . . . . . . . . . . . . . . . . . . . . 33 4.4 Transformação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.5 Análise de Sentimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.6 Similaridade entre termos e documentos . . . . . . . . . . . . . . . . 37 5 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 39 6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 10 CAPÍTULO 1 INTRODUÇÃO 1.1 Aspectos Gerais A era da Internet tem modificado a maneira como aspessoas se relacionam e se co- municam, podendo ser de maneira positiva ou negativa. Desde o fim dos anos 1980 a Internet provou ser um meio altamente dinâmico de comunicação (UNITED NATIONS, 2012). Seu desenvolvimento sendo cada vez mais sofisticado criou uma rede com um alcance global e barreiras de entrada relativamente baixas. Com isso a quantidade de dados gerados cresceu exponencialmente. Diante disso foi necessário haver aperfeiçoamento nas tecnologias de infor- mação e da comunicação para que fosse ampliada a capacidade de gerar e tratar automaticamente grandes quantidades de dados. No âmbito das tecnologias relacionadas ao terrorismo, Jetter (2014) relata que o impacto do terrorismo tem sido ampliado pela capacidade da mídia de disseminar notícias dos ataques de forma instantânea ao redor do mundo. O autor comenta as motivações por trás de ataques terrorista, os quais, geralmente, são realizados para chamar atenção para uma causa especifica, como promover uma agenda religiosa ou pressionar por objetivos políticos (por exemplo, a luta dos curdos por um estado independente). Ele continua afirmando que um mecanismo importante para promover os objetivos dos terroristas é chamar atenção das pessoas, no entanto, a cobertura na mídia internacional sobre incidentes terroristas varia drasticamente. Em concordância Lum- baca e Gray (2011) relaciona os ataques terrorista com a mídia dizendo que “seja televisão, rádio ou Internet, os terroristas percebem que esses instrumentos são recursos valiosos para estimular medo dentro de uma comunidade ou conquistar os corações e mentes da população”. Desde 2001, após o atentado terrorista de 11 de setembro ao World Trade Center em Nova York, a popularização dos atentados terroristas começou a ser percebida nas mídias do ocidente. A partir desta data grupos terroristas passaram por mudanças e começaram a utilizar mídias sociais para recrutamento, treinar membros, compartilhar manuais terroristas, coletar Capítulo 1. Introdução 11 informações sobre possível alvos, entre outras coisas (ANDERSON, 2003 apud OH; AGRAWAL; RAO, 2011). Como dito pelo Secretario-Geral das Nações Unidas Ki Moon Ban: “A Internet é um excelente exemplo de como os terroristas podem se comportar de maneira verdadeiramente transnacional” (UNITED NATIONS, 2012). A Internet oferece aos terroristas a habilidade de compartilhar mensagens nas quais podem constar informações para arrecadações ou até mesmo para coordenar ataques (LUMBACA; GRAY, 2011). Segundo a UNITED NATIONS (2012), a Internet facilita para um indivíduo se comunicar com relativo anonimato, de forma rápida e eficaz para uma audiência quase ilimitada. Com isso existem diversas possibilidades de utilizar a Internet tanto para ações positivas, quanto para negativas. Ao cruzar os temas “redes sociais” e “terrorismo”, foi possível observar múltiplas ligações, as quais, podem promover distintas possibilidades de identificação de autores de atos violentos como esses. A partir das redes sociais, os autores expõem suas crenças e seus pensamentos livremente. Com isso é possível identificar tendências de comportamentos que, se utilizados de maneira correta conseguem promover a segurança de centenas de pessoas evitando grandes desastres. Esta pesquisa analisa a possibilidade de encontrar padrões semânticos nos tweets de terroristas e atiradores em massa que permita prever ameaças de novos usuários a partir de seu conteúdo postado no Twitter. O principal argumento deste trabalho é a existência de um padrão de tweets entre terroristas e atiradores em massa que, por ventura, possa ser utilizado para identificar novas ameaças no Twitter. 1.2 Objetivos 1.2.1 Objetivo Geral A pesquisa tem como objetivo geral identificar padrões semânticos em tweets de ter- roristas e atiradores em massa, de modo a gerar informação que possam auxiliar a identificar possíveis autores de novos ataques. 1.2.2 Objetivos Específicos São objetivos específicos desta pesquisa: ∙ Delimitar uma amostra de tweets de terroristas e atiradores em massa; ∙ Aplicar soluções computacionais no âmbito da mineração de dados e inteligência artificial para detecção de padrões na amostra considerada; ∙ Averiguar a relação entre esses padrões e a identificação de novos suspeitos; Capítulo 1. Introdução 12 ∙ Propor maneiras de identificar perfis potencialmente suspeitos a partir de suas postagens no Twitter. 1.3 Justificativa/Motivação Considerando o atual cenário social no mundo, mesmo que, de acordo com o Índice Global de Terrorismo de 2018, a morte por terrorismo em âmbito geral tenha diminuído, os atos terroristas de extrema direita tem aumentado nos Estados Unidos e na Europa Ocidental e continuam generalizados (PRNewswire, 2018), vê-se uma necessidade de descobrir novas formas de prevenir novos acontecimentos dessa natureza. Levando em consideração que um dos maiores ambientes de informação e comunicação nos dias de hoje são as mídias sociais. Esses dois assuntos constitui um campo de pesquisa não muito explorado e com grande importância, uma vez que se relaciona diretamente à vida de vários indivíduos. As redes sociais são ferramentas de comunicação, no qual pessoas compartilham suas ideias e pensamentos. O Twitter foi a rede social escolhida para essa pesquisa para delimitar um ambiente específico, pela facilidade em obter seus dados e pelo principal uso da mesma ser o compartilhamento de textos curtos que refletem os pensamentos dos autores. Após o acontecimento em Suzano (SP), em março de 2019, no qual dois jovens entraram em uma escola estadual atirando e mataram dez pessoas, foram encontradas mensagens publica- das meses antes da tragédia por um dos atiradores nas quais é possível observar suas intenções em cometer um ataque. É possível identificar esse comportamento, uma vez que pessoas que executam esses ataques querem ser reconhecidos por eles e receber alguns minutos de fama. Por esses e outros motivos, vários grupos terroristas reivindicam os ataques e assumem a culpa por eles. Nesse sentido, é interessante construir mecanismos que possam permitir a identificação prévia por padrões em publicações, possibilitando a realização de estratégias de controle e prevenção de incidentes e eventos como os massacres ocorridos. Há algum tempo, as redes sociais começaram a ser examinadas como uma fonte de informações pessoais importante e não somente um passatempo popular. Algumas redes sociais já utilizam as publicações para identificar comportamentos específicos de seus usuários. Por exemplo o Facebook, que reconhece características suicidas em postagens e oferece ajuda aos seus usuários. É importante destacar que não há relatos ou manifestações de ações semelhantes por parte da rede social Twitter em relação ao monitoramento de seus usuários. Sabe-se que órgãos de segurança fiscalizam tweets para vigiar grupos e identificar ameaças. Em sua maioria, são utilizados programas para verificar possíveis protestos, de forma que eles consigam se organizar a tempo das manifestações (COX, 2016). Porém, possíveis atos terroristas ou tiroteios não são analisados da mesma maneira. Dessa forma é importante que seja criado algo que possa servir como instrumento de monitoramento para esses casos. Capítulo 1. Introdução 13 1.4 Estrutura da Monografia O presente trabalho está estruturado em seis partes principais. O primeiro capítulo é a introdução à pesquisa, os objetivos e a justificativa. O segundo capítulo é relacionado às redes sociais, no qual são descritos dados, informação, conhecimento, ciclo de vida da informação, fluxo informacional em redes sociais. Já o terceiro capítulo desenvolve os conceitos envolvendo o processo KDD, técnicas de mineração de dados para textos curtos e citações de trabalhos prévios sobre terrorismo. No quarto capítulo é indicado a metodologia da pesquisa, ou seja, como ela foi elaborada. O capítulo cinco é referente aos resultados e a a discussão dos mesmos. Por fim, o capítulo 6 pertence à conclusão e ao desfecho da pesquisa. 14 CAPÍTULO2 INFORMAÇÃO EM REDES SOCIAIS 2.1 Introdução O século XXI está testemunhando um crescimento exponencial de mensagens virtuais transmitidas a partir de mídias sociais (MANGOLD; FAULDS, 2009). Em estudos acadêmicos, organizações, e mídias, a utilização das redes sociais vem crescendo e possui a finalidade de ajustar o ambiente comunicacional do mundo globalizado e indicar mudanças e permanências nos modos de transferência de informações das sociedades (MARTELETO, 2010). Elas repre- sentam “o mundo em movimento” e conectam pessoas por relacionamentos sociais de diferentes naturezas, dessa forma renovando as estruturas sociais (TOMAEL; MARTELETO, 2006). A informação e o conhecimento estão em todo lugar e são fundamentais para a formação e manutenção das redes sociais (TOMAEL; ALCARA; CHIARA, 2005). O interesse de muitos pesquisadores se vira para a análise de redes sociais a partir de diferentes perspectivas, relaciona- das por vários campos do conhecimento em busca de entender seu impacto na vida social das pessoas (MATHEUS; SILVA, 2006). O surgimento da Internet permitiu que as pessoas pudessem transmitir informações de maneira mais rápida e mais interativa (RECUERO, 2009b). A Internet, como relação entre duas partes, proporciona o armazenamento, busca e disseminação de informações, porém são as redes sociais que vão passar as informações relevantes para seus determinados grupos (RECUERO, 2009a). Para Sterne (2011 apud ANTUNES et al., 2014) a Internet foi o primeiro canal de comunicação que possibilitou a interação de muitas pessoas ao mesmo tempo e as redes sociais proporcionam a criação de grupos fechados ou abertos para melhorar a comunicação e o contato pessoal, por isso elas demandam uma maior interatividade entre os participantes. A informação na Internet gera impactos e é disseminada com base na ideia de gerar valor percebido pelos atores sociais (grupos, indivíduos ou organizações que podem influenciar nos resultados de iniciativas sociais) e por isso as informações estão relacionadas ao capital social Capítulo 2. Informação em redes sociais 15 (“valor que circula dentro de uma rede social”), portanto é possível observar que a publicação das informações nas redes sociais gera um impacto em cada indivíduo, dependendo da relevância da mesma para cada grupo (RECUERO, 2009b). Este compartilhamento de informação e conhecimento realizado no ambiente das redes sociais é gerado constantemente, se apresentando como uma consequência do fato dos usuários partilharem seus conhecimentos (TOMAEL; MARTELETO, 2006). No âmbito de temas relacionados a ataques violentos, como o terrorismo, o perfil dos usuários mostra uma necessidade de reconhecimento e atenção por parte da mídia. Portanto, é comum que as pessoas que planejam algum tipo de ataque compartilhem suas ideias e seus conhecimentos na Internet, para receber algum tipo de validação por seus atos. Devido ao grande número de acessos à Internet (1,7 bilhão de pessoas no mundo, segundo o Relatório Anual da União Internacional de Telecomunicações (FOLHA.COM, 2010 apud CIRIBELI; PAIVA, 2011)), a quantidade de informação possível de ser encontrada aumentou. Consequentemente a análise de redes sociais cresceu significativamente em função desse aumento dos dados disponíveis para análise (MATHEUS; SILVA, 2006). A compreensão destes fenômenos informacionais remete às definições básicas acerca de dado, informação e conhecimento, as quais possibilitam um estudo mais delineado e direcionado às abordagens relacionadas às redes sociais. 2.2 Dado, Informação e Conhecimento A população do século XXI foram descritas como a “sociedade da informação” no best seller de Peter Drucker em 1966, no qual a sociedade é inserida num processo de mudança constante devido aos avanços na tecnologia e na ciência (COUTINHO; LISBÔA, 2011). Essa sociedade da informação torna o gerenciamento, a obtenção e a aplicação do conhecimento como itens básicos, pois a informação passa a ser entendida como insumo primordial (VALENTIM, 2002). Pessoas e organizações usufruem da informação em uma base diária e a informação passa a possuir valor comercial, contextualizada em uma economia informatizada (STAIR; REYNOLDS, 2011). A informação é considerada a matéria prima do cotidiano do ser humano (CHOO, 2003) e para Gleick (2013) a informação é “aquilo que alimenta o funcionamento do nosso mundo”. Existem várias fontes de informação que pode ser utilizada para reconhecer pessoas com comportamentos suspeitos, algumas mais relevantes que outras, mas levando em conta a seriedade do assunto, nenhuma informação pode ser descartada. Para se alcançar a definição de informação, é interessante, primeiramente, definir dado. Segundo Stair e Reynolds (2011), dados são fatos brutos. Silva (2016) complementam afirmando que são fatos ou valores documentados. Na área de tecnologia da informação, Setzer (2014) o define como “uma sequência de símbolos quantificados ou quantificáveis”, considerando-o necessariamente uma entidade matemática e puramente sintático. Para Miranda (1999 apud VA- Capítulo 2. Informação em redes sociais 16 LENTIM, 2002) dado é descrito como um agrupamento de registros qualitativos ou quantitativos que quando categorizado e padronizado de maneira correta pode gerar informação. Finalizando a definição de dado, Rezende e Abreu (2000 apud COUTINHO; LISBÔA, 2011) descrevem dado como algo que “tomado isoladamente, não transmite nenhum conhecimento”, portanto não possui um significado claro. A informação, da mesma forma que o dado, possui diversas definições. Silva (2016) interpreta a informação como um dado com sentido semântico ou significado. Stair e Reynolds (2011) pensam da mesma forma e acrescentam que ela é composta por fatos organizados de maneira significativa. Já Setzer (2014) define a informação do ponto de vista computacional, a descrevendo como uma “abstração informal”, algo que não é possível de formalizar a partir de teorias lógicas ou matemáticas. O autor afirma que a informação não pode ser armazenada em um computador, pois ela está na mente das pessoas, o que é armazenado são os dados que constituem aquela informação. A informação, a partir da teoria matemática da informação, é tratada como um sinônimo de comunicação e depende de um locutor e de um receptor (SIRIHAL; LOURENÇO, 2002). Para Tomael, Alcara e Chiara (2005), a informação está no domínio pessoal do receptor, é ele quem define se o que foi recebido acrescenta algum valor ao que já existia. Com a geração de informação, e sua posterior familiarização e consciência por parte de um indivíduo, este pode explorá-la e utilizada para a tomada de decisão, o que é considerado como conhecimento (SILVA; PERES; BOSCARIOLI, 2016). Em concordância, Stair e Reynolds (2011, p. 5) afirmam que conhecimento é “a consciência e a compreensão de um conjunto de informações e os modos como essas informações podem ser úteis para apoiar uma tarefa específica ou para chegar a uma decisão”. Para Pellicer (1997 apud COUTINHO; LISBÔA, 2011), o conhecimento é adquirido a partir da inter relação mútua das informações, criando uma rede de significados. Com um aspecto tecnológico, Setzer (2014) caracteriza o conhecimento como algo abstrato, pessoal, de algo que foi vivenciado por alguém. O autor afirma que ele não pode ser descrito e não é sujeito a representações e, por isso não pode ser inserido em um computador. Já para Miranda (1999 apud VALENTIM, 2002), o conhecimento pode ser caracterizado de três formas: conhecimento explícito (conjunto de informações tornadas claras em algum meio e que define o saber sobre um tema específico); conhecimento tácito (saber funcional sobre um determinado assunto relacionado à crenças, sentimentos, emoções de quem a detém); conhecimento estratégico (combinação dos dois tipos de conhecimento previamente citados aumentando o saber de especialistas). 2.3 Ciclo de Vida da Informação De forma semelhante aos seres vivos, a informação também possui um ciclo de vida. Toda informação possui um ciclo de vida.Uma informação é criada, armazenada e disponibilizada por Capítulo 2. Informação em redes sociais 17 um período, atualizada e transmitida para outros interessados e quando perde sua serventia ela deve ser descartada de forma adequada. Laureano (2005 apud ALVES; MOREIRA, 2012)) cita quatro fases do ciclo de vida da informação: manuseio, armazenamento, transporte e descarte. O autor clarifica o manuseio como a criação e manipulação da informação, o armazenamento como o momento em que as informações são guardadas, o transporte como quando a informação é enviada de um lugar para outro e o descarte se tratando do momento em que a informação perde sua utilidade e pode ser destruída. Essas etapas ocorrem, não necessariamente todas, sendo a informação física ou digital. O valor da informação muda com o tempo e, por isso, ela deve ser gerenciada de acordo com sua relevância momentânea e futura. Se uma informação é identificada como de grande importância em um período de tempo ela deve ser armazenada de forma mais segura. Informações cruciais (informações que, sem elas, algo não funcionaria) não necessitam ser descartadas, mas quando descartadas devem ser feita de maneira adequada, para cada tipo de informação, pois podem gerar vazamento que causa desvantagem para o proprietário da mesma. No início do ciclo, a aquisição da informação deve ser feita de maneira adequada respeitando o tipo de informação. Antes que ela seja armazenada ela deve ser tratada e filtrada para que apenas a informação relevante seja guardada, evitando uso de espaço desnecessário. O armazenamento deve ser feito de forma que minimize os requerimentos de armazenamento e esteja com fácil acesso, para quando necessário utilizá-la não demandar muito tempo. Assim que a informação é armazenada e disponível para uso, ela deve ser analisada e classificada de modo que facilite a formação de conhecimento. Após a utilização da informação, ela deve ser arquivada, pois, mesmo que ela já tenha sido usada e não é mais necessária no momento, ela pode ser valiosa para futuras análises. Porém quando a informação já foi utilizada em sua totalidade, e deixa de ser conveniente, ela deve ser descartada para liberar espaço para novas informações importantes. 2.4 Redes sociais O século XXI está testemunhando uma grande explosão de mensagens virtuais transmiti- das a partir de mídias sociais (MANGOLD; FAULDS, 2009). Sterne (2011 apud ANTUNES et al., 2014) cita seis notáveis categorias de mídias sociais: fóruns e quadros de mensagens; sites de crítica e opinião; marcadores sociais; compartilhamento de mídia; blogs; microblogs e redes sociais. Um elemento que caracteriza as redes sociais na Internet é a habilidade de transmitir informações a partir de conexões entre os usuários (RECUERO, 2009b). As redes sociais proporcionam a criação de grupos fechados ou abertos para melhorar a comunicação e o contato pessoal, por isso elas demandam uma maior interatividade entre os participantes (ANTUNES et al., 2014). Capítulo 2. Informação em redes sociais 18 Terra (2010), define mídias sociais como sendo “aquela utilizada pelas pessoas por meio de tecnologias e políticas na web com fins de compartilhamento de opiniões, ideias, experiências e perspectivas”. As redes sociais são consideradas pela autora como o espaço virtual que estimula e incentiva a ação dos seus participantes. Em concordância, Ciribeli e Paiva (2011) destacam microblogs, fóruns, blogs e sites de relacionamento como os tipos de redes sociais que mais crescem o número de usuários. Alguns exemplos de redes sociais citados por Terra (2010) são: Orkut, Twitter e Facebook. É normal confundir rede social com mídias sociais. De acordo com Ciribeli e Paiva (2011), “as redes sociais existem em todos os lugares e podem ser formadas por pessoas ou organizações que partilham valores e objetivos comuns”, já a mídia social é o meio no qual as redes sociais se beneficiam para comunicar, podendo mudar de acordo com seu público-alvo e sua finalidade. A comunidade científica continua, crescentemente, utilizando as redes sociais como instrumento de pesquisa nessa nova era que é a da informação (CERVI, 2008). O maior desafio dessa é a capacidade de compartilhar conhecimento que precisa ser transformado, desenvolvido e trabalhado previamente, do contrário seria apenas um aglomerado de dados sem relevância (KROGH; ICHIJO; NONAKA, 2001 apud TOMAEL; ALCARA; CHIARA, 2005). E a rede social é uma imensa fonte de informação que, quando tratada de maneira correta, podem ser percebidas como informações de grande importância. Segundo Tomael, Alcara e Chiara (2005), “a rede é uma estrutura não-linear, descentrali- zada, flexível, dinâmica, sem limites definidos e auto-organizável, estabelece-se por relações horizontais de cooperação”. A rede social também pode ser definida como um conjunto de pessoas, grupos ou instituições e as interações ou laços sociais entre elas (WASSERMAN; FAUST, 1994 apud RECUERO, 2009b). A rede é também um dispositivo de obtenção de infor- mação (FACHINELLI; MARCON; MOINET, ), podendo ser tanto virtual como presencial, ela é um espaço para o compartilhamento de informação e conhecimento (TOMAEL; ALCARA; CHIARA, 2005). A rede social é definida por Han e Kamber (2006 apud CERVI, 2008) como um grande grafo que possui dados heterogêneos e relacionados de diversas maneiras, sendo que os usuários são os objetos e os relacionamentos entre ele são as arestas. Para Wellman et al. (2003 apud RECUERO, 2009b), as redes sociais funcionam da mesma forma que as redes de computadores, sendo que as redes de computadores conectam máquinas e as redes sociais conectam pessoas. Já nos espaços informais, Marteleto (2001) define as redes como uma comunidade de valores e interesses em comum. Já Recuero (2009b) identifica dois tipos de redes sociais na Internet que podem estar presentes na mesma rede analisada: redes emergentes e redes de filiação. Para perceber essa diferenças o autor informa que depende da forma como a rede é observada. As redes sociais emergentes foram caracterizadas pela autora como aquelas que representam a conexão social entre as pessoas mediada por um computador, e estão sendo construídas e Capítulo 2. Informação em redes sociais 19 reconstruída continuamente por meio das mudanças sociais. Essas redes podem expor a criação de laços sociais e o conhecimento da intimidade entre atores Granovetter (1973 apud RECUERO, 2009b). Elas tendem a ser menores e mais conectadas, pois demandam mais esforço dos atores (RECUERO, 2009b). Já nas redes de filiação, também conhecidas como redes associativas, são estudados apenas um conjunto de eventos, pois nela existe somente um conjunto de atores (RECUERO, 2009b). Segundo a autora, para lidar com elas é preciso observar os atores-indivíduos e os eventos que eles se inserem, dessa forma se tratando dos atores e dos grupos no qual eles pertencem. Neste contexto, um aspecto de fundamental importância no que tange à compreensão das redes sociais se refere ao fluxo das informações que transitam nestas, uma vez que esse fenômeno se relaciona diretamente com aspectos como a disseminação de informações, a influência cultural digital, entre outros. 2.5 Fluxo Informacional em Redes Sociais O fluxo da informação engloba uma sequência de eventos, desde a criação da informação pelo emissor, até a assimilação do receptor (BARRETO, 1998). Jamil (2001 apud GREEF; FREITAS, 2012, p. 165) caracteriza fluxo informacional como “a transmissão de dados ou conjunto de dados através de unidades administrativas [...], organizações e profissionais, [...] para alguém que delas necessitam”, cujo caminho é variável e sem limites. Para Oliveira e Bertucci (2003), para aumentar a qualidade da informação e se adequar às necessidades do usuário, é preciso melhorar o fluxo de informação. As próprias pessoas naturalmente são quem estabelecem o fluxo informacional a partir de seus comportamentos e suas decisões e essas informações podem ser utilizadas para vários objetivos (VALENTIM, 2013).Valentim (2013) categoriza fluxo de informação como formais e informais. Os formais são decorrentes de atividades repetitivas e pode circular em vário meios e ambientes, já os informais nem sempre são registrados e são resultantes de experiências de vida. A rede social é composta por um conjunto de atores e suas relações (SAMPAIO; MO- RAES; PASSOS, 2013). Nas redes sociais, o fluxo informacional é facilitado e a informação passa a ser mais acessível, pois as formas de transmitir mensagens são mais eficientes (BAR- RETO, 1998). O fluxo de informação nas redes sociais ocorre de forma simples e rápida. No momento em que alguém com saber publica algo na Internet essa informação fica disponível para a visualização de qualquer pessoa e pode ser difundida de forma quase epidêmica. O receptor pode classificar essa informação da maneira que preferir, armazenar se necessário, compartilhar se desejado e ignorar se irrelevante. A partir do fato que nas redes sociais a conexão entre os atores é muito rica, essa difusão pode ocorrer em instantes (RECUERO, 2007). O fluxo da informação pode ser percebida pelos atores nas redes sociais e suas conexões com outros. Capítulo 2. Informação em redes sociais 20 As informações da Internet são criadas e compartilhadas em grande escala e pode acabar promovendo uma sobrecarga informacional. Por esse motivo é recomendado que os atores as classifiquem de acordo com sua relevância para manter o controle da quantidade de informação essencial e não promover a assimilação e o armazenamento em excesso. Quando uma informação é inserida na rede ela pode ser visualizada de forma fácil para todos os autorizados, mas existem formas de atores não autorizados conseguir acesso a elas, utilizando softwares ou conhecimento em programação, e compartilhá-las em outros ambientes, dessa forma aumentando o seu fluxo. Com isso percebe-se que as informações nas redes sociais possuem fluxos diferentes dependendo de seus emissores, receptores e quem as compartilham. 2.6 Considerações parciais Neste capítulo foram apresentados os principais conceitos relacionados a dados, infor- mação, conhecimento, redes sociais, ciclo de vida da informação e fluxo informacional nas redes sociais. No âmbito do trabalho como um todo, tais definições se tornam importante e fundamentais por serem a base de conhecimento sobre o objeto de estudo considerado, isto é, o conjunto de postagens em perfis de usuários suspeitos de atividades terroristas e de tiroteio em massa, uma vez que permitem a geração de subsídio para uma abordagem focada e direcionada à aplicação de soluções computacionais para o levantamento de padrões nas mensagens de tais perfis. 21 CAPÍTULO 3 MINERAÇÃO DE DADOS E TERRORISMO 3.1 Introdução A área de tecnologia da informação tem avançado constantemente e, a partir disso, o armazenamento de grandes quantidades de base de dados tem sido possível (GOLDSHMIDT; PASSOS, 2005). Com o crescimento na produção de dados e a constante ocorrência da sobrecarga informacional, adquirir uma resposta para problemas informacionais se tornou cada vez mais difícil e requer mais habilidades tecnológicas. A acumulação de uma imensa quantidade de dados ocorre todos os dias, e torna-se preciso utilizar algo que ajude na extração de informação útil (FAYYAD; HAUSSLER; STOLORZ, 1996). Para auxiliar nessa demanda de novos recursos que possibilitem ajudar na análise de dados foi desenvolvida a mineração de dados, que pode ser vista como uma etapa do processo de Descoberta de Conhecimento em Base de Dados (KDD - Knowledge Discovery in Databases). A mineração de dados pode ser aplicada em diferentes tipos de conjuntos de dados, tais como imagens, áudio, vídeo, e em dados textuais, mesmo no âmbito de textos curtos, como é o caso explorado no presente trabalho, que utilizada como população de pesquisa um conjunto de dados extraídos do Twitter, os quais têm como característica um limite máximo de 280 caracteres. A utilização de textos curtos e de redes sociais dificulta o processo de mineração de texto de várias maneira, como por exemplo o contexto de informalidade presente nas plataformas virtuais. Vários analistas e tomadores de decisão precisam extrair e analisar dados removidos de mídias sociais, normalmente com um prazo estipulado (BOHLOULI et al., 2015). Segundo os au- tores, o maior desafio para aplicações computacionais é o gerenciamento das grandes quantidades de dados gerados. Por isso a comunidade científica busca por resposta para achar conhecimento presente no grande fluxo de dados (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992). Para Bohlouli et al. (2015), existem quatro critérios que devem ser levados em conta ao utilizar dados de redes sociais: variedade, volume, velocidade e valor. Levando isso em Capítulo 3. Mineração de dados e terrorismo 22 consideração, os métodos de análise desses dados devem ser adequados às suas classificações para extrair o conhecimento desejado. A partir disso, este Capítulo se propõe a discutir os principais conceitos relacionados a mineração de dados, sua importância no processo KDD, e a sua exploração no âmbito de análise de dados e geração de informação a partir de textos curtos. Neste sentido, ainda são explorados conceitos e definições relativos aos principais métodos de mineração de dados, considerando técnicas de agrupamento, classificação e associação, assim como sua relação como o presente trabalho. Finalmente, também serão apresentados e discutidos trabalhos relacionados ao tema central desta pesquisa, a utilização de soluções baseadas em mineração de dados no apoio à compreensão do comportamento de indivíduos classificados como terroristas ou atiradores em massa. 3.2 O Processo KDD A descoberta de conhecimento é a extração de informação implícita, potencialmente útil e previamente desconhecida (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992). O termo KDD foi citado pela primeira vez em um workshop em 1989 para enfatizar que o conhecimento é o produto final da análise de dados, e desde então tem sido popularizado nos campos de aprendizado de máquina e inteligência artificial (FAYYAD; HAUSSLER; STOLORZ, 1996). Devido ao grande volume de dados, o modelo tradicional de transformação de dados em conhecimento (tratando manualmente por especialistas que produzem relatórios para serem analisados) se torna inviável (CAMILO; SILVA, 2009). Existe uma crescente lacuna entre a capacidade de coleta de dados e a habilidade de especialistas de analisá-los (FAYYAD; HAUSSLER; STOLORZ, 1996). A partir do reconhecimento da sobrecarga informacional como um problema causado pela era da informação, o processo KDD foi proposto como uma tentativa de resolvê-lo (CAMILO; SILVA, 2009). O KDD foca no processo geral de descoberta de conhecimento em base de dados, incluindo como os dados são armazenados e acessados, a maneira como os resultados podem ser interpretados e visualizados e busca promover ferramentas para automatizar todo o processo de análise de dados e seleção de hipóteses (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). O KDD é um processo dinâmico, na qual não existe uma regra de sequência que deve ser seguida. Pode-se retornar a qualquer fase a partir de qualquer ponto. Ele é um processo interativo e iterativo (feito várias vezes) que envolve várias etapas como preparação dos dados, busca por padrões, avaliação do conhecimento e refinamento (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). A principal maneira de representar esse processo é a partir do esquema ilustrado pela Figura 1. Nesse processo é identificável cinco fases para a obtenção do conhecimento. Em primeira instância é necessário selecionar os dados sob os quais serão feitas as análises. A partir de um conjunto de dados é extraído apenas aqueles que interessam o usuário e Capítulo 3. Mineração de dados e terrorismo 23 Figura 1 – Representação do processo KDD Fonte: Adaptado de Fayyad, Piatetsky-Shapiro e Smyth (1996). podem afetar os resultados. Posteriormente é feito o pré-processamento destes dados. Nesta etapa é utilizadavárias técnicas para corrigir dados inconsistentes e remover partes desnecessárias dos dados de forma que todos eles possam ser interpretados de forma correta pelos algoritmos (ATTUX, 2017). Com os dados pré-processados é feita a próxima etapa do processo: a transfor- mação. Na transformação, os dados são alterados para um formato apropriado e padronizado para a execução do algoritmo de mineração de dados (AMO, 2004). Após os dados serem transformados para uma forma adequada para manipulação, eles passam pelo processo de mineração de dados. É neste processo que serão obtidos padrões que possam ser interessantes para a obtenção do conhecimento (AMO, 2004). Esses padrões são obtidos a partir da análise descritiva dos dados e da utilização de algoritmos de aprendizado de máquina (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). Já na etapa de avaliação, segundo Amo (2004), é onde o usuário, levando em conta seus critérios de importância de cada informação, identifica os padrões interessantes para seu objetivo. 3.3 Mineração de Dados Diversos trabalhos exploram soluções que utilizam dados de redes sociais, abordando desde questões relacionadas à predição de resultados, até fatores ligados à análise de sentimentos. Devido a grande quantidade de dados que é gerada diariamente nas redes sociais, a mineração de dados é uma estratégia muito utilizada para filtrar dados úteis, diminuir a abundância de dados irrelevantes e observar padrões. A mineração de dados surgiu a partir do aprendizado de máquina, se relacionando a ele de diversas formas (PROVOST; FAWCETT, 2016). Segundo Attux (2017), a principal função da mineração de dados é passar por uma grande quantidade de dados procurando padrões e relações entre eles de forma que eles possam ser agrupados. Os dados devem ser considerados ativos, ou seja, algo que possui informações importantes, e precisa-se pensar as melhores maneiras de utilizá-los (PROVOST; FAWCETT, 2016). Capítulo 3. Mineração de dados e terrorismo 24 A maneira que os dados são explorados pode ser o critério principal para sua utilização eficiente. A mineração de dados é um exemplo de processo para utilizar os dados de forma correta para gerar conhecimento. Existem diversos conceitos de mineração de dados. A definição segundo Cortes, Porcaro e Lifschitz (2002, p. 1) é “um processo altamente cooperativo entre homens e máquinas, que visa a exploração de grandes bancos de dados, com o objetivo de extrair conhecimentos através do reconhecimento de padrões e relacionamento entre variáveis” obtidas a partir de técnicas estatísticas confiáveis. Em concordância, Provost e Fawcett (2016), afirmam que mineração de dados consiste na atividade de localizar padrões utilizando dados em um conjunto definido. O processo de mineração de dados depende de técnicas de reconhecimento de padrões, aprendizado de máquina e estatística para poder reconhecer padrões nos dados (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). No âmbito de utilização de redes sociais, Bae, Son e Song (2013) afirmam que através de observações sobre dados provenientes da rede social Twitter é possível detectar e prever mudanças de tendências sociais, afirmando ainda que tais observações são mais efetivas que outras realizadas com base em mídias de notícias. A mineração de dados consiste em um processo que utiliza várias técnicas diferentes para alcançar seu objetivo. As principais são classificação, agrupamento e associação. A classificação é feita a partir da observação de diferentes características de objetos distintos para encontrar o que eles têm em comum e colocá-los em uma classe pré-definida, na qual, ao observar um objeto novo, é possível perceber as similaridades de cada característica e associá-lo à seus semelhantes Provost e Fawcett (2016). Já no agrupamento, também conhecido como clusterização, as classes não são pré-definidas, mas são estabelecidos critérios para definir a similaridade entre os atributos para dividir um grupo heterogêneo de dados de entrada de forma que os pertencentes de um grupo são mais similares entre si comparados aos outros grupos (PETERMANN, 2006). Na associação, é identificada a relação entre atributos de forma que é visualizado o padrão de ocorrência é relação entre eles, por exemplo, quando um atributo existe em um dado, então um outro atributo deve existir também (CAMILO; SILVA, 2009)). A mineração de dados é muitas vezes confundida com o processo KDD, porém, a mineração de dados é apenas uma etapa deste processo. Para Fayyad, Piatetsky-Shapiro e Smyth (1996), o processo KDD se refere ao descobrimento de conhecimento útil a partir de dados, já mineração de dados trata de passos específicos desse processo, sendo a aplicação de algoritmos para a extração de padrões em dados. Para ser feita a mineração de dados, estes devem ser compreendidos em função de solucionar o problema desejado, pois podem haver dados que contenham informações diferentes, mas quando relacionadas, podem melhorar a conquista dos objetivos determinados (PROVOST; FAWCETT, 2016). Segundo os autores, depois de compreender os dados, eles devem ser preparados de forma que gerem melhores resultados, porém, algumas tecnologias analíticas utilizadas nesse processo exigem que os dados estejam em um formato específico, e muitas vezes Capítulo 3. Mineração de dados e terrorismo 25 diferentes do original. Para isso elas devem ser pré-processadas antes de serem usadas. Alguns exemplos de preparação dos dados são a conversão dos dados para formato tabular, remoção dos valores faltantes e também a colocação dos dados em um padrão único e específico. Por estar disponível em diversas fontes e possuírem fácil acesso, os textos são elementos muito utilizados para gerar informação e conhecimento (PROVOST; FAWCETT, 2016). Nos textos, existem uma grande quantidade de informações dispensáveis e por isso também devem ser pré-processados (CAMILO; SILVA, 2009). Por possuir uma estrutura linguística que não foi criada para computadores, o texto é chamado de dado não estruturado, de maneira oposta às tabelas que conseguem ser reconhecidas da forma que são (PROVOST; FAWCETT, 2016). Segundo Scarinci e Oliveira (2001), os dados não estruturados necessitam de mecanismos com- putacionais diferentes dos tradicionalmente usados, para que possam ser coletados, armazenados, manipulados e consultados”. Devido ao imenso número de dados disponíveis, existem obstáculos na aplicação da mineração. Alguns fatores que aumentam a dificuldade de aplicar a mineração de texto é devido às pessoas escreverem, em muitas ocasiões, utilizando a gramática errada, soletrando errado, abreviando de forma imprevisível e pontuando de maneira aleatória (PROVOST; FAWCETT, 2016). Os autores citam o contexto como um fator importante para a compreensão da ideia geral do texto, mas para várias técnicas de mineração de texto as palavras são observadas individualmente, desconsiderando seu contexto. Já Tumitan (2014), identifica como dificuldade na mineração de texto a grande quantidade de correferência (quando duas ou mais expressões se referem a mesma coisa). Nas redes sociais, o autor expõe a dificuldade em virtude da linguagem informal utilizada. Na linguagem informal existem diferentes maneiras de escrever uma única palavra, e, várias vezes, variando de grupos, a escrita varia da mesma forma. 3.4 Técnicas de Mineração de Dados para Textos Curtos É visível o crescimento do tráfego de informações desde a popularização do Twitter, que permite seus usuários postarem textos curtos (máximo de 280 caracteres, previamente 140) em tempo real e compartilhar o que estão fazendo ou pensando (SILVA, 2016). O Twitter é uma das redes sociais mais famosas no âmbito de publicação de textos curtos. Mesmo que exista um limite máximo de caracteres por tweet, Silva (2016) expõe que, em geral, os usuários não aproveitam de todos esses caracteres e têm como padrão postagens com 28 caracteres. Utilização de poucas palavras parece facilitar o processo de mineração de dados, mas de fato a atrapalha. Isso se dá pelofato de que os usuários passam a usufruir de outros recursos para passar suas ideias. A utilização de emoticons (símbolos especiais que representam expressões faciais) e abreviações são algumas delas. Devido a esses fatores, os textos curtos são mais difíceis de serem analisados. Pra essa análise ser feita, segundo Leong, Lee e Mak (2012), os dados devem ser processados de maneira Capítulo 3. Mineração de dados e terrorismo 26 que cada termo escrito é categorizado em uma classe gramatical (substantivo, verbo, adjetivo, advérbio, conjunção, pronome, artigo, numeral, preposição e interjeição) para identificar as ideias centrais. Os autores citam, também o mapeamento dos radicais de cada palavra, tornando mais fácil identificar suas origens a classificá-las da mesma maneira. A remoção de stop words também deve ser feita, estas são palavras que quando retiradas dos textos não alteram seus significados, por exemplo: artigos. Outros desafios no tratamento de dados são a variação na ortografia, quantidade de dados, estilo de linguagem e contexto multilingual (SILVA, 2016). A variação da ortografia é dada devido a espontaneidade do ambiente virtual o que faz com que os usuários não se importem com regras ortográficas. Mesmo que os dados sejam curtos, a sua quantidade é vasta. Em 2015 foi anunciado que, por dia, foram postados, aproximadamente, 500 milhões de tweets (BOHLOULI et al., 2015). Os estilos de ortografia também influenciam na análise. Textos jornalísticos possuem escritas mais formais, comparados às publicações dos outros usuários (SILVA, 2016). Por ser uma plataforma mundial, o Twitter possui publicações em vários idiomas o que dificulta a sua avaliação. Silva (2016) fez uma análise de sentimentos em textos curtos da rede social Twitter. Em seu trabalho foram destacadas as principais dificuldades encontradas ao tratar esses textos: o tamanho do texto (na ocasião, o Twitter disponibilizava um máximo de 140 caracteres por postagem, posteriormente a rede social aumentou esse limite para 280); por se tratar de textos curtos, a opinião é expressa em poucas palavras e essas palavras podem não estar disponíveis no dicionário de palavras pré-computado e relacionadas a um sentimento; a variação ortográfica é outra grande dificuldade quando precisa-se tratar textos curto como os de redes sociais, pois como se trata de um contexto informal, os usuários não aplicam um rigor ortográfico de escrita; o contexto multilinguístico também foi apontado como uma dificuldade pois vários usuários, ao escrever textos em redes sociais, gostam de usar palavras estrangeiras para enfatizar alguma parte de seus textos. 3.5 Revisão de Trabalhos sobre Terrorismo O terrorismo pode ser compreendido como uma crueldade feita por pessoas, contra pessoas, apenas para passar uma mensagem violenta em oposição às suas ideologias. Ao acompa- nhar as notícias atuais, se percebe uma menção rotineira de atos terrorista acontecendo ao redor do mundo. A mídia nunca divulgou tanto esses ataques como está fazendo no século XXI. Ao filtrar as noticias publicadas na Internet por ano e por assunto, sendo que o assunto pesquisado foi terrorismo. O site buscador indica a quantidade de resultados retornados. Com isso foi possível verificar em cada ano desejado, q quantidade de notícias relacionadas a terrorismo. Esses dados foram utilizados para gerar a Figura 2, na qual é possível perceber o grande aumento dessas Capítulo 3. Mineração de dados e terrorismo 27 publicações considerando os últimos 5 anos, com o maior aumento entre os anos de 2017 e 2018 (aumento de 72000 notícias). Figura 2 – Quantidade de notícias sobre terrorismo publicadas por ano na Internet Fonte: Elaborado pela autora. De certa forma isso serve como estímulo para diversos terroristas fazerem seus ataques, visto que, dessa forma, conseguirão atingir maior fama por seus atos. Além disso, com o uso das redes sociais, a divulgação desses ataques acontecem com muito mais rapidez. Como vários terroristas querem passar uma mensagem com seus feitos, alguns divulgam previamente suas ideias ou interesses em suas redes sociais. E essas informações são de extremo valor para identificar possíveis terroristas antes que eles façam suas ideias tornarem realidade. A utilização de redes sociais por grupos terroristas aumentou após o 11 de setembro de 2001, quando um dos atentados terroristas mais famosos aconteceu em Nova York, assim como o interesse em estudar terrorismo. Segundo Gaibulloev e Sandler (2019), após os atentados de 11 de setembro, economistas começaram a utilizar econometria (ferramentas estatísticas para avaliar relação entre variáveis econômicas) para analisar se o terrorismo teve consequências macroeconômicas, como aumento nos investimentos. As tecnologias virtuais começaram a ser utilizadas ativamente para recrutamento, publicação de propaganda, coordenação de novos ataques, treinamento de membros a partir de fóruns ou grupos, compartilhamento de manuais de bombas e armas utilizadas em atos terroristas e diversas outras atividades (OH; AGRAWAL; RAO, 2011). Primeiramente deve ser feita a explicação de o que é caracterizado como terrorismo, já que existem várias definições publicadas para esse termo. O conceito de terrorismo pode ser delicado para alguns e possui uma facilidade de ser confundido com outros tipos de ataques à sociedade. A definição do dicionário para a palavra terrorismo é: “modo de coagir, combater Capítulo 3. Mineração de dados e terrorismo 28 ou ameaçar pelo uso sistemático do terror” (FERREIRA, 2008). Porém, este significado é muito vago e define uma ampla quantidade de acontecimentos que não são, necessariamente, terrorismos, o que causam uma grande confusão. Um dos acontecimentos que mais se confundem com o terrorismo é o tiroteio em massa. Enquanto alguns tiroteios em massa são praticados sem um alvo específico, outros são massacres e genocídios que pretendem exterminar toda as pessoas que se enquadram no perfil escolhido. Esta é uma das principais diferenças entre o terrorismo e outros atos violentos. O terrorismo não busca matar em massa, “abrangendo quantitativamente o maior número de indivíduos, e sim praticar uma violência qualitativa, com métodos econômicos, quase cirúrgicos” (WELLAUSEN, 2002). Um critério crítico para a distinção do terrorismo entre os vários tipos de violência é o parâmetro político, que é primordial para entender seus alvos, propósitos e motivações (HOFFMAN, 2006). Porém eles possuem a semelhança de matar pessoas normais, cada um com seus motivos pessoais. No âmbito acadêmico, existe uma variação de estudos utilizando terrorismo como seu foco principal. Em sua maioria, o ponto central é a teoria por trás dos acontecimentos, por exemplo a definição, os diferentes tipos, a psicologia dos atos e os acontecimentos que desen- cadeiam após os atos. Entretanto, também existem trabalhos práticos que utilizam ferramentas para averiguar exclamações e dúvidas sobre o tema. No estudo de Wellausen (2002), assim como na obra de Hoffman (2006) foram abordados definições e acontecimentos históricos em torno do terrorismo. Os autores descrevem diferentes definições de terrorismo, sua relação com o racismo e a religião, o perfil dos terroristas, como o terrorismo é tratado na mídia, estratégias utilizadas por eles, a forte relação que o terrorismo possui com os Estados Unidos, abordando ainda um pouco da história de Osama Bin Laden (um dos terroristas mais conhecidos no mundo) e como o terrorismo vem se modificando ao longo dos anos. Já com foco nas redes sociais, Oh, Agrawal e Rao (2011) propuseram analisar o Twitter como a fonte de informações utilizada pelos terroristas que atacaram Mumbai na Índia em 2008. Os autores conseguiram concluir com sua pesquisa que os terroristas utilizaram as mídias para monitoramento ao vivo, com o objetivo de aumentar sua compreensão do cenário em que queriam agir e a partir do compartilhamento de informações na rede social, influenciando o processo de tomada de decisão dos organizadoresdo ataque. Outro estudo com foco em redes sociais é o de Alzahrani et al. (2018), que discute métodos variados utilizados por terroristas nas mídias sociais para aumentar sua exposição; e pretende identificar como a estrutura das mídias sociais, a quantidade de dados disponíveis, e o entendimento do idioma apresenta desafios e oportunidades para o controle. A estratégia proposta pelos autores foi a mineração de dados e processamento de linguagem natural, com a proposta de analisar a escrita dos terroristas e as redes sociais, afim de desvendar a estrutura e as associações de grupos terroristas e suas atividades. Essas técnicas são importantes para escanear a Internet, encontrar materiais indesejados para que sejam denunciados e analisados (ALZAHRANI et al., Capítulo 3. Mineração de dados e terrorismo 29 2018). Foram percebidos padrões característicos de informações relacionadas ao terrorismo a partir dos textos analisados. Uma metodologia citada pelos autores para estudar grupos violentos é o mapeamento das características do grupo, verificar suas associações, com quem eles mantém uma comunicações frequentes e quais os impactos provocados por eles. Com a identificação dessas informações, é possível verificar os métodos utilizados por terroristas para espalhar suas mensagens nas redes sociais e suas estruturas de funcionamento. Já a pesquisa de Cheong e Lee (2011), cita a utilização, especificamente, do Twitter, como um meio de notificar a sociedade e até mesmo fonte de informações das autoridades (utilização das imagens e declarações de testemunhas). Como atos terroristas são difíceis de prever, para testar sua teoria, os autores observaram postagens derivadas da segunda edição do Paz Sin Fronteras (concertos de artistas diversos para representar a união e encorajar as pessoas a pensar de uma nova maneira) e a final preliminar da Liga de Futebol Australiano (AFL). Esses eventos foram escolhidos pois possuem características de um evento localizado em ambientes urbanos, assim como os atos terroristas. Como resultado, foi exibido que a maioria das pessoas que estavam tuitando sobre os acontecimentos, o faziam de um dispositivo fixo (ex.: computadores) e outros, em menor quantidade, de dispositivos móveis (ex.: smartphones). Esses dados simbolizam que as informações compartilhadas no Twitter de um evento específico não são feitos, em maioria, por quem está no local, vivenciando o acontecimento de perto, e sim apenas pessoas compartilhando seu ponto de vista ou comunicando com quem está presencialmente no evento. Investigando, principalmente, como membros/apoiadores do Estado Islâmico usam o Twitter para comunicação, propaganda, recrutamento e radicalização, nos estudos de Chatfield, Reddick e Brajawidagda (2015) foram coletados 3.039 tweets postados por uma conta identificada como o disseminador de informações do Estado Islâmico, nos quais foram feitos análises de tendência e conteúdo. As análises foram feitas de forma a observar a data de publicação, as hashtags, o conteúdo e as contas mencionadas. Como resultado da análise, foi percebido que existem quatro populações distintas que fazem parte do ambiente de comunicação do Estado Islâmico: a mídia internacional (principal foco), a mídia na região da Arábia, os combatentes do Estado Islâmico e os admiradores do mesmo. Na análise de conteúdo os tweets foram divididos em quatro grupos: propaganda (informações tendenciosas para promover uma causa ou ponto de vista político), radicalização (apoio a conflitos e violência entre grupo), recrutamento (convencer jovens a se juntar a eles) terrorista e outros (tweets que não se encaixam em nenhuma das outras categorias). Os autores concluíram seu trabalho com a afirmação de que a análise de redes sociais pode ser uma ferramenta poderosa para descobrir tendências ocultas e podem ser utilizadas estrategicamente para lutar contra o terrorismo. De forma semelhante ao presente estudo, a pesquisa de Elovici et al. (2004) utiliza mineração de dados para analisar o conteúdos relacionados ao terrorismo . Porém, seu foco é utilizar sites associados a terrorismo para aprender o comportamento de terroristas e utilizar Capítulo 3. Mineração de dados e terrorismo 30 esses perfis para detectar, em tempo real, suspeitos de engajarem em atividades terroristas. Os autores observaram vetores que indicam se os sites possuem comportamento típico de terrorismo e agrupa os termos utilizados em cada página a partir dos interesses de terroristas previamente identificados. A partir desses termos é possível identificar outros comportamentos semelhantes e determinar se são de terroristas e tomar ações necessárias com base nos resultados obtidos. Diferente dos artigos previamente citados, o artigo de Burnap et al. (2014) utilizou técnicas de regressão para prever o tamanho do fluxo de informações (propagação ao longo do tempo dos tweets pela, ação de retweetar) e a sobrevivência dos tweets relacionados a acontecimentos terroristas. Com seus experimentos, os autores verificaram que os sentimentos expressados nos tweets e os usos das hashtags são estatisticamente previsíveis. Porém, um modelo sugeriu que fatores sociais explicam a maior quantidade de variação, seguindo por fatores de conteúdo e fatores temporais. O que na realidade não foi correto. Foi descoberto que o número de seguidores e os tweets postados previamente representam mais variações, por isso, quando ocorre um ato terrorista, o fator social de quem tuíta é a variável mais importante para a propagação de um tweet. Já para a sobrevivência do tweet, o conteúdo explica a maior quantidade de variação, seguido por fatores temporais e sociais, o que sugere que para criar uma informação que dure mais depois de tais eventos, o conteúdo dos tweets deve ser a parte mais pensada, como a inclusão de hashtags, URLs e sentimentos positivos. Este estudo serviu como evidência que os fatores emocionais do tweet são preditores do fluxo da informação e a sobrevivência desta informação. Contrário do que a maioria acredita, mesmo que exista uma grande quantidade de tweets negativos seguindo atos terroristas, eles falharam em se propagar, mostrando que, no geral, os usuários do twitter tendem a propagar conteúdos positivos. 3.6 Considerações parciais Neste capítulo foram definidos os processos do método de descoberta de conhecimento em base de dados, mineração de dados e mineração de dados em textos curtos. Para este trabalho, a definição destes métodos é de suma importância, pois estes são os principais métodos utilizados para coleta, processamento e análise dos dados presentes neste estudo. Com a sua utilização é possível investigar padrões para promover o alcance do objetivo desta pesquisa. Portanto, é preciso primeiramente defini-los de forma que fique claro suas funcionalidades e seus propósitos para que exista o melhor entendimento das próximas etapas da pesquisa. Além disso, foi apresentada uma discussão acerca dos trabalhos relacionados, de modo a permitir tecer as contribuições do presente trabalho, onde deverá ser realizada a utilização de mineração de dados e processamento de linguagem natural para a detecção de padrões em tweets identificados como de terroristas e atiradores em massa. 31 CAPÍTULO 4 METODOLOGIA 4.1 Introdução O presente trabalho é uma pesquisa de campo, de finalidade aplicada e tem caráter quanti- tativo. Ela está dividida em cinco momentos seguindo o método KDD explicitado anteriormente. Cada capítulo apresenta fases da pesquisa, contendo o método utilizado para a seleção dos dados, a etapa de pré-processamento dos dados, a transformação dos dados, a análise de sentimentos e o método de identificação de similaridades entre termos e postagens. 4.2 Seleção de Dados Com base no objetivo principal deste trabalho, a amostra utilizada foi um conjunto de postagens em perfis identificados como de terroristas ou atiradores de tiroteios, especificamente na rede social Twitter. Neste sentido, é importante destacar que não existe uma base de dados previamenteidentificada para o objeto de estudo em questão, sendo então, desta maneira, necessário realizar a coleta dos dados utilizando mecanismos de extração de dados. A partir disso, foi construída uma lista com o nome de quarenta e dois terroristas e atiradores. Foram inseridos também grupos terroristas, uma vez que no Oriente Médio estes são os principais causadores de ataques terroristas. A lista de nomes foi obtida a partir de pesquisas realizadas em buscadores web, utilizando o termo “terrorista” como chave. Como resultado, foram encontrados vários sites de notícias reportando o acontecimento de ataques terroristas com citação dos nomes dos autores, podendo, dessa forma, confirmar a autoria dos atentados e recolher esses nomes para a lista. Com base nessa lista de nomes pôde ser feita a pesquisa para obter acesso à página do Twitter dos mesmos. Para isso foi feito novamente uma pesquisa em buscadores com duas palavras chave: o nome do autor do ataque e “Twitter”. Dessa forma foram obtidas outras notícias Capítulo 4. Metodologia 32 que citavam o uso da rede social pelo autor mencionado. Quando era citado um tweet, era exibido uma foto da postagem referida, na qual continha o nome de usuário do autor. Com isso foi possível encontrar a conta real do mesmo. Após a busca, foi possível encontrar doze contas do Twitter nas quais os responsáveis eram autores de tiroteios ou terrorismo, com isso, as pessoas que não possuíam contas no Twitter foram retirados da lista, restando apenas os que contribuem para a pesquisa. Algumas das pessoas da lista possuíam contas pessoais, mas foram suspensas pelo Twitter. O Twitter pode excluir contas temporariamente ou permanentemente caso seja detectado uma violação de suas regras. As contas também podem ser denunciadas por outros usuários e depois avaliada pelo Twitter se devem, ou não, serem excluídas. Segundo o site do Twitter1, os motivos que fazem com que uma uma conta seja suspensa são: spam, segurança da conta em risco e tweets ou comportamentos agressivos. Para essas contas suspensas o método de coleta foi diferenciado. Na fase de extração dos tweets para análise, o idioma dos textos não foi uma propriedade importante, pois posteriormente será feita a tradução de todos eles para o inglês que é sua língua predominante. Para essa etapa foi utilizado uma solução em Python, o módulo tweepy, o qual através de extração de dados via API (Application Program Interface) do Twitter, permite a realização das rotinas de obtenção dos dados desejados. Essa API foi escrita em linguagem Python (uma das línguas mais populares para computação científica (PEDREGOSA et al., 2011)). A partir do desenvolvimento da solução computacional para extração das postagens, foi realizada a coleta de dados para cada uma das contas identificadas e ativas. Esse método de coleta possibilita a retirada de no máximo 3240 tweets e retweets de cada perfil. O resultado dessa coleta foi a criação de vários arquivos em formato CSV (valores separados por vírgula) que contém os textos dos tweets e retweets armazenados em linha diferentes, mas na mesma coluna. Já para os tweets de contas suspensas, foi utilizado um servidor web que armazena imagens de sites, o Way Back Machine, o qual possui um banco de dados que arquiva bilhões de sites desde 1996. Com ele é possível selecionar uma data e visualizar como uma página online era nesse dia. Para coletar esses tweets foi necessário utilizar a técnica de web scraping. Este é um método automático de coleta de dados digitais que os armazenam de maneira estruturada (SLAMET C.AND ANDRIAN et al., 2017). Diante disso, foi elaborado um script em Python que recebe o URL da página que se deseja retirar os dados e analisa o seu código fonte. É informado também quais são as partes do código fonte que possuem os textos dos tweets. A partir disso o programa passa por todo o conteúdo da página até encontrar a parte desejada e a armazena em um novo arquivo CSV da mesma maneira dos arquivos previamente explicados. 1 https://help.twitter.com/pt/managing-your-account/suspended-twitter-accounts Capítulo 4. Metodologia 33 Com esses dados coletados, a próxima fase é a normalização desses textos, fazendo retirada de caracteres especiais, colocando todas as letras em minúsculo e aplicando rotinas para tradução ao inglês, idioma este utilizado na etapa de análise de sentimentos. 4.3 Pré-processamento de Dados Para que os dados estejam em uma forma que possam ser explorados de maneira correta, é necessário realizar um pré-processamento para padronizá-los. Esta etapa foi feita completamente utilizando a linguagem de programação Python e seus recursos disponíveis para tratamento de textos. Várias bibliotecas foram utilizadas nesta fase de pré-processamento, citadas posterior- mente. As bibliotecas do Python são conjuntos de funções feitas com propósitos diferentes para simplificar o uso da linguagem. Como os dados foram retirados do Twitter apenas com o critério de quem os postou ter sido responsável por algum ataque terrorista ou tiroteio em massa, os tweets foram encontrados em várias línguas diferentes. Para que eles estejam padronizados, todos foram traduzidos para o inglês, pois esta é a língua predominante encontrada nos dados. O método utilizado para traduzi-los foi a biblioteca em Python de tradução de textos: googletrans. Esta biblioteca utiliza uma API disponível do Google Tradutor. Para fazer a tradução, esta biblioteca detecta o idioma da frase original e traduz para o idioma escolhido pelo usuário. Se necessário, o idioma do texto a ser traduzido pode ser especificado para que o programa precise de menos processamento. Esta tradução é feita utilizando os serviços do Google Tradutor que fornece a tradução instantânea de palavras e frases e apresenta também sua pronúncia. Após a tradução, os tweets passaram por uma etapa de retirada de caracteres especiais e números utilizando a biblioteca re para operações em expressões regulares. Este tratamento foi feito somente após a tradução, pois as pontuações utilizadas nos textos podem alterar o significado da frase, deste modo a tradução converte-se em uma interpretação mais precisa e menos sujeita a erros comuns, como a tradução literal. Em seguida foram retirados todos os links e as imagens, pois eles não agregam nenhum significado ao texto publicado. Nos tweets, as imagens são colocadas em forma de link do Twitter, o que facilitou a sua remoção por possuir um padrão. Para isso foi utilizada novamente a biblioteca re. Com ela é possível encontrar nos tweets todos os textos que possuem links e imagens e, com a identificação do início de um link (“http”) e a identificação de uma imagem (“pic.twitter.com”), retirar tudo o que vem em seguida até o final do link, restando somente o texto principal. Nesta fase os textos foram normalizados, sendo colocados em letras minúsculas; os verbos foram diminuídos apenas para seus radicais, para que todas as suas variações em tempo verbal sejam consideradas a mesma; os substantivos plurais foram transformados para o singular; e, por fim, foram removidas as stop words (palavras comuns no idioma e que não adicionam valores Capítulo 4. Metodologia 34 semânticos ao texto) (PROVOST; FAWCETT, 2016). Dessa forma os dados são padronizados e facilitam a sua análise. Para que a análise seja feita de maneira correta é preciso certificar que não existem postagens duplicadas, do contrário a frequência dos termos ficará equivocada, prejudicando a continuação da análise. A retirada dessas frases foi feita a partir de uma lista criada com todos os tweets já pré-processados utilizando um script que checa na lista o atual tweet e se ele já se encontra na lista geral, fazendo, assim, a sua remoção. Os tweets que originalmente já estavam na língua inglesa passaram por apenas três etapas do pré-processamento. Foram feitas somente a retirada de links e imagens, caracteres especiais, números e tweets duplicados. O produto desse processo foram doze arquivos CSV contendo apenas versões em inglês, semlinks, imagens, caracteres especiais e repetições de todos os tweets publicados que foram coletados anteriormente. 4.4 Transformação Após a seleção e o pré-processamento dos dados, se houver necessidade, eles devem ser transformados para o formato adequado de maneira que possam ser entendidos e utilizados na etapa de mineração de dados. O melhor formato de dados nessa situação é o formato CSV (comma separated values). O CSV é um formato de arquivo no qual os dados são separados por vírgula, mas não exclusiva- mente. O separador utilizado é escolhido conforme o critério de quem gerou o arquivo, podendo ser qualquer caractere que deseja. Devido a coleta dos dados ter sido feita com a finalidade de ser utilizada nesta pesquisa, os dados foram coletados e salvos já no formato CSV, de maneira que eles não precisam ser transformados para outro formato. Porém, foram feita a vetorização dos dados coletados, a qual representa de forma numérica cada dado da base. 4.5 Análise de Sentimentos Em consequência do desenvolvimento de sistemas e tecnologias da informação, diversos tipos de dados têm sido continuamente gerados e armazenados (GOMES, 2012). Dessa forma, a evolução de técnicas que extraem conhecimento de dados estruturados, não estruturados ou semiestruturados tem sido de fundamental importância na geração de informação e descoberta de conhecimento sob os mais variados aspectos, inclusive no que se refere à aplicação para a solução de problemas em bases de dados textuais, voltadas, por exemplo, ao levantamento de informações sobre sentimentos, opiniões e subjetividade em textos (PANG; LEE, 2008). Este Capítulo 4. Metodologia 35 conjunto de técnicas pode ser usada para distinguir opiniões positivas de negativas a partir da identificação e da classificação dos conteúdos emocionais originados dos usuários nas redes sociais. De modo geral, a análise de sentimentos pode ser descrita como uma solução que permite realizar o rastreamento de grandes volumes de dados textuais em referência de um tema pré- definido, gerando um relatório com a opinião de pessoas sobre este (ARAÚJO et al., 2012). Ainda nesta linha, segundo Gomes (2012), análise de sentimentos é o trabalho que auxilia na determinação automática de sentimentos em textos. Esses sentimentos podem ser muito importantes na tomada de decisões em ambientes organizacionais, políticos, e sociais. Gomes (2012) completa afirmando que a análise de sentimentos trata do estudo computacional acerca dos sentimentos, emoções e opiniões expressadas através de textos. Uma alternativa de se fazer a análise de sentimentos é aplicando a análise de emoticons (ícones que representam emoções). Outra alternativa é utilizando o LIWC (Linguistic Inquiry and Word Count 2) que é uma ferramenta comercial que possui um dicionário de palavras e suas respectivas categorias de emoções. O SASA (SailAil Sentiment Analyzer 3) é outra ferramenta baseada em aprendizado de máquina, de código aberto, proposta originalmente como método de análise de tweets associados as eleições norte-americanas de 2012. De maneira geral, é possível identificar três categorias de granularidade da análise de sentimentos (LIU, 2012 apud SILVA, 2016). A granularidade de documento se refere a classificação da opinião implícita no documento, identificando se ela expressa um sentimento positivo, negativo ou neutro (PANG; LEE; VAITHYANATHAN, 2002 apud SILVA, 2016). A granularidade de sentença que faz a subdivisão do texto em sentenças com o objetivo de analisar cada uma delas individualmente expressam sentimentos positivos, negativos ou neutros (SILVA, 2016). Já na granularidade de aspectos, a análise é mais específica. É possível identificar sobre o que a pessoa tem uma opinião, e não somente identificar a opinião, como faz a granularidade de documento e de sentença. Essa técnica pode ser utilizada para formar avaliações a partir de comentários e opiniões do usuário. A análise de sentimentos também pode ser usada para melhorar o sistema de recomendações em sites. Dessa forma o sistema não recomenda itens que recebem uma avaliação negativa. Quando são detectados sentimentos positivos, o anúncio é mostrado, mas quando sentimentos negativos são detectados, os anúncios são removidos. Além disso, ela pode ser usada para detectar páginas online que possuam conteúdos sensíveis que sejam inapropriados para a colocação de propagandas. Essa análise também pode ser usada no ramo de negócios. Uma empresa analisa a opinião de seus clientes de forma que seja possível diferenciar as respostas positivas das negativas. Fazendo isso, é possível melhorar os fatores negativos e manter os positivos para obter a satisfação de seus clientes (PANG; LEE, 2008). 2 http://liwc.wpengine.com/ 3 https://pypi.org/project/sasa/ Capítulo 4. Metodologia 36 Existem vários métodos para a análise de sentimentos. No presente trabalho será aplicado uma abordagem que utiliza métodos Bayesianos com o intuito de fazer uma estimação. Thomas Bayes, foi o matemático responsável por criar o importante teorema de probabilidade que deu origem a estatística Bayesiana (ARA-SOUZA, 2010), apresentado na Equação 4.1, onde P(c|x) se refere à probabilidade posterior da classe alvo em relação aos preditores, P(c) refere- se à probabilidade a priori da classe, P(x|c) é a probabilidade responsável por representar a probabilidade de preditor em relação à classe, e finalmente, P(x) é a probabilidade original do preditor. P(c|x) = P(x|c)−P(c) P(x) (4.1) A estatística Bayesiana, diferente das estatísticas convencionais, é preditiva e possui uma maneira diferente de tratar parâmetros indesejados, que são aqueles que não se quer fazer inferências sobre, mas que não é desejado que elas interfiram nas inferências feitas sob os parâmetros principais (BOLSTAD; CURRAN, 2017). No caso da utilização desses métodos para fazer estimações, o analista precisa indicar possíveis classes de valores e a inferência Bayesiana irá calcular a confiabilidade relativa de todo os valores comparando-os com as classes já definidas previamente (BENAVOLI et al., 2017). Existem diversos cenários nos quais os métodos Bayesianos estão sendo utilizados, podendo ser encontrado em áreas de estatística, inteligência artificial e podendo ser aplicados a diversos contextos (ARA-SOUZA, 2010). Neste estudo ela será utilizada para fazer inferências de sentimentos nos tweets de terroristas e atiradores em massa. A partir da estatística Bayesiana, é possível fazer a classificação dos tweets com relação aos seus sentimentos. O classificador Naive Bayes é utilizado para fazer a classificação dos tweets e relacioná-los a um sentimento. Para isso é preciso passar por uma fase de treinamento, no qual alguns atributos já são relacionados a uma classe, e o classificador deve identificar os padrões de cada classe para poder encaixar novos atributos às classes já identificadas (GOEL; GAUTAM; KUMAR, 2016). Para aplicar a classificação dos tweets de acordo com seus sentimentos no contexto deste trabalho, foi utilizada uma base de treinamento pré-existente com diversas frases e as polaridades associadas. Essa base de treinamento, chamada “Twitter US Airline Sentiment” foi obtida através do site Kaggle4, após uma busca por base de dados rotuladas para análise de sentimentos. Essa classificação consiste de termos em inglês, pois esse foi o idioma empregado nos tweets recolhidos para a pesquisa. A partir dessa lista, a solução desenvolvida retira as stop words, vetoriza cada termo presente nas frases, intitulando um número diferente para cada instância e os associa ao sentimento no qual a frase foi classificada. Com cada termo já classificado, os tweets coletados são submetidos à classificação. Com cada termo do tweet, já sem as stop words, 4 https://www.kaggle.com/ Capítulo 4. Metodologia 37 e vetorizados, o classificador procura cada termo na lista provida anteriormente e verifica seu sentimento classificado, de acordo com a Equação 4.1. Caso um termo não esteja presente na lista de treinamento, ele
Compartilhar