Análise de tweets de terroristas e atiradores em massa através de mineração de textos e aprendizado de máquina no apoio à identificação de possíveis autores de novos ataques

•

UFG

Isadora Campos Vaz

02/09/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 56 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 56 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 56 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Trabalho de Conclusão de Curso - TCC

96.502 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

UNIVERSIDADE FEDERAL DE GOIÁS
Faculdade de Informação e Comunicação
Análise de tweets de terroristas e atiradores em
massa através de mineração de textos e
aprendizado de máquina no apoio à identificação de
possíveis autores de novos ataques
Isadora Campos Vaz
Goiânia
2019
Isadora Campos Vaz
Análise de tweets de terroristas e atiradores em massa
através de mineração de textos e aprendizado de máquina
no apoio à identificação de possíveis autores de novos
ataques
Trabalho de Conclusão de Curso apresentado à
Faculdade de Informação e Comunicação, como
parte dos requisitos para obtenção do título
de Bacharel em Gestão da Informação. VERSÃO
REVISADA
Orientador: Prof. Dr. Douglas Farias Cordeiro
Goiânia
2019
Vaz, Isadora Campos
V634a Análise de tweets de terroristas e atiradores em
massa através de mineração de textos e aprendizado de
máquina no apoio à identificação de possíveis autores
de novos ataques / Isadora Campos Vaz; orientador
Douglas Farias Cordeiro. – Goiânia – GO, 2020.
55 p.
Trabalho de Conclusão de Curso (Graduação -
Gestão da Informação) – Faculdade de Informação e
Comunicação, Universidade Federal de Goiás, 2020.
1. Redes Sociais; Mineração de Textos; Terrorismo;
Informação; Twitter. I. Cordeiro, Douglas Farias,
orient. II. Título.
Isadora Campos Vaz
Análise de tweets de terroristas e atiradores em massa
através de mineração de textos e aprendizado de máquina
no apoio à identificação de possíveis autores de novos
ataques
Trabalho de Conclusão de Curso apresentado à
Faculdade de Informação e Comunicação, como
parte dos requisitos para obtenção do título
de Bacharel em Gestão da Informação. VERSÃO
REVISADA
Trabalho aprovado. Goiânia, 11 de Dezembro de 2019:
Douglas Farias Cordeiro
Orientador
Núbia Rosa da Silva
Convidada
Kátia Kelvis Cassiano
Convidada
Goiânia
2019
Prepare for the worst and hope for the best (Autor desconhecido).
RESUMO
VAZ, I. C.. Análise de tweets de terroristas e atiradores em massa através de mineração
de textos e aprendizado de máquina no apoio à identificação de possíveis autores de novos
ataques. 2020. 55 f. Trabalho de Conclusão de Curso (Graduação em Gestão da Informação) –
Faculdade de Informação e Comunicação (FIC/UFG), Goiânia – GO.
A aplicação de soluções voltadas ao levantamento de comportamentos, padrões e tendência a
partir de dados provenientes de redes sociais é algo de bastante interesse. Neste sentido, diversos
tipos de soluções têm sido exploradas e propostas. A partir disso, este estudo pretende realizar
uma análise em tweets de autores de terrorismo ou tiroteio em massa para verificar se existe
padrões nas publicações e permitir que novos tweets sejam analisados com base na semelhança
entre eles. De modo empírico foram coletados 6.372 postagens por doze perfis de pessoas ou
grupos responsáveis por atos terroristas ou tiroteios em massa identificados através de notícias
veiculadas na mídia internacional. Foram aplicadas soluções de mineração de dados e análise de
sentimentos e obtidos padrões semânticos referentes às relações entre eles.
Palavras-chave: Redes Sociais; Mineração de Textos; Terrorismo; Informação; Twitter.
ABSTRACT
VAZ, I. C.. Análise de tweets de terroristas e atiradores em massa através de mineração
de textos e aprendizado de máquina no apoio à identificação de possíveis autores de novos
ataques. 2020. 55 f. Trabalho de Conclusão de Curso (Graduação em Gestão da Informação) –
Faculdade de Informação e Comunicação (FIC/UFG), Goiânia – GO.
The application of solutions aimed at surveying behaviors, patterns and trends based on data
from social networks is of great interest. In this sense, several types of solutions have been
explored and proposed. With that in mind, the present study intends to perform a tweet analysis
of terrorism or mass shooters to see if there is a pattern in the publications and allow new tweets
to be analyzed based on their similarity. Empirically 6,372 posts were collected from 12 profiles
of people or groups responsible for terrorist acts or mass shootings identified through news. Were
applied data mining solutions and sentiment analysis and obtained lexical patterns regarding the
relations between them.
Key-words: Social Media. Text Mining. Terrorism. Information. Twitter.
LISTA DE ILUSTRAÇÕES
Figura 1 – Representação do processo KDD . . . . . . . . . . . . . . . . . . . . . . . 23
Figura 2 – Quantidade de notícias sobre terrorismo publicadas por ano na Internet . . . 27
Figura 3 – Distribuição da quantidade de tweets por perfil. . . . . . . . . . . . . . . . 39
Figura 4 – Distribuição de sentimento dos textos. . . . . . . . . . . . . . . . . . . . . 40
Figura 5 – Distribuição de sentimento de cada autor. . . . . . . . . . . . . . . . . . . . 40
Figura 6 – Nuvem de palavras classificadas como positivas. . . . . . . . . . . . . . . . 41
Figura 7 – Nuvem de palavras classificadas como negativas. . . . . . . . . . . . . . . . 42
Figura 8 – Exemplos de postagens positivas e negativas. . . . . . . . . . . . . . . . . . 43
Figura 9 – Grafo de similaridade entre todas as instâncias . . . . . . . . . . . . . . . . 43
Figura 10 – Dendograma de classes dos termos. . . . . . . . . . . . . . . . . . . . . . . 44
Figura 11 – Gráfico de similaridade entre os termos. . . . . . . . . . . . . . . . . . . . 45
Figura 12 – Gráfico de similaridade entre os autores. . . . . . . . . . . . . . . . . . . . 46
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1 Aspectos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Justificativa/Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Estrutura da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 INFORMAÇÃO EM REDES SOCIAIS . . . . . . . . . . . . . . . . . 14
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Dado, Informação e Conhecimento . . . . . . . . . . . . . . . . . . . . 15
2.3 Ciclo de Vida da Informação . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Redes sociais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5 Fluxo Informacional em Redes Sociais . . . . . . . . . . . . . . . . . . 19
2.6 Considerações parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 MINERAÇÃO DE DADOS E TERRORISMO . . . . . . . . . . . . . 21
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 O Processo KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Técnicas de Mineração de Dados para Textos Curtos . . . . . . . . . 25
3.5 Revisão de Trabalhos sobre Terrorismo . . . . . . . . . . . . . . . . . 26
3.6 Considerações parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Seleção de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Pré-processamento de Dados . . . . . . . . . . . . . . . . . . . . . . . 33
4.4 Transformação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.5 Análise de Sentimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.6 Similaridade entre termos e documentos . . . . . . . . . . . . . . . . 37
5 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 39
6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
10
CAPÍTULO
1
INTRODUÇÃO
1.1 Aspectos Gerais
A era da Internet tem modificado a maneira como aspessoas se relacionam e se co-
municam, podendo ser de maneira positiva ou negativa. Desde o fim dos anos 1980 a Internet
provou ser um meio altamente dinâmico de comunicação (UNITED NATIONS, 2012). Seu
desenvolvimento sendo cada vez mais sofisticado criou uma rede com um alcance global e
barreiras de entrada relativamente baixas. Com isso a quantidade de dados gerados cresceu
exponencialmente. Diante disso foi necessário haver aperfeiçoamento nas tecnologias de infor-
mação e da comunicação para que fosse ampliada a capacidade de gerar e tratar automaticamente
grandes quantidades de dados.
No âmbito das tecnologias relacionadas ao terrorismo, Jetter (2014) relata que o impacto
do terrorismo tem sido ampliado pela capacidade da mídia de disseminar notícias dos ataques
de forma instantânea ao redor do mundo. O autor comenta as motivações por trás de ataques
terrorista, os quais, geralmente, são realizados para chamar atenção para uma causa especifica,
como promover uma agenda religiosa ou pressionar por objetivos políticos (por exemplo, a luta
dos curdos por um estado independente). Ele continua afirmando que um mecanismo importante
para promover os objetivos dos terroristas é chamar atenção das pessoas, no entanto, a cobertura
na mídia internacional sobre incidentes terroristas varia drasticamente. Em concordância Lum-
baca e Gray (2011) relaciona os ataques terrorista com a mídia dizendo que “seja televisão, rádio
ou Internet, os terroristas percebem que esses instrumentos são recursos valiosos para estimular
medo dentro de uma comunidade ou conquistar os corações e mentes da população”.
Desde 2001, após o atentado terrorista de 11 de setembro ao World Trade Center em
Nova York, a popularização dos atentados terroristas começou a ser percebida nas mídias do
ocidente. A partir desta data grupos terroristas passaram por mudanças e começaram a utilizar
mídias sociais para recrutamento, treinar membros, compartilhar manuais terroristas, coletar
Capítulo 1. Introdução 11
informações sobre possível alvos, entre outras coisas (ANDERSON, 2003 apud OH; AGRAWAL;
RAO, 2011). Como dito pelo Secretario-Geral das Nações Unidas Ki Moon Ban: “A Internet é
um excelente exemplo de como os terroristas podem se comportar de maneira verdadeiramente
transnacional” (UNITED NATIONS, 2012). A Internet oferece aos terroristas a habilidade de
compartilhar mensagens nas quais podem constar informações para arrecadações ou até mesmo
para coordenar ataques (LUMBACA; GRAY, 2011).
Segundo a UNITED NATIONS (2012), a Internet facilita para um indivíduo se comunicar
com relativo anonimato, de forma rápida e eficaz para uma audiência quase ilimitada. Com isso
existem diversas possibilidades de utilizar a Internet tanto para ações positivas, quanto para
negativas. Ao cruzar os temas “redes sociais” e “terrorismo”, foi possível observar múltiplas
ligações, as quais, podem promover distintas possibilidades de identificação de autores de
atos violentos como esses. A partir das redes sociais, os autores expõem suas crenças e seus
pensamentos livremente. Com isso é possível identificar tendências de comportamentos que, se
utilizados de maneira correta conseguem promover a segurança de centenas de pessoas evitando
grandes desastres.
Esta pesquisa analisa a possibilidade de encontrar padrões semânticos nos tweets de
terroristas e atiradores em massa que permita prever ameaças de novos usuários a partir de
seu conteúdo postado no Twitter. O principal argumento deste trabalho é a existência de um
padrão de tweets entre terroristas e atiradores em massa que, por ventura, possa ser utilizado para
identificar novas ameaças no Twitter.
1.2 Objetivos
1.2.1 Objetivo Geral
A pesquisa tem como objetivo geral identificar padrões semânticos em tweets de ter-
roristas e atiradores em massa, de modo a gerar informação que possam auxiliar a identificar
possíveis autores de novos ataques.
1.2.2 Objetivos Específicos
São objetivos específicos desta pesquisa:
∙ Delimitar uma amostra de tweets de terroristas e atiradores em massa;
∙ Aplicar soluções computacionais no âmbito da mineração de dados e inteligência artificial
para detecção de padrões na amostra considerada;
∙ Averiguar a relação entre esses padrões e a identificação de novos suspeitos;
Capítulo 1. Introdução 12
∙ Propor maneiras de identificar perfis potencialmente suspeitos a partir de suas postagens
no Twitter.
1.3 Justificativa/Motivação
Considerando o atual cenário social no mundo, mesmo que, de acordo com o Índice
Global de Terrorismo de 2018, a morte por terrorismo em âmbito geral tenha diminuído, os
atos terroristas de extrema direita tem aumentado nos Estados Unidos e na Europa Ocidental
e continuam generalizados (PRNewswire, 2018), vê-se uma necessidade de descobrir novas
formas de prevenir novos acontecimentos dessa natureza. Levando em consideração que um dos
maiores ambientes de informação e comunicação nos dias de hoje são as mídias sociais. Esses
dois assuntos constitui um campo de pesquisa não muito explorado e com grande importância,
uma vez que se relaciona diretamente à vida de vários indivíduos.
As redes sociais são ferramentas de comunicação, no qual pessoas compartilham suas
ideias e pensamentos. O Twitter foi a rede social escolhida para essa pesquisa para delimitar um
ambiente específico, pela facilidade em obter seus dados e pelo principal uso da mesma ser o
compartilhamento de textos curtos que refletem os pensamentos dos autores.
Após o acontecimento em Suzano (SP), em março de 2019, no qual dois jovens entraram
em uma escola estadual atirando e mataram dez pessoas, foram encontradas mensagens publica-
das meses antes da tragédia por um dos atiradores nas quais é possível observar suas intenções
em cometer um ataque. É possível identificar esse comportamento, uma vez que pessoas que
executam esses ataques querem ser reconhecidos por eles e receber alguns minutos de fama. Por
esses e outros motivos, vários grupos terroristas reivindicam os ataques e assumem a culpa por
eles. Nesse sentido, é interessante construir mecanismos que possam permitir a identificação
prévia por padrões em publicações, possibilitando a realização de estratégias de controle e
prevenção de incidentes e eventos como os massacres ocorridos.
Há algum tempo, as redes sociais começaram a ser examinadas como uma fonte de
informações pessoais importante e não somente um passatempo popular. Algumas redes sociais
já utilizam as publicações para identificar comportamentos específicos de seus usuários. Por
exemplo o Facebook, que reconhece características suicidas em postagens e oferece ajuda aos
seus usuários. É importante destacar que não há relatos ou manifestações de ações semelhantes
por parte da rede social Twitter em relação ao monitoramento de seus usuários.
Sabe-se que órgãos de segurança fiscalizam tweets para vigiar grupos e identificar
ameaças. Em sua maioria, são utilizados programas para verificar possíveis protestos, de forma
que eles consigam se organizar a tempo das manifestações (COX, 2016). Porém, possíveis atos
terroristas ou tiroteios não são analisados da mesma maneira. Dessa forma é importante que seja
criado algo que possa servir como instrumento de monitoramento para esses casos.
Capítulo 1. Introdução 13
1.4 Estrutura da Monografia
O presente trabalho está estruturado em seis partes principais. O primeiro capítulo é a
introdução à pesquisa, os objetivos e a justificativa. O segundo capítulo é relacionado às redes
sociais, no qual são descritos dados, informação, conhecimento, ciclo de vida da informação,
fluxo informacional em redes sociais. Já o terceiro capítulo desenvolve os conceitos envolvendo o
processo KDD, técnicas de mineração de dados para textos curtos e citações de trabalhos prévios
sobre terrorismo. No quarto capítulo é indicado a metodologia da pesquisa, ou seja, como ela foi
elaborada. O capítulo cinco é referente aos resultados e a a discussão dos mesmos. Por fim, o
capítulo 6 pertence à conclusão e ao desfecho da pesquisa.
14
CAPÍTULO2
INFORMAÇÃO EM REDES SOCIAIS
2.1 Introdução
O século XXI está testemunhando um crescimento exponencial de mensagens virtuais
transmitidas a partir de mídias sociais (MANGOLD; FAULDS, 2009). Em estudos acadêmicos,
organizações, e mídias, a utilização das redes sociais vem crescendo e possui a finalidade de
ajustar o ambiente comunicacional do mundo globalizado e indicar mudanças e permanências
nos modos de transferência de informações das sociedades (MARTELETO, 2010). Elas repre-
sentam “o mundo em movimento” e conectam pessoas por relacionamentos sociais de diferentes
naturezas, dessa forma renovando as estruturas sociais (TOMAEL; MARTELETO, 2006).
A informação e o conhecimento estão em todo lugar e são fundamentais para a formação
e manutenção das redes sociais (TOMAEL; ALCARA; CHIARA, 2005). O interesse de muitos
pesquisadores se vira para a análise de redes sociais a partir de diferentes perspectivas, relaciona-
das por vários campos do conhecimento em busca de entender seu impacto na vida social das
pessoas (MATHEUS; SILVA, 2006).
O surgimento da Internet permitiu que as pessoas pudessem transmitir informações de
maneira mais rápida e mais interativa (RECUERO, 2009b). A Internet, como relação entre duas
partes, proporciona o armazenamento, busca e disseminação de informações, porém são as redes
sociais que vão passar as informações relevantes para seus determinados grupos (RECUERO,
2009a). Para Sterne (2011 apud ANTUNES et al., 2014) a Internet foi o primeiro canal de
comunicação que possibilitou a interação de muitas pessoas ao mesmo tempo e as redes sociais
proporcionam a criação de grupos fechados ou abertos para melhorar a comunicação e o contato
pessoal, por isso elas demandam uma maior interatividade entre os participantes.
A informação na Internet gera impactos e é disseminada com base na ideia de gerar valor
percebido pelos atores sociais (grupos, indivíduos ou organizações que podem influenciar nos
resultados de iniciativas sociais) e por isso as informações estão relacionadas ao capital social
Capítulo 2. Informação em redes sociais 15
(“valor que circula dentro de uma rede social”), portanto é possível observar que a publicação
das informações nas redes sociais gera um impacto em cada indivíduo, dependendo da relevância
da mesma para cada grupo (RECUERO, 2009b). Este compartilhamento de informação e
conhecimento realizado no ambiente das redes sociais é gerado constantemente, se apresentando
como uma consequência do fato dos usuários partilharem seus conhecimentos (TOMAEL;
MARTELETO, 2006). No âmbito de temas relacionados a ataques violentos, como o terrorismo,
o perfil dos usuários mostra uma necessidade de reconhecimento e atenção por parte da mídia.
Portanto, é comum que as pessoas que planejam algum tipo de ataque compartilhem suas ideias
e seus conhecimentos na Internet, para receber algum tipo de validação por seus atos.
Devido ao grande número de acessos à Internet (1,7 bilhão de pessoas no mundo, segundo
o Relatório Anual da União Internacional de Telecomunicações (FOLHA.COM, 2010 apud
CIRIBELI; PAIVA, 2011)), a quantidade de informação possível de ser encontrada aumentou.
Consequentemente a análise de redes sociais cresceu significativamente em função desse aumento
dos dados disponíveis para análise (MATHEUS; SILVA, 2006). A compreensão destes fenômenos
informacionais remete às definições básicas acerca de dado, informação e conhecimento, as
quais possibilitam um estudo mais delineado e direcionado às abordagens relacionadas às redes
sociais.
2.2 Dado, Informação e Conhecimento
A população do século XXI foram descritas como a “sociedade da informação” no best
seller de Peter Drucker em 1966, no qual a sociedade é inserida num processo de mudança
constante devido aos avanços na tecnologia e na ciência (COUTINHO; LISBÔA, 2011). Essa
sociedade da informação torna o gerenciamento, a obtenção e a aplicação do conhecimento como
itens básicos, pois a informação passa a ser entendida como insumo primordial (VALENTIM,
2002).
Pessoas e organizações usufruem da informação em uma base diária e a informação
passa a possuir valor comercial, contextualizada em uma economia informatizada (STAIR;
REYNOLDS, 2011). A informação é considerada a matéria prima do cotidiano do ser humano
(CHOO, 2003) e para Gleick (2013) a informação é “aquilo que alimenta o funcionamento do
nosso mundo”. Existem várias fontes de informação que pode ser utilizada para reconhecer
pessoas com comportamentos suspeitos, algumas mais relevantes que outras, mas levando em
conta a seriedade do assunto, nenhuma informação pode ser descartada.
Para se alcançar a definição de informação, é interessante, primeiramente, definir dado.
Segundo Stair e Reynolds (2011), dados são fatos brutos. Silva (2016) complementam afirmando
que são fatos ou valores documentados. Na área de tecnologia da informação, Setzer (2014)
o define como “uma sequência de símbolos quantificados ou quantificáveis”, considerando-o
necessariamente uma entidade matemática e puramente sintático. Para Miranda (1999 apud VA-
Capítulo 2. Informação em redes sociais 16
LENTIM, 2002) dado é descrito como um agrupamento de registros qualitativos ou quantitativos
que quando categorizado e padronizado de maneira correta pode gerar informação. Finalizando
a definição de dado, Rezende e Abreu (2000 apud COUTINHO; LISBÔA, 2011) descrevem
dado como algo que “tomado isoladamente, não transmite nenhum conhecimento”, portanto não
possui um significado claro.
A informação, da mesma forma que o dado, possui diversas definições. Silva (2016)
interpreta a informação como um dado com sentido semântico ou significado. Stair e Reynolds
(2011) pensam da mesma forma e acrescentam que ela é composta por fatos organizados de
maneira significativa. Já Setzer (2014) define a informação do ponto de vista computacional,
a descrevendo como uma “abstração informal”, algo que não é possível de formalizar a partir
de teorias lógicas ou matemáticas. O autor afirma que a informação não pode ser armazenada
em um computador, pois ela está na mente das pessoas, o que é armazenado são os dados que
constituem aquela informação. A informação, a partir da teoria matemática da informação, é
tratada como um sinônimo de comunicação e depende de um locutor e de um receptor (SIRIHAL;
LOURENÇO, 2002). Para Tomael, Alcara e Chiara (2005), a informação está no domínio pessoal
do receptor, é ele quem define se o que foi recebido acrescenta algum valor ao que já existia.
Com a geração de informação, e sua posterior familiarização e consciência por parte de
um indivíduo, este pode explorá-la e utilizada para a tomada de decisão, o que é considerado
como conhecimento (SILVA; PERES; BOSCARIOLI, 2016). Em concordância, Stair e Reynolds
(2011, p. 5) afirmam que conhecimento é “a consciência e a compreensão de um conjunto
de informações e os modos como essas informações podem ser úteis para apoiar uma tarefa
específica ou para chegar a uma decisão”. Para Pellicer (1997 apud COUTINHO; LISBÔA,
2011), o conhecimento é adquirido a partir da inter relação mútua das informações, criando uma
rede de significados. Com um aspecto tecnológico, Setzer (2014) caracteriza o conhecimento
como algo abstrato, pessoal, de algo que foi vivenciado por alguém. O autor afirma que ele
não pode ser descrito e não é sujeito a representações e, por isso não pode ser inserido em um
computador.
Já para Miranda (1999 apud VALENTIM, 2002), o conhecimento pode ser caracterizado
de três formas: conhecimento explícito (conjunto de informações tornadas claras em algum
meio e que define o saber sobre um tema específico); conhecimento tácito (saber funcional
sobre um determinado assunto relacionado à crenças, sentimentos, emoções de quem a detém);
conhecimento estratégico (combinação dos dois tipos de conhecimento previamente citados
aumentando o saber de especialistas).
2.3 Ciclo de Vida da Informação
De forma semelhante aos seres vivos, a informação também possui um ciclo de vida. Toda
informação possui um ciclo de vida.Uma informação é criada, armazenada e disponibilizada por
Capítulo 2. Informação em redes sociais 17
um período, atualizada e transmitida para outros interessados e quando perde sua serventia ela
deve ser descartada de forma adequada. Laureano (2005 apud ALVES; MOREIRA, 2012)) cita
quatro fases do ciclo de vida da informação: manuseio, armazenamento, transporte e descarte. O
autor clarifica o manuseio como a criação e manipulação da informação, o armazenamento como
o momento em que as informações são guardadas, o transporte como quando a informação é
enviada de um lugar para outro e o descarte se tratando do momento em que a informação perde
sua utilidade e pode ser destruída. Essas etapas ocorrem, não necessariamente todas, sendo a
informação física ou digital.
O valor da informação muda com o tempo e, por isso, ela deve ser gerenciada de acordo
com sua relevância momentânea e futura. Se uma informação é identificada como de grande
importância em um período de tempo ela deve ser armazenada de forma mais segura. Informações
cruciais (informações que, sem elas, algo não funcionaria) não necessitam ser descartadas, mas
quando descartadas devem ser feita de maneira adequada, para cada tipo de informação, pois
podem gerar vazamento que causa desvantagem para o proprietário da mesma.
No início do ciclo, a aquisição da informação deve ser feita de maneira adequada
respeitando o tipo de informação. Antes que ela seja armazenada ela deve ser tratada e filtrada
para que apenas a informação relevante seja guardada, evitando uso de espaço desnecessário. O
armazenamento deve ser feito de forma que minimize os requerimentos de armazenamento e
esteja com fácil acesso, para quando necessário utilizá-la não demandar muito tempo. Assim
que a informação é armazenada e disponível para uso, ela deve ser analisada e classificada de
modo que facilite a formação de conhecimento. Após a utilização da informação, ela deve ser
arquivada, pois, mesmo que ela já tenha sido usada e não é mais necessária no momento, ela pode
ser valiosa para futuras análises. Porém quando a informação já foi utilizada em sua totalidade, e
deixa de ser conveniente, ela deve ser descartada para liberar espaço para novas informações
importantes.
2.4 Redes sociais
O século XXI está testemunhando uma grande explosão de mensagens virtuais transmiti-
das a partir de mídias sociais (MANGOLD; FAULDS, 2009). Sterne (2011 apud ANTUNES
et al., 2014) cita seis notáveis categorias de mídias sociais: fóruns e quadros de mensagens;
sites de crítica e opinião; marcadores sociais; compartilhamento de mídia; blogs; microblogs
e redes sociais. Um elemento que caracteriza as redes sociais na Internet é a habilidade de
transmitir informações a partir de conexões entre os usuários (RECUERO, 2009b). As redes
sociais proporcionam a criação de grupos fechados ou abertos para melhorar a comunicação
e o contato pessoal, por isso elas demandam uma maior interatividade entre os participantes
(ANTUNES et al., 2014).
Capítulo 2. Informação em redes sociais 18
Terra (2010), define mídias sociais como sendo “aquela utilizada pelas pessoas por meio
de tecnologias e políticas na web com fins de compartilhamento de opiniões, ideias, experiências
e perspectivas”. As redes sociais são consideradas pela autora como o espaço virtual que estimula
e incentiva a ação dos seus participantes. Em concordância, Ciribeli e Paiva (2011) destacam
microblogs, fóruns, blogs e sites de relacionamento como os tipos de redes sociais que mais
crescem o número de usuários. Alguns exemplos de redes sociais citados por Terra (2010) são:
Orkut, Twitter e Facebook.
É normal confundir rede social com mídias sociais. De acordo com Ciribeli e Paiva
(2011), “as redes sociais existem em todos os lugares e podem ser formadas por pessoas ou
organizações que partilham valores e objetivos comuns”, já a mídia social é o meio no qual as
redes sociais se beneficiam para comunicar, podendo mudar de acordo com seu público-alvo e
sua finalidade.
A comunidade científica continua, crescentemente, utilizando as redes sociais como
instrumento de pesquisa nessa nova era que é a da informação (CERVI, 2008). O maior desafio
dessa é a capacidade de compartilhar conhecimento que precisa ser transformado, desenvolvido
e trabalhado previamente, do contrário seria apenas um aglomerado de dados sem relevância
(KROGH; ICHIJO; NONAKA, 2001 apud TOMAEL; ALCARA; CHIARA, 2005). E a rede
social é uma imensa fonte de informação que, quando tratada de maneira correta, podem ser
percebidas como informações de grande importância.
Segundo Tomael, Alcara e Chiara (2005), “a rede é uma estrutura não-linear, descentrali-
zada, flexível, dinâmica, sem limites definidos e auto-organizável, estabelece-se por relações
horizontais de cooperação”. A rede social também pode ser definida como um conjunto de
pessoas, grupos ou instituições e as interações ou laços sociais entre elas (WASSERMAN;
FAUST, 1994 apud RECUERO, 2009b). A rede é também um dispositivo de obtenção de infor-
mação (FACHINELLI; MARCON; MOINET, ), podendo ser tanto virtual como presencial, ela
é um espaço para o compartilhamento de informação e conhecimento (TOMAEL; ALCARA;
CHIARA, 2005).
A rede social é definida por Han e Kamber (2006 apud CERVI, 2008) como um grande
grafo que possui dados heterogêneos e relacionados de diversas maneiras, sendo que os usuários
são os objetos e os relacionamentos entre ele são as arestas. Para Wellman et al. (2003 apud
RECUERO, 2009b), as redes sociais funcionam da mesma forma que as redes de computadores,
sendo que as redes de computadores conectam máquinas e as redes sociais conectam pessoas.
Já nos espaços informais, Marteleto (2001) define as redes como uma comunidade de valores
e interesses em comum. Já Recuero (2009b) identifica dois tipos de redes sociais na Internet
que podem estar presentes na mesma rede analisada: redes emergentes e redes de filiação.
Para perceber essa diferenças o autor informa que depende da forma como a rede é observada.
As redes sociais emergentes foram caracterizadas pela autora como aquelas que representam
a conexão social entre as pessoas mediada por um computador, e estão sendo construídas e
Capítulo 2. Informação em redes sociais 19
reconstruída continuamente por meio das mudanças sociais. Essas redes podem expor a criação
de laços sociais e o conhecimento da intimidade entre atores Granovetter (1973 apud RECUERO,
2009b). Elas tendem a ser menores e mais conectadas, pois demandam mais esforço dos atores
(RECUERO, 2009b).
Já nas redes de filiação, também conhecidas como redes associativas, são estudados
apenas um conjunto de eventos, pois nela existe somente um conjunto de atores (RECUERO,
2009b). Segundo a autora, para lidar com elas é preciso observar os atores-indivíduos e os eventos
que eles se inserem, dessa forma se tratando dos atores e dos grupos no qual eles pertencem.
Neste contexto, um aspecto de fundamental importância no que tange à compreensão das
redes sociais se refere ao fluxo das informações que transitam nestas, uma vez que esse fenômeno
se relaciona diretamente com aspectos como a disseminação de informações, a influência cultural
digital, entre outros.
2.5 Fluxo Informacional em Redes Sociais
O fluxo da informação engloba uma sequência de eventos, desde a criação da informação
pelo emissor, até a assimilação do receptor (BARRETO, 1998). Jamil (2001 apud GREEF;
FREITAS, 2012, p. 165) caracteriza fluxo informacional como “a transmissão de dados ou
conjunto de dados através de unidades administrativas [...], organizações e profissionais, [...]
para alguém que delas necessitam”, cujo caminho é variável e sem limites.
Para Oliveira e Bertucci (2003), para aumentar a qualidade da informação e se adequar
às necessidades do usuário, é preciso melhorar o fluxo de informação. As próprias pessoas
naturalmente são quem estabelecem o fluxo informacional a partir de seus comportamentos
e suas decisões e essas informações podem ser utilizadas para vários objetivos (VALENTIM,
2013).Valentim (2013) categoriza fluxo de informação como formais e informais. Os formais são
decorrentes de atividades repetitivas e pode circular em vário meios e ambientes, já os informais
nem sempre são registrados e são resultantes de experiências de vida.
A rede social é composta por um conjunto de atores e suas relações (SAMPAIO; MO-
RAES; PASSOS, 2013). Nas redes sociais, o fluxo informacional é facilitado e a informação
passa a ser mais acessível, pois as formas de transmitir mensagens são mais eficientes (BAR-
RETO, 1998). O fluxo de informação nas redes sociais ocorre de forma simples e rápida. No
momento em que alguém com saber publica algo na Internet essa informação fica disponível para
a visualização de qualquer pessoa e pode ser difundida de forma quase epidêmica. O receptor
pode classificar essa informação da maneira que preferir, armazenar se necessário, compartilhar
se desejado e ignorar se irrelevante. A partir do fato que nas redes sociais a conexão entre os
atores é muito rica, essa difusão pode ocorrer em instantes (RECUERO, 2007). O fluxo da
informação pode ser percebida pelos atores nas redes sociais e suas conexões com outros.
Capítulo 2. Informação em redes sociais 20
As informações da Internet são criadas e compartilhadas em grande escala e pode acabar
promovendo uma sobrecarga informacional. Por esse motivo é recomendado que os atores as
classifiquem de acordo com sua relevância para manter o controle da quantidade de informação
essencial e não promover a assimilação e o armazenamento em excesso.
Quando uma informação é inserida na rede ela pode ser visualizada de forma fácil para
todos os autorizados, mas existem formas de atores não autorizados conseguir acesso a elas,
utilizando softwares ou conhecimento em programação, e compartilhá-las em outros ambientes,
dessa forma aumentando o seu fluxo. Com isso percebe-se que as informações nas redes sociais
possuem fluxos diferentes dependendo de seus emissores, receptores e quem as compartilham.
2.6 Considerações parciais
Neste capítulo foram apresentados os principais conceitos relacionados a dados, infor-
mação, conhecimento, redes sociais, ciclo de vida da informação e fluxo informacional nas
redes sociais. No âmbito do trabalho como um todo, tais definições se tornam importante e
fundamentais por serem a base de conhecimento sobre o objeto de estudo considerado, isto é, o
conjunto de postagens em perfis de usuários suspeitos de atividades terroristas e de tiroteio em
massa, uma vez que permitem a geração de subsídio para uma abordagem focada e direcionada à
aplicação de soluções computacionais para o levantamento de padrões nas mensagens de tais
perfis.
21
CAPÍTULO
3
MINERAÇÃO DE DADOS E TERRORISMO
3.1 Introdução
A área de tecnologia da informação tem avançado constantemente e, a partir disso, o
armazenamento de grandes quantidades de base de dados tem sido possível (GOLDSHMIDT;
PASSOS, 2005). Com o crescimento na produção de dados e a constante ocorrência da sobrecarga
informacional, adquirir uma resposta para problemas informacionais se tornou cada vez mais
difícil e requer mais habilidades tecnológicas. A acumulação de uma imensa quantidade de
dados ocorre todos os dias, e torna-se preciso utilizar algo que ajude na extração de informação
útil (FAYYAD; HAUSSLER; STOLORZ, 1996). Para auxiliar nessa demanda de novos recursos
que possibilitem ajudar na análise de dados foi desenvolvida a mineração de dados, que pode ser
vista como uma etapa do processo de Descoberta de Conhecimento em Base de Dados (KDD -
Knowledge Discovery in Databases). A mineração de dados pode ser aplicada em diferentes tipos
de conjuntos de dados, tais como imagens, áudio, vídeo, e em dados textuais, mesmo no âmbito
de textos curtos, como é o caso explorado no presente trabalho, que utilizada como população de
pesquisa um conjunto de dados extraídos do Twitter, os quais têm como característica um limite
máximo de 280 caracteres.
A utilização de textos curtos e de redes sociais dificulta o processo de mineração de texto
de várias maneira, como por exemplo o contexto de informalidade presente nas plataformas
virtuais. Vários analistas e tomadores de decisão precisam extrair e analisar dados removidos de
mídias sociais, normalmente com um prazo estipulado (BOHLOULI et al., 2015). Segundo os au-
tores, o maior desafio para aplicações computacionais é o gerenciamento das grandes quantidades
de dados gerados. Por isso a comunidade científica busca por resposta para achar conhecimento
presente no grande fluxo de dados (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992).
Para Bohlouli et al. (2015), existem quatro critérios que devem ser levados em conta
ao utilizar dados de redes sociais: variedade, volume, velocidade e valor. Levando isso em
Capítulo 3. Mineração de dados e terrorismo 22
consideração, os métodos de análise desses dados devem ser adequados às suas classificações
para extrair o conhecimento desejado.
A partir disso, este Capítulo se propõe a discutir os principais conceitos relacionados a
mineração de dados, sua importância no processo KDD, e a sua exploração no âmbito de análise
de dados e geração de informação a partir de textos curtos. Neste sentido, ainda são explorados
conceitos e definições relativos aos principais métodos de mineração de dados, considerando
técnicas de agrupamento, classificação e associação, assim como sua relação como o presente
trabalho. Finalmente, também serão apresentados e discutidos trabalhos relacionados ao tema
central desta pesquisa, a utilização de soluções baseadas em mineração de dados no apoio à
compreensão do comportamento de indivíduos classificados como terroristas ou atiradores em
massa.
3.2 O Processo KDD
A descoberta de conhecimento é a extração de informação implícita, potencialmente útil
e previamente desconhecida (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992). O termo
KDD foi citado pela primeira vez em um workshop em 1989 para enfatizar que o conhecimento
é o produto final da análise de dados, e desde então tem sido popularizado nos campos de
aprendizado de máquina e inteligência artificial (FAYYAD; HAUSSLER; STOLORZ, 1996).
Devido ao grande volume de dados, o modelo tradicional de transformação de dados
em conhecimento (tratando manualmente por especialistas que produzem relatórios para serem
analisados) se torna inviável (CAMILO; SILVA, 2009). Existe uma crescente lacuna entre
a capacidade de coleta de dados e a habilidade de especialistas de analisá-los (FAYYAD;
HAUSSLER; STOLORZ, 1996). A partir do reconhecimento da sobrecarga informacional
como um problema causado pela era da informação, o processo KDD foi proposto como
uma tentativa de resolvê-lo (CAMILO; SILVA, 2009). O KDD foca no processo geral de
descoberta de conhecimento em base de dados, incluindo como os dados são armazenados
e acessados, a maneira como os resultados podem ser interpretados e visualizados e busca
promover ferramentas para automatizar todo o processo de análise de dados e seleção de
hipóteses (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).
O KDD é um processo dinâmico, na qual não existe uma regra de sequência que deve ser
seguida. Pode-se retornar a qualquer fase a partir de qualquer ponto. Ele é um processo interativo
e iterativo (feito várias vezes) que envolve várias etapas como preparação dos dados, busca
por padrões, avaliação do conhecimento e refinamento (FAYYAD; PIATETSKY-SHAPIRO;
SMYTH, 1996). A principal maneira de representar esse processo é a partir do esquema ilustrado
pela Figura 1. Nesse processo é identificável cinco fases para a obtenção do conhecimento.
Em primeira instância é necessário selecionar os dados sob os quais serão feitas as
análises. A partir de um conjunto de dados é extraído apenas aqueles que interessam o usuário e
Capítulo 3. Mineração de dados e terrorismo 23
Figura 1 – Representação do processo KDD
Fonte: Adaptado de Fayyad, Piatetsky-Shapiro e Smyth (1996).
podem afetar os resultados. Posteriormente é feito o pré-processamento destes dados. Nesta etapa
é utilizadavárias técnicas para corrigir dados inconsistentes e remover partes desnecessárias
dos dados de forma que todos eles possam ser interpretados de forma correta pelos algoritmos
(ATTUX, 2017). Com os dados pré-processados é feita a próxima etapa do processo: a transfor-
mação. Na transformação, os dados são alterados para um formato apropriado e padronizado
para a execução do algoritmo de mineração de dados (AMO, 2004).
Após os dados serem transformados para uma forma adequada para manipulação, eles
passam pelo processo de mineração de dados. É neste processo que serão obtidos padrões que
possam ser interessantes para a obtenção do conhecimento (AMO, 2004). Esses padrões são
obtidos a partir da análise descritiva dos dados e da utilização de algoritmos de aprendizado
de máquina (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). Já na etapa de avaliação,
segundo Amo (2004), é onde o usuário, levando em conta seus critérios de importância de cada
informação, identifica os padrões interessantes para seu objetivo.
3.3 Mineração de Dados
Diversos trabalhos exploram soluções que utilizam dados de redes sociais, abordando
desde questões relacionadas à predição de resultados, até fatores ligados à análise de sentimentos.
Devido a grande quantidade de dados que é gerada diariamente nas redes sociais, a mineração
de dados é uma estratégia muito utilizada para filtrar dados úteis, diminuir a abundância de
dados irrelevantes e observar padrões. A mineração de dados surgiu a partir do aprendizado de
máquina, se relacionando a ele de diversas formas (PROVOST; FAWCETT, 2016). Segundo
Attux (2017), a principal função da mineração de dados é passar por uma grande quantidade
de dados procurando padrões e relações entre eles de forma que eles possam ser agrupados.
Os dados devem ser considerados ativos, ou seja, algo que possui informações importantes, e
precisa-se pensar as melhores maneiras de utilizá-los (PROVOST; FAWCETT, 2016).
Capítulo 3. Mineração de dados e terrorismo 24
A maneira que os dados são explorados pode ser o critério principal para sua utilização
eficiente. A mineração de dados é um exemplo de processo para utilizar os dados de forma
correta para gerar conhecimento. Existem diversos conceitos de mineração de dados. A definição
segundo Cortes, Porcaro e Lifschitz (2002, p. 1) é “um processo altamente cooperativo entre
homens e máquinas, que visa a exploração de grandes bancos de dados, com o objetivo de extrair
conhecimentos através do reconhecimento de padrões e relacionamento entre variáveis” obtidas
a partir de técnicas estatísticas confiáveis. Em concordância, Provost e Fawcett (2016), afirmam
que mineração de dados consiste na atividade de localizar padrões utilizando dados em um
conjunto definido.
O processo de mineração de dados depende de técnicas de reconhecimento de padrões,
aprendizado de máquina e estatística para poder reconhecer padrões nos dados (FAYYAD;
PIATETSKY-SHAPIRO; SMYTH, 1996). No âmbito de utilização de redes sociais, Bae, Son
e Song (2013) afirmam que através de observações sobre dados provenientes da rede social
Twitter é possível detectar e prever mudanças de tendências sociais, afirmando ainda que tais
observações são mais efetivas que outras realizadas com base em mídias de notícias.
A mineração de dados consiste em um processo que utiliza várias técnicas diferentes para
alcançar seu objetivo. As principais são classificação, agrupamento e associação. A classificação
é feita a partir da observação de diferentes características de objetos distintos para encontrar o
que eles têm em comum e colocá-los em uma classe pré-definida, na qual, ao observar um objeto
novo, é possível perceber as similaridades de cada característica e associá-lo à seus semelhantes
Provost e Fawcett (2016). Já no agrupamento, também conhecido como clusterização, as classes
não são pré-definidas, mas são estabelecidos critérios para definir a similaridade entre os atributos
para dividir um grupo heterogêneo de dados de entrada de forma que os pertencentes de um
grupo são mais similares entre si comparados aos outros grupos (PETERMANN, 2006). Na
associação, é identificada a relação entre atributos de forma que é visualizado o padrão de
ocorrência é relação entre eles, por exemplo, quando um atributo existe em um dado, então um
outro atributo deve existir também (CAMILO; SILVA, 2009)).
A mineração de dados é muitas vezes confundida com o processo KDD, porém, a
mineração de dados é apenas uma etapa deste processo. Para Fayyad, Piatetsky-Shapiro e Smyth
(1996), o processo KDD se refere ao descobrimento de conhecimento útil a partir de dados, já
mineração de dados trata de passos específicos desse processo, sendo a aplicação de algoritmos
para a extração de padrões em dados.
Para ser feita a mineração de dados, estes devem ser compreendidos em função de
solucionar o problema desejado, pois podem haver dados que contenham informações diferentes,
mas quando relacionadas, podem melhorar a conquista dos objetivos determinados (PROVOST;
FAWCETT, 2016). Segundo os autores, depois de compreender os dados, eles devem ser
preparados de forma que gerem melhores resultados, porém, algumas tecnologias analíticas
utilizadas nesse processo exigem que os dados estejam em um formato específico, e muitas vezes
Capítulo 3. Mineração de dados e terrorismo 25
diferentes do original. Para isso elas devem ser pré-processadas antes de serem usadas. Alguns
exemplos de preparação dos dados são a conversão dos dados para formato tabular, remoção dos
valores faltantes e também a colocação dos dados em um padrão único e específico.
Por estar disponível em diversas fontes e possuírem fácil acesso, os textos são elementos
muito utilizados para gerar informação e conhecimento (PROVOST; FAWCETT, 2016). Nos
textos, existem uma grande quantidade de informações dispensáveis e por isso também devem
ser pré-processados (CAMILO; SILVA, 2009). Por possuir uma estrutura linguística que não
foi criada para computadores, o texto é chamado de dado não estruturado, de maneira oposta
às tabelas que conseguem ser reconhecidas da forma que são (PROVOST; FAWCETT, 2016).
Segundo Scarinci e Oliveira (2001), os dados não estruturados necessitam de mecanismos com-
putacionais diferentes dos tradicionalmente usados, para que possam ser coletados, armazenados,
manipulados e consultados”.
Devido ao imenso número de dados disponíveis, existem obstáculos na aplicação da
mineração. Alguns fatores que aumentam a dificuldade de aplicar a mineração de texto é devido
às pessoas escreverem, em muitas ocasiões, utilizando a gramática errada, soletrando errado,
abreviando de forma imprevisível e pontuando de maneira aleatória (PROVOST; FAWCETT,
2016). Os autores citam o contexto como um fator importante para a compreensão da ideia
geral do texto, mas para várias técnicas de mineração de texto as palavras são observadas
individualmente, desconsiderando seu contexto. Já Tumitan (2014), identifica como dificuldade
na mineração de texto a grande quantidade de correferência (quando duas ou mais expressões se
referem a mesma coisa). Nas redes sociais, o autor expõe a dificuldade em virtude da linguagem
informal utilizada. Na linguagem informal existem diferentes maneiras de escrever uma única
palavra, e, várias vezes, variando de grupos, a escrita varia da mesma forma.
3.4 Técnicas de Mineração de Dados para Textos Curtos
É visível o crescimento do tráfego de informações desde a popularização do Twitter, que
permite seus usuários postarem textos curtos (máximo de 280 caracteres, previamente 140) em
tempo real e compartilhar o que estão fazendo ou pensando (SILVA, 2016). O Twitter é uma
das redes sociais mais famosas no âmbito de publicação de textos curtos. Mesmo que exista
um limite máximo de caracteres por tweet, Silva (2016) expõe que, em geral, os usuários não
aproveitam de todos esses caracteres e têm como padrão postagens com 28 caracteres. Utilização
de poucas palavras parece facilitar o processo de mineração de dados, mas de fato a atrapalha.
Isso se dá pelofato de que os usuários passam a usufruir de outros recursos para passar suas
ideias. A utilização de emoticons (símbolos especiais que representam expressões faciais) e
abreviações são algumas delas.
Devido a esses fatores, os textos curtos são mais difíceis de serem analisados. Pra essa
análise ser feita, segundo Leong, Lee e Mak (2012), os dados devem ser processados de maneira
Capítulo 3. Mineração de dados e terrorismo 26
que cada termo escrito é categorizado em uma classe gramatical (substantivo, verbo, adjetivo,
advérbio, conjunção, pronome, artigo, numeral, preposição e interjeição) para identificar as
ideias centrais. Os autores citam, também o mapeamento dos radicais de cada palavra, tornando
mais fácil identificar suas origens a classificá-las da mesma maneira. A remoção de stop words
também deve ser feita, estas são palavras que quando retiradas dos textos não alteram seus
significados, por exemplo: artigos.
Outros desafios no tratamento de dados são a variação na ortografia, quantidade de dados,
estilo de linguagem e contexto multilingual (SILVA, 2016). A variação da ortografia é dada
devido a espontaneidade do ambiente virtual o que faz com que os usuários não se importem com
regras ortográficas. Mesmo que os dados sejam curtos, a sua quantidade é vasta. Em 2015 foi
anunciado que, por dia, foram postados, aproximadamente, 500 milhões de tweets (BOHLOULI
et al., 2015). Os estilos de ortografia também influenciam na análise. Textos jornalísticos possuem
escritas mais formais, comparados às publicações dos outros usuários (SILVA, 2016). Por ser
uma plataforma mundial, o Twitter possui publicações em vários idiomas o que dificulta a sua
avaliação.
Silva (2016) fez uma análise de sentimentos em textos curtos da rede social Twitter.
Em seu trabalho foram destacadas as principais dificuldades encontradas ao tratar esses textos:
o tamanho do texto (na ocasião, o Twitter disponibilizava um máximo de 140 caracteres por
postagem, posteriormente a rede social aumentou esse limite para 280); por se tratar de textos
curtos, a opinião é expressa em poucas palavras e essas palavras podem não estar disponíveis no
dicionário de palavras pré-computado e relacionadas a um sentimento; a variação ortográfica
é outra grande dificuldade quando precisa-se tratar textos curto como os de redes sociais, pois
como se trata de um contexto informal, os usuários não aplicam um rigor ortográfico de escrita;
o contexto multilinguístico também foi apontado como uma dificuldade pois vários usuários,
ao escrever textos em redes sociais, gostam de usar palavras estrangeiras para enfatizar alguma
parte de seus textos.
3.5 Revisão de Trabalhos sobre Terrorismo
O terrorismo pode ser compreendido como uma crueldade feita por pessoas, contra
pessoas, apenas para passar uma mensagem violenta em oposição às suas ideologias. Ao acompa-
nhar as notícias atuais, se percebe uma menção rotineira de atos terrorista acontecendo ao redor
do mundo. A mídia nunca divulgou tanto esses ataques como está fazendo no século XXI. Ao
filtrar as noticias publicadas na Internet por ano e por assunto, sendo que o assunto pesquisado foi
terrorismo. O site buscador indica a quantidade de resultados retornados. Com isso foi possível
verificar em cada ano desejado, q quantidade de notícias relacionadas a terrorismo. Esses dados
foram utilizados para gerar a Figura 2, na qual é possível perceber o grande aumento dessas
Capítulo 3. Mineração de dados e terrorismo 27
publicações considerando os últimos 5 anos, com o maior aumento entre os anos de 2017 e 2018
(aumento de 72000 notícias).
Figura 2 – Quantidade de notícias sobre terrorismo publicadas por ano na Internet
Fonte: Elaborado pela autora.
De certa forma isso serve como estímulo para diversos terroristas fazerem seus ataques,
visto que, dessa forma, conseguirão atingir maior fama por seus atos. Além disso, com o uso
das redes sociais, a divulgação desses ataques acontecem com muito mais rapidez. Como vários
terroristas querem passar uma mensagem com seus feitos, alguns divulgam previamente suas
ideias ou interesses em suas redes sociais. E essas informações são de extremo valor para
identificar possíveis terroristas antes que eles façam suas ideias tornarem realidade.
A utilização de redes sociais por grupos terroristas aumentou após o 11 de setembro de
2001, quando um dos atentados terroristas mais famosos aconteceu em Nova York, assim como
o interesse em estudar terrorismo. Segundo Gaibulloev e Sandler (2019), após os atentados de
11 de setembro, economistas começaram a utilizar econometria (ferramentas estatísticas para
avaliar relação entre variáveis econômicas) para analisar se o terrorismo teve consequências
macroeconômicas, como aumento nos investimentos. As tecnologias virtuais começaram a
ser utilizadas ativamente para recrutamento, publicação de propaganda, coordenação de novos
ataques, treinamento de membros a partir de fóruns ou grupos, compartilhamento de manuais
de bombas e armas utilizadas em atos terroristas e diversas outras atividades (OH; AGRAWAL;
RAO, 2011).
Primeiramente deve ser feita a explicação de o que é caracterizado como terrorismo, já
que existem várias definições publicadas para esse termo. O conceito de terrorismo pode ser
delicado para alguns e possui uma facilidade de ser confundido com outros tipos de ataques à
sociedade. A definição do dicionário para a palavra terrorismo é: “modo de coagir, combater
Capítulo 3. Mineração de dados e terrorismo 28
ou ameaçar pelo uso sistemático do terror” (FERREIRA, 2008). Porém, este significado é
muito vago e define uma ampla quantidade de acontecimentos que não são, necessariamente,
terrorismos, o que causam uma grande confusão. Um dos acontecimentos que mais se confundem
com o terrorismo é o tiroteio em massa. Enquanto alguns tiroteios em massa são praticados sem
um alvo específico, outros são massacres e genocídios que pretendem exterminar toda as pessoas
que se enquadram no perfil escolhido. Esta é uma das principais diferenças entre o terrorismo e
outros atos violentos. O terrorismo não busca matar em massa, “abrangendo quantitativamente o
maior número de indivíduos, e sim praticar uma violência qualitativa, com métodos econômicos,
quase cirúrgicos” (WELLAUSEN, 2002). Um critério crítico para a distinção do terrorismo
entre os vários tipos de violência é o parâmetro político, que é primordial para entender seus
alvos, propósitos e motivações (HOFFMAN, 2006). Porém eles possuem a semelhança de matar
pessoas normais, cada um com seus motivos pessoais.
No âmbito acadêmico, existe uma variação de estudos utilizando terrorismo como seu
foco principal. Em sua maioria, o ponto central é a teoria por trás dos acontecimentos, por
exemplo a definição, os diferentes tipos, a psicologia dos atos e os acontecimentos que desen-
cadeiam após os atos. Entretanto, também existem trabalhos práticos que utilizam ferramentas
para averiguar exclamações e dúvidas sobre o tema.
No estudo de Wellausen (2002), assim como na obra de Hoffman (2006) foram abordados
definições e acontecimentos históricos em torno do terrorismo. Os autores descrevem diferentes
definições de terrorismo, sua relação com o racismo e a religião, o perfil dos terroristas, como
o terrorismo é tratado na mídia, estratégias utilizadas por eles, a forte relação que o terrorismo
possui com os Estados Unidos, abordando ainda um pouco da história de Osama Bin Laden (um
dos terroristas mais conhecidos no mundo) e como o terrorismo vem se modificando ao longo
dos anos.
Já com foco nas redes sociais, Oh, Agrawal e Rao (2011) propuseram analisar o Twitter
como a fonte de informações utilizada pelos terroristas que atacaram Mumbai na Índia em 2008.
Os autores conseguiram concluir com sua pesquisa que os terroristas utilizaram as mídias para
monitoramento ao vivo, com o objetivo de aumentar sua compreensão do cenário em que queriam
agir e a partir do compartilhamento de informações na rede social, influenciando o processo de
tomada de decisão dos organizadoresdo ataque.
Outro estudo com foco em redes sociais é o de Alzahrani et al. (2018), que discute
métodos variados utilizados por terroristas nas mídias sociais para aumentar sua exposição; e
pretende identificar como a estrutura das mídias sociais, a quantidade de dados disponíveis, e o
entendimento do idioma apresenta desafios e oportunidades para o controle. A estratégia proposta
pelos autores foi a mineração de dados e processamento de linguagem natural, com a proposta de
analisar a escrita dos terroristas e as redes sociais, afim de desvendar a estrutura e as associações
de grupos terroristas e suas atividades. Essas técnicas são importantes para escanear a Internet,
encontrar materiais indesejados para que sejam denunciados e analisados (ALZAHRANI et al.,
Capítulo 3. Mineração de dados e terrorismo 29
2018). Foram percebidos padrões característicos de informações relacionadas ao terrorismo a
partir dos textos analisados. Uma metodologia citada pelos autores para estudar grupos violentos
é o mapeamento das características do grupo, verificar suas associações, com quem eles mantém
uma comunicações frequentes e quais os impactos provocados por eles. Com a identificação
dessas informações, é possível verificar os métodos utilizados por terroristas para espalhar suas
mensagens nas redes sociais e suas estruturas de funcionamento.
Já a pesquisa de Cheong e Lee (2011), cita a utilização, especificamente, do Twitter,
como um meio de notificar a sociedade e até mesmo fonte de informações das autoridades
(utilização das imagens e declarações de testemunhas). Como atos terroristas são difíceis de
prever, para testar sua teoria, os autores observaram postagens derivadas da segunda edição
do Paz Sin Fronteras (concertos de artistas diversos para representar a união e encorajar as
pessoas a pensar de uma nova maneira) e a final preliminar da Liga de Futebol Australiano
(AFL). Esses eventos foram escolhidos pois possuem características de um evento localizado em
ambientes urbanos, assim como os atos terroristas. Como resultado, foi exibido que a maioria
das pessoas que estavam tuitando sobre os acontecimentos, o faziam de um dispositivo fixo (ex.:
computadores) e outros, em menor quantidade, de dispositivos móveis (ex.: smartphones). Esses
dados simbolizam que as informações compartilhadas no Twitter de um evento específico não são
feitos, em maioria, por quem está no local, vivenciando o acontecimento de perto, e sim apenas
pessoas compartilhando seu ponto de vista ou comunicando com quem está presencialmente no
evento.
Investigando, principalmente, como membros/apoiadores do Estado Islâmico usam o
Twitter para comunicação, propaganda, recrutamento e radicalização, nos estudos de Chatfield,
Reddick e Brajawidagda (2015) foram coletados 3.039 tweets postados por uma conta identificada
como o disseminador de informações do Estado Islâmico, nos quais foram feitos análises de
tendência e conteúdo. As análises foram feitas de forma a observar a data de publicação, as
hashtags, o conteúdo e as contas mencionadas. Como resultado da análise, foi percebido que
existem quatro populações distintas que fazem parte do ambiente de comunicação do Estado
Islâmico: a mídia internacional (principal foco), a mídia na região da Arábia, os combatentes do
Estado Islâmico e os admiradores do mesmo. Na análise de conteúdo os tweets foram divididos
em quatro grupos: propaganda (informações tendenciosas para promover uma causa ou ponto de
vista político), radicalização (apoio a conflitos e violência entre grupo), recrutamento (convencer
jovens a se juntar a eles) terrorista e outros (tweets que não se encaixam em nenhuma das outras
categorias). Os autores concluíram seu trabalho com a afirmação de que a análise de redes sociais
pode ser uma ferramenta poderosa para descobrir tendências ocultas e podem ser utilizadas
estrategicamente para lutar contra o terrorismo.
De forma semelhante ao presente estudo, a pesquisa de Elovici et al. (2004) utiliza
mineração de dados para analisar o conteúdos relacionados ao terrorismo . Porém, seu foco é
utilizar sites associados a terrorismo para aprender o comportamento de terroristas e utilizar
Capítulo 3. Mineração de dados e terrorismo 30
esses perfis para detectar, em tempo real, suspeitos de engajarem em atividades terroristas. Os
autores observaram vetores que indicam se os sites possuem comportamento típico de terrorismo
e agrupa os termos utilizados em cada página a partir dos interesses de terroristas previamente
identificados. A partir desses termos é possível identificar outros comportamentos semelhantes e
determinar se são de terroristas e tomar ações necessárias com base nos resultados obtidos.
Diferente dos artigos previamente citados, o artigo de Burnap et al. (2014) utilizou
técnicas de regressão para prever o tamanho do fluxo de informações (propagação ao longo
do tempo dos tweets pela, ação de retweetar) e a sobrevivência dos tweets relacionados a
acontecimentos terroristas. Com seus experimentos, os autores verificaram que os sentimentos
expressados nos tweets e os usos das hashtags são estatisticamente previsíveis. Porém, um
modelo sugeriu que fatores sociais explicam a maior quantidade de variação, seguindo por
fatores de conteúdo e fatores temporais. O que na realidade não foi correto. Foi descoberto que o
número de seguidores e os tweets postados previamente representam mais variações, por isso,
quando ocorre um ato terrorista, o fator social de quem tuíta é a variável mais importante para a
propagação de um tweet. Já para a sobrevivência do tweet, o conteúdo explica a maior quantidade
de variação, seguido por fatores temporais e sociais, o que sugere que para criar uma informação
que dure mais depois de tais eventos, o conteúdo dos tweets deve ser a parte mais pensada, como
a inclusão de hashtags, URLs e sentimentos positivos. Este estudo serviu como evidência que
os fatores emocionais do tweet são preditores do fluxo da informação e a sobrevivência desta
informação. Contrário do que a maioria acredita, mesmo que exista uma grande quantidade de
tweets negativos seguindo atos terroristas, eles falharam em se propagar, mostrando que, no geral,
os usuários do twitter tendem a propagar conteúdos positivos.
3.6 Considerações parciais
Neste capítulo foram definidos os processos do método de descoberta de conhecimento
em base de dados, mineração de dados e mineração de dados em textos curtos. Para este
trabalho, a definição destes métodos é de suma importância, pois estes são os principais métodos
utilizados para coleta, processamento e análise dos dados presentes neste estudo. Com a sua
utilização é possível investigar padrões para promover o alcance do objetivo desta pesquisa.
Portanto, é preciso primeiramente defini-los de forma que fique claro suas funcionalidades e
seus propósitos para que exista o melhor entendimento das próximas etapas da pesquisa. Além
disso, foi apresentada uma discussão acerca dos trabalhos relacionados, de modo a permitir tecer
as contribuições do presente trabalho, onde deverá ser realizada a utilização de mineração de
dados e processamento de linguagem natural para a detecção de padrões em tweets identificados
como de terroristas e atiradores em massa.
31
CAPÍTULO
4
METODOLOGIA
4.1 Introdução
O presente trabalho é uma pesquisa de campo, de finalidade aplicada e tem caráter quanti-
tativo. Ela está dividida em cinco momentos seguindo o método KDD explicitado anteriormente.
Cada capítulo apresenta fases da pesquisa, contendo o método utilizado para a seleção dos dados,
a etapa de pré-processamento dos dados, a transformação dos dados, a análise de sentimentos e
o método de identificação de similaridades entre termos e postagens.
4.2 Seleção de Dados
Com base no objetivo principal deste trabalho, a amostra utilizada foi um conjunto de
postagens em perfis identificados como de terroristas ou atiradores de tiroteios, especificamente
na rede social Twitter. Neste sentido, é importante destacar que não existe uma base de dados
previamenteidentificada para o objeto de estudo em questão, sendo então, desta maneira,
necessário realizar a coleta dos dados utilizando mecanismos de extração de dados.
A partir disso, foi construída uma lista com o nome de quarenta e dois terroristas e
atiradores. Foram inseridos também grupos terroristas, uma vez que no Oriente Médio estes são
os principais causadores de ataques terroristas. A lista de nomes foi obtida a partir de pesquisas
realizadas em buscadores web, utilizando o termo “terrorista” como chave. Como resultado,
foram encontrados vários sites de notícias reportando o acontecimento de ataques terroristas
com citação dos nomes dos autores, podendo, dessa forma, confirmar a autoria dos atentados e
recolher esses nomes para a lista.
Com base nessa lista de nomes pôde ser feita a pesquisa para obter acesso à página
do Twitter dos mesmos. Para isso foi feito novamente uma pesquisa em buscadores com duas
palavras chave: o nome do autor do ataque e “Twitter”. Dessa forma foram obtidas outras notícias
Capítulo 4. Metodologia 32
que citavam o uso da rede social pelo autor mencionado. Quando era citado um tweet, era exibido
uma foto da postagem referida, na qual continha o nome de usuário do autor. Com isso foi
possível encontrar a conta real do mesmo. Após a busca, foi possível encontrar doze contas do
Twitter nas quais os responsáveis eram autores de tiroteios ou terrorismo, com isso, as pessoas
que não possuíam contas no Twitter foram retirados da lista, restando apenas os que contribuem
para a pesquisa.
Algumas das pessoas da lista possuíam contas pessoais, mas foram suspensas pelo
Twitter. O Twitter pode excluir contas temporariamente ou permanentemente caso seja detectado
uma violação de suas regras. As contas também podem ser denunciadas por outros usuários e
depois avaliada pelo Twitter se devem, ou não, serem excluídas. Segundo o site do Twitter1, os
motivos que fazem com que uma uma conta seja suspensa são: spam, segurança da conta em
risco e tweets ou comportamentos agressivos. Para essas contas suspensas o método de coleta foi
diferenciado.
Na fase de extração dos tweets para análise, o idioma dos textos não foi uma propriedade
importante, pois posteriormente será feita a tradução de todos eles para o inglês que é sua língua
predominante. Para essa etapa foi utilizado uma solução em Python, o módulo tweepy, o qual
através de extração de dados via API (Application Program Interface) do Twitter, permite a
realização das rotinas de obtenção dos dados desejados. Essa API foi escrita em linguagem
Python (uma das línguas mais populares para computação científica (PEDREGOSA et al.,
2011)).
A partir do desenvolvimento da solução computacional para extração das postagens, foi
realizada a coleta de dados para cada uma das contas identificadas e ativas. Esse método de
coleta possibilita a retirada de no máximo 3240 tweets e retweets de cada perfil. O resultado
dessa coleta foi a criação de vários arquivos em formato CSV (valores separados por vírgula) que
contém os textos dos tweets e retweets armazenados em linha diferentes, mas na mesma coluna.
Já para os tweets de contas suspensas, foi utilizado um servidor web que armazena
imagens de sites, o Way Back Machine, o qual possui um banco de dados que arquiva bilhões de
sites desde 1996. Com ele é possível selecionar uma data e visualizar como uma página online
era nesse dia. Para coletar esses tweets foi necessário utilizar a técnica de web scraping. Este é
um método automático de coleta de dados digitais que os armazenam de maneira estruturada
(SLAMET C.AND ANDRIAN et al., 2017). Diante disso, foi elaborado um script em Python
que recebe o URL da página que se deseja retirar os dados e analisa o seu código fonte. É
informado também quais são as partes do código fonte que possuem os textos dos tweets. A
partir disso o programa passa por todo o conteúdo da página até encontrar a parte desejada e a
armazena em um novo arquivo CSV da mesma maneira dos arquivos previamente explicados.
1 https://help.twitter.com/pt/managing-your-account/suspended-twitter-accounts
Capítulo 4. Metodologia 33
Com esses dados coletados, a próxima fase é a normalização desses textos, fazendo
retirada de caracteres especiais, colocando todas as letras em minúsculo e aplicando rotinas para
tradução ao inglês, idioma este utilizado na etapa de análise de sentimentos.
4.3 Pré-processamento de Dados
Para que os dados estejam em uma forma que possam ser explorados de maneira correta, é
necessário realizar um pré-processamento para padronizá-los. Esta etapa foi feita completamente
utilizando a linguagem de programação Python e seus recursos disponíveis para tratamento de
textos. Várias bibliotecas foram utilizadas nesta fase de pré-processamento, citadas posterior-
mente. As bibliotecas do Python são conjuntos de funções feitas com propósitos diferentes para
simplificar o uso da linguagem.
Como os dados foram retirados do Twitter apenas com o critério de quem os postou ter
sido responsável por algum ataque terrorista ou tiroteio em massa, os tweets foram encontrados
em várias línguas diferentes. Para que eles estejam padronizados, todos foram traduzidos para
o inglês, pois esta é a língua predominante encontrada nos dados. O método utilizado para
traduzi-los foi a biblioteca em Python de tradução de textos: googletrans. Esta biblioteca utiliza
uma API disponível do Google Tradutor. Para fazer a tradução, esta biblioteca detecta o idioma
da frase original e traduz para o idioma escolhido pelo usuário. Se necessário, o idioma do texto
a ser traduzido pode ser especificado para que o programa precise de menos processamento. Esta
tradução é feita utilizando os serviços do Google Tradutor que fornece a tradução instantânea de
palavras e frases e apresenta também sua pronúncia.
Após a tradução, os tweets passaram por uma etapa de retirada de caracteres especiais
e números utilizando a biblioteca re para operações em expressões regulares. Este tratamento
foi feito somente após a tradução, pois as pontuações utilizadas nos textos podem alterar o
significado da frase, deste modo a tradução converte-se em uma interpretação mais precisa e
menos sujeita a erros comuns, como a tradução literal.
Em seguida foram retirados todos os links e as imagens, pois eles não agregam nenhum
significado ao texto publicado. Nos tweets, as imagens são colocadas em forma de link do
Twitter, o que facilitou a sua remoção por possuir um padrão. Para isso foi utilizada novamente
a biblioteca re. Com ela é possível encontrar nos tweets todos os textos que possuem links e
imagens e, com a identificação do início de um link (“http”) e a identificação de uma imagem
(“pic.twitter.com”), retirar tudo o que vem em seguida até o final do link, restando somente o
texto principal.
Nesta fase os textos foram normalizados, sendo colocados em letras minúsculas; os verbos
foram diminuídos apenas para seus radicais, para que todas as suas variações em tempo verbal
sejam consideradas a mesma; os substantivos plurais foram transformados para o singular; e, por
fim, foram removidas as stop words (palavras comuns no idioma e que não adicionam valores
Capítulo 4. Metodologia 34
semânticos ao texto) (PROVOST; FAWCETT, 2016). Dessa forma os dados são padronizados e
facilitam a sua análise.
Para que a análise seja feita de maneira correta é preciso certificar que não existem
postagens duplicadas, do contrário a frequência dos termos ficará equivocada, prejudicando a
continuação da análise. A retirada dessas frases foi feita a partir de uma lista criada com todos
os tweets já pré-processados utilizando um script que checa na lista o atual tweet e se ele já se
encontra na lista geral, fazendo, assim, a sua remoção.
Os tweets que originalmente já estavam na língua inglesa passaram por apenas três etapas
do pré-processamento. Foram feitas somente a retirada de links e imagens, caracteres especiais,
números e tweets duplicados.
O produto desse processo foram doze arquivos CSV contendo apenas versões em inglês,
semlinks, imagens, caracteres especiais e repetições de todos os tweets publicados que foram
coletados anteriormente.
4.4 Transformação
Após a seleção e o pré-processamento dos dados, se houver necessidade, eles devem ser
transformados para o formato adequado de maneira que possam ser entendidos e utilizados na
etapa de mineração de dados.
O melhor formato de dados nessa situação é o formato CSV (comma separated values).
O CSV é um formato de arquivo no qual os dados são separados por vírgula, mas não exclusiva-
mente. O separador utilizado é escolhido conforme o critério de quem gerou o arquivo, podendo
ser qualquer caractere que deseja.
Devido a coleta dos dados ter sido feita com a finalidade de ser utilizada nesta pesquisa,
os dados foram coletados e salvos já no formato CSV, de maneira que eles não precisam ser
transformados para outro formato. Porém, foram feita a vetorização dos dados coletados, a qual
representa de forma numérica cada dado da base.
4.5 Análise de Sentimentos
Em consequência do desenvolvimento de sistemas e tecnologias da informação, diversos
tipos de dados têm sido continuamente gerados e armazenados (GOMES, 2012). Dessa forma,
a evolução de técnicas que extraem conhecimento de dados estruturados, não estruturados ou
semiestruturados tem sido de fundamental importância na geração de informação e descoberta
de conhecimento sob os mais variados aspectos, inclusive no que se refere à aplicação para a
solução de problemas em bases de dados textuais, voltadas, por exemplo, ao levantamento de
informações sobre sentimentos, opiniões e subjetividade em textos (PANG; LEE, 2008). Este
Capítulo 4. Metodologia 35
conjunto de técnicas pode ser usada para distinguir opiniões positivas de negativas a partir da
identificação e da classificação dos conteúdos emocionais originados dos usuários nas redes
sociais.
De modo geral, a análise de sentimentos pode ser descrita como uma solução que permite
realizar o rastreamento de grandes volumes de dados textuais em referência de um tema pré-
definido, gerando um relatório com a opinião de pessoas sobre este (ARAÚJO et al., 2012).
Ainda nesta linha, segundo Gomes (2012), análise de sentimentos é o trabalho que auxilia
na determinação automática de sentimentos em textos. Esses sentimentos podem ser muito
importantes na tomada de decisões em ambientes organizacionais, políticos, e sociais. Gomes
(2012) completa afirmando que a análise de sentimentos trata do estudo computacional acerca
dos sentimentos, emoções e opiniões expressadas através de textos.
Uma alternativa de se fazer a análise de sentimentos é aplicando a análise de emoticons
(ícones que representam emoções). Outra alternativa é utilizando o LIWC (Linguistic Inquiry
and Word Count 2) que é uma ferramenta comercial que possui um dicionário de palavras e suas
respectivas categorias de emoções. O SASA (SailAil Sentiment Analyzer 3) é outra ferramenta
baseada em aprendizado de máquina, de código aberto, proposta originalmente como método de
análise de tweets associados as eleições norte-americanas de 2012.
De maneira geral, é possível identificar três categorias de granularidade da análise
de sentimentos (LIU, 2012 apud SILVA, 2016). A granularidade de documento se refere a
classificação da opinião implícita no documento, identificando se ela expressa um sentimento
positivo, negativo ou neutro (PANG; LEE; VAITHYANATHAN, 2002 apud SILVA, 2016). A
granularidade de sentença que faz a subdivisão do texto em sentenças com o objetivo de analisar
cada uma delas individualmente expressam sentimentos positivos, negativos ou neutros (SILVA,
2016). Já na granularidade de aspectos, a análise é mais específica. É possível identificar sobre o
que a pessoa tem uma opinião, e não somente identificar a opinião, como faz a granularidade de
documento e de sentença.
Essa técnica pode ser utilizada para formar avaliações a partir de comentários e opiniões
do usuário. A análise de sentimentos também pode ser usada para melhorar o sistema de
recomendações em sites. Dessa forma o sistema não recomenda itens que recebem uma avaliação
negativa. Quando são detectados sentimentos positivos, o anúncio é mostrado, mas quando
sentimentos negativos são detectados, os anúncios são removidos. Além disso, ela pode ser usada
para detectar páginas online que possuam conteúdos sensíveis que sejam inapropriados para
a colocação de propagandas. Essa análise também pode ser usada no ramo de negócios. Uma
empresa analisa a opinião de seus clientes de forma que seja possível diferenciar as respostas
positivas das negativas. Fazendo isso, é possível melhorar os fatores negativos e manter os
positivos para obter a satisfação de seus clientes (PANG; LEE, 2008).
2 http://liwc.wpengine.com/
3 https://pypi.org/project/sasa/
Capítulo 4. Metodologia 36
Existem vários métodos para a análise de sentimentos. No presente trabalho será aplicado
uma abordagem que utiliza métodos Bayesianos com o intuito de fazer uma estimação. Thomas
Bayes, foi o matemático responsável por criar o importante teorema de probabilidade que
deu origem a estatística Bayesiana (ARA-SOUZA, 2010), apresentado na Equação 4.1, onde
P(c|x) se refere à probabilidade posterior da classe alvo em relação aos preditores, P(c) refere-
se à probabilidade a priori da classe, P(x|c) é a probabilidade responsável por representar a
probabilidade de preditor em relação à classe, e finalmente, P(x) é a probabilidade original do
preditor.
P(c|x) = P(x|c)−P(c)
P(x)
(4.1)
A estatística Bayesiana, diferente das estatísticas convencionais, é preditiva e possui
uma maneira diferente de tratar parâmetros indesejados, que são aqueles que não se quer fazer
inferências sobre, mas que não é desejado que elas interfiram nas inferências feitas sob os
parâmetros principais (BOLSTAD; CURRAN, 2017). No caso da utilização desses métodos
para fazer estimações, o analista precisa indicar possíveis classes de valores e a inferência
Bayesiana irá calcular a confiabilidade relativa de todo os valores comparando-os com as classes
já definidas previamente (BENAVOLI et al., 2017). Existem diversos cenários nos quais os
métodos Bayesianos estão sendo utilizados, podendo ser encontrado em áreas de estatística,
inteligência artificial e podendo ser aplicados a diversos contextos (ARA-SOUZA, 2010). Neste
estudo ela será utilizada para fazer inferências de sentimentos nos tweets de terroristas e atiradores
em massa.
A partir da estatística Bayesiana, é possível fazer a classificação dos tweets com relação
aos seus sentimentos. O classificador Naive Bayes é utilizado para fazer a classificação dos
tweets e relacioná-los a um sentimento. Para isso é preciso passar por uma fase de treinamento,
no qual alguns atributos já são relacionados a uma classe, e o classificador deve identificar os
padrões de cada classe para poder encaixar novos atributos às classes já identificadas (GOEL;
GAUTAM; KUMAR, 2016).
Para aplicar a classificação dos tweets de acordo com seus sentimentos no contexto deste
trabalho, foi utilizada uma base de treinamento pré-existente com diversas frases e as polaridades
associadas. Essa base de treinamento, chamada “Twitter US Airline Sentiment” foi obtida através
do site Kaggle4, após uma busca por base de dados rotuladas para análise de sentimentos.
Essa classificação consiste de termos em inglês, pois esse foi o idioma empregado nos tweets
recolhidos para a pesquisa. A partir dessa lista, a solução desenvolvida retira as stop words,
vetoriza cada termo presente nas frases, intitulando um número diferente para cada instância
e os associa ao sentimento no qual a frase foi classificada. Com cada termo já classificado, os
tweets coletados são submetidos à classificação. Com cada termo do tweet, já sem as stop words,
4 https://www.kaggle.com/
Capítulo 4. Metodologia 37
e vetorizados, o classificador procura cada termo na lista provida anteriormente e verifica seu
sentimento classificado, de acordo com a Equação 4.1. Caso um termo não esteja presente na
lista de treinamento, ele