Baixe o app para aproveitar ainda mais
Prévia do material em texto
MINERAÇÃO DE TEXTOS APLICADA À GERAÇÃO DE INFORMAÇÃO A PARTIR DE TEXTOS CURTOS: uma análise sobre a expressão social face à corrupção brasileira Isadora Campos Vaz1 Douglas Farias Cordeiro2 RESUMO: A corrupção é um dos problemas de maior gravidade no cenário político brasileiro e internacional. Diversas ações e estratégias têm sido desenvolvidas para prevenir, combater, e penalizar os possíveis culpados, como é o caso da operação Lava Jato da Polícia Federal do Brasil. A corrupção, além de possuir sérias implicações no âmbito político, também acaba por impactar a economia e a sociedade como um todo. Neste sentido, diversas são as manifestações relacionadas, como é o caso daquelas realizadas através de redes sociais. Neste contexto, este trabalho apresenta uma proposta de análise de publicações no âmbito da rede social Twitter, através da aplicação de métodos de mineração de dados, voltados à geração de informação e descoberta de conhecimento, auxiliando na compreensão da visão social e econômica por parte do cidadão em relação às ações desenvolvidas pelo Estado no combate à corrupção, assim como ao próprio fenômeno da corrupção. Palavras-Chave: Corrupção; Redes Sociais; Mineração de dados; Análise de Sentimentos. Abstract: Corruption is one of the most serious problems in the Brazilian and international political scenario. There are several actions and strategies to prevent, combat, and penalize possible culprits, such as the Lava Jato operation of the Federal Police of Brazil. Corruption has serious political implications, and affects the economy and society. In this sense, there are several related manifestations, such as those made through social networks. This paper presents a proposal for analysis of publications in the Twitter social network, through the application of data mining methods, aimed at generating information and discovering knowledge, helping to understand the social and economic vision of citizens regarding the actions taken by the state in the fight against corruption, as well as the phenomenon of corruption itself. From a total of 21.854 posts withdrawn from Twitter between july of 2018 and august of 2019, it was possible to verify the most used terms in all of the tweets and put them into three groups according to their similarities. Analyzing the sentiment represented in every tweet, it was visible to notice that the number of negative posts is significantly bigger than the positive and neutral posts. Considering the results, it is possible to say that the application of intelligent solutions is of great value and can help to support understanding scenarios, as well as in the verification of patterns and information. Keywords: Corruption; Social networks; Data mining; Sentiment analysis. 1 Graduação em Gestão da Informação. Faculdade de Informação e Comunicação – Universidade Federal de Goiás (UFG). 2 Doutorado em Ciências da Computação e Matemática Computacional, USP. Professor Adjunto da Faculdade de Informação e Comunicação (UFG), cordeiro@ufg.br. 2 1. INTRODUÇÃO A corrupção pode ser considerada como um fator de grande impacto social, com consequências que vão desde distorção no mercado financeiro, até implicações na realização de ações no âmbito das políticas públicas. Nesta linha, de acordo com Campos e Pereira (2016), a corrupção prejudica a sociedade em relação aos efeitos de diminuição de investimentos, queda de produtividade, queda da eficiência econômica e redução de insumos públicos. Entretanto, os próprios autores relatam que não existe um consenso em relação aos efeitos econômicos diretos da corrupção. Bonifácio e Ribeiro (2016) apresentam um estudo sobre as relações entre os atos de corrupção e envolvimento participativo político brasileiro. De acordo com os autores, existe um padrão positivo entre experiência com corrupção e ativismo político, ou seja, é possível se verificar uma maior propensão do envolvimento e engajamento político por parte da sociedade frente a corrupção. Paralelamente, as mídias sociais podem ser descritas como um dos principais meios de expressão e compartilhamento de ideias, opiniões e manifestações. Entre os microblogs, uma das mídias sociais mais conhecida é o Twitter. De acordo com o portal Statista (www.statista.com), o número de usuários ativos no Twitter em 2017 ultrapassou 330 milhões, sendo que quase 18 milhões referem-se a usuários do Brasil. Esses dados reforçam o fato de que as mídias sociais podem ser exploradas. Embora a quantidade de dados proveniente das mídias sociais, e no caso particular do microblog Twitter, é suficientemente adequada para a realização de análises e geração de conhecimento sob diferentes perspectivas e propósitos, seu processo relacionado ainda possui uma considerável complexidade, principalmente no âmbito da automatização de determinados conjuntos de rotinas. Uma das principais características das mensagens compartilhadas através do Twitter é a restrição na quantidade de caracteres, o que leva os usuários a utilizarem abreviaturas e emoticons. Além disso, o serviço de microblog ainda utiliza de hashtags como forma de marcação e indexação de seu conteúdo. Outro fator de grande importância é a própria geração de informação a partir de conteúdo de microblogs, o que acaba por demandar métodos e técnicas específicas (tratamento, padronização, classificação, análise e avaliação). Uma alternativa para os problemas característicos da análise de mídias sociais é a utilização de mineração de dados (GOLDSCHMIDT; PASSOS; BEZERRA, 2015) e deep learning (PATTERSON; GIBSON, 2017), áreas que, através de conjuntos de algoritmos específicos, proporcionam uma geração sistematizada e otimizada de informação e conhecimento, proporcionando a geração de análises mais amplas e agreguem maior valor aos resultados finais. Neste sentido, este artigo tem como objetivo apesentar uma proposta de realização de um estudo e desenvolvimento voltado para a construção de uma solução para monitoramento do serviço de microblog Twitter, com referência a conteúdos relacionados à corrupção política no Brasil, com a geração de resultados analíticos baseados em análise de sentimentos, frequência de termos, e classificação de Reinert (1990). Este estudo justifica-se pela 3 2. FUNDAMENTAÇÃO TEÓRICA 2.1. CORRUPÇÃO Corrupção é um termo que possui diversos conceitos, assumindo significados como: “ato ou efeito de corromper; decomposição; devassidão; depravação; suborno; peita” (FERREIRA, 2008, p. 271). Segundo Brei (1996), a corrupção é caracterizada como atos de trapaça, fraude, falsificação, extorsão, peculato, ganho ilícito, entre outros. A corrupção pode ser observada em diferentes variações, podendo ir de “pequenos desvios de comportamento à total impunidade do crime organizado” (BREI, 1996, p. 65). Theobald (1990) apresenta a corrupção como sendo o “uso da função pública, por parte do burocrata ou do político, para obtenção de ganhos privados”. Esses ganhos podem ser trocas de favores, ganhos financeiros ou qualquer tipo de recompensa que favoreça o corrupto e seus interesses. A Organização das Nações Unidas (ONU), em 2015, criou a United Nations Convention Against Corruption (Uncac) para combater a corrupção de forma mais eficiente. Para isso a ONU apontou sete principais ações consideradas corruptas: “suborno, desfalque/roubo/fraude, extorsão, abuso da função, favorecimento/nepotismo, exploração de conflito de interesses e contribuições políticas impróprias” (GEHRKE; BORBA; FERREIRA, 2017, p. 159). Power e González (2003) simplificam a definição de atos corruptos como sendo o uso de bens públicos para fins privados. A corrupção, normalmente, é relacionada a um ato ilícito. Para a maioria das pessoas ela é associada ao poder, aos políticos, às elites econômicas e aos servidores públicos. A noção de legalidade e ilegalidade são algo que envolvem a ideia de corrupção. Essanoção é vinculada à história e aos conjuntos de valores de uma sociedade. Portanto é possível considerar que culturas diferentes possuem concepções distintas sobre o que é legal ou ilegal, e consequentemente diferem em percepções de corrupção (SILVA, 1996). Durante os períodos de eleições, a corrupção é um dos fatores que podem ajudar os cidadãos a definir voto. Para Baptista (2013), a corrupção pode ser um grande obstáculo na busca por estabilidade e qualidade da democracia. Ultimamente ela pode ser identificada como um fenômeno cada vez mais visível por conta das publicações nas mídias brasileiras. Entretanto, Baptista (2013) percebe esse crescimento de notícias sobre corrupção não como o aumento de atos corruptos, mas sim como um melhor desempenho dos mecanismos de controle. Um dos pilares do estado democrático é o direito à informação como previsto na Constituição Federal do Brasil de 1988. A aquisição de informação é de grande importância para que a população tenha consolidação de cidadania (RODRIGUES, 2011). Com esse acesso é esperado que haja promoção de transparência e como resultado, menos corrupção. Nos estudos de Medeiros, Magalhães e Pereira (2013) foi constatado que, há mais de 200 anos existem leis para efetivar o direito de acesso à informação, entretanto, a maioria foi fomentada recentemente. Segundo os autores, a partir da transparência, a população se sente mais confiante no governo. É plausível perceber que as opiniões das pessoas são fortemente influenciadas pela disseminação da informação através do noticiário (BAPTISTA, 2013). No Brasil, diariamente encontra-se escândalos políticos, mas a sociedade se sente impotente. A corrupção passa a ser tolerada e os cidadãos 4 apenas aguardam qual será o próximo escândalo que aparecerá nas mídias (FILGUEIRAS, 2009). A exposição da corrupção nas mídias nacionais e internacionais vem aumentando ao longo dos anos. Alguns eventos citados por Gerhrke, Borba e Ferreira (2017), que favoreceram essa exposição foram os Jogos Olímpicos e a Copa do Mundo. Segundo os autores, entre 2003 e 2014, de todas as publicações sobre o Brasil nas principais revistas das quatro grandes economias ocidentais (Estados Unidos da América, Alemanha, Reino Unido e França), 7,3% são sobre corrupção, contudo, na revista Veja essa porcentagem sobe para 15,6%, no entanto, a quantidade de relatos sobre corrupção é muito inferior àquela que realmente acontece. O jornalismo político moderno é, em sua maioria, constituído por escândalos políticos, como corrupção. Para a teoria liberal do jornalismo, a fiscalização do sistema político, do governo, dos partidos e dos próprios políticos é uma das principais funções da imprensa (AZEVEDO, 2010). Mesmo que a mídia não possua a capacidade de confirmação de fatos legalmente, a exposição pública de atos ilícitos consegue promover sanções sociais, afetando, dessa forma, o capital político e a reputação de políticos (MESQUITA; MOISÉS; RICO, 2013). A partir da mídia é possível monitorar o poder fora de situações eleitorais. Ao expor os malfeitos, é iminente que ocupantes de cargos públicos possam ser retirados de seus postos. Existe também o lado negativo da mídia política. Boa parte de pesquisas sobre o Brasil interpreta a cobertura política na mídia como excessiva, com isso, é considerado que seria capaz “gerar insatisfação política não direcionada à reforma de instituições, e sim motivando um maior distanciamento e apatia da política, em um sentimento de que ‘são todos iguais’”. (MESQUITA; MOISÉS; RICO, 2013, p. 4). No âmbito acadêmico, existe uma grande variação de estudos utilizando corrupção como seu foco principal. Alguns apresentam o assunto e proporciona um conhecimento disponível sobre teorias para explicar o objeto sendo investigado, outros propõe métodos de medição e de combate à corrupção, tanto no contexto geral, quanto em estudos de caso. Todas essas pesquisas ajudam a compreender melhor esse tema e averiguar como suprimir esses acontecimentos. Segundo Porto (2017), a inteligência artificial e o aprendizado de máquina são a expectativa para que no futuro haja um controle de gastos públicos mais eficiente. A seguir, estão expostos alguns exemplos de estudos que utilizaram métodos computacionais relacionados à corrupção para ter uma noção de como esse assunto tem sido visto e discutido com o passar dos anos. Antes das iniciativas de políticas voltadas ao combate à corrupção, já existiam trabalhos relacionados a isso, por exemplo o estudo de Loh, Wives e Oliveira. (2000), que expõe que a utilização de técnicas na área de Descoberta de Conhecimento em Textos pode auxiliar em análises políticas. Os autores fizeram um estudo em uma coleção de textos, sobre um determinado governante público, extraídos de jornais online. Os textos foram divididos por ano de publicação e foram aplicadas técnicas de centroide que averíguam todos os textos para encontrar características comuns. Com isso foi possível perceber temas e termos predominantes em cada ano. Os autores concluem que, com essas técnicas, é possível perceber como os políticos e seus comportamentos estão sendo recebidos pela mídia, dando oportunidade a eles para rever seu comportamento e sua atuação em seu cargo. No contexto de contabilizar a corrupção, Carvalho (2006) identificou três 5 maneiras científicas principais para medir e avaliar atos corruptos. Primeiramente é citada a medição das percepções sociais, na qual indica a interpretação que a sociedade tem da corrupção, com sentimentos de existência ou não da corrupção. O autor admite que pode ocorrer casos em que as percepções sociais sejam influenciadas por razões afetivas e cognitivas, dessa forma, perdendo alguma credibilidade. Em seguida é apresentada a medição da incidência das atividades corruptas, fazendo questionamentos aos potenciais envolvidos em casos de corrupção, porém também não pode ser confiada totalmente pois nem todos os atos corruptos são relatados. A última maneira citada pelo autor é a avaliação dos peritos. Essa avaliação fundamenta-se em índices da dimensão da corrupção. Esse índice foi primeiramente apresentado por pesquisadores da Universidade de Gottingen em 1995, internacionalmente este é o indicador mais prestigiado (Índice de Percepção da Corrupção). Ele é baseado em “17 inquéritos realizados por 13 instituições independentes (como o Banco Mundial, a Gallup, Columbia University, Economist Intelligence Unit, etc.) em 133 países” (CARVALHO, 2006, p. 19). A partir desses dados, é utilizada uma escala de honestidade “de acordo com o nível de percepções dos respondentes de cada país em relação à corrupção” (CARVALHO, 2006, p. 19). Baseado nesse resultado, é gerado um ranking de países considerados menos corruptos. Em sua última atualização, quem lidera é a Dinamarca, seguido da Nova Zelândia e Finlândia. O Brasil encontra-se empatado com outros 9 países na 105ª colocação. No gráfico elaborado para representar esse ranking (Gráfico 1) foram colocados os nove primeiros países, dentre os países empatados com 35 pontos, foram citados apenas o antecessor e o sucessor do Brasil e a última colocação apresentada no site oficial do Índice de Percepção da Corrupção (Somália). O nome de cada país encontra-se no eixo x e a pontuação adquirida por cada um é marcada pelo círculo em relação ao eixo y. Acima de cada círculo encontra-se a colocação oficial de cada país. Gráfico 1. Percepção da corrupção no Mundo. Fonte: dados disponibilizados no Portal Transparência Internacional. No que se refere ao desenvolvimento de propostas para o combate a corrupção, uma das alternativas é a utilização de fontes abertas no âmbito de redes sociais (MORESI et al., 2010). A pesquisa de Moresi et al. (2010) 6 demonstra que informações de redes sociais podem oferecer material relevante para a atividade de inteligência, porém, o fato de existir grande volume dedados e uma diversidade dos meios de comunicação, prejudicam a qualidade dos resultados dessas atividades. Para os autores, as redes sociais podem contribuir para a obtenção de informações estratégicas e serem utilizadas de maneira preventiva à corrupção, realizando um tipo de controle das ações dos administradores públicos, ou de maneira educativa, promovendo boas práticas e conhecimento sobre o assunto. Neste contexto, desde 2010, a Controladoria-Geral da União (CGU) busca utilizar tecnologias em análise de dados para promover a transparência e combater a corrupção. Um dos exemplos desta estratégia é a utilização de técnicas de mineração de dados para identificação de cartéis em licitações públicas. Ao identificar essas ocorrências, é possível constatar acontecimentos de corrupção por parte dos agentes públicos e privados que cooperaram com o ato ilícito. Para identificar os envolvidos nas licitações são usados padrões comportamentais e técnica de regras de associação para encontrar fortes relações entre os atributos, que, nesse caso, são as empresas participantes de processos licitatórios (SILVA; RALHA, 2011). Ainda em relação ao combate à corrupção, é possível utilizar sistemas que auxiliam nesse processo. Nos estudos de Alves (2013), foi desenvolvido um protótipo de sistema especialista, a partir de técnicas de inteligência artificial, que identifica e controla práticas corruptas em instituições financeiras. Um sistema especialista é a representação computacional do conhecimento e de experiências humanas (ALVES, 2013). Nessa pesquisa, foram entrevistados profissionais da empresa alvo do estudo, sobre o contexto de cada prática corrupta identificada pelo autor. Para desenvolver o sistema, Alves (2013) caracterizou termos chaves e referências; identificou, conceituou e formalizou o conhecimento; implementou o sistema a partir desse conhecimento previamente identificado e, por último, validou o desempenho do sistema, assegurando o seu correto funcionamento. Já no estudo de Carvalho (2015), seu principal objetivo foi avaliar o risco de corrupção de servidores públicos federais a partir de modelos preditivos. Os dados foram recolhidos por meio da Diretoria de Pesquisas e Informações Estratégicas (DIE), que faz parte da CGU e investiga possíveis irregularidades cometidas por servidores públicos federais. Foi utilizado modelagem com métodos de regressão para fazer a seleção dos atributos mais adequados para a pesquisa, e a partir disso, modelos foram construídos para obter uma solução final que permita gerar uma avaliação sobre o risco de corrupção. Baseado nisso, foi gerado um índice de corruptibilidade para cada servidor público federal. Sob o mesmo ponto de vista, porém utilizando base de dados disponíveis na Receita Federal do Brasil, Paula (2016) aplicou modelos de mineração de dados para selecionar exportadores suspeitos de lavagem de dinheiro. Com o modelo preditivo desenvolvido foi possível identificar, com 80% de acurácia, exportadores suspeitos de fazerem lavagem de dinheiro no comércio exterior a partir de exportações fictícias. Já no âmbito do trabalho de servidores públicos, Porto (2017) desenvolveu um estudo referente ao tempo demandado nas atividades. O autor demonstra que, com a utilização de tecnologias disponíveis na atualidade, é possível desempenhar esses trabalhos em alguns minutos e com custo 7 reduzido. Dessa forma, a fiscalização do uso de dinheiro sob gestão estatal pode se tornar muito mais eficiente com a utilização de tecnologias, fazendo com que as verbas que são utilizadas por órgãos encarregados de fazer essa fiscalização possam ser melhores utilizadas e investidas em algo mais importante. Além disso, a utilização de tecnologias da informação e comunicação (TIC) pode representar uma queda nos níveis de corrupção, pois ela engloba vários papéis diferentes (MAGNAGNAGNO; LUCIANO; WIEDENHÖFT, 2017). Alguns deles são: papel de suporte (acontece em maioria através da utilização da internet), papel estratégico, tais como a exploração de informações por parte das organizações com o propósito de desenvolver regras de associação entre concorrentes, de maneira a se prevenir a corrupção em licitações (“utilizar informações das organizações para se criar regras de associação entre empresas concorrentes, para se evitar a corrupção em licitações” (SILVA; RALHA, 2011), papel impulsionador (cooperação entre um grupo para elevar o nível de transparência informacional (MELO, 2017 apud MAGNAGNAGNO; LUCIANO; WIEDENHÖFT, 2017)), por fim o papel catalisador no qual alguns exemplos são a inovação contínua, a produtividade, e as mudanças tecnológicas (LOPES, 2009). Magnagnagno, Luciano e Wiednhöft (2017) ainda compararam a quantidade de estudos sobre TIC e corrupção. A partir disso foram encontradas várias maneiras de utilizar a TIC aplica à corrupção. Os autores tiveram como resultado que as aplicações mais estudadas utilizando essa tecnologia foram: “Implantação ou fortalecimento do Sistema de informação atual; Disponibilização, uso e qualidade da informação; Internet/extranet ou portais governamentais e Mídia eletrônica ou social (Facebook e Twitter)” (MAGNAGNAGNO; LUCIANO; WIEDENHÖFT, 2017, p. 9). Neste contexto, o trabalho desenvolvido por Srivastava et al. (2016) mostra que o resultado no combate à corrupção é mais efetivo a partir de mídias e instituições legais. Ao examinar a infraestrutura tecnológica e a utilização de mídias sociais no governo, Ionescu (2016) afirma que quanto maior a quantidade de trabalho manual, maior é o nível de corrupção, e por outro lado, ao se aumentar a divulgação de informação, o índice de corrupção pode diminuir. É afirmado que a TIC pode ser um instrumento utilizado para aumentar a qualidade das informações e diminuir as possibilidades de corrupção (MAGNAGNAGNO; LUCIANO; WIEDENHÖFT, 2017). Por outro lado, percebeu-se que a tecnologia sozinha não pode gerar a diminuição da corrupção, pois ela pode proporcionar um efeito contrário se não for controlada de maneira correta, mas se for unida à fatores comportamentais, conscientização e divulgação, essa tecnologia é uma boa ferramenta para esse caso (MAGNAGNAGNO; LUCIANO; WIEDENHÖFT, 2017). 2.2. MÍDIAS SOCIAIS O século XXI está testemunhando uma grande explosão de mensagens virtuais transmitidas a partir de mídias sociais (MANGOLD; FAULDS, 2009). Sterne (2011) afirma que a internet foi o primeiro canal de comunicação que possibilitou a interação de muitas pessoas ao mesmo tempo, e por isso ela é considerada uma mídia social. O autor cita seis notáveis categorias de mídias sociais: fóruns e quadros de mensagens; sites de crítica e opinião. Marcadores 8 sociais, compartilhamento de mídia, blogs, microblogs e redes sociais. As redes sociais proporcionam a criação de grupos fechados ou abertos para melhorar a comunicação e o contato pessoal, por isso elas demandam uma maior interatividade entre os participantes. As mídias sociais devem ser entendidas como uma atividade que não se restringe a apenas um departamento organizacional. No contexto organizacional, as mídias sociais têm uma grande importância para a tomada de decisões, a partir delas é possível analisar o que as pessoas estão dizendo nos canais sociais e dessa forma as decisões são feitas de forma mais apropriada (MONTEIRO; AZARITE, 2012). Para ter credibilidade e confiança na empresa e no que ela oferece, é notável manter um vínculo com seu público. Esse vínculo possibilita a empresa de promover seu produto ou serviço e observar como é passada a sua imagem para os outros (SOUSA; AZEVEDO, 2010). Terra (2010), define mídias sociais como sendo um meio em que pessoas, através do uso de tecnologias e procedimentos característicos da internet, compartilham opiniões, ideias, perspectivas e experiências. As redes sociais são consideradas pela autora como o espaço virtual que estimula e incentiva a ação dos seusparticipantes. Ciribeli e Paiva (2011) destacam microblogs, fóruns, blogs e sites de relacionamento como os tipos de redes sócias que mais crescem o número de usuários. Existe uma confusão comum entre as compreensões de rede social com mídias sociais. De acordo com Ciribeli e Paiva (2011), as redes sociais são agrupamento comuns e existentes em todos os lugares, podendo ser constituídas por pessoas ou organizações que compartilhem os mesmos objetivos e valores. Por outro lado, a mídia social é o meio no qual as redes sociais utilizam para se comunicar e elas mudam de acordo com seu público- alvo e sua finalidade. Devido ao grande número de usuário que utilizam a internet (4,4 bilhões de pessoas no mundo, segundo o Miniwatts Marketing Groupi, a quantidade de informação possível de ser encontrada nas mídias sociais também aumentou. Para empresas, as mídias sociais podem ser utilizadas como formação de um vínculo com os clientes. É possível verificar, por exemplo, as opiniões e experiências de seus clientes e, dessa forma, melhorar seu produto ou serviço. Além disso, como estudo desenvolvido por Magalhães (2008), as redes sociais podem ter uma considerável influência no processo de participação eleitoral do cidadão. De acordo com o autor, quando os eleitores se envolvem em discussões políticas com outros usuários das redes sociais, o próprio conteúdo das discussões pode se tornar uma fonte de informação para outros usuários, podendo expor mensagens políticas, fornecendo informações sobre os partidos ou candidatos que apoiam com o intuito de influenciar o desfecho de uma eleição. Outro ponto de fundamental importância se refere ao fato de que plataformas de redes sociais, como o Facebook e Twitter, podem ser usadas para propagar informações sem feita uma filtragem ou uma checagem de fatos. Conforme demonstrado por Allcott e Gentzkow (2017), um usuário qualquer pode alcançar o número de leitores dos principais jornais. Depois das eleições para presidente dos Estados Unidos em 2016, o termo fake news (do inglês, notícias falsas) ficou famoso mundialmente devido à propagação de várias “notícias” que foram espalhadas nas redes sociais, as quais favoreceram, 9 supostamente, um dos lados da campanha. Vários comentaristas políticos insinuaram que, se não fosse pelo grande número de fake news, o resultado poderia ser diferente (ALLCOTT; GENTZKOW, 2017). Ainda assim, uma grande quantidade de pessoas utiliza as mídias sociais para buscar e disseminar informações sobre política e diversos outros assuntos. Mesmo que a fonte não seja confiável ou seja apenas uma opinião de outra pessoa, o que é postado nessas mídias é considerado como uma fonte de informação sem que haja a necessidade de verificação de conteúdo. 2.3. ANÁLISE DE SENTIMENTOS Em consequência do desenvolvimento de sistemas e tecnologias da informação, diversos tipos de dados têm sido continuamente gerados e armazenados (GOMES, 2012). Dessa forma, a evolução de técnicas que extraem conhecimento de dados estruturados, não estruturados ou semiestruturados tem sido de fundamental importância na geração de informação e descoberta de conhecimento sob os mais variados aspectos, inclusive no que se refere à aplicação para a solução de problemas em bases de dados textuais, voltadas, por exemplo, ao levantamento de informações sobre sentimentos, opiniões e subjetividade em textos (PANG; LEE, 2008). Este conjunto de técnicas pode ser usada para distinguir opiniões positivas de negativas a partir da identificação e da classificação dos conteúdos emocionais originados dos usuários nas redes sociais. De modo geral, a análise de sentimentos pode ser descrita como uma solução que permite realizar o rastreamento de grandes volumes de dados textuais em referência de um tema pré-definido, gerando um relatório com a opinião de pessoas sobre este (ARAÚJO et al., 2012). Ainda nesta linha, segundo Gomes (2012), análise de sentimentos é o trabalho que auxilia na determinação automática de sentimentos em textos. Esses sentimentos podem ser muito importantes na tomada de decisões em ambientes organizacionais, políticos, e sociais. Gomes (2012) completa afirmando que a análise de sentimentos trata do estudo computacional acerca dos sentimentos, emoções e opiniões expressadas através de textos. Essa técnica pode ser utilizada para formar avaliações a partir de comentários e opiniões do usuário. A análise de sentimentos também pode ser usada para melhorar o sistema de recomendações em sites. Dessa forma o sistema não recomenda itens que recebem uma avaliação negativa. Quando são detectados sentimentos positivos, o anúncio é mostrado, mas quando sentimentos negativos são detectados, os anúncios são removidos. Além disso, ela pode ser usada para detectar páginas online que possuam conteúdos sensíveis que sejam inapropriados para a colocação de propagandas. Essa análise também pode ser usada no ramo de negócios. Uma empresa analisa a opinião de seus clientes de forma que seja possível diferenciar as respostas positivas das negativas. Fazendo isso, ela consegue melhorar os fatores negativos e manter os positivos para obter a satisfação de seus clientes (PANG; LEE, 2008). Existem vários métodos para a análise de sentimentos. A maneira mais simples é a análise de emoticons (ícones que representam emoções). O LIWC (Linguistic Inquiry and Word Countii), por exemplo, é uma ferramenta comercial que possui um dicionário de palavras e suas respectivas categorias de 10 emoções. O SASA (SailAil Sentiment Analyzeriii) é outra ferramenta baseada em aprendizado de máquina, de código aberto, proposta originalmente como método de análise de tweets associados as eleições norte-americanas de 2012. De maneira geral, é possível identificar três categorias de granularidade da análise de sentimentos (LIU, 2012). A granularidade de documento se refere a classificação da opinião implícita no documento, identificando se ela expressa um sentimento positivo, negativo ou neutro (PANG et al., 2002 apud SILVA, 2016). A granularidade de sentença que faz a subdivisão do texto em sentenças com o objetivo de analisar cada uma delas individualmente expressam sentimentos positivos, negativos ou neutros (SILVA, 2016). Já na granularidade de aspectos, a análise é mais específica. É possível identificar sobre o que a pessoa tem uma opinião, e não somente identificar a opinião, como faz a granularidade de documento e de sentença. Silva (2016) fez uma análise de sentimentos em textos curtos da rede social Twitter. Em seu trabalho foram destacadas as principais dificuldades encontradas ao tratar esses textos: o tamanho do texto (na altura do trabalho, o Twitter disponibilizava um máximo de 140 caracteres por postagem, posteriormente a rede social aumentou esse limite para 280); por se tratar de textos curtos, a opinião é expressa em poucas palavras e essas palavras podem não estar disponíveis no dicionário de palavras pré-computado e relacionadas a um sentimento; a variação ortográfica é outra grande dificuldade quando precisa-se tratar textos curto como os de redes sociais, pois como se trata de um contexto informal, os usuários não aplicam um rigor ortográfico de escrita; o contexto multilinguístico também foi apontado como uma dificuldade pois vários usuários, ao escrever textos em redes sociais, gostam de usar palavras estrangeiras para enfatizar alguma parte de seus textos. 3. METODOLOGIA O eixo central do presente trabalho se refere ao estudo de uma solução para análise do termo corrupção na rede social Twitter, baseado na metodologia conhecida como Descoberta de Conhecimento em Bases de Dados (do inglês, Knowledge Discovery in Databases - KDD), como forma de geração de informação útil para avaliação das ações públicas realizadas com referência a este fenômeno. De acordo com Fayyad, Piatetsky-Shapiro e Smyth (1996), o KDD pode ser descrito como uma metodologiaque busca extrair informações implícitas, a partir de um conjunto de dados. Neste sentido, o KDD consiste das cinco seguintes etapas: seleção, pré-processamento, transformação, mineração de dados, e interpretação e avaliação. É importante destacar que este conjunto de etapas é realizado de forma cíclica, até que seja alcançado seu objetivo principal, a geração de informação e a consecutiva descoberta de conhecimento. Esta pesquisa é de natureza teórica, portanto é classificada como pesquisa pura. Dado que seu objetivo é aumentar o conhecimento acerca de métodos para analisar publicações em redes sociais e como esses métodos podem ser utilizado para outras finalidades e gerar informações e conhecimentos importantes, ela pode ser classificada como exploratória. Visto que este estudo apresenta dados estatísticos e busca quantificar dados e transformar números em informações, ele enquadra em métodos de pesquisa 11 com natureza qualitativa. No contexto do presente trabalho, onde se propõe um monitoramento contínuo, a geração de informação também deverá ser contínua, e permitir a realização de análises sob diferentes perspectivas, como, por exemplo, análises com filtros temporais, ou seja, geração de relatórios diários, semanais, mensais, ou ainda em um espaço de tempo pré-definido. Diante disso, a primeira etapa do trabalho será a seleção do conjunto de dados a ser considerado no problema. Como descrito anteriormente, o foco principal deste trabalho é realizar o monitoramento de tweets relacionados à corrupção política brasileira. Neste sentido, nesta primeira etapa foram estudados e definidos termos ou palavras-chave que sirvam como referência na construção da base de dados a ser analisada, onde foram definidos como termos de pesquisa para o trabalho: corrupção e lava-jato. A partir desta definição, foi desenvolvido uma solução de Web Crawling (método utilizado para extrair informações de sites a partir de seu código), baseada na API do Twitteriv. Uma Interface de programação de aplicativos (API), do inglês Application Programming Interface, pode ser descrita como um conjunto de padrões de programação que possibilitam a construção de aplicativos. Uma API interliga funções em um site com a utilização em outras aplicações (CIRIACO, 2009), ou seja, uma API é um código computacional que dá acesso aos usuários às informações proporcionadas por um site. A API do Twitter é disponibilizada em seu próprio site. Com ela, é possível ter acesso aos dados públicos do Twitter compartilhados por seus usuários. O Twitter disponibiliza API’s para: permitir que desenvolvedores gerenciem perfis e configurações de conta; busca de tweets por palavras-chave; acesso às conversas de mensagens diretas de usuários que deram permissão para tal; permitir que desenvolvedores criem e gerenciem automaticamente campanhas publicitárias no Twitter; adicionar publicações do Twitter em outros sites. Os resultados extraídos através da API do Twitter foram armazenados em uma base de dados do tipo csv (do inglês, comma separatede values,traduzido como valores separados por vírgula), modelada e implementada ainda durante esta fase, utilizando a linguagem de programação Python. Após a extração dos dados, foi realizada a etapa de pré- processamento. De forma geral, o Twitter permite a publicação de mensagens de até 280 caracteres, nas quais é comum, por parte de seus usuários, a utilização de emoticons, hashtags e links, além da realização de retweets, os quais se referem a um compartilhamento de mensagens que foram postadas por outro usuário. Diante disso, torna-se necessária a realização de uma limpeza sobre os dados coletados. Nesta etapa foram realizados tratamento baseados em expressões regulares (GOYVAERTS; LEVITHAN, 2011). Considerando a construção da amostra a partir dos tweets que possuam conteúdo relacionado à corrupção política brasileira, foram aplicadas técnicas de inteligência de dados para geração de informação. Neste contexto, foram consideradas técnicas e ferramentas ligadas à mineração de dados e aprendizado de máquina (do inglês, machine learning). O objetivo principal da utilização de tais técnicas é a classificação das mensagens, a extração dos termos mais relevantes das mesmas, identificação de influenciadores, assim como a realização de análise de sentimentos. Essa etapa foi realizada utilizando o software de análise textual Iramuteqv, e rotinas de análise de 12 sentimentos codificadas através da linguagem de programação Python. Após a realização das etapas anteriores, foram produzidos relatórios contendo informações de interesse sob o tema tratado. Ainda durante o desenvolvimento da proposta, a geração de tais relatórios servirá como insumo para a avaliação das fases anteriores, as quais, com base em possíveis demandas observadas, poderão ser ajustadas e melhoradas. A geração dos resultados permite vislumbrar a visão da sociedade sobre o tema corrupção a partir da visão dos usuários da rede social Twitter. 4. ANÁLISE DOS RESULTADOS Com base na metodologia delimitada para o presente trabalho, foram realizadas as coletas de postagens de tweets entre o período de 01/07/2018 a 30/06/2019. Para a extração das postagens, foi utilizado como referência os termos “corrupção” e “lava-jato” e as hashtags #corrupcao e #lavajato, resultando em um total de 21.854 postagens. Os textos das postagens foram submetidos a uma solução para análise de sentimentos, implementada utilizando a linguagem de programação Python. O Gráfico 2 apresenta os resultados obtidos em razão de cada um dos meses que compõe a amostra coletada, onde foram agrupados os tweets de acordo com o rótulo atribuído: positivo, negativo, e neutro. É possível notar que o mês de Outubro de 2018 possui uma quantidade relativamente maior de postagens, o que possivelmente está relacionado à ocorrência das eleições. Além disso, é possível observar ainda que a quantidade de postagens rotuladas como negativas é significativamente maior que as postagens positivas e neutras, em todos os meses analisados, o que pode representar uma expressão de descontentamento e revolta por parte dos usuários da rede social considerada com relação à corrupção. Gráfico 2. Análise de sentimento categorizada por mês. Fonte: autores. 13 Após a realização dos processos de análise de sentimentos, foi gerado um corpus textual contendo todo o conjunto de tweets. Foram aplicadas técnicas de detecção de similaridade, baseadas no método de classificação de Reinert (1990), onde foram detectados três grupos principais, conforme mostrado no Gráfico 2. Através das classes geradas, foram calculados os termos de maior relevância para cada uma destas classes, os quais são mostrados na Quadro 1. É possível notar que a Classe 1 está relacionada com postagens que apresentam conteúdos mais voltados à questão das manifestações cidadãs contra a corrupção. Por outro lado, a Classe 2 traz termos provenientes do futebol, os quais podem se relacionar à realização da Copa do Mundo de Futebol e os escândalos de corrupção no âmbito da Federação Internacional de Futebol (FIFA). Por último, a Classe 3 revela termos característicos e fortemente relacionados à operação Lava Jato da Polícia Federal do Brasil. No Gráfico 3 é possível observar a disposição dos termos e a proximidade entre as classes. Grupo Vinte termos de maior frequência. Classe 1 país; brasil; povo; educação; problema; violência; gente; saúde; segurança; governo; democracia; partido; eleitor; desemprego; luta; economia; ideologia; cidadão; política; família. Classe 2 protesto; marcha; futebol; manifestação; copa; camisa; manifestante; cidade; clube; seleção; carteira; benfica; vassoura; jogador; estádio; camiseta; praça; campeonato. arbitragem; gol. Classe 3 lava; jato; lavagem; dinheiro; lula; ministro; esquema; operação; justiça; prisão; petrobras; crime; réu; procurador;investigação; cunha; odebrecht; propina; condenação; denúncia. Quadro 1. Distribuição dos termos mais relevantes por classe. Fonte: autores. 14 Gráfico 3. Distribuição das classes através do método de Classificação de Reinert (1990). Fonte: autores. 5. CONCLUSÃO A aplicação de soluções inteligentes é algo de grande valia e pode auxiliar consideravelmente no apoio a diversos tipos de processos e atividades. Neste sentido, no que se refere à compreensão de determinados processos sociais e fluxos informacionais, a aplicação de mineração de dados em bases textuais é útil no apoio à compreensão de cenários, assim como no levantamento de padrões e informações. Neste trabalho, considerando a corrupção como objeto fundamental de estudo, foi possível observar as diferentes vertentes de expressões no âmbito da rede social Twitter, assim como o considerável número de postagens classificadas como negativas. Além disso, foi possível ainda realizar o levantamento de termos de maior relevâncias nas postagens coletadas, os quais indicam frente a que assuntos os usuários da rede social mais exploraram. Essas informações podem ser utilizadas como fonte para a geração de indicadores no apoio à tomada de decisão no âmbito do desenvolvimento de ações e políticas públicas. 15 Entretanto, é interessante realizar estudos e análises mais aprofundadas no que se refere ao tema, como, por exemplo, a realização da classificação nos grupos de tweets de forma separada, de acordo com o rótulo de sentimento associado. REFERÊNCIAS ALLCOTT, H.; GENTZKOW, M. Social Media and Fake News in the 2016 Election. Journal of Economic Perspectives. v. 31, n. 2, p. 211-236, 2017. ALVES. L. C. F. Sistema Especialista no Controle da Corrupção Organizacional: proposta de um protótipo para instituições financeiras. 2013. 52 f. Dissertação (Mestrado em Sistemas de Informação e Gestão do Conhecimento) Faculdade de Ciências Empresariais, Fundação Mineira de Educação e Cultura, Belo Horizonte, 2013. ARAUJO, G. D.; SOUSA, S. F.; TEIXEIRA, F.; MANCINI, F.; DOMENICO, E. B. L. de; GUIMARÃES, M. de P.; PISA, I. T. Análise de sentimentos sobre temas de saúde em mídia social. Jounal of Health Informatics, v. 4, n. 3, p. 95-99, 2012. AZEVEDO, F. Corrupção, mídia e escândalos midiáticos no Brasil. Em Debate, Belo Horizonte, v. 2, n. 3, p. 14-19, mar. 2010. BAPTISTA, E. A. Internet e escândalos políticos: a corrupção e as eleições municipais de 2012. In: Congresso da Associação Brasileira de Pesquisa em Comunicação e Política, 5, 2013, Curitiba. Anais eletrônicos... Curitiba: UFPR, 2013. BONIFÁCIO, R.; RIBEIRO, E. Corrupção e participação social no Brasil: diagnósticos e consequências. Revista Brasileira de Ciência Política, n. 20, 2016. BREI, Z. A. Corrupção: dificuldades para definição e para um consenso. Revista de Administração Pública, Rio de Janeiro, v. 30, n. 1, p. 64-77, abr. 1996. CAMPOS, F. A. O.; PEREIRA, R. C. Corrupção e ineficiência no Brasil: uma análise do equilíbrio geral. Estudos Econômicos, v. 46, n. 2, São Paulo, 2016. CARVALHO, N. V. As Estatísticas Criminais e os ‘Crimes Invisíveis’. 2006. Disponível em: <http://www.psicologia.pt/artigos/textos/A0272.pdf>. Acesso em: 8 maio 2019. CARVALHO, R. S. Modelos Preditivos para Avaliação de Risco de Corrupção de Servidores Públicos Federais. 2015. 106 f. Dissertação (Mestrado em Computação Aplicada) Instituto de Ciências Exatas, Universidade de Brasília, Brasília, 2015. CIRIBELI, J. P.; PAIVA, V. H. P.; Redes e mídias sociais na internet: realidades e perspectivas de um mundo conectado. Mediação. v. 12, n. 12, p. 57-74, 2011 FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: An overview. In: Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press, England, 1996, p.1-34 FERREIRA, A. B. de H. Miniaurélio: o dicionário da língua portuguesa. 7. ed. 16 Curitiba: Editora Positivo, 2008. FILGUEIRAS, Fernando. A tolerância à corrupção no Brasil: uma antinomia entre normas morais e prática social. Opinião Pública, Campinas, v. 15, n. 2, p. 386-421, nov. 2009. GEHRKE, G.; BORBA, J. A.; FERREIRA, D. D. M. A repercussão da corrupção brasileira na mídia: uma análise comparada das revistas Der Spiegel, L’Obs, The Economist, Time e Veja. Revista de Administração Pública. Rio de Janeiro, v. 51, n. 1, p. 157-167, jan. 2017. GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining: conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier, 2015. GOMES, H. J. C., Text Mining: Análise de Sentimentos na classificação de notícias. 2012. 69 f. Tese (Mestrado em Estatística e Gestão da Informação) - Instituto Superior de Estatística e Gestão de Informação, Universidade Nova de Lisboa, Lisboa, 2012. GOYVAERTS, J.; LEVITHAN, S. Expressões Regulares Cookbook. São Paulo: O’Reilly Novatec, 2011. IONESCU, L. E-government and social media as effective tools in controlling corruption in public administration. Economics, Management, and Financial Markets, v. 11, n. 1, p. 66-72, 2016. LIU, B. Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies, v. 5, n. 1, p. 1-167, 2012. LOH, S.; WIVES, L. K.; OLIVEIRA, J. P. Descoberta Proativa de Conhecimento em Coleções Textuais: Iniciando sem Hipóteses. In: IV Oficina de Inteligência Artificial, 4, 2000, Pelotas. Anais eletrônicos... Pelotas, 2000. p. 143-154. MAGALHÃES, P. Redes sociais e participação eleitoral em Portugal. Análise Social. v. 43, n.3, p. 473-504, 2008. MAGNAGNAGNO, O. A.; LUCIANO, E. M.; WIEDENHÖFT, G. C. O papel da Tecnologia da Informação e Comunicação na Redução dos Níveis de Corrupção: proposta de uma agenda de pesquisa. In: Simpósio Internacional de Gestão de Projetos, Inovação e Sustentabilidade, 6, 2017, São Paulo. Anais eletrônicos… São Paulo, 2017. p. 1-16. MANGOLD, W. G.; FAULDS, D. J. Social media: The new hybrid element of the promotion mix. Business Horizons. v. 52, n. 4, p. 357-365, 2009. MEDEIROS, Simone Assis; MAGALHÃES, Roberto; PEREIRA, José Roberto. Lei de Acesso à Informação: em busca da transparência e do combate à corrupção. Informação & Informação, v. 19, n. 1, p. 55–75, 2013. MESQUITA, N. C.; MOISÉS, J. A., RICO, B. As diferentes Dinâmicas da Corrupção: mídia, percepção e instituições no contexto brasileiro. In: POLITICAL COMMUNICATION RESEARCH COMMITTEE CONFERENCE, 2013, Granada. Anais eletrônicos… Granada: USP, 2013. MONTEIRO, D. AZARITE, R. Monitoramento e métricas de mídias sociais: do estagiário as CEO. 1. Ed. São Paulo: DVS. 2012. MORESI, E. A. D.; SILVIA JUNIOR, O. S. da; LAVOYER, N. C.; NEHME, C. C. 17 Inteligência de Fontes Abertas: um estudo sobre o emprego das redes sociais na prevenção à corrupção. In: Congresso Virtual Brasileiro de Administração, 7, 2010. Anais eletrônicos… 2010. PANG, B.; LEE, L. Opinion mining and sentiment analysis. Now, v. 2, n. 1-2, p. 1-135, 2008. PATTERSON, J.; GIBSON, A. Deep Learning: A Practitioner's Approach. Sebastopol: O’Reilly Media, 2017. PAULA, E. L. Mineração de dados como suporte à detecção de lavagem de dinheiro. 2016. 91 f. Dissertação (mestrado em Computação Aplicada) Instituto de Ciências Exatas, Universidade de Brasília, Brasília, 2016. PORTO, E. G. A Busca pela Eficiência na Fiscalização da Gestão Pública: a utilização de inteligência artificial para aperfeiçoamento do controle das finanças públicas. Revista de Direito da Empresa e dos Negócios, v. 1, n. 2, p. 4-31, 2017. POWER, T. J.; GONZÁLEZ, J. Cultura Política, Capital Social e Percepções sobre Corrupção: uma investigação quantitativa em nível mundial. Revista de Sociologia e Política, n. 21, p. 51-69, nov. 2003. REINERT, M. Alceste une méthodologie d’analyse des données textuel les e tune application: Aurelia de Gerard de Nerval. Bull. Methodol. Sociol., v. 26, n. 1, p. 24-54, 1990. RODRIGUES,S. L. Mídia, Informação e Transparência construindo a Cidadania Contra a Corrupção no Maranhão. In: MÍDIA CIDADÃ, 5, 2011, Belém. Anais eletrônicos… Belém: UFMA, 2011. SILVA, C. V. S.; RALHA, C. G. Detecção de cartéis em licitações públicas com agentes de mineração de dados. Revista Eletrônica de Sistemas de Informação, v. 10, n. 1, p. 1-19, 2011. SILVA, M. F. G. A Economia política da Corrupção. 1996. 27 f. Dissertação (Mestrado em Economia Política) - Pontifícia Universidade Católica, São Paulo. 1996. SILVA, N. F. F., Análise de sentimentos em textos curtos provenientes de redes sociais. 2016. 138 f. Tese (Doutorado em Ciências da Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Paulo, 2016. SOUSA, L. M. M. de; AZEVEDO, L. E. O Uso de Mídias Sociais nas Empresas: Adequação para Cultura, Identidade e Públicos. IX Congresso de Ciências da Comunicação na Região Norte. Rio Branco, 2010. TERRA, C. F. Usuário-mídia: a relação entre a comunicação organizacional e o conteúdo gerado pelo internauta nas mídias sociais. 2010, 217 f. Tese (Doutorado em Interfaces Sociais da Comunicação) – Escola de Comunicações e Artes, Universidade de São Paulo, São Paulo, 2010. THEOBALD, R. Corruption, Development, and Underdevelopment. Duke University Press, 1990. i www.internetworldstats.com 18 ii http://liwc.wpengine.com/ iii https://pypi.org/project/sasa/ iv https://developer.twitter.com v http://www.iramuteq.org
Compartilhar