Baixe o app para aproveitar ainda mais
Prévia do material em texto
CENTRO UNIVERSITÁRIO DOCTUM INSTITUTO ENSINAR BRASIL – REDE DOCTUM DE ENSINO TEXT MINING RESUMO O presente artigo tem por objetivo apresentar o conceito do processo de Mineração de Textos. Além disso será mostrado sua utilização com a ferramenta Orange para a realização de uma análise de sentimento na rede social Twitter, a fim de ajudar as organizações que utilizarem da ferramenta a medir a opinião do público a respeito da mesma. Palavras-chave: Mineração de Texto, análise de sentimento, Orange. ABSTRACT This article aims to present the concept of the Text Mining process. In addition, it will show its use with the Orange tool to conduct a sentiment analysis on the social network Twitter, to help understand how to use the tools to measure public opinion about the same respect. Keywords: Text Mining, sentiment analysis, Orange. ________________________ 2 1. INTRODUÇÃO O avanço das tecnologias de informação nos últimos anos ocasionou o surgimento de uma imensa quantidade de dados gerados no mundo a cada dia, sendo a maioria desses dados considerados não estruturados, ou seja, não possuindo uma estrutura definida, como vídeos, documentos de textos, imagens, mensagens de textos, entre outros. Muito da produção desses dados se deve a ascensão das redes sociais que estão presentes no cotidiano de praticamente todas as pessoas nos dias atuais. Cada vez mais as organizações voltam seus olhos para as vantagens que o uso das redes sociais traz para seu negócio e como elas podem auxiliar no feedback da organização. Um questionamento comum neste caso é compreender como esse grande volume de dados não-estruturados gerados pelas redes sociais podem auxiliar essas organizações na sua relação com o público? Surgem então ferramentas de Data Mining e Text Mining capazes de extrair informações de um grande volume de dados e dar significados a eles. Na presente pesquisa o objetivo é compreender o processo de Text Mining, utilizando-o para a realização de uma análise de sentimento usando os dados contidos na rede social Twitter. 2. REFERENCIAL TEÓRICO 2.1 DADOS ESTRUTURADOS E NÃO ESTRUTURADOS Dados estruturados são aqueles organizados e representados com uma estrutura rígida, a qual foi previamente planejada para armazená-los. O exemplo mais típico de dados estruturados é um banco de dados, onde os dados são estruturados conforme a definição de um esquema, que define as tabelas com seus respectivos campos (ou atributos) e tipos (formato). O esquema pode ser pensado como uma metainformação do banco de dados, ou seja, uma descrição sobre a organização dos dados que serão armazenados no banco (MONTEIRO, Universidade da Tecnologia, 2019). Por outro lado, os dados não estruturados têm uma estrutura contrária dos dados estruturados, sendo flexível e dinâmica ou sem estrutura, por exemplo, e- mails, mensagens de aplicativos como WhatsApp, Redes Sociais, imagens, áudios, documentos, entre outros (MONTEIRO, Universidade da Tecnologia, 2019). 2.2 TEXT MINING 3 Documentation Mining ou Text Mining é um processo de encontrar padrões em corpos de textos não-estruturados. Mineração de documento (Documentation mining) combina algumas técnicas de extração de informação, recuperação de informação, processamento de linguagem natural e resumo de documento com métodos de Data mining (DIXON, 1997, p.1, tradução nossa). O processo de Text Mining é considerado uma adaptação do processo Knowledge Discovery in Database (KDD), que vem sendo utilizado com bastante êxito em grandes bases de dados, na transformação de conhecimento implícito (embutido nos dados) em conhecimento explícito (FAYYAD et al, 1996 apud GONÇALVES, 2002). A descoberta de conhecimento em texto deriva do KDD, também conhecido como Data Mining, porém no KDD a fonte usada para exploração é estruturada. No Knowledge Discovery in Text (KDT) são aplicados técnicas e processos a fim de estruturar os dados oriundos de textos para permitir a posterior mineração da informação (DA SILVA, 2013, p.8). Um sistema de Mineração de Documento ou Text Mining deve seguir a sequência de passos abaixo. 1. Recuperação de Informação: o primeiro passo é localizar e selecionar os documentos que podem ser considerados relevantes. 2. Extração de Informação: neste estágio as informações dos documentos selecionados serão extraídas e estruturadas. 3. Mineração de Informação: os dados estando estruturados serão aplicados métodos de Data Mining, responsáveis por encontrar padrões e relacionamentos entre os dados. 4. Interpretação: realizar a análise e/ou interpretação dos padrões obtidos no passo anterior, de preferência em formato de linguagem natural (DIXON, 1997, p.2, tradução nossa). 2.3. ANÁLISE DE SENTIMENTO Para (Mostafa, 2013, apud OLIVEIRA), a análise de sentimento pode ser considerada como uma técnica automatizada de descoberta de conhecimento que visa encontrar padrões escondidos em um grande número de dados textuais, assim como os comentários submetidos às mídias sociais. Trata-se de uma tecnologia emergente que identifica a opinião das pessoas em relação a um tema ou objeto, 4 sendo muito útil no monitoramento de mídias sociais para determinar automaticamente o sentimento geral de seus usuários sobre várias questões (He; Zha; Li, 2013; Mouthami; Devi; Bhaskaran, 2013 apud OLIVEIRA). 3. METODOLOGIA Foi utilizado o método de pesquisa exploratória com a finalidade de familiarizar-se com o processo de Text Mining e seu uso em uma análise de sentimentos na rede social Twitter. Segundo Gil (2008, p. 27), “as pesquisas exploratórias têm como principal finalidade desenvolver, esclarecer e modificar conceitos e ideias, tendo em vista a formulação de problemas mais precisos ou hipóteses pesquisáveis para estudos posteriores.” Para tal foram utilizadas fontes secundárias como artigos, dissertações e monografias pertinentes ao assunto de Text Mining e Análise de Sentimento, além de vídeos para exemplificar a utilização do Kit de Ferramentas Orange. A escolha da aplicação do Text Mining para a análise de sentimento em redes sociais se deve ao incrível aumento do uso dessas no cotidiano das pessoas. Segundo constataram os pesquisadores (MANDER J.; KAVANAGH, D. 2019), da GlobalWebIndex, empresa de pesquisa com sede em Londres, que em 2019 analisaram os 45 maiores mercado de internet do mundo, o Brasil é o segundo país em que as pessoas mais gastam tempo no dia com mídias sociais, em média são 225 minutos gastos por dia. A ferramenta utilizada para a análise de sentimento é o Orange, um kit de ferramentas de visualização de dados de código aberto, aprendizado de máquina e mineração de dados. (DEMSAR et al, 2013, tradução nossa). Os dados utilizados serão os tweets (postagens) dos usuários do Twitter referentes a polêmica propaganda do Itaú Unibanco, feita para promover o seu produto Personnalité lançado no dia 23 de junho de 2020 criticando corretoras de investimento, foi coletada uma amostra de 5000 tweets no dia 28 de junho de 2020. O objetivo é minerar os tweets, obtendo aqueles que estão tecendo um comentário sobre a propaganda e a partir deles realizar uma análise de sentimento, medindo a reação do público para saber se os comentários foram mais positivos ou negativos. Para isso foram feitos os seguintes passos no Orange: 5 Figura 3.1 – Captura de tela do workflow Fonte: o autor Foi montado um workflow (fluxo de trabalho) apresentado na Figura 3.1, onde a primeiro momento é utilizado o widget (ferramenta) “Twitter”, que se conecta a API da rede social para a obtenção dos tweets (postagens) dos usuários com base nas palavras chaves informadas. Figura 3.2 – Captura de tela do Preprocess text Fonte: o autor 6 Após a obtenção dos dados é necessário processar estas informações daspostagens como mostrado na Figura 3.2, retirando caracteres e palavras que não tem relevância na análise de sentimento como por exemplo: #, @, e, a, com, entre outros, para tal função é utilizado o widget “Preprocess Text” (Pré-processar texto). Figura 3.3 – Captura de tela do Select Columns Fonte: o autor Seguindo com a filtragem dos dados como mostrado na Figura 3.2, é utilizado o widget “Select Columns” (Selecionar Colunas) para que os dados sejam separados em colunas e a partir daí obter somente aqueles dados que mais interessam como o conteúdo da postagem, descartando outros dados que não são relevantes para esta análise, como quantidades de likes e quantidade de compartilhamento. 7 Figura 3.4 – Captura de tela do Sentiment Analysis Fonte: o autor Os dados filtrados e previamente processados são inseridos como entrada do widget de “Sentiment Analysis” (Análise de sentimento) como mostrado na Figura 3.4, que nesse exemplo está utilizando o método de Multilingual sentiment (Sentimento multilíngue), configurado para a língua portuguesa, este widget tem como saída a própria postagem com uma avaliação do sentimento, e uma nota podendo ser positiva, negativa ou neutra, onde quanto maior o número mais positivo seria o sentimento, quanto mais negativo o número pior o sentimento e quando o valor for zero significa que é um sentimento neutro. Figura 3.5 – Captura de tela do Tweet Profile 8 Fonte: o autor Após processados, os dados retornados do “Sentiment Analysis” (Análise de sentimento) foram utilizados como entrada para o widget de “Tweet Profile” (Perfil do Twitter) como mostrado na Figura 3.5, onde é medido a emoção de cada tweet podendo ser, Disgust, Fear, Joy Sadness ou Surprise. A partir dos dados processados e analisados foram utilizados dois widget para a demonstração dos mesmos em forma gráfica, sendo eles o “Scatter Plot” e “Distributions” que podem ser vistos na sessão seguinte. 4. RESULTADOS E DISCUSSÕES Os resultados a seguir foram obtidos após os passos mostrados na metodologia utilizando a ferramenta Orange e representam a opinião dos usuários do Twitter sobre a propaganda do Itaú Unibanco. Figura 4.1 – Captura de tela do Distributions Fonte: o autor 9 A partir do gráfico da Figura 4.1 é possível constatar que houve uma maior quantidades de tweets rejeitando a propaganda considerando uma nítida concentração de emoções de raiva, tristeza. Figura 4.2 – Captura de tela do Scatter Plot Fonte: o autor Já realizando a análise deste gráfico mostrado na Figura 4.2, a distribuição onde os pontos em coloração mais próximos a cor azul representam um sentimento negativo e quanto mais próximo à cor amarela representa um sentimento mais positivo, partindo desse pressuposto é possível constatar que há um sentimento negativo acentuado onde a principal emoção apresentada seriam a surpresa e o medo. 5. CONCLUSÃO O desenvolvimento da presente pesquisa propiciou uma maior familiaridade com o processo de Mineração de Texto, além de mostrar sua aplicação utilizando como contexto uma polêmica propaganda lançada pelo Itaú Unibanco. Através da ferramenta Orange foram mineradas postagens de usuários na rede social Twitter que falavam sobre a propaganda e a partir deles foi realizada uma análise de sentimento que mostrou através de gráficos uma maior rejeição a campanha lançada. 10 A partir desse exemplo de aplicação conclui-se que a mineração de textos combinada como outras técnicas como a de análise de sentimento possibilitam a organizações captarem a opinião do público da rede social referentes a certas campanhas de marketing feitas e dessa forma medir se a campanha teve ou não uma boa aceitação e tomar novas decisões de marketing a partir desta análise. 11 REFERÊNCIAS DIXON, Mark. An Overview of Document Mining Technology. CiteSeerX, 1997.Disponivel em: <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.56.5351&rep=rep1&type= pdf>. Acesso em: 20 de jun. 2020 GONÇALVES, Lea. Categorização em Text Mining. Dissertação de Mestrado - Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo, São Carlos, 2002. DA SILVA, Gabriel. Text Mining, um estudo a partir da rede social Twitter. Monografia - Universidade Federal do Rio Grande do Sul. Instituto de Matemática Departamento de Estatística, Porto Alegre, 2013. OLIVEIRA, Daniel. Avaliação do método de análise de sentimento em mídias sociais aplicado na gestão social e política. Dissertação de Graduação – Universidade Federal de Lavras, Minas Gerais, 2015. Demsar J, Curk T, Erjavec A, Gorup C, Hocevar T, Milutinovic M, Mozina M, Polajnar M, Toplak M, Staric A, Stajdohar M, Umek L, Zagar L, Zbontar J, Zitnik M, Zupan B (2013) Orange: Data Mining Toolbox in Python, Journal of Machine Learning Research 14(Aug): 2349−2353. MANDER J.; KAVANAGH, D. GlobalWebIndex’s flagship report on the latest trends in social media. GlobalWebIndex, 2019. Disponível em: <https://www.globalwebindex.com/hubfs/Downloads/2019%20Q1%20Social%20Flag ship%20Report.pdf>. Acesso em: 22 de jun. de 2020. GIL, A. C. Métodos e Técnicas de Pesquisa Social. 6ª Edição. São Paulo: Editora Atlas, 2008 MONTEIRO, Leandro. Dados Estruturados e Não Estruturados. Universidade da tecnologia, 2019. Disponivel em: <https://universidadedatecnologia.com.br/dados- estruturados-e-nao-estruturados/>. Acesso em: 27 de jun. de 2020. https://www.globalwebindex.com/hubfs/Downloads/2019%20Q1%20Social%20Flagship%20Report.pdf https://www.globalwebindex.com/hubfs/Downloads/2019%20Q1%20Social%20Flagship%20Report.pdf
Compartilhar