Buscar

Artigo - text mining - passei-direto

Prévia do material em texto

CENTRO UNIVERSITÁRIO DOCTUM 
INSTITUTO ENSINAR BRASIL – REDE DOCTUM DE ENSINO 
 
 
 
TEXT MINING 
 
RESUMO 
 
O presente artigo tem por objetivo apresentar o conceito do processo de Mineração 
de Textos. Além disso será mostrado sua utilização com a ferramenta Orange para a 
realização de uma análise de sentimento na rede social Twitter, a fim de ajudar as 
organizações que utilizarem da ferramenta a medir a opinião do público a respeito 
da mesma. 
Palavras-chave: Mineração de Texto, análise de sentimento, Orange. 
 
ABSTRACT 
 
This article aims to present the concept of the Text Mining process. In addition, it will 
show its use with the Orange tool to conduct a sentiment analysis on the social 
network Twitter, to help understand how to use the tools to measure public opinion 
about the same respect. 
 
Keywords: Text Mining, sentiment analysis, Orange. 
 
 
 
 
 
 
 
________________________ 
 
 
2 
 
1. INTRODUÇÃO 
O avanço das tecnologias de informação nos últimos anos ocasionou o 
surgimento de uma imensa quantidade de dados gerados no mundo a cada dia, 
sendo a maioria desses dados considerados não estruturados, ou seja, não 
possuindo uma estrutura definida, como vídeos, documentos de textos, imagens, 
mensagens de textos, entre outros. Muito da produção desses dados se deve a 
ascensão das redes sociais que estão presentes no cotidiano de praticamente todas 
as pessoas nos dias atuais. Cada vez mais as organizações voltam seus olhos para 
as vantagens que o uso das redes sociais traz para seu negócio e como elas podem 
auxiliar no feedback da organização. Um questionamento comum neste caso é 
compreender como esse grande volume de dados não-estruturados gerados pelas 
redes sociais podem auxiliar essas organizações na sua relação com o público? 
 Surgem então ferramentas de Data Mining e Text Mining capazes de extrair 
informações de um grande volume de dados e dar significados a eles. 
 Na presente pesquisa o objetivo é compreender o processo de Text Mining, 
utilizando-o para a realização de uma análise de sentimento usando os dados 
contidos na rede social Twitter. 
2. REFERENCIAL TEÓRICO 
2.1 DADOS ESTRUTURADOS E NÃO ESTRUTURADOS 
Dados estruturados são aqueles organizados e representados com uma 
estrutura rígida, a qual foi previamente planejada para armazená-los. O exemplo 
mais típico de dados estruturados é um banco de dados, onde os dados são 
estruturados conforme a definição de um esquema, que define as tabelas com seus 
respectivos campos (ou atributos) e tipos (formato). O esquema pode ser pensado 
como uma metainformação do banco de dados, ou seja, uma descrição sobre a 
organização dos dados que serão armazenados no banco (MONTEIRO, 
Universidade da Tecnologia, 2019). 
Por outro lado, os dados não estruturados têm uma estrutura contrária dos 
dados estruturados, sendo flexível e dinâmica ou sem estrutura, por exemplo, e-
mails, mensagens de aplicativos como WhatsApp, Redes Sociais, imagens, áudios, 
documentos, entre outros (MONTEIRO, Universidade da Tecnologia, 2019). 
2.2 TEXT MINING 
3 
 
Documentation Mining ou Text Mining é um processo de encontrar padrões 
em corpos de textos não-estruturados. Mineração de documento (Documentation 
mining) combina algumas técnicas de extração de informação, recuperação de 
informação, processamento de linguagem natural e resumo de documento com 
métodos de Data mining (DIXON, 1997, p.1, tradução nossa). 
O processo de Text Mining é considerado uma adaptação do processo 
Knowledge Discovery in Database (KDD), que vem sendo utilizado com bastante 
êxito em grandes bases de dados, na transformação de conhecimento implícito 
(embutido nos dados) em conhecimento explícito (FAYYAD et al, 1996 apud 
GONÇALVES, 2002). 
A descoberta de conhecimento em texto deriva do KDD, também conhecido 
como Data Mining, porém no KDD a fonte usada para exploração é estruturada. No 
Knowledge Discovery in Text (KDT) são aplicados técnicas e processos a fim de 
estruturar os dados oriundos de textos para permitir a posterior mineração da 
informação (DA SILVA, 2013, p.8). 
Um sistema de Mineração de Documento ou Text Mining deve seguir a 
sequência de passos abaixo. 
1. Recuperação de Informação: o primeiro passo é localizar e selecionar os 
documentos que podem ser considerados relevantes. 
2. Extração de Informação: neste estágio as informações dos documentos 
selecionados serão extraídas e estruturadas. 
3. Mineração de Informação: os dados estando estruturados serão aplicados 
métodos de Data Mining, responsáveis por encontrar padrões e 
relacionamentos entre os dados. 
4. Interpretação: realizar a análise e/ou interpretação dos padrões obtidos no 
passo anterior, de preferência em formato de linguagem natural (DIXON, 
1997, p.2, tradução nossa). 
2.3. ANÁLISE DE SENTIMENTO 
Para (Mostafa, 2013, apud OLIVEIRA), a análise de sentimento pode ser 
considerada como uma técnica automatizada de descoberta de conhecimento que 
visa encontrar padrões escondidos em um grande número de dados textuais, assim 
como os comentários submetidos às mídias sociais. Trata-se de uma tecnologia 
emergente que identifica a opinião das pessoas em relação a um tema ou objeto, 
4 
 
sendo muito útil no monitoramento de mídias sociais para determinar 
automaticamente o sentimento geral de seus usuários sobre várias questões (He; 
Zha; Li, 2013; Mouthami; Devi; Bhaskaran, 2013 apud OLIVEIRA). 
3. METODOLOGIA 
Foi utilizado o método de pesquisa exploratória com a finalidade de 
familiarizar-se com o processo de Text Mining e seu uso em uma análise de 
sentimentos na rede social Twitter. Segundo Gil (2008, p. 27), “as pesquisas 
exploratórias têm como principal finalidade desenvolver, esclarecer e modificar 
conceitos e ideias, tendo em vista a formulação de problemas mais precisos ou 
hipóteses pesquisáveis para estudos posteriores.” 
Para tal foram utilizadas fontes secundárias como artigos, dissertações e 
monografias pertinentes ao assunto de Text Mining e Análise de Sentimento, além 
de vídeos para exemplificar a utilização do Kit de Ferramentas Orange. 
A escolha da aplicação do Text Mining para a análise de sentimento em redes 
sociais se deve ao incrível aumento do uso dessas no cotidiano das pessoas. 
Segundo constataram os pesquisadores (MANDER J.; KAVANAGH, D. 2019), da 
GlobalWebIndex, empresa de pesquisa com sede em Londres, que em 2019 
analisaram os 45 maiores mercado de internet do mundo, o Brasil é o segundo país 
em que as pessoas mais gastam tempo no dia com mídias sociais, em média são 
225 minutos gastos por dia. 
A ferramenta utilizada para a análise de sentimento é o Orange, um kit de 
ferramentas de visualização de dados de código aberto, aprendizado de máquina e 
mineração de dados. (DEMSAR et al, 2013, tradução nossa). 
Os dados utilizados serão os tweets (postagens) dos usuários do Twitter 
referentes a polêmica propaganda do Itaú Unibanco, feita para promover o seu 
produto Personnalité lançado no dia 23 de junho de 2020 criticando corretoras de 
investimento, foi coletada uma amostra de 5000 tweets no dia 28 de junho de 2020. 
O objetivo é minerar os tweets, obtendo aqueles que estão tecendo um 
comentário sobre a propaganda e a partir deles realizar uma análise de sentimento, 
medindo a reação do público para saber se os comentários foram mais positivos ou 
negativos. 
Para isso foram feitos os seguintes passos no Orange: 
5 
 
Figura 3.1 – Captura de tela do workflow
 
Fonte: o autor 
 
Foi montado um workflow (fluxo de trabalho) apresentado na Figura 3.1, onde 
a primeiro momento é utilizado o widget (ferramenta) “Twitter”, que se conecta a API 
da rede social para a obtenção dos tweets (postagens) dos usuários com base nas 
palavras chaves informadas. 
Figura 3.2 – Captura de tela do Preprocess text 
 
Fonte: o autor 
6 
 
Após a obtenção dos dados é necessário processar estas informações daspostagens como mostrado na Figura 3.2, retirando caracteres e palavras que não 
tem relevância na análise de sentimento como por exemplo: #, @, e, a, com, entre 
outros, para tal função é utilizado o widget “Preprocess Text” (Pré-processar texto). 
 
Figura 3.3 – Captura de tela do Select Columns 
 
Fonte: o autor 
 
Seguindo com a filtragem dos dados como mostrado na Figura 3.2, é utilizado 
o widget “Select Columns” (Selecionar Colunas) para que os dados sejam separados 
em colunas e a partir daí obter somente aqueles dados que mais interessam como o 
conteúdo da postagem, descartando outros dados que não são relevantes para esta 
análise, como quantidades de likes e quantidade de compartilhamento. 
7 
 
Figura 3.4 – Captura de tela do Sentiment Analysis
 
Fonte: o autor 
 
Os dados filtrados e previamente processados são inseridos como entrada do 
widget de “Sentiment Analysis” (Análise de sentimento) como mostrado na Figura 
3.4, que nesse exemplo está utilizando o método de Multilingual sentiment 
(Sentimento multilíngue), configurado para a língua portuguesa, este widget tem 
como saída a própria postagem com uma avaliação do sentimento, e uma nota 
podendo ser positiva, negativa ou neutra, onde quanto maior o número mais positivo 
seria o sentimento, quanto mais negativo o número pior o sentimento e quando o 
valor for zero significa que é um sentimento neutro. 
 
Figura 3.5 – Captura de tela do Tweet Profile 
 
8 
 
Fonte: o autor 
 
 Após processados, os dados retornados do “Sentiment Analysis” (Análise de 
sentimento) foram utilizados como entrada para o widget de “Tweet Profile” (Perfil do 
Twitter) como mostrado na Figura 3.5, onde é medido a emoção de cada tweet 
podendo ser, Disgust, Fear, Joy Sadness ou Surprise. 
 
A partir dos dados processados e analisados foram utilizados dois widget para 
a demonstração dos mesmos em forma gráfica, sendo eles o “Scatter Plot” e 
“Distributions” que podem ser vistos na sessão seguinte. 
4. RESULTADOS E DISCUSSÕES 
Os resultados a seguir foram obtidos após os passos mostrados na 
metodologia utilizando a ferramenta Orange e representam a opinião dos usuários 
do Twitter sobre a propaganda do Itaú Unibanco. 
 
Figura 4.1 – Captura de tela do Distributions 
 
Fonte: o autor 
 
9 
 
A partir do gráfico da Figura 4.1 é possível constatar que houve uma maior 
quantidades de tweets rejeitando a propaganda considerando uma nítida 
concentração de emoções de raiva, tristeza. 
Figura 4.2 – Captura de tela do Scatter Plot 
 
Fonte: o autor 
 
Já realizando a análise deste gráfico mostrado na Figura 4.2, a distribuição 
onde os pontos em coloração mais próximos a cor azul representam um sentimento 
negativo e quanto mais próximo à cor amarela representa um sentimento mais 
positivo, partindo desse pressuposto é possível constatar que há um sentimento 
negativo acentuado onde a principal emoção apresentada seriam a surpresa e o 
medo. 
5. CONCLUSÃO 
O desenvolvimento da presente pesquisa propiciou uma maior familiaridade 
com o processo de Mineração de Texto, além de mostrar sua aplicação utilizando 
como contexto uma polêmica propaganda lançada pelo Itaú Unibanco. Através da 
ferramenta Orange foram mineradas postagens de usuários na rede social Twitter 
que falavam sobre a propaganda e a partir deles foi realizada uma análise de 
sentimento que mostrou através de gráficos uma maior rejeição a campanha 
lançada. 
10 
 
A partir desse exemplo de aplicação conclui-se que a mineração de textos 
combinada como outras técnicas como a de análise de sentimento possibilitam a 
organizações captarem a opinião do público da rede social referentes a certas 
campanhas de marketing feitas e dessa forma medir se a campanha teve ou não 
uma boa aceitação e tomar novas decisões de marketing a partir desta análise. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
11 
 
REFERÊNCIAS 
DIXON, Mark. An Overview of Document Mining Technology. CiteSeerX, 
1997.Disponivel em: 
<http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.56.5351&rep=rep1&type=
pdf>. Acesso em: 20 de jun. 2020 
GONÇALVES, Lea. Categorização em Text Mining. Dissertação de Mestrado - 
Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo, 
São Carlos, 2002. 
DA SILVA, Gabriel. Text Mining, um estudo a partir da rede social Twitter. 
Monografia - Universidade Federal do Rio Grande do Sul. Instituto de Matemática 
Departamento de Estatística, Porto Alegre, 2013. 
OLIVEIRA, Daniel. Avaliação do método de análise de sentimento em mídias 
sociais aplicado na gestão social e política. Dissertação de Graduação – 
Universidade Federal de Lavras, Minas Gerais, 2015. 
Demsar J, Curk T, Erjavec A, Gorup C, Hocevar T, Milutinovic M, Mozina M, Polajnar 
M, Toplak M, Staric A, Stajdohar M, Umek L, Zagar L, Zbontar J, Zitnik M, Zupan B 
(2013) Orange: Data Mining Toolbox in Python, Journal of Machine Learning 
Research 14(Aug): 2349−2353. 
MANDER J.; KAVANAGH, D. GlobalWebIndex’s flagship report on the latest trends 
in social media. GlobalWebIndex, 2019. Disponível em: 
<https://www.globalwebindex.com/hubfs/Downloads/2019%20Q1%20Social%20Flag
ship%20Report.pdf>. Acesso em: 22 de jun. de 2020. 
GIL, A. C. Métodos e Técnicas de Pesquisa Social. 6ª Edição. São Paulo: Editora 
Atlas, 2008 
MONTEIRO, Leandro. Dados Estruturados e Não Estruturados. Universidade da 
tecnologia, 2019. Disponivel em: <https://universidadedatecnologia.com.br/dados-
estruturados-e-nao-estruturados/>. Acesso em: 27 de jun. de 2020. 
 
https://www.globalwebindex.com/hubfs/Downloads/2019%20Q1%20Social%20Flagship%20Report.pdf
https://www.globalwebindex.com/hubfs/Downloads/2019%20Q1%20Social%20Flagship%20Report.pdf

Continue navegando