Artigo - text mining - passei-direto

•

FACULDADES DOCTUM

Victor Goecking

06/10/2020

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Sig

278 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

CENTRO UNIVERSITÁRIO DOCTUM
INSTITUTO ENSINAR BRASIL – REDE DOCTUM DE ENSINO

TEXT MINING

RESUMO

O presente artigo tem por objetivo apresentar o conceito do processo de Mineração
de Textos. Além disso será mostrado sua utilização com a ferramenta Orange para a
realização de uma análise de sentimento na rede social Twitter, a fim de ajudar as
organizações que utilizarem da ferramenta a medir a opinião do público a respeito
da mesma.
Palavras-chave: Mineração de Texto, análise de sentimento, Orange.

ABSTRACT

This article aims to present the concept of the Text Mining process. In addition, it will
show its use with the Orange tool to conduct a sentiment analysis on the social
network Twitter, to help understand how to use the tools to measure public opinion
about the same respect.

Keywords: Text Mining, sentiment analysis, Orange.

________________________

1. INTRODUÇÃO
O avanço das tecnologias de informação nos últimos anos ocasionou o
surgimento de uma imensa quantidade de dados gerados no mundo a cada dia,
sendo a maioria desses dados considerados não estruturados, ou seja, não
possuindo uma estrutura definida, como vídeos, documentos de textos, imagens,
mensagens de textos, entre outros. Muito da produção desses dados se deve a
ascensão das redes sociais que estão presentes no cotidiano de praticamente todas
as pessoas nos dias atuais. Cada vez mais as organizações voltam seus olhos para
as vantagens que o uso das redes sociais traz para seu negócio e como elas podem
auxiliar no feedback da organização. Um questionamento comum neste caso é
compreender como esse grande volume de dados não-estruturados gerados pelas
redes sociais podem auxiliar essas organizações na sua relação com o público?
Surgem então ferramentas de Data Mining e Text Mining capazes de extrair
informações de um grande volume de dados e dar significados a eles.
Na presente pesquisa o objetivo é compreender o processo de Text Mining,
utilizando-o para a realização de uma análise de sentimento usando os dados
contidos na rede social Twitter.
2. REFERENCIAL TEÓRICO
2.1 DADOS ESTRUTURADOS E NÃO ESTRUTURADOS
Dados estruturados são aqueles organizados e representados com uma
estrutura rígida, a qual foi previamente planejada para armazená-los. O exemplo
mais típico de dados estruturados é um banco de dados, onde os dados são
estruturados conforme a definição de um esquema, que define as tabelas com seus
respectivos campos (ou atributos) e tipos (formato). O esquema pode ser pensado
como uma metainformação do banco de dados, ou seja, uma descrição sobre a
organização dos dados que serão armazenados no banco (MONTEIRO,
Universidade da Tecnologia, 2019).
Por outro lado, os dados não estruturados têm uma estrutura contrária dos
dados estruturados, sendo flexível e dinâmica ou sem estrutura, por exemplo, e-
mails, mensagens de aplicativos como WhatsApp, Redes Sociais, imagens, áudios,
documentos, entre outros (MONTEIRO, Universidade da Tecnologia, 2019).
2.2 TEXT MINING
3

Documentation Mining ou Text Mining é um processo de encontrar padrões
em corpos de textos não-estruturados. Mineração de documento (Documentation
mining) combina algumas técnicas de extração de informação, recuperação de
informação, processamento de linguagem natural e resumo de documento com
métodos de Data mining (DIXON, 1997, p.1, tradução nossa).
O processo de Text Mining é considerado uma adaptação do processo
Knowledge Discovery in Database (KDD), que vem sendo utilizado com bastante
êxito em grandes bases de dados, na transformação de conhecimento implícito
(embutido nos dados) em conhecimento explícito (FAYYAD et al, 1996 apud
GONÇALVES, 2002).
A descoberta de conhecimento em texto deriva do KDD, também conhecido
como Data Mining, porém no KDD a fonte usada para exploração é estruturada. No
Knowledge Discovery in Text (KDT) são aplicados técnicas e processos a fim de
estruturar os dados oriundos de textos para permitir a posterior mineração da
informação (DA SILVA, 2013, p.8).
Um sistema de Mineração de Documento ou Text Mining deve seguir a
sequência de passos abaixo.
1. Recuperação de Informação: o primeiro passo é localizar e selecionar os
documentos que podem ser considerados relevantes.
2. Extração de Informação: neste estágio as informações dos documentos
selecionados serão extraídas e estruturadas.
3. Mineração de Informação: os dados estando estruturados serão aplicados
métodos de Data Mining, responsáveis por encontrar padrões e
relacionamentos entre os dados.
4. Interpretação: realizar a análise e/ou interpretação dos padrões obtidos no
passo anterior, de preferência em formato de linguagem natural (DIXON,
1997, p.2, tradução nossa).
2.3. ANÁLISE DE SENTIMENTO
Para (Mostafa, 2013, apud OLIVEIRA), a análise de sentimento pode ser
considerada como uma técnica automatizada de descoberta de conhecimento que
visa encontrar padrões escondidos em um grande número de dados textuais, assim
como os comentários submetidos às mídias sociais. Trata-se de uma tecnologia
emergente que identifica a opinião das pessoas em relação a um tema ou objeto,
4

sendo muito útil no monitoramento de mídias sociais para determinar
automaticamente o sentimento geral de seus usuários sobre várias questões (He;
Zha; Li, 2013; Mouthami; Devi; Bhaskaran, 2013 apud OLIVEIRA).
3. METODOLOGIA
Foi utilizado o método de pesquisa exploratória com a finalidade de
familiarizar-se com o processo de Text Mining e seu uso em uma análise de
sentimentos na rede social Twitter. Segundo Gil (2008, p. 27), “as pesquisas
exploratórias têm como principal finalidade desenvolver, esclarecer e modificar
conceitos e ideias, tendo em vista a formulação de problemas mais precisos ou
hipóteses pesquisáveis para estudos posteriores.”
Para tal foram utilizadas fontes secundárias como artigos, dissertações e
monografias pertinentes ao assunto de Text Mining e Análise de Sentimento, além
de vídeos para exemplificar a utilização do Kit de Ferramentas Orange.
A escolha da aplicação do Text Mining para a análise de sentimento em redes
sociais se deve ao incrível aumento do uso dessas no cotidiano das pessoas.
Segundo constataram os pesquisadores (MANDER J.; KAVANAGH, D. 2019), da
GlobalWebIndex, empresa de pesquisa com sede em Londres, que em 2019
analisaram os 45 maiores mercado de internet do mundo, o Brasil é o segundo país
em que as pessoas mais gastam tempo no dia com mídias sociais, em média são
225 minutos gastos por dia.
A ferramenta utilizada para a análise de sentimento é o Orange, um kit de
ferramentas de visualização de dados de código aberto, aprendizado de máquina e
mineração de dados. (DEMSAR et al, 2013, tradução nossa).
Os dados utilizados serão os tweets (postagens) dos usuários do Twitter
referentes a polêmica propaganda do Itaú Unibanco, feita para promover o seu
produto Personnalité lançado no dia 23 de junho de 2020 criticando corretoras de
investimento, foi coletada uma amostra de 5000 tweets no dia 28 de junho de 2020.
O objetivo é minerar os tweets, obtendo aqueles que estão tecendo um
comentário sobre a propaganda e a partir deles realizar uma análise de sentimento,
medindo a reação do público para saber se os comentários foram mais positivos ou
negativos.
Para isso foram feitos os seguintes passos no Orange:
5

Figura 3.1 – Captura de tela do workflow

Fonte: o autor

Foi montado um workflow (fluxo de trabalho) apresentado na Figura 3.1, onde
a primeiro momento é utilizado o widget (ferramenta) “Twitter”, que se conecta a API
da rede social para a obtenção dos tweets (postagens) dos usuários com base nas
palavras chaves informadas.
Figura 3.2 – Captura de tela do Preprocess text

Fonte: o autor
6

Após a obtenção dos dados é necessário processar estas informações daspostagens como mostrado na Figura 3.2, retirando caracteres e palavras que não
tem relevância na análise de sentimento como por exemplo: #, @, e, a, com, entre
outros, para tal função é utilizado o widget “Preprocess Text” (Pré-processar texto).

Figura 3.3 – Captura de tela do Select Columns

Fonte: o autor

Seguindo com a filtragem dos dados como mostrado na Figura 3.2, é utilizado
o widget “Select Columns” (Selecionar Colunas) para que os dados sejam separados
em colunas e a partir daí obter somente aqueles dados que mais interessam como o
conteúdo da postagem, descartando outros dados que não são relevantes para esta
análise, como quantidades de likes e quantidade de compartilhamento.
7

Figura 3.4 – Captura de tela do Sentiment Analysis

Fonte: o autor

Os dados filtrados e previamente processados são inseridos como entrada do
widget de “Sentiment Analysis” (Análise de sentimento) como mostrado na Figura
3.4, que nesse exemplo está utilizando o método de Multilingual sentiment
(Sentimento multilíngue), configurado para a língua portuguesa, este widget tem
como saída a própria postagem com uma avaliação do sentimento, e uma nota
podendo ser positiva, negativa ou neutra, onde quanto maior o número mais positivo
seria o sentimento, quanto mais negativo o número pior o sentimento e quando o
valor for zero significa que é um sentimento neutro.

Figura 3.5 – Captura de tela do Tweet Profile

Fonte: o autor

Após processados, os dados retornados do “Sentiment Analysis” (Análise de
sentimento) foram utilizados como entrada para o widget de “Tweet Profile” (Perfil do
Twitter) como mostrado na Figura 3.5, onde é medido a emoção de cada tweet
podendo ser, Disgust, Fear, Joy Sadness ou Surprise.

A partir dos dados processados e analisados foram utilizados dois widget para
a demonstração dos mesmos em forma gráfica, sendo eles o “Scatter Plot” e
“Distributions” que podem ser vistos na sessão seguinte.
4. RESULTADOS E DISCUSSÕES
Os resultados a seguir foram obtidos após os passos mostrados na
metodologia utilizando a ferramenta Orange e representam a opinião dos usuários
do Twitter sobre a propaganda do Itaú Unibanco.

Figura 4.1 – Captura de tela do Distributions

Fonte: o autor

A partir do gráfico da Figura 4.1 é possível constatar que houve uma maior
quantidades de tweets rejeitando a propaganda considerando uma nítida
concentração de emoções de raiva, tristeza.
Figura 4.2 – Captura de tela do Scatter Plot

Fonte: o autor

Já realizando a análise deste gráfico mostrado na Figura 4.2, a distribuição
onde os pontos em coloração mais próximos a cor azul representam um sentimento
negativo e quanto mais próximo à cor amarela representa um sentimento mais
positivo, partindo desse pressuposto é possível constatar que há um sentimento
negativo acentuado onde a principal emoção apresentada seriam a surpresa e o
medo.
5. CONCLUSÃO
O desenvolvimento da presente pesquisa propiciou uma maior familiaridade
com o processo de Mineração de Texto, além de mostrar sua aplicação utilizando
como contexto uma polêmica propaganda lançada pelo Itaú Unibanco. Através da
ferramenta Orange foram mineradas postagens de usuários na rede social Twitter
que falavam sobre a propaganda e a partir deles foi realizada uma análise de
sentimento que mostrou através de gráficos uma maior rejeição a campanha
lançada.
10

A partir desse exemplo de aplicação conclui-se que a mineração de textos
combinada como outras técnicas como a de análise de sentimento possibilitam a
organizações captarem a opinião do público da rede social referentes a certas
campanhas de marketing feitas e dessa forma medir se a campanha teve ou não
uma boa aceitação e tomar novas decisões de marketing a partir desta análise.

REFERÊNCIAS
DIXON, Mark. An Overview of Document Mining Technology. CiteSeerX,
1997.Disponivel em:
<http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.56.5351&rep=rep1&type=
pdf>. Acesso em: 20 de jun. 2020
GONÇALVES, Lea. Categorização em Text Mining. Dissertação de Mestrado -
Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo,
São Carlos, 2002.
DA SILVA, Gabriel. Text Mining, um estudo a partir da rede social Twitter.
Monografia - Universidade Federal do Rio Grande do Sul. Instituto de Matemática
Departamento de Estatística, Porto Alegre, 2013.
OLIVEIRA, Daniel. Avaliação do método de análise de sentimento em mídias
sociais aplicado na gestão social e política. Dissertação de Graduação –
Universidade Federal de Lavras, Minas Gerais, 2015.
Demsar J, Curk T, Erjavec A, Gorup C, Hocevar T, Milutinovic M, Mozina M, Polajnar
M, Toplak M, Staric A, Stajdohar M, Umek L, Zagar L, Zbontar J, Zitnik M, Zupan B
(2013) Orange: Data Mining Toolbox in Python, Journal of Machine Learning
Research 14(Aug): 2349−2353.
MANDER J.; KAVANAGH, D. GlobalWebIndex’s flagship report on the latest trends
in social media. GlobalWebIndex, 2019. Disponível em:
<https://www.globalwebindex.com/hubfs/Downloads/2019%20Q1%20Social%20Flag
ship%20Report.pdf>. Acesso em: 22 de jun. de 2020.
GIL, A. C. Métodos e Técnicas de Pesquisa Social. 6ª Edição. São Paulo: Editora
Atlas, 2008
MONTEIRO, Leandro. Dados Estruturados e Não Estruturados. Universidade da
tecnologia, 2019. Disponivel em: <https://universidadedatecnologia.com.br/dados-
estruturados-e-nao-estruturados/>. Acesso em: 27 de jun. de 2020.

https://www.globalwebindex.com/hubfs/Downloads/2019%20Q1%20Social%20Flagship%20Report.pdf
https://www.globalwebindex.com/hubfs/Downloads/2019%20Q1%20Social%20Flagship%20Report.pdf

Artigo - text mining - passei-direto

FACULDADES DOCTUM

Sig

Continue navegando

Outros materiais