DETECÇÃO AUTOMÁTICA DE SENTIMENTOS EM AVALIAÇÃO INSTITUCIONAL REALIZADA COM ALUNOS DO ENSINO MÉDIO

•

Exatas

Victor Araújo

04/05/2020

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Informática I

55.368 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

MINISTÉRIO DA EDUCAÇÃO
SECRETARIA DE EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DA BAHIA
CAMPUS SEABRA
VICTOR ARAÚJO BARROS
DETECÇÃO AUTOMÁTICA DE SENTIMENTOS EM AVALIAÇÃO
INSTITUCIONAL REALIZADA COM ALUNOS DO ENSINO
MÉDIO
Seabra – BA
4 de maio de 2020
VICTOR ARAÚJO BARROS
DETECÇÃO AUTOMÁTICA DE SENTIMENTOS EM
AVALIAÇÃO INSTITUCIONAL REALIZADA COM
ALUNOS DO ENSINO MÉDIO
Trabalho de Conclusão de Curso apresentado
ao Curso Técnico em Informática do Instituto
Federal de Educação, Ciência e Tecnologia
da Bahia – Campus Seabra, como requisito
parcial para obtenção do diploma de Técnico em
Informática.
Orientador: Msc.Monck Charles N. de Al-
buquerque
Seabra – BA
4 de maio de 2020
Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA)
Coordenação do Curso Técnico em Informática
Campus Seabra
VICTOR ARAÚJO BARROS
Este Trabalho de conclusão de Curso foi julgado adequado para a obtenção do título de
Técnico em Informática , sendo aprovado pela Coordenação do curso Técnico em Informá-
tica do Instituto Federal de Educação, Ciência e Tecnologia da Bahia, Campus Seabra.
Banca examinadora:
Orientador: Msc.Monck Charles N. de
Albuquerque
Instituto Federal de Educação, Ciência e Tecnologia da
Bahia (IFBA)
Profa. Msc. Luanna Azevedo Cruz
Instituto Federal de Educação, Ciência e Tecnologia da
Bahia (IFBA)
Profo.Esp.Rui Santos Carigé Júnior
Instituto Federal de Educação, Ciência e Tecnologia da
Bahia (IFBA)
Seabra – BA
4 de maio de 2020
Este trabalho é dedicado a todas as pessoas que
me apoiaram até aqui e me incentivam a ser cada vez melhor.
Agradecimentos
Agradeço primeiramente a minha Mãe, pelo amor, pelo carinho, pela dedicação,
pela criação, companheirismo em todos os momentos e incentivo aos estudos durante toda
a minha vida.
Agradeço ao meu Tio, pelos conselhos, por ter me ajudado quando precisei e pelo
incentivo aos estudos.
Agradeço a minha Namorada, por todo carinho e amor, pela sua incrível compre-
ensão, pelo incentivo e pelo companheirismo em todos os momentos.
Agradeço a compreensão daqueles a quem tive que dar menos atenção nesses últimos
momentos do ensino médio, para me dedicar à conclusão deste Trabalho de Conclusão de
Curso.
Agradeço ao professor Monck Charles pela sua paciência, pelo seu apoio e pela sua
dedicação e por sua orientação.
Agradeço ao IFBA pelo acolhimento, pelos aprendizados adquiridos e pelas inúmeras
portas que abrirão no meu futuro.
’’Conhece-te a ti mesmo”
(Sócrates)
Resumo
A Análise de Sentimento (AS) é uma área que vem ganhando relevância no meio acadêmico
e comercial, devido aos seus avanços nas técnicas de classificação automática de opiniões,
sentimentos e emoções contidos em textos. O objetivo deste trabalho foi identificar e
classificar automaticamente sentimentos contidos em bases textuais escritas em Português
do Brasil, extraídas de uma avaliação institucional realizada com alunos do ensino médio.
O trabalho é uma pesquisa bibliográfica e de levantamento. Para realizar essa pesquisa foi
aplicado um questionário aos alunos do IFBA Campus Seabra sobre a verticalização do
curso de Técnico de Informática e Técnico em Meio Ambiente para curso superior do IFBA
Seabra. Porém, para formar a base de treinamento e teste foi utilizado apenas as perguntas
que questionavam sobre a qualidade de ensino do IFBA em suas respectivas áreas de atuação
e possuíam uma polarização em suas respostas. A ferramenta que irá classificar as repostas
do questionário foi desenvolvida na linguagem Python, através de técnicas de Processamento
de Linguagem Natural (PLN) utilizando a tokenização, remoção de stop-words e a aplicação
de stemming, em conjunto utilização do classificador automático supervisionado Naïve
Bayes implementado a partir do Natural Languague ToolKit (NLTK). Os resultados obtidos
demonstram que a ferramenta desenvolvida alcança um nível aceitável de acurácia que
atende aos objetivos propostos, bem como respondem a pergunta de pesquisa. Além disso
as polaridades encontradas nas repostas dadas às perguntas do questionário demonstram
que existem áreas de atuação do IFBA onde os alunos têm uma visão majoritariamente
neutra ou negativa, como é o caso da metodologia utilizada pelos professores, a atuação do
time de gestão do IFBA e a qualidade e disponibilidade da infraestrutura da instituição.
Através desses dados é possível concluir que, apesar do questionário aplicado aos alunos
apresentar um resultado geral de repostas positivas, ainda há áreas que precisam de
aperfeiçoamento para atingir, satisfatoriamente, a demanda de ensino de qualidade dos
alunos.
Palavras-chave: Análise de Sentimentos; Classificação; Polaridade; Avaliação Institucio-
nal.
Abstract
Sentiment Analysis (AS) is an area that is gaining relevance in academia and business,
due to its advances in the techniques of automatic classification of opinions, feelings and
emotions contained in texts. The aim of this paper was to identify and automatically
classify feelings contained in textual bases written in Brazilian Portuguese, extracted
from an institutional evaluation conducted with high school students. The work is a
bibliographic and survey. In order to carry out this research, a questionnaire was applied
to the students of IFBA Campus Seabra about verifying the Computer Technician and
Environmental Technician course for an IFBASeabra college. However, to form the basis
of training and testing was used only the questions that questioned the quality of IFBA
teaching in their respective fields and had a polarization in their answers. The tool that
will classify the answers of the questionnaire was developed in the Python language, using
Natural Language Processing (PLN) techniques using tokenization, removal of this word,
and the testing application, together using the supervised automatic classifier NaïveBay
implemented from the Natural Languague ToolKit (NLTK). The results show that the
developed tool reaches an acceptable level of accuracy that meets the proposed objectives,
as well as answer the research question. In addition, the polarities found in the answers
given to the questionnaire questions demonstrate that there are areas of IFBA practice
where students have a mostly neutral or negative view, such as the methodology used by
teachers, IFBA management, and quality and availability. It is possible to conclude that,
although the questionnaire applied to the students presents a general result of positive
answers, there are still areas that need improvement in order to satisfactorily meet the
quality education demand of the students.
Keywords: Sentiment Analysis; Classification; Polarity; Institutional Evaluation.
Lista de ilustrações
Figura 1 – Etapas da Mineração de Texto . . . . . . . . . . . . . . . . . . . . . . 22
Figura 2 – Gráfico das Polaridades das respostas . . . . . . . . . . . . . . . . . . . 39
Figura 3 – Gráfico das Polaridades do questionário . . . . . . . . . . . . . . . . . 41
Figura 4 – Função em Python que remove caracteres especiais de uma palavra . . . 52
Figura 5 – Função em Python que aplica a remoção de caracteres especiais na base
de dados textuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Lista de tabelas
Tabela 1 – Identificação e remoção de stop-words . . . . . . . . . . . . . . . . . . 25
Tabela 2 – Demonstração do algoritmo de stemming . . . . . . . . . . . . . . . . . 26
Tabela 3 – Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Tabela 4 – Matriz de Confusão do teste . . . . . . . . . . . . . . . . . . . . . . . . 36
Tabela 5 – Precisão do classificador para cada uma das categorias testadas . . . . 37
Tabela 6 – Questões objetivas do questionário . . . . . . . . . . . . . . . . . . . . 50
Tabela 7 – Tabela utilizada na construção do gráfico das polaridades das respostas 53
Tabela 8 – Tabela utilizada na construção do gráfico das polaridades do questionário 53
Lista de abreviaturas e siglas
AS Análise de SentimentoIFBA Instituto Federal de Educação, Ciência e Tecnologia da Bahia
MD Mineração de Dados
MT Mineração de Texto
NLTK Natural Language Toolkit
NPS Net Promoter Score
OCDE Organisation for Economic Co-operation and Development
PISA Programme for International Student Assessment
PLN Processamento de Linguagem Natural
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Descrição do problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Objetivos Geral e Específicos . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 18
2.1 Mineração de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Análise de Sentimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Processamento de Linguagem Natural . . . . . . . . . . . . . . . . . 21
2.4 Etapas da Mineração de Texto . . . . . . . . . . . . . . . . . . . . . . 21
2.4.1 Coleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.2 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.3 Mineração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.4 Análise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Técnicas de Pré-Processamento em Mineração de Texto . . . . . . 24
2.5.1 Tokenização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.2 Remoção de Stop-words . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.3 Stemming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Classificadores Automáticos de Documentos . . . . . . . . . . . . . . 26
2.6.1 Naïve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6.2 Performance dos classificadores . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.2.1 Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.2.2 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.2.3 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1 Caracterização da pesquisa . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Etapas da realização da pesquisa . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Coleta dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.2 Planejamento da ferramenta . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.3.1 Remoção de caracteres especiais . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.3.2 Remoção de stop-words . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.3.3 Aplicação de stemming . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.4 Aplicação da mineração de texto . . . . . . . . . . . . . . . . . . . . . . . 33
4 EXPERIMENTAÇÃO E RESULTADOS . . . . . . . . . . . . . . . . 34
4.1 Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Preparação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.1 Remoção de caracteres especiais . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.2 Remoção de Stop-words . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.3 Aplicação do Stemming . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3 Treinamento do algoritmo Naïve Bayes . . . . . . . . . . . . . . . . . 35
4.4 Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.5 Avaliação da Performance do Classificador . . . . . . . . . . . . . . . 37
4.6 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 42
5.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
APÊNDICES 48
APÊNDICE A – PESQUISA SOBRE A VERTICALIZAÇÃO DO
CURSO TÉCNICO DE INFORMÁTICA/MEIO AM-
BIENTE PARA CURSO SUPERIOR DO IFBA SE-
ABRA . . . . . . . . . . . . . . . . . . . . . . . . . 49
APÊNDICE B – FUNÇÕES EM PYTHON PARA A REMOÇÃO
DE CARACTERES ESPECIAIS . . . . . . . . . . . 52
APÊNDICE C – TABELAS UTILIZADAS NA CONSTRUÇÃO DOS
GRÁFICOS . . . . . . . . . . . . . . . . . . . . . . 53
13
1 Introdução
A educação do Brasil vem apresentando resultados alarmantes, apesar do país
estar entre as dez maiores economias do mundo, sua educação está entre as piores. O
Brasil ocupou no ranking PISA de 2015, onde participaram 72 países, a 63a posição em
Ciências, a 59a em leitura e a 66a colocação em Matemática. Ficando atrás de países
subdesenvolvidos, mesmo fazendo parte dos países mais ricos do mundo. (PISA, 2015)
Segundo o Art. 205 da Constituição Federal, a educação é um direito de todos e
um dever do Estado e da família, que visa o pleno desenvolvimento da pessoa e o seu
preparo para o exercício da cidadania e a sua qualificação para o trabalho (BRASIL,
1988, p. 123). Porém, quando se confronta o texto de lei com a realidade percebe-se uma
grande contradição. Dados do PISA de 2015 mostram que mais da metade dos alunos do
Brasil tiveram um rendimento nas áreas de leitura, Ciência e Matemática abaixo do nível
mínimo esperado de acordo com a OCDE, considerado básico para a aprendizagem e a
participação plena na vida social, econômica e cívica das sociedades modernas em um
mundo globalizado.
Diante desse resultado, é inegável que o atual sistema educacional brasileiro precisa
ser reavaliado para alcançar um melhor desempenho. De acordo com Belloni (1999), a
avaliação institucional é um dos instrumentos para aprimoramento da gestão pedagógica e
administrativa, tanto das escolas quanto dos sistemas educacionais, com objetivo de gerar
melhorias na educação, tanto em sua qualidade como na sua democratização, impactando
assim o processo de transformação social.
A avaliação institucional busca o auto-conhecimento e a tomada de decisões no
intuito de aperfeiçoar o funcionamento e melhorar o resultado das instituições educacionais.
No qual o auto-conhecimento significa identificar os acertos e as insuficiências, vantagens
e dificuldades, e a tomada de decisões significa, assim que conhecida as estratégias que
dão certo, disseminá-las para generalizar o sucesso e abandonar as velhas estratégias que
funcionam mal ou com baixa qualidade. (BELLONI, 1999)
Para se realizar uma avaliação institucional é possível recorrer a diversos caminhos
na hora de ouvir a opinião dos sujeitos, interno e externos à instituição, sobre o processo
de ensino e aprendizagem . Entre eles está o uso de questionários, como proposto por
(DIAS; HORIGUELA; MARCHELLI, 2006) para coletar dados sobre a estrutura didática
e administrativa das instituições de ensino. Além de investigar o posicionamento dos alunos
em relação aos professores para saber se são favoráveis, indiferentes ou desfavoráveis frente
aos métodos, técnicas e sistemas de avaliação utilizados por eles.
Capítulo 1. Introdução 14
Dias, Horiguela e Marchelli (2006) ainda afirmam que “vendo e ouvindo o docente
em ação, geralmente os estudantes são as únicas testemunhas diretas do processo de ensino,
o que lhes permite realizar comparações construtivas.” No âmbito da avaliação institucional,
o objetivo final é reconstruir e aperfeiçoar o sistema de ensino, para isso, a opinião dos
alunos é de suma importância. Como afirma Gibbs (2009), a abordagem qualitativa visa,
principalmente, explorar os fenômenos sociais, analisando as experiências individuais ou
em grupo, sendo essa abordagem a mais adequada para essetipo de avaliação.
Realizar uma avaliação institucional por meio de um questionário qualitativo
apresenta vantagens no que tange a obtenção de dados relevantes a instituição de ensino,
visto que por meio dessa abordagem é possível compreender mais a fundo a opinião dos
alunos e assim tomar decisões a fim de melhor adequar o ensino aos mesmos. Porém,
como descreve Gibbs (2009), uma desvantagem dessa abordagem é que ela gera uma
grande quantidade de dados, o que torna a análise desses dados um processo trabalhoso e
demorado. Como a realização de uma avaliação institucional é feita com a intenção de
obter dados para aumentar a assertividade na tomada de decisão, quanto mais rápido e
menos trabalhoso esse processo, melhor para a instituição.
Com o avanço continuo da tecnologia foram surgindo novas técnicas capazes de
transformar opiniões, sentimentos e emoções contidas em bases textuais, em conhecimento.
A Análise de Sentimento (AS), uma subárea da Mineração Texto (MT), vem ganhado cada
vez mais relevância conforme se dá o crescimento da utilização das redes sociais e os meios
de comunicação digitais, além do fato de que se estima que mais de 80% desses dados
estão em formato de texto (CHEN, 2001). Utilizando dessa técnica é possível aumentar
a velocidade e a confiabilidade da análise dos dados qualitativos. Representando, assim,
uma redução de custos e um ganho de tempo ao se realizar uma avaliação institucional
com abordagem qualitativa.
Extrair informações de bases textuais, cada vez maiores devido a era da internet,
representa uma grande vantagem competitiva, pois possibilita as empresas, instituições,
governos e outras organizações, que de posse de uma grande quantidade de dados em
formato textual acerca da opinião das pessoas sobre seus produtos e/ou serviços, possuem
a possibilidade de aplicar a AS nesses dados e obter informações pertinentes sobre suas
ações, aumentando assim a sua assertividade nas tomadas de decisões relacionadas a
melhoria na qualidade do produto e/ou serviço para melhor se adequar a demanda do seu
público.
1.1 Motivação
Devido aos avanços nas técnicas de classificação automática de opiniões, sentimentos
e emoções, contidos em textos, a área de AS vem ganhando cada vez mais relevância no
Capítulo 1. Introdução 15
mundo acadêmico e no meio empresarial.
A sua relevância se deve às suas possibilidades de aplicação, pois permite classificar
automaticamente textos e assim extrair informações úteis que melhoram a capacidade de
tomada de decisão de quem utiliza esta técnica.
A realização deste trabalho permite a exploração de outras possíveis aplicações
para a AS, bem como contribuir com novos conhecimentos para as pesquisas dessa área.
O tema pesquisado é um exemplo de aplicação de AS ainda pouco explorada, pois as
pesquisas em geral são feitas com dados extraídos de redes sociais e o deste trabalho é feito
com dados extraídos de uma avaliação institucional realizada por meio de um questionário.
As pesquisas que fazem AS em textos em Português de Brasil são pouquíssimas,
se comparadas com maioria dos trabalhos que fazem AS em texto de língua estrangeira,
como é o caso da língua inglesa. Diante disto, a realização desta pesquisa possibilitaria
o avanço nessa área de pesquisa que utiliza como base textual textos em Português do
Brasil.
A importância desse trabalho também se deve ao fato de que a aplicação de AS nas
respostas obtidas da avaliação institucional, realizada com os alunos do IFBA por meio
de um question ário qualiquantitativo, permite extrair informações pertinentes à tomada
de decisão da instituição, no que tange a melhoria da qualidade do ensino ofertado aos
alunos.
Ao realizar uma avaliaç ão institucional com os alunos, é possível entender as
suas opiniões acerca do desempenho das diversas áreas de atuação que compõem o IFBA,
facilitando a auto-avaliação do instituto, ação essa que possibilita identificar os pontos
que necessitam de melhorias e a prioridade de resolução dos mesmos. De posse dessas
informações, a tomada de decisão por parte dos gestores do IFBA, se torna mais precisa,
aumentando a assim a taxa de acerto das ações da instituição com o objetivo de melhorar
a qualidade do ensino ofertado aos alunos.
Além disso, a produção deste trabalho é de suma importância para ampliar os
conhecimentos do autor sobre o tema que é tão presente na sua realidade profissional da
sua área de estudo.
1.2 Descrição do problema
O presente trabalho se depara com a dificuldade de realizar uma avaliação ins-
titucional através de um questionário qualitativo. Esse método de avaliação gera uma
grande quantidade de dados, em sua maioria texto, o que demanda uma grande quantidade
de tempo e recursos para ser tratado e analisado, representando um grande e sforço
para transformar os dados obtidos em informações pertinentes a tomada de decisões da
Capítulo 1. Introdução 16
instituição. Portanto, diant e desse cenário, surge como problema de pesquisa a seguinte
indagação:
Como realizar uma avaliação institucional com alunos do ensino médio, através de
um questionário qualitativo, de forma rápida e con fiável, utilizando Analise de sentimento?
Este problema pode ser sumarizado da seguinte forma: “Uma aplicação baseada
nas técnicas de Análise de Sentimentos, poderá obter bons resultados na identificação e
classificação de sentimentos contidos em texto escrito em Português do Brasil, utilizando
as polaridades: Positivo, Negativo e Neutro.” Desta maneira, apresentam-sem os objetivos
a seguir.
1.3 Objetivos Geral e Específicos
O objetivo geral deste Trabalho de Conclusão de Curso é identificar e classificar,
de forma automática, os sentimentos contidos em bases textuais escritas em Português do
Brasil, extraídas de uma avaliação institucional realizada no IFBA Campus Seabra por
meio de um questionário qualitativo, utilizando-se da técnica de Análise de Sentimento.
Para alcançar tal objetivo, foram delimitados os seguintes objetivos específicos:
• Identificar o método mais eficaz para a detecção de sentimentos em bases textuais,
de acordo com o contexto do presente trabalho;
• Desenvolver uma ferramenta para identificar e classificar, automaticamente,
sentimentos em bases textuais;
• Testar a ferramenta proposta com os dados coletados por meio da avaliação
institucional, para verificar se o seu nível de precisão é aceitável diante o contexto
do trabalho.
1.4 Estrutura
O presente trabalho é desenvolvido em cinco capítulos: Introdução, Fundamentação
Teórica, Metodologia, Experimentação e Resultados e Considerações Finais.
• Capítulo 1: Introdução.
Apresentação da contextualização do tema de estudo, motivação, descrição da
problemática, questão da pesquisa e objetivo Geral e Específicos.
• No Capítulo 2: Fundamentação Teórica
Neste capítulo são apresentados os conceitos de MT, AS e PLN. Em sequência
é apresentado as etapas da MT, as técnicas de Pré-processamento utilizadas,
os Classificadores Automáticos de Documentos e por último é apontado alguns
trabalhos relacionados sobre AS e as técnicas de PLN utilizadas por eles, a fim
Capítulo 1. Introdução 17
de entender qual dessas técnicas se encaixariam melhor no contexto do presente
trabalho.
• No Capítulo 3: Metodologia
Neste capítulo tem-se a caracterização da pesquisa e a definição das etapas
de realização das pesquisas, bem como qual técnica, método ou ferramenta é
utilizada em cada etapa.
• No Capítulo 4: Experimentação e Resultados
São detalhadas as etapas desenvolvidas para o pré-processamento das respostas
colhidas do questionário, para o treinamento do algoritmo Naïve Bayes, os
experimentos feitos com a intenção de descobrir a acurácia e a precisão do
classificador utilizado na ferramenta, a avaliação dos resultados do classificador
e a interpretação dos resultados obtidos.
• No Capítulo 5 Considerações Finais
É apresentada brevemente o tema do trabalho, em seguida é apresentada a sua
importância para o meio acadêmico e comercial, a importância da sua aplicação
no IFBA e a importância da sua realizaçãopara o autor. Após são apresentados
os resultados e a conclusão geral da pesquisa, em sequência são demonstrados
se os objetivos foram atingidos e o problema de pesquisa foi respondido. Por
último são apresentados possíveis temas para trabalhos futuros que podem
complementar os resultados obtidos por esse trabalho.
18
2 Fundamentação Teórica
Este capítulo apresenta a base teórica necessária à reprodução e ao entendimento
deste estudo. Inicialmente, são apresentados os conceitos de Mineração de texto, Analise
de Sentimento, Processamento de Linguagem Natural, Etapas da Mineração de Texto,
Técnicas de Pré-Processamento em Mineração de Texto e Classificadores Automáticos de
Documentos. A seguir são apresentados os trabalhos relacionados que são relevantes e
correlatos ao tema do estudo proposto.
2.1 Mineração de Texto
Com o avanço das tecnologias da informação, houve um grande aumento no número
de aplicações que armazenam dados não estruturados. Tais dados, na maioria das vezes,
possuem informações de grande valor, como: tendências, anomalias e padrões que podem
ser usados para auxiliarem nas tomadas de decisões (BERRY; KOGAN, 2010). Em
contraponto, o crescimento do uso de equipamentos digitais, principalmente aqueles que
usam a internet como meio de comunicação, fez com que a busca por sistemas capazes
de descobrir conhecimento, em dados não estruturados, aumentasse exponencialmente
(BERRY; KOGAN, 2010).
Diante desse contexto, diversas técnicas foram desenvolvidas com o propósito de
recuperar informações contidas em bases de dados, dando origem à área chamada MT. A
MT deriva das técnicas de Mineração de Dados (MD), no qual as duas áreas procuram
extrair informações úteis em dados não estruturados, semiestruturados ou não estruturados,
sendo esse último de difícil tratamento (FELDMAN; SANGER, 2007). Porém, a MT se
dedica a tarefa de extrair informações relevantes contidas em dados não estruturados, no
caso, de textos.
Para Hearst (1999) os dados textuais englobam uma vasta e rica fonte de infor-
mação, mesmo em um formato que seja difícil de extrair de maneira automatizada. Na
prática, estamos vivenciando o crescimento acelerado de informações não estruturadas,
principalmente através das redes sociais. Com isso a MT ganha espaço não somente no
mundo acadêmico, mas também no mundo dos negócios Brito (2017). Essa grande massa
de informação textual não estruturada não pode ser utilizada por computadores para
a extração de conhecimento, pois os mesmos apenas interpretam como uma sequência
de caracteres. Assim, é necessário a aplicação de diferentes métodos e algoritmos para
dar estruturação aos dados textuais, visando facilitar a extração de conhecimento dos
respectivos dados (FILHO, 2014).
Capítulo 2. Fundamentação Teórica 19
O principal objetivo da MT é a extração de características em uma grande quanti-
dade de dados não estruturados (BRITO, 2017). Para Tan et al. (1999) a MT se refere
ao processo de extrair padrões interessantes e não triviais ou conhecimento a partir de
textos desestruturados. Já para Dörre, Gerstl e Seiffert (1999) MT se aplica a algumas
funções analíticas de MD, mas também se aplica a funções analíticas de linguagem natural
e técnicas de recuperação de informação.
Para além das técnicas empregadas na MD que são reutilizadas n MT, outras
áreas de estudos são igualmente importantes para a extração de conhecimento em bases
textuais, como por exemplo: Aprendizagem de Máquina, Inteligência Computacional (IC),
Recuperação da Informação (RI), Ciência Cognitiva e, não menos importante, o (PLN),
que explora como os computadores podem ser utilizados para compreender a linguagem
natural, conforme afirma Chowdhury (2003).
Existem ainda duas abordagens para o processo de mineração em bases textuais: a
Análise Estatística, que trabalha diretamente com a frequência de aparição de cada termo
em uma frase, não se preocupando com o contexto inserido, e a Análise Semântica, que se
preocupa com a funcionalidade dos termos, através do significado morfológico, sintático,
semântico, pragmático, conforme o ser humano faz. Ambas as abordagens podem ser
utilizadas sozinhas ou em conjunto (CHOWDHURY, 2003).
2.2 Análise de Sentimento
Devido a larga expansão do uso da internet, os seus usuários geram cada vez mais
informação ricas em conteúdos, opiniões e sentimentos, disseminadas seja por meio de
fóruns, comunidades, blogs, redes sociais e etc. Para Indurkhya e Damerau (2010) as
opiniões são tão importantes que, onde quer que se queira tomar decisões, as pessoas
querem ouvir a opinião de outros. Isso não é uma verdade apenas para as pessoas, como
também para as organizações, afinal, conhecer a opinião dos clientes acerca dos seus
produtos e serviços é de grande valia para as organizações.
A análise dessa quantidade massiva de dados gerados na internet se tornou indispen-
sável, representando uma grande vantagem competitiva para aqueles que souberem extrair
de tais dados informações úteis que possam melhorar a sua capacidade de tomada de
decisão. A AS surge com o intuito de identificar opiniões, sentimentos e emoções em textos
Brito (2017). Porém, como essa é uma área relativamente nova, ainda existe discordâncias
em relação a concepção de opinião, sentimento e emoção trabalhada por pesquisadores na
AS, possuindo assim algumas terminologias para delimitar a área. Para deixar mais claro
o conteúdo em torno dessa área, serão mostrados a seguir alguns conceitos pertinentes ao
entendimento desse assunto.
Segundo Wiebe et al. (2004), a AS trata da detecção automática dos estados
Capítulo 2. Fundamentação Teórica 20
privados, que são aqueles que não podem ser observados por outros. Para eles, estes
conceitos estão intimamente relacionados à noção de estado interno.
Em outra linha, Roman et al. (2007) dizem que antes de falar sobre sentimentos em
texto, deve-se trabalhar com análise de emoções. Para este autor, as emoções correspondem
as alterações no estado corpóreo em conjunto com as alterações à cognitivas por meio de
um estímulo externo, e o sentimento consiste em sentir tal.
Por outro lado, Liu (2012) defende a ideia de que uma opinião advém de uma
atitude, expressada por um determinado termo polarizado e associado a um aspecto
ou atributo de uma entidade por um indivíduo. “Uma opinião é, então, por natureza,
relacional, pessoal e explícita”. Este autor ainda distingue suas opiniões em dois tipos:
diretas e comparativas. A primeira associa-se diretamente com uma emoção ou atitude de
uma entidade; enquanto as comparativas expressam uma relação de similaridades entre
dois ou mais objetos.
Já em relação a AS, Liu (2012) afirma que este é um campo multidisciplinar que
envolve áreas como ciência da computação, linguística, estatística e até psicologia. Que
de maneira geral tem por objetivo analisar o sentimento expresso pelo autor de um texto
em seu conteúdo. Quando o objetivo é identificar o sentimento expresso em uma classe
específica, como positivo ou negativo, é tida como uma tarefa de classificação.
Ainda conforme Liu (2012) tal análise pode ser feita em diversos níveis, se desta-
cando os níveis de sentença, documento e aspetos. Na análise por sentença, o objetivo
é identificar a orientação do sentimento que a sentença expressa, antes classificando a
sentença como opinativa ou apenas descritiva, descartando sentenças sem opinião. Na
análise a nível de documento, busca-se atribuir um sentimento geral a ele, mesmo contendo
em seu conteúdo diversas opiniões e sentimentos. Porém, de maneira bem mais específica,
existe a AS a nível de aspectos. Nesse nível a análise procura identificar a opinião do autor
sobre determinadas características de um assunto, e não de forma geral.
Como cita Ribeiro (2015), existem três abordagens para se efetuar a AS em textos:
abordagens baseadas em aprendizagem de máquina, em análises léxicas ou em análises
linguísticas. Nas abordagens baseadas em aprendizagem de máquina treina-se um algoritmo
com exemplos previamente classificados, buscando atributos quemelhor classifiquem cada
classe. Em uma abordagem baseada em análise léxica se utiliza um grupo de palavras
cujo sentimento foi previamente anotado. Um algoritmo classifica então um documento
baseado na presença de tais palavras no seu texto. Caso a abordagem seja voltada a uma
análise linguística, as estruturas das sentenças e suas funções sintáticas são levadas em
consideração durante a classificação, para tentar identificar padrões que melhor descrevam
textos positivos e textos negativos.
Capítulo 2. Fundamentação Teórica 21
2.3 Processamento de Linguagem Natural
A comunicação entre as pessoas pode se dar de diferentes formas, através linguagem
escrita, falada e até a de sinais. Já para a comunicação entre computadores, é usada uma
linguagem precisa e concebida especificamente para este fim. Mas quando essa comunicação
se dá entre homem e computador, é preciso utilizar técnicas para que a máquina possa
trabalhar com a linguagem utilizada pelas pessoas. A área de estudo que visa estabelecer
uma comunicação entre a linguagem do homem e a linguagem da máquina denomina-
se Processamento de Linguagem Natural (PLN), ou Linguística Computacional e é um
campo que converge conceitos da Ciência da Computação, da Inteligência Artificial e da
Linguística (RIBEIRO, 2015).
O PLN é uma área da Ciência da Computação que estuda como os computadores
podem analisar e/ou gerar textos em linguagem natural Perna, Delgado e Finatto (2010).
Segundo Turban et al. (2010) descrevem que o PLN pode ser visto como a forma de
comunicação entre o homem e a máquina, sendo essa comunicação em qualquer linguagem
que se fale. Por outro lado, Liddy (2001) aborda o PLN como um conjunto de técnicas
para analisar e representar ocorrências naturais de texto em um ou mais níveis de análise
linguística com o objetivo de se alcançar um processamento de linguagem similar ao
humano para uma série de tarefas ou aplicações.
Este mesmo autor ainda classifica as técnicas de PLN conforme o nível linguístico
processado: fonológico, morfológico, lexical, sintático, semântico e pragmático. Estes níveis
precisam ser entendidos e diferenciados. Especificamente, o morfológico trata das palavras
isoladamente; o léxico trabalha com o significado das palavras; o sintático refere a estrutura
das frases; o fonológico lida com a pronúncia; o semântico interpreta os significados das
frases (LIDDY, 2001).
Para efetuar tal processamento, utiliza-se de diversas ferramentas que extraem
informações de texto baseadas em regras dos idiomas no quais estão escritos. Dentre essas
ferramentas destacam-se os tokenizadores, os etiquetadores sintáticos e os lematizadores
(stemmers) entre outras Ribeiro (2015). Onde todas essas técnicas podem ser usadas em
um processo de PNL, porém para este trabalho, o nível fundamental é o morfológico.
2.4 Etapas da Mineração de Texto
A MT é um processo cíclico e constituído de etapas bem definidas. Para a presente
pesquisa, o modelo que melhor se adapta ao seu objetivo, é o desenvolvido por Aranha,
Vellasco e Passos (2007), no qual ele descreve como um modelo completo para adquirir
conhecimentos a partir de um corpus1 textual. A seguir será detalhado as etapas e técnicas
1 Um corpus é uma coleção de textos, que representa um conjunto de linguagens naturais.
Capítulo 2. Fundamentação Teórica 22
dessa metodologia usada neste trabalho. É ilustrado na Figura 1 a metodologia.
Figura 1 – Etapas da Mineração de Texto
Fonte: ARANHA; VELLASCO; PASSOS, 2007.
De acordo com Aranha, Vellasco e Passos (2007), a metodologia é dividida em
cinco etapas. A primeira é a coleta de dados; a segunda, o pré-processamento destes, como
a intenção de criar o primeiro nível de estruturação; a terceira etapa é a indexação, onde
são extraídos conceitos dos documentos através da análise de seu conteúdo e traduzidos
em termos da linguagem de indexação a quarta, a mineração do texto para a extração de
conhecimento; e a quinta, a análise e interpretação dos resultados obtidos.
Essas etapas são usadas na execução deste trabalho, porém o passo de indexação
não foi utilizado por não ser considerado relevante, não havendo a necessidade de realizar
consultas nos textos que compõem a base de dados.
2.4.1 Coleta
Na MT, quando estamos diante de um problema de classificação automática de
documentos, é necessário obter um conjunto de dados para treinamento (ARANHA;
VELLASCO; PASSOS, 2007). Portanto, esta etapa de coleta e extração dos dados, consiste
em na criação de uma base de dados textual, ou corpus. A criação do corpus é uma
das etapas mais difíceis, uma vez que, na maioria dos casos, exige-se que especialista
classifiquem tais dados manualmente.
2.4.2 Pré-Processamento
Após a coleta dos dados é necessário transformar eles em um formato propício para
serem submetidos aos algoritmos de extração automática de conhecimento (ARANHA;
Capítulo 2. Fundamentação Teórica 23
VELLASCO; PASSOS, 2007). Esta segunda etapa, denominada Pré-processamento, é
executada imediatamente após a coleta dos dados. Ela é muito onerosa, uma vez que são
utilizados diversos algoritmos, consumindo boa parte do tempo do processo de extração
de conhecimento, além de não existir uma única técnica que possa ser aplicada em todos
os domínios de aplicações (BRITO, 2017). O principal objetivo ao se pré-processar um
texto consiste na filtragem e limpeza dos dados, eliminando redundâncias e informações
desnecessárias para o conhecimento que se deseja extrair (GONÇALVES et al., 2006). As
principais técnicas aplicadas nestas etapas em bases textuais, são apresentadas na Seção
2.5.
2.4.3 Mineração
Após os documentos serem representados em um formato adequado, é possível
aplicar técnicas de extração de conhecimento utilizando sistemas de MD (ARANHA;
VELLASCO; PASSOS, 2007). Nesta etapa de MT são aplicadas técnicas direcionadas ao
aprendizado de máquina para a obtenção de novos conhecimentos (WITTEN et al., 2016).
Nesta etapa, escolhe-se a tarefa, de acordo com a necessidade do usuário. Por exemplo,
se a necessidade for verificar o grau de similaridade e a formação de grupos naturais,
então a tarefa a ser escolhida é clusterização. Por outro lado, se estes grupos já estão
formados, seja por conhecimento prévio do especialista ou pela execução de algoritmos,
então a orientação de onde um novo documento deve ser rotulado é conseguida através de
algoritmos de classificação (BRITO, 2017).
No contexto deste trabalho, as técnicas aplicadas na etapa de MT, devem ser capazes
de identificar as características que diferenciam documentos pertencentes a diferentes classes
e realizar o processo de classificação de forma automática.
2.4.4 Análise
Por fim, na última etapa o objetivo é descobrir padrões úteis e desconhecidos
presentes nos documentos (ARANHA; VELLASCO; PASSOS, 2007). Nela será validada
a eficiência do processo como um todo, analisando os dados obtidos após aplicação dos
algoritmos na etapa anterior. Em outras palavras, é nesta etapa que avaliamos se o objetivo
de descobrir um novo conhecimento foi adquirido, a partir de uma base textual (WITTEN
et al., 2016). Brito (2017) ainda afirma que a MT é um processo cíclico e por isso ao final
de cada uma das etapas os resultados devem ser analisados individualmente, e, caso não
sejam satisfatórios, é necessário realizar alterações no processo para a realização de um
novo ciclo.
Capítulo 2. Fundamentação Teórica 24
2.5 Técnicas de Pré-Processamento em Mineração de Texto
Nesta seção serão apresentadas as técnicas utilizadas neste trabalho na etapa de
Pré-processamento, com a intenção de melhorar os resultados na extração de conhecimento.
Onde serão apresentados os conceitos de tokenização, remoção de stop-words e stemming.
Ao se trabalhar com bases textuais, existe uma grande quantidade de termos e
atributos para sua representação, resultando assim, em uma denotação esparsa, em que
grande parte dos atributos é nula. Dessa forma, as técnicas aplicadas no pré-processamento
são importantes para resolver problemas em que dados textuais estãoenvolvidos. Por-
tanto, uma boa amostragem dos dados é aquela que identifica os melhores atributos que
representam o conhecimento e que consiga reduzir drasticamente a quantidade destes sem
perder as características principais da base de dados (BRITO, 2017).
2.5.1 Tokenização
A tokenização é a extração de unidades mínimas do texto. Onde cada unidade
representa um token e normalmente corresponde a uma palavra no texto (MANNING
et al., 2008). O termo token será usado bastantes neste trabalho, podendo em alguns
momentos assumir o mesmo sentido de “palavra”. Sendo que na maioria das vezes, um
token representa uma palavra. Como exemplo a frase: “Ensino técnico de qualidade e
grandes possibilidades para o futuro.”, que poderá ser dividida em dez tokens, conforme o
exemplo abaixo.
[Ensino] [técnico] [de] [qualidade] [e] [grandes] [possibilidades] [para] [o] [futuro] [.]
Na transformação do texto em tokens o “espaço” é sempre descartado, pois não
possuem valor para o contexto trabalhado. Por fim, o principal objetivo de criar tokens é
a tradução de um texto em dimensões possíveis de se avaliar, analisar, para obtenção de
um conjunto de dados estruturados (JACKSON; MOULINIER, 2007).
2.5.2 Remoção de Stop-words
Nem todas as palavras do documento devem ser adicionadas ao corpus. Palavras
que aparecem em todos os documentos e com uma elevada frequência são exemplo disso.
Isso porque a utilização de uma palavra com estas características não é capaz de colaborar
na seleção de documentos relativos a um assunto específico. As preposições são um
exemplo deste tipo de palavra, pois são termos que servem para fazer o encadeamento de
ideias e palavras, são termos inerentes à linguagem, e não ao conteúdo dos documentos.
Normalmente, as palavras que aparecem em muitos documentos não são indexadas pois
sua utilização compromete a precisão e a eficiência de um sistema de busca (ARANHA;
VELLASCO; PASSOS, 2007).
Capítulo 2. Fundamentação Teórica 25
Com o intuito de não prejudicar a precisão e eficiência do sistema de MT, é
necessário remover tais palavras do corpus. Para isso se cria uma lista contendo todas as
palavras que não devem ser indexadas, conhecida como Stop-list, e as palavras presentes
nesta lista são conhecidas como stop-words (ARANHA; VELLASCO; PASSOS, 2007).
Segundo Wives e Loh (1998) uma stop-word é considerada como “palavra vazia” que, além
de não colaborar para a análise da polaridade de um texto, aparece em praticamente todos
os documentos, ou na maioria deles. Normalmente, correspondem aos artigos, preposições,
pontuação, conjunções e pronomes de uma língua (INDURKHYA; DAMERAU, 2010).
Para Aranha, Vellasco e Passos (2007) o processo de obtenção das stop-words pode
ser manual, onde o projetista do sistema avalia quais palavras devem ou não ser indexadas
e há ainda a possibilidade de se montar esta lista automaticamente, verificando-se quais
são as palavras com maior frequência, selecionando-as como stop-words. Então, após uma
palavra ser reconhecida no processo de indexação, sua presença na stoplist é verificada.
Caso exista na lista de palavras a serem removidas, ela não é adicionada ao índice. Tal
processo é exemplificado na Tabela 1, onde as palavras sublinhadas são descartadas da
análise.
Tabela 1 – Identificação e remoção de stop-words
Stoplist Texto
e, o, de, uma, um,
com, já,
[É] [um] [instituto] [de] [ensino] [de] [qualidade], [com] [professores]
[qualificados], [já] [sai] [com] [uma] [formação] [pronto] [para] [o]
[mercado] [de] [trabalho]
Fonte: Próprio autor.
Existem várias listas de stop-words disponíveis na internet, o que elimina a necessi-
dade de construir uma lista manualmente. Entretanto, para este trabalho, será construída
uma stop-list que atenda a necessidade da aplicação.
2.5.3 Stemming
Após a tokenização e a remoção das stop-words, é possível realizar a técnica de
stemming, que consiste em reduzir cada palavra para a sua raiz, removendo os prefixo
e sufixos que indicam a variação na forma da palavra, como plural e tempos verbais.
Utilizado da forma correta, essa técnica pode trazer benefícios para a etapa de pré-
processamento. Assim é possível reduzir drasticamente o tamanho do léxico e também
o esforço computacional, aumentando assim a precisão dos resultados, exceto quando a
retirada de prefixos e sufixos muda a essência original da palavra (BRITO, 2017).
É exemplificado através da Tabela 2 o processo de stemming, onde é representado
na primeira coluna a frase normalizada e na segunda é apresentado o resultado da aplicação
do algoritmo de stemming.
Capítulo 2. Fundamentação Teórica 26
Tabela 2 – Demonstração do algoritmo de stemming
Frase Normalizada Stemming
Ensino médio técnico gratuito qualidade ensin médi técn gratuit qualidad
Fonte: Próprio autor.
2.6 Classificadores Automáticos de Documentos
A classificação automática de textos reporta-se ao procedimento no qual um
algoritmo classificador determina à qual classe um documento é pertencente. O principal
objetivo da classificação é atribuir uma classe a um conjunto de documentos (PRABOWO;
THELWALL, 2009). Para o presente trabalho, o objetivo é distribuir um conjunto de
documentos entre as classes.
Existem diversas estratégias para classificar um documento textual e, neste trabalho,
será utilizado um classificador baseado em um modelo estatístico que trabalha com métodos
indutivos, através de uma abordagem de aprendizado supervisionado, no qual um novo
documento é classificado de acordo com as características aprendidas por este classificador,
construído e treinado a partir de dados rotulados (MARTINS, 2003). O algoritmo que será
utilizado é o Naïve Bayes, onde através dos dados do treinamento, estimará a probabilidade
de um documento pertencer a uma determinada classe.
2.6.1 Naïve Bayes
O Naïve Bayes é um classificador probabilístico baseado na aplicação do teorema
de Bayes, criado por Thomas Bayes no século XVIII, sendo este considerado o mais
eficiente na precisão e rotulação de novas amostras (CHAKRABARTI, 2002). Apesar de
ser aparentemente simples esse algoritmo tem mostrado um desempenho considerável nas
tarefas de MT e AS, como pode ser visto no trabalho de Wang e Manning (2012).
P (A|B) = P (B|A)P (A)
P (B) (2.1)
É apresentado na Equação 2.1 o teorema de Bayes. Considerando que B representa
um evento que ocorreu previamente e A um evento que depende de B, para que seja
calculada a probabilidade de A ocorrer dado o evento B, o algoritmo deverá contar o
número de casos em que A e B ocorrem juntos e dividir pelo número de casos em que B
ocorre sozinho (FILHO, 2014).
Capítulo 2. Fundamentação Teórica 27
2.6.2 Performance dos classificadores
Para ter resultados confiáveis é necessário definir métricas para avaliar a performance
das classificações efetuadas pelos classificadores, no caso deste trabalho o Naïve Bayes.
Para Liu (2012) avaliar a performance do classificador é muito importante na classificação
de textos, pois, com as métricas, é possível averiguar o quão este classificador é capaz
de caracterizar um novo exemplo, quando lhe é apresentado. O conceito de matriz de
confusão, acurácia e precisão terão seus funcionamentos descritos a seguir.
2.6.2.1 Matriz de Confusão
A matriz de confusão é uma tabela que contém a quantidade de amostras clas-
sificadas corretamente e incorretamente. No qual é traçada uma relação entre o valor
efetivamente calculado pelos classificadores e o valor real da classificação (LIU, 2012). Essa
matriz considera amostras positivas e negativas de uma das classes, ou seja, amostras
positivas são pertencentes a uma das classes, e amostras negativas são todas as outras
pertencentes a outras classes. Desse modo, a matriz poderá ser construída para cada uma
das classes do problema a ser avaliado (BRITO, 2017).
Tabela 3 – Matriz de Confusão
Classificação/Valor Real Positivo Negativo
Positivo Verdadeiro-Positivo(VP) Falso-Positivo(FP)
Negativo Falso-Negativo(FN) Verdadeiro-Negativo(VN)
Fonte: Próprio autor.
Na matriz de confusão apresentada na Tabela 3, VPrepresenta o número de
amostras positivas classificadas corretamente; FN são as amostras de outras classes
classificadas na classe positiva; FP a quantidade de amostra da classe positiva classificada
em qualquer outra classe; e VN é o número de amostras das outras classes classificadas
corretamente.
A partir da matriz de confusão, as métricas de precisão e acurácia, comumente
utilizadas na avaliação de classificadores, podem ser definidas (LIU, 2012). Essa avaliação
deverá ser realizada logo após a submissão do corpus ao treinamento, utilizando-se do
resultado da classificação do conjunto de teste (BRITO, 2017).
2.6.2.2 Acurácia
A medida de acurácia serve para medir o quão efetivo o sistema é do ponto de
vista da classificação geral, quantificando o número de acertos sobre as amostras positivas
e negativas de todas as classes. A medida de acurácia é calculada na Equação 2.2, porém
Capítulo 2. Fundamentação Teórica 28
assume um custo igual para todos os tipos de erros, não podendo ser um balizador para a
análise.
Acurácia = V P + V N
V P + FP + FN + V N (2.2)
2.6.2.3 Precisão
A medida de precisão calcula um valor para a quantidade de documentos corretos
entre os documentos classificados como corretos. Está métrica é útil para avaliar a precisão
de cada classe da aplicação, auxiliando a detectar a presença de ruídos na base de
treinamento que comprometam os resultados. A medida de precisão é calculada através da
Equação 2.3.
Precisão = V P
V P + FP (2.3)
2.7 Trabalhos Relacionados
Atualmente, com o avanço da tecnologia e a sua democratização, principalmente a
da internet, cada vez mais pessoas estão se conectando a rede mundial de computadores e
gerando cada vez mais dados, seja em fóruns, blogs ou redes sociais. Em sua maioria no
formato de texto, onde foi evidenciado que 80% do conteúdo contido na Internet está em
formato textual como afirma Chen (2001).
Devido a essa grande quantidade de informações em texto circulando no ambiente
online, muitos pesquisadores foram atraídos para área de MT. A maioria dessa informação
é encontrada em formato de discurso expresso pelos usuários, sendo ricos em conteúdo,
opinião e emoções. Onde a análise desse tipo de texto é altamente relevante para pesquisas
acadêmicas, uma vez que um texto opinativo desempenha um papel importante em
influenciar as percepções das pessoas sobre a maneira como nos comunicamos e na tomada
de decisão Brito (2017).
Neste capítulo será descrito alguns trabalhos relacionados que serviram de base
norteadora para a realização desse Trabalho de Conclusão de Curso, onde é citado o uso
de AS utilizando técnicas de MT. Tais trabalhos relacionados possuem a mesma base de
estudo, que é a detecção de sentimentos em bases textuais através da AS, porém com o
uso de diferentes técnicas e tecnologias.
O trabalho de Filho (2014) aborda como a técnica de MT foi usada para coletar,
estruturar a base textual extraída do Twitter e como foi usado para criar um modelo de
classificação de texto que permita mapear a opinião da rede social dos usuários do Twitter
sobre a Copa do Mundo da FIFA Brasil 2014.
Capítulo 2. Fundamentação Teórica 29
O trabalho de Ribeiro (2015) apresenta a AS em comentários sobre aplicativos
móveis extraídos da Google Play em português e inglês e mostra como os impactos do
pré-processamentos dos dados afetam no desempenho do resultado. Ele detalha como
as diferentes fases do pré-processamento, como da remoção de stop-words, remoção de
repetição de letras nas palavras e pontuações, de correção de gírias e palavras escritas
de maneira errada, da aplicação da ferramenta de stemming e ainda da representação do
texto em uni-gramas, bigramas ou uma combinação de ambos, podem afetar os resultados.
O trabalho de Brito (2017) implementou um modelo de sistema para classificar
automaticamente sentimentos em bases textuais escritas em Português do Brasil extraídas
de comentários do Twitter, utilizando os conceitos de aprendizagem de máquina. Neste
trabalho são feitos dois experimentos, utilizando o classificador supervisionado Naïve
Bayes, implementado a partir do Natural Language ToolKit (NLTK 2). Onde os resultados
demonstraram que o desempenho do método proposto neste trabalho para analisar mais de
duas polaridades utilizando técnica de classificação foi inferior ao das outras ferramentas
que testam apenas duas polaridades.
O trabalho de Lazzarin (2017) propõem a aplicação de técnicas de MD em textos
extraídos da rede social Twitter para AS. A partir de dados extraídos e pré-processados
de uma rede social, pretende-se aplicar abordagens de MT para interpretação dos dados
no que se refere ao nível emocional dos usuários de uma determinada instituição de
ensino. É esperado que a identificação do estado emocional do indivíduos que usam esta
rede social possa ajudar a identificar o nível de satisfação desses indivíduos quanto a
assuntos relacionados a instituição, e também direcionar esforços para assuntos onde foram
identificadas emoções como tristeza, raiva ou decepção em comentários, e com isso sanar
problemas até então desconhecidos ou que passavam desapercebidos pela instituição de
ensino.
Os trabalhos mencionados acima serão as bases para o desenvolvimento desse
Trabalho de Conclusão de Curso, possuindo uma grande semelhança com eles. Esta pesquisa
tem a pretensão de trabalhar de forma similar com o trabalho de Brito (2017) e Filho
(2014), porém utilizando como fonte da base textual, as respostas obtidas de uma avaliação
institucional do IFBA Campus Seabra através de um questionário qualiquantitativo. Assim
como esses autores, pode-se reutilizar neste trabalho um modelo que tenha como base de
treinamento um corpus rotulado, a biblioteca NLTK para realizar o pré-processamento dos
textos, o algoritmo Naïve Bayes para gerar a tabela probabilística usada para classificar
os sentimentos contidos no textos da base de treinamento e o cálculo de acurácia para
analisar a precisão da ferramenta desenvolvida, além de outras características encontradas
nos trabalhos citados.
2 NLTK é uma biblioteca para PLN desenvolvida por Steven Bird e Edward Loper lançada em 2001 e
distribuída através da licença Apache 2.0
30
3 Metodologia
No presente capítulo será feita a caracterização da pesquisa, bem como a apresen-
tação dos passos percorridos que são necessários para a sua reprodução.
3.1 Caracterização da pesquisa
A presente pesquisa pode ser classificada como aplicada, visto que gera conheci-
mentos úteis para a aplicação em problemas práticos e com finalidades imediatas. Pois o
objetivo dessa pesquisa consiste em uma tarefa de classificar automaticamente sentimentos
contidos em bases textuais extraídas de uma avaliação institucional realizada no IFBA
Campus Seabra através de um questionário qualiquantitativo, com o intuito de averiguar
o posicionamento dos alunos em relação a qualidade de ensino ofertado na instituição.
Além de ter uma abordagem qualitativa para analisar os dados e objetivo exploratórios e
descritivos.
Quanto aos procedimentos, trata-se de uma pesquisa bibliográfica e de levantamento.
A pesquisa bibliográfica foi realizada com base em material já existente, compostos
principalmente de livros e artigos, permitindo assim analisar as contribuições de diversos
autores sobre o assunto abordado e o levantamento foi feito através da aplicação de um
questionário aos alunos do ensino médio de uma instituição federal.
Tal questionário foi aplicado no IFBA Campus Seabra, que fica a 475 quilômetros
de distância da capital da Bahia, Salvador. Questionando a opinião dos alunos sobre a sua
preferência quanto ao curso superior que deve ser implantado na instituição, bem como
identificar a sua satisfação em relação a qualidade do ensino ofertado pela instituição.
Porém só foram utilizadas nesta pesquisa as respostas dadas as perguntas que questionavam
sobre a qualidade de ensino do IFBA. O instrumento foi aplicado a 148 alunos do dia 26
agosto ao dia 09 de setembro de 2019, de forma anônima, no qual eles responderam um
questionárioonline nos laboratórios de informática do Campus.
3.2 Etapas da realização da pesquisa
Para alcançar o objetivo do trabalho, que é classificar automaticamente sentimen-
tos em bases textuais, utilizou-se a metodologia de Aranha, Vellasco e Passos (2007),
comumente aceita no mundo acadêmico acerta da MT (seção 2.4).
Capítulo 3. Metodologia 31
3.2.1 Coleta dos dados
A ferramenta utilizada para criar o questionário e armazenar as respostas foi o
Formulários Google, pois ele permite que esse processo seja realizado de forma online,
rápida e confiável. O questionário aplicado é constituído de 16 perguntas, das quais 6 são
qualitativas e as outras 10 são quantitativas. O questionário completo pode ser encontrado
no Apêndice A.
Após a aplicação do questionário, os dados foram salvos em uma planilha eletrônica,
para serem usados posteriormente como base do trabalho. Considerando que o objetivo do
trabalho é classificar automaticamente sentimentos em bases textuais, foi feita uma análise
preliminar das respostas dada as perguntas, selecionando apenas perguntas que continham
respostas com sentimento positivo, negativo ou neutro, no caso, as perguntas 3, 4, 5, 6 e 7.
Do total de respostas selecionadas para o trabalho, 75% foram usados na base de
treinamento e os outros 25% foram usados na base de teste, tal divisão é necessária para
que depois que a aplicação esteja pronta, seja possível calcular a sua taxa de acerto através
das métricas de acurácia e precisão.
3.2.2 Planejamento da ferramenta
Após coletados os dados, que serviram como base para este trabalho, se iniciou a
etapa de planejamento e elaboração da ferramenta, pois é por meio dela que será possível
extrair conhecimento dos dados coletados. Esta etapa consistiu em pesquisar em artigos e
em livros a melhor forma de implementar a ferramenta para atender os objetivos deste
trabalho. A linguagem escolhida foi Python para desenvolver a ferramenta em conjunto
com a biblioteca NLTK para realizar o PLN.
Python é uma linguagem de alto nível usada para diversas tarefas, desde de simples
scripts até complexos sistemas web. Possui uma ampla biblioteca, com mais de 100 módulos
em constante desenvolvimento, fato que justifica sua popularidade entre os desenvolvedores.
Alguns desses módulos contém funções de calculo matemático, expressões regulares, threads,
protocolo de redes, interface gráfica entre outros (PYTHON SOFTWARE FOUNDATION,
2019).
O motivo da escolha da linguagem Python para o desenvolvimento da ferramenta
nesse trabalho se deve a sua eficiência e fácil manutenção na programação de diversas
tarefas. Além de apresentar um ótimo desempenho na manipulação de arquivos de texto,
principal fator que levou a escolha dessa linguagem.
Dentre as bibliotecas na linguagem Python, a que mais se destaca no mundo
acadêmico na área de PLN é a biblioteca NLTK. Esta biblioteca foi lançada em 2001 por
Steven Bird e Edward Loper no Departamento de Ciência da Computação e Informação
da Universidade da Pensilvânia, sendo escrito na linguagem Python e distribuído sob a
Capítulo 3. Metodologia 32
licença Apache 2.0. Ele é um conjunto de bibliotecas e programas para o processamento
simbólico e estatístico da linguagem natural (PNL), com o objetivo de apoiar a pesquisa e
o ensino na PNL ou em áreas estreitamente relacionada (LOPER; BIRD, 2002).
Esta biblioteca foi escolhida por ser uma das mais usadas por pesquisadores na
área de PLN. Segundo Liddy (2001), esta biblioteca está sendo usada com sucesso como
plataforma de desenvolvimento para sistemas de prototipagem e para pesquisas em análises
de sentimentos. Para a sua escolha também foi levada em consideração a sua baixa
curva de aprendizagem, a sintaxe clara e a fácil manipulação das funções através da
linguagem Python. Além disso, os códigos criados nessa linguagem podem ser encapsulados
e reutilizados com facilidade (BEAZLEY, 2006).
3.2.3 Pré-processamento
Com a ferramenta pronta e em posse de todos os dados coletados, que serviram
como base para este trabalho, foi iniciada a etapa de pré-processamento, que consiste na
remoção de caracteres especiais, remoção de stop-words, stemming e tokenização.
3.2.3.1 Remoção de caracteres especiais
O primeiro passo foi a remoção de caracteres especiais, pois nessa etapa foi iden-
tificado nas respostas que muitas delas continham caracteres especiais que poderiam
afetar no desempenho da aplicação, por gerar ruídos na etapa de MT. Além de interferir
nas próximas etapas de pré-processamento, como a de stemming, em que a ferramenta
de stemming não reduzia a palavra ao seu radical pois não a reconhecia por estar com
caracteres especiais no início e/ou no fim da palavra. Para isso, foram utilizadas funções
próprias escritas em Python que são capazes de remover os caracteres especiais indesejados
do corpus. Estas funções podem ser encontradas no Apêndice B.
3.2.3.2 Remoção de stop-words
O próximo passo foi a remoção das stop-words, comumente usado em ferramentas
que se utilizam de estatística, que são palavras cuja frequência de aparação no texto é
tão alta, que sua presença na etapa de analise poderia ser descartada pois representaria
valores similares independente da classe em que determinado texto esteja inserido. Para
isso foi usado a stoplist, em português, disponibilizada da biblioteca NLTK, contendo as
stop-words que deveriam ser excluídas da análise. Em texto em Português do Brasil os
artigos "o", "a", "os"e "as"são exemplos de stop-words que podem ser descartadas da análise.
Capítulo 3. Metodologia 33
3.2.3.3 Aplicação de stemming
O passo seguinte é a aplicação da ferramenta de stemming em Português, o
Stemmer Portuguese, mais conhecido pela sigla RSLP (Removedor de Sufixos para a
Língua Portuguesa) também disponíveis na biblioteca do NLTK em todas as palavras do
corpus. Neste passo são removidos os sufixos e prefixos das palavras, reduzindo elas ao seu
radical. Esta etapa, apesar de custosa, é valiosa para a redução do número de palavras do
corpus, reduzindo várias variações de um mesmo morfema para uma única representação,
aumentando assim seu peso nas classificações. Porém, ela suprime o significado real das
palavras caso seja necessário fazer análises futuras. E, por fim, com o corpus do trabalho
já pré-processado, a próxima etapa é a de treinamento do algoritmo Naïve Bayes.
3.2.4 Aplicação da mineração de texto
Após a etapa de pré-processamento, o corpus foi então submetido a classificação
utilizando o Naïve Bayes. O classificador foi implementado utilizando a função Naive-
BayesClassifier da biblioteca NLTK. É nessa etapa onde a base de dados pré-processada é
transformada em uma tabela de probabilidade, onde cada palavra, ou token, assume uma
probabilidade de pertencer a uma determinada classe.
A análise que será feita se baseia em três classes: Positivo, Negativo e Neutro.
Através da base de treinamento é que será possível classificar as novas amostras nessas
três classes. Logo após a etapa de treinamento do algoritmo Naïve Bayes, o classificar já
está pronto para classificar sentimentos de forma automática e o último passo é realizar
testes com novas amostras para avaliar a precisão do sentimento do qual o classificador irá
retornar.
34
4 Experimentação e Resultados
Este capítulo descreve os passos realizados para atingir os objetivos propostos na
introdução. Os passos se basearam na coleta dos dados, pré-processamento, aplicação
da mineração de texto, avaliação da performance dos classificadores e interpretação dos
resultados. Todos os códigos da aplicação estão disponibilizados através da licença GNU
General Public License v3.0 na plataforma do GitHub1 e os dados utilizados para a
construção dos gráficos estão disponíveis no Apêndice C.
4.1 Coleta de Dados
Os dados utilizados neste trabalho são compostos por respostas de um questionário
aplicado a alunos do IFBA Campus Seabra, sobre a qualidade de ensino ofertado por esta
instituição. Participaram 148 alunos, 31,8% sexo masculino e 64,2% do sexo feminino, dos
cursos técnicos deMeio Ambiente e Informática, do 1o, 2o, 3o e 4o ano, residentes de 19
cidades, sendo a maioria provenientes das cidades de Seabra (54,7%), Iraquara (19,6%) e
Piatã (7,4%) e possuindo uma faixa etária média de 16 a 18 anos (69,6%).
Como descrito na metodologia, foram escolhidas para serem utilizadas neste estudo
apenas as perguntas do questionário que continham respostas com sentimento positivo,
negativo ou neutro, no caso, as perguntas 3, 4, 5, 6 e 7.
Para a construção das bases de treinamento e teste foram utilizadas as respostas
dadas as perguntas escolhidas, que corresponde a um total de 740 frases. Para a de
treinamento foram 75% do total, correspondendo a 555 frases, das quais 340 foram
rotuladas como positiva, 156 como neutra e 59 como negativa. Já para a bases de teste
foram utilizadas 25% do total, correspondendo a 185 frases, das quais 116 foram rotuladas
como positiva, 51 como neutra e 18 como negativa.
4.2 Preparação dos dados
Uma vez coletados os dados que serviram de base para este trabalho, foi executado
a etapa de preparação dos dados. Nesta etapa foram utilizadas técnicas e ferramentas de
PLN para criar uma base de treinamento pré-processada que será utilizada para treinar o
algoritmo Naive Bayes, onde tal algoritmo ficará responsável de classificar novas amostras
de texto em três classes: Positivo, Negativo e Neutro. Nessa seção foram utilizadas as
1 O código utilizado neste trabalho pode ser encontrado através da seguinte url: <https://github.com/
leonflicts42/sentiment-analyzer>
https://github.com/leonflicts42/sentiment-analyzer
https://github.com/leonflicts42/sentiment-analyzer
Capítulo 4. Experimentação e Resultados 35
seguintes técnicas de pré-processamentos: remoção de caracteres especiais, remoção de
Stop-words e aplicação de Stemming.
4.2.1 Remoção de caracteres especiais
O primeiro passo aplicado na etapa de pré-processamento foi a remoção de caracte-
res especiais. A função responsável por remover os caracteres especiais de uma palavra é a
char_remove(), no qual são passadas por parâmetro a palavra que se deseja remover os
caracteres especiais e a lista de caracteres especiais a serem removidos. E a função responsá-
vel por aplicar a remoção de caracteres em toda a base de dados é a apply_char_remove()
na qual é passado por parâmetro a base de treinamento e de teste.
A remoção de caracteres especiais impactou positivamente no número de palavras
únicas após a aplicação do stemming, onde sem esta etapa havia um total de 1542 palavras
e com esta etapa havia um total de 1093, representando uma redução de aproximadamente
29%.
4.2.2 Remoção de Stop-words
O próximo passo será a remoção das stop-words do corpus, através do método
nltk.corpus.stopwords.words, sendo composta por 204 palavras. Nesse passo, a função
apply_stoplist recebe como parâmetro a base de treinamento e de teste e através de um
loop compara todas as palavras com a stoplist, retornando a mesma base de treinamento,
porém sem as stop-words contidas na lista.
A remoção das stopwords também impactou positivamente no número total de
palavras do corpus, onde sem esta etapa haviam 9832 palavras e após a remoção das
stop-words este número caiu para 5908, representando uma redução de aproximadamente
60%.
4.2.3 Aplicação do Stemming
O passo seguinte foi a aplicação do stemming na base de treinamento e de teste.
A função responsável por aplicar o stemming é a apply_stemmer, na qual recebe por
parâmetro a base de treinamento e de teste sem stop-words e com os caracteres especiais
removidos e através de um loop, percorre cada palavra das bases e aplica o método
nltk.stem.RSLPStemmer para reduzi-la ao seu radical.
4.3 Treinamento do algoritmo Naïve Bayes
Após os dados estarem pré-processados, o passo final é o treinamento do algoritmo
Naïve Bayes, que foi implementado utilizando a função Naive-BayesClassifier da biblioteca
Capítulo 4. Experimentação e Resultados 36
NLTK. Nessa etapa é construída uma tabela probabilística que armazena a probabilidade
de cada palavra pertencer a uma determinada classe. O classificador após estar treinado já
esta pronto para classificar novas amostras de texto de acordo sua polaridade, em positivo,
neutro e negativo.
4.4 Experimento
Com o classificador treinado, o próximo passo é testar sua precisão em classificar
novas amostras. Para isso, foi realizado um experimento com o objetivo de avaliar a eficácia
da ferramenta criada na tarefa de classificar automaticamente os sentimentos de positivo,
neutro e negativo presente nos textos.
Nesta etapa, o corpus contendo três polaridades foi montado a partir das respostas
obtidas de uma avaliação institucional através de um questionário qualiquantitativo. Dessa
forma foram coletadas respostas de 148 alunos. Depois de coletadas e armazenadas, foi
necessário fazer a filtragem e a classificação manual das respostas em texto, rotulando
cada resposta entre as características positivo, negativo e neutro.
Após a rotulação, foram separadas aleatoriamente 75% das frases para a base
de treinamento e 25% para a base de teste. A base de treinamento foi preenchida com
um total de 555 frases, sendo 340 positivas, 156 neutras e 59 negativas. Com a base de
treinamento montada, ela foi testada com a base de teste para calcular a acurácia do
algoritmo, que foi de aproximadamente de 78%, onde das 185 respostas analisada, 145
foram classificadas corretamente pelo algoritmo. A matriz de confusão é representada pela
Tabela 4. Tal resultado pode ser considerado bom, visto que é equivalente às taxas de
acerto esperada de uma classificação humana, variando entre 72% a 85% segundo Wiebe e
Riloff (2005) e Golden (2011).
Tabela 4 – Matriz de Confusão do teste
Negativo Neutro Positivo
Negativo <10> 7 1
Neutro 9 <34> 8
Positivo 2 13 <101>
Fonte: Próprio autor.
A partir da matriz de confusão é possível extrair a precisão e a acurácia do algoritmo,
mostrando os resultados individuais de cada classe, úteis para identificar o desempenho da
classificação de cada classe. Nesse teste a precisão individual de cada classe são apresentadas
na Tabela 5.
Por meio do resultado da precisão, apresentado na Tabela 5, para cada classe é
possível perceber que quanto maior o número de frases rotuladas de uma classe, maior a
Capítulo 4. Experimentação e Resultados 37
Tabela 5 – Precisão do classificador para cada uma das categorias testadas
Polaridade Precisão
Negativo 0.55
Neutro 0.66
Positivo 0.87
Média 0.70
Fonte: Próprio autor.
precisão da mesma. Como é o caso da classe positivo, que apresenta o maior número de
frases rotuladas e por consequência a maior precisão entre as 3 classes. Além disso, fica
constatado que pelos resultados alcançados tanto na acurácia quanto na precisão, que o
desempenho da aplicação esta diretamente relacionada com o número de frases utilizadas
na fase de treinamento do algoritmo Naïve Bayes.
Uma das formas de resolver esse baixo desempenho na precisão da classificação de
cada classe seria acrescentar mais frases rotuladas nas classes neutro e negativo para que
elas possam ter mais exemplos de frases de cada polaridade.
4.5 Avaliação da Performance do Classificador
Ao avaliar a performance desempenhada pelo classificador, a primeira coisa a
considerar é o contexto no qual o problema está inserido. No caso, classificar automa-
ticamente sentimentos contidos em textos escritos em Português do Brasil e extraídos
de uma avaliação institucional no IFBA Campus Seabra através de um questionário
quáli-quantitativo.
Tal avaliação preliminar é importante para podermos ter uma noção da precisão
necessária para resolver o problema. Cada problema exige um nível de precisão diferente.
Como por exemplo uma ferramenta que faz a predição de medicamentos, onde a sua taxa
de acerto precisa ser o mais próximo possível de 100%, pois o menor dos erros poderia
causar a morte de um paciente.
Para a ferramenta desenvolvida nessa pesquisa o nível de precisão não precisa ter o
mesmo desempenho que o exemplo anterior, porém também deve ter um nível de acertoconsiderável para poder evitar erros nas tomadas de decisão. Uma das formas de avaliar a
performance do classificador seria pelo número de classes e do algoritmo Zero R.
A primeira forma verificaria a probabilidade de se classificar a frase corretamente
em sua devida classe de maneira aleatória. Como neste trabalho estão sendo utilizadas
três classes, a probabilidade de se classificar corretamente uma frase de maneira aleatória
é de 33,33%, então se a ferramenta apresentar um valor inferior a esse, é mais vantajoso
ao invés de realizar todo processo de MT e AS, criar uma função randômica para a
Capítulo 4. Experimentação e Resultados 38
tarefa de classificação. Porém, como o classificador apresentou uma precisão superior a
33,33%, atingindo uma acurácia de 78%, então significa que a ferramenta desenvolvida
nesta pesquisa passa por essa avaliação.
A segunda forma de avaliação considera a classe com o maior número de frases, que
no caso desta pesquisa seria a classe positivo e passa a classificar todas as novas amostras
como pertencentes a essa classe. Para se calcular o acerto mínimo aceitável nessa avaliação,
utiliza-se a classe que tem a maior quantidade de frases, no caso a positiva, com 340 frases
e divide pelo número de frases contidas em todas as classes, no caso 555, chegando assim
a um acerto mínimo de aproximadamente 61%. Então, por intermédio dessa avaliação, a
ferramenta desenvolvida nesta pesquisa também passaria por essa avaliação.
4.6 Resultados
Após ter avaliado a performance do classificador e considerado que ele possui
um nível de precisão adequado para a finalidade desse trabalho, foi iniciado a fase de
classificação da polaridade das respostas, onde tal classificação foi feita sobre uma acurácia
de 78%. A seguir será apresentado o resultado da polaridade encontrada nas respostas das
perguntas 3, 4, 5, 6 e 7 do questionário.
A pergunta número 3 “Que argumento você utilizaria para convencer um(a) amigo(a)
a estudar, ou não, no IFBA?” foi feita com a intenção de mensurar a aceitação da Instituição
entres os alunos e o seu grau de recomendação, onde tal pergunta foi baseada no Net
Promoter Score, uma métrica criada por Fred Reichheld para medir a satisfação dos
clientes através da pergunta De 0 a 10, o quanto você indicaria nossa empresa aos amigos?”.
Esta pergunta apresentou um resultado de 67% de respostas positivas, 14% neutras e 19%
negativas.
A pergunta número 4 “De modo geral qual a sua opinião sobre a metodologia de
ensino utilizada pelos professores do IFBA?” foi feita com a intenção de avaliar a aceitação
dos alunos em relação a metodologia utilizada pelos professores. Esta pergunta apresentou
um resultado de 27% respostas positivas, 51% neutras e 22% negativas.
A pergunta número 5 “Qual sua opinião sobre a capacidade de planejamento e
resolução de problemas do time de gestão (Diretor, Pedagogos, Coordenadores, Técnicos,
Assistentes de Alunos e etc.) para atender o curso superior do IFBA?” foi feita com a
intenção de identificar a visão dos alunos em relação a capacidade de planejamento e
resolução de problemas do time de gestão do IFBA tanto em relação aos cursos técnicos
quanto em relação a um futuro ensino superior. Esta pergunta apresentou um resultado
de 32% respostas positivas, 30% neutras e 38% negativas.
A pergunta número 6 “Qual a sua opinião sobre a qualidade e a disponibilidade da
Capítulo 4. Experimentação e Resultados 39
infraestrutura (Refeitório, Biblioteca, Laboratórios, Salas de Aula, Área de Lazer, Área
de Esporte e etc.) para atender o curso superior?” foi feita com a intenção de identificar
a visão dos alunos em relação a qualidade da infraestrutura do IFBA, bem como a sua
disponibilidade e utilização. Esta pergunta apresentou um resultado de 49% de respostas
positivas, 24% neutras e 27% negativas.
A pergunta número 7 “De modo geral qual o seu ponto de vista sobre a qualidade
do ensino ofertado pelo IFBA?” foi feita com a intenção de identificar a visão geral que o
aluno tem sobre a qualidade de ensino do IFBA. Esta pergunta apresentou um resultado
de 65% de respostas positivas, 22% neutras e 13% negativas.
Os resultados das polaridades das respostas foram condensadas na Figura 2, para
permitir uma visualização geral dos resultados e também para permitir realizar comparações
entre os resultados de cada pergunta.
Figura 2 – Gráfico das Polaridades das respostas
Fonte: Próprio autor.
Os dados apresentados (Figura 2) tornam possível realizar a analisar do resultado
das polaridades das perguntas. A pergunta número 3 pode ser avaliada através da mesma
lógica do Net Promoter Score (NPS), onde o NPS separa o público em três classes:
detratoras, aquelas que não tiveram uma boa experiência com o produto ou serviço
ofertado e o avaliaram com uma nota entre 0 a 6; as neutras, aquelas que tiveram uma
experiência mediana, porém não ficaram totalmente satisfeitas com o produto ou serviço e
o avaliaram com uma nota entre 7 a 8; e os promotores, que são pessoas que tiveram uma
Capítulo 4. Experimentação e Resultados 40
boa experiência e ficaram muito satisfeitos com o produto e serviço ofertado e o avaliaram
com uma nota entre 9 a 10.
Para se calcular o NPS, é subtraído a percentagem de pessoas detratoras da
percentagem de pessoas promotoras. No contexto desse trabalho os alunos que emitiram
respostas negativas fazem parte do grupo dos detratores, os que emitiram respostas neutras,
fazem parte do grupo dos neutros e os que emitiram respostas positivas, fazem parte do
grupo dos promotores. Sendo assim, o NPS do IFBA é de 48%, o que significa que apesar
da qualidade encontrada é preciso aperfeiçoar o seu serviço ainda mais fazendo importantes
ajustes nas suas diferentes áreas de atuação.
A pergunta número 4 demonstra uma predominância de respostas neutras e nega-
tivas em relação a metodologia utilizada pelos professores, onde apenas 27% dos alunos
tem uma opinião positiva, 51% tem uma opinião neutra e 22% tem uma opinião negativa.
Diante de tal resultado fica evidente que é necessário identificar os problemas e/ou falhas
da metodologia utilizada pelos professores em geral, para então encontrar uma forma que
melhor atenda a demanda dos alunos.
A pergunta número 5 demonstram um resultado equilibrado das polaridades das
respostas em relação ao time de gestão do IFBA no que tange a capacidade de planejamento
e resolução de problemas, onde 32% dos alunos tem uma opinião positiva, 30% neutra e 38%
negativa, sendo a pergunta com o maior percentual de reprovação. Através desse resultado
é possível perceber uma providência precisa ser tomada para identificar os problemas e/ou
falhas que geraram esse tão alto nível de reprovação, para que então medidas cabíveis
sejam tomadas para solucionar e/ou amenizar os problemas.
A pergunta número 6 demonstrou que apesar de ter um bom percentual de repostas
positiva, muitas respostas ainda foram negativas sobre a infraestrutura do IFBA em
relação a sua qualidade e disponibilidade, apresentando 49% de repostas positivas, 24%
de respostas neutras e 27% repostas negativas. Diante desse resultado também se torna
necessário identificar o que esta causando essa reprovação e tomar medidas cabíveis para
solucionar os problemas e/ou falhas e atender da melhor forma a necessidade dos alunos.
A pergunta número 7 que questionava sobre a qualidade geral do ensino ofertado
pelo IFBA apresentou resultados mais positivos, com um percentual de respostas positivas
de 65%, muito superior em relação as outras perguntas, 22% de respostas neutras e 13%
de respostas negativas, o menor percentual de reprovação entre todas as perguntas. Diante
desse resultado, fica evidente que apesar dos problemas identificados, o Instituto ainda
consegue agregar muito valor no processo de ensino-aprendizado dos alunos. Por isso a
pergunta 3 também apresenta um resultado similar, o que significa que o Instituto agrega
valor aos alunos e que por isso eles o recomendariam aos seus(as) amigos(as) que estudem
nessa instituição de ensino técnico.
Capítulo