Baixe o app para aproveitar ainda mais
Prévia do material em texto
MINISTÉRIO DA EDUCAÇÃO SECRETARIA DE EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DA BAHIA CAMPUS SEABRA VICTOR ARAÚJO BARROS DETECÇÃO AUTOMÁTICA DE SENTIMENTOS EM AVALIAÇÃO INSTITUCIONAL REALIZADA COM ALUNOS DO ENSINO MÉDIO Seabra – BA 4 de maio de 2020 VICTOR ARAÚJO BARROS DETECÇÃO AUTOMÁTICA DE SENTIMENTOS EM AVALIAÇÃO INSTITUCIONAL REALIZADA COM ALUNOS DO ENSINO MÉDIO Trabalho de Conclusão de Curso apresentado ao Curso Técnico em Informática do Instituto Federal de Educação, Ciência e Tecnologia da Bahia – Campus Seabra, como requisito parcial para obtenção do diploma de Técnico em Informática. Orientador: Msc.Monck Charles N. de Al- buquerque Seabra – BA 4 de maio de 2020 Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA) Coordenação do Curso Técnico em Informática Campus Seabra VICTOR ARAÚJO BARROS Este Trabalho de conclusão de Curso foi julgado adequado para a obtenção do título de Técnico em Informática , sendo aprovado pela Coordenação do curso Técnico em Informá- tica do Instituto Federal de Educação, Ciência e Tecnologia da Bahia, Campus Seabra. Banca examinadora: Orientador: Msc.Monck Charles N. de Albuquerque Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA) Profa. Msc. Luanna Azevedo Cruz Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA) Profo.Esp.Rui Santos Carigé Júnior Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA) Seabra – BA 4 de maio de 2020 Este trabalho é dedicado a todas as pessoas que me apoiaram até aqui e me incentivam a ser cada vez melhor. Agradecimentos Agradeço primeiramente a minha Mãe, pelo amor, pelo carinho, pela dedicação, pela criação, companheirismo em todos os momentos e incentivo aos estudos durante toda a minha vida. Agradeço ao meu Tio, pelos conselhos, por ter me ajudado quando precisei e pelo incentivo aos estudos. Agradeço a minha Namorada, por todo carinho e amor, pela sua incrível compre- ensão, pelo incentivo e pelo companheirismo em todos os momentos. Agradeço a compreensão daqueles a quem tive que dar menos atenção nesses últimos momentos do ensino médio, para me dedicar à conclusão deste Trabalho de Conclusão de Curso. Agradeço ao professor Monck Charles pela sua paciência, pelo seu apoio e pela sua dedicação e por sua orientação. Agradeço ao IFBA pelo acolhimento, pelos aprendizados adquiridos e pelas inúmeras portas que abrirão no meu futuro. ’’Conhece-te a ti mesmo” (Sócrates) Resumo A Análise de Sentimento (AS) é uma área que vem ganhando relevância no meio acadêmico e comercial, devido aos seus avanços nas técnicas de classificação automática de opiniões, sentimentos e emoções contidos em textos. O objetivo deste trabalho foi identificar e classificar automaticamente sentimentos contidos em bases textuais escritas em Português do Brasil, extraídas de uma avaliação institucional realizada com alunos do ensino médio. O trabalho é uma pesquisa bibliográfica e de levantamento. Para realizar essa pesquisa foi aplicado um questionário aos alunos do IFBA Campus Seabra sobre a verticalização do curso de Técnico de Informática e Técnico em Meio Ambiente para curso superior do IFBA Seabra. Porém, para formar a base de treinamento e teste foi utilizado apenas as perguntas que questionavam sobre a qualidade de ensino do IFBA em suas respectivas áreas de atuação e possuíam uma polarização em suas respostas. A ferramenta que irá classificar as repostas do questionário foi desenvolvida na linguagem Python, através de técnicas de Processamento de Linguagem Natural (PLN) utilizando a tokenização, remoção de stop-words e a aplicação de stemming, em conjunto utilização do classificador automático supervisionado Naïve Bayes implementado a partir do Natural Languague ToolKit (NLTK). Os resultados obtidos demonstram que a ferramenta desenvolvida alcança um nível aceitável de acurácia que atende aos objetivos propostos, bem como respondem a pergunta de pesquisa. Além disso as polaridades encontradas nas repostas dadas às perguntas do questionário demonstram que existem áreas de atuação do IFBA onde os alunos têm uma visão majoritariamente neutra ou negativa, como é o caso da metodologia utilizada pelos professores, a atuação do time de gestão do IFBA e a qualidade e disponibilidade da infraestrutura da instituição. Através desses dados é possível concluir que, apesar do questionário aplicado aos alunos apresentar um resultado geral de repostas positivas, ainda há áreas que precisam de aperfeiçoamento para atingir, satisfatoriamente, a demanda de ensino de qualidade dos alunos. Palavras-chave: Análise de Sentimentos; Classificação; Polaridade; Avaliação Institucio- nal. Abstract Sentiment Analysis (AS) is an area that is gaining relevance in academia and business, due to its advances in the techniques of automatic classification of opinions, feelings and emotions contained in texts. The aim of this paper was to identify and automatically classify feelings contained in textual bases written in Brazilian Portuguese, extracted from an institutional evaluation conducted with high school students. The work is a bibliographic and survey. In order to carry out this research, a questionnaire was applied to the students of IFBA Campus Seabra about verifying the Computer Technician and Environmental Technician course for an IFBASeabra college. However, to form the basis of training and testing was used only the questions that questioned the quality of IFBA teaching in their respective fields and had a polarization in their answers. The tool that will classify the answers of the questionnaire was developed in the Python language, using Natural Language Processing (PLN) techniques using tokenization, removal of this word, and the testing application, together using the supervised automatic classifier NaïveBay implemented from the Natural Languague ToolKit (NLTK). The results show that the developed tool reaches an acceptable level of accuracy that meets the proposed objectives, as well as answer the research question. In addition, the polarities found in the answers given to the questionnaire questions demonstrate that there are areas of IFBA practice where students have a mostly neutral or negative view, such as the methodology used by teachers, IFBA management, and quality and availability. It is possible to conclude that, although the questionnaire applied to the students presents a general result of positive answers, there are still areas that need improvement in order to satisfactorily meet the quality education demand of the students. Keywords: Sentiment Analysis; Classification; Polarity; Institutional Evaluation. Lista de ilustrações Figura 1 – Etapas da Mineração de Texto . . . . . . . . . . . . . . . . . . . . . . 22 Figura 2 – Gráfico das Polaridades das respostas . . . . . . . . . . . . . . . . . . . 39 Figura 3 – Gráfico das Polaridades do questionário . . . . . . . . . . . . . . . . . 41 Figura 4 – Função em Python que remove caracteres especiais de uma palavra . . . 52 Figura 5 – Função em Python que aplica a remoção de caracteres especiais na base de dados textuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Lista de tabelas Tabela 1 – Identificação e remoção de stop-words . . . . . . . . . . . . . . . . . . 25 Tabela 2 – Demonstração do algoritmo de stemming . . . . . . . . . . . . . . . . . 26 Tabela 3 – Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Tabela 4 – Matriz de Confusão do teste . . . . . . . . . . . . . . . . . . . . . . . . 36 Tabela 5 – Precisão do classificador para cada uma das categorias testadas . . . . 37 Tabela 6 – Questões objetivas do questionário . . . . . . . . . . . . . . . . . . . . 50 Tabela 7 – Tabela utilizada na construção do gráfico das polaridades das respostas 53 Tabela 8 – Tabela utilizada na construção do gráfico das polaridades do questionário 53 Lista de abreviaturas e siglas AS Análise de SentimentoIFBA Instituto Federal de Educação, Ciência e Tecnologia da Bahia MD Mineração de Dados MT Mineração de Texto NLTK Natural Language Toolkit NPS Net Promoter Score OCDE Organisation for Economic Co-operation and Development PISA Programme for International Student Assessment PLN Processamento de Linguagem Natural Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Descrição do problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 Objetivos Geral e Específicos . . . . . . . . . . . . . . . . . . . . . . . 16 1.4 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 18 2.1 Mineração de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 Análise de Sentimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3 Processamento de Linguagem Natural . . . . . . . . . . . . . . . . . 21 2.4 Etapas da Mineração de Texto . . . . . . . . . . . . . . . . . . . . . . 21 2.4.1 Coleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4.2 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4.3 Mineração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.4.4 Análise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.5 Técnicas de Pré-Processamento em Mineração de Texto . . . . . . 24 2.5.1 Tokenização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.5.2 Remoção de Stop-words . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.5.3 Stemming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.6 Classificadores Automáticos de Documentos . . . . . . . . . . . . . . 26 2.6.1 Naïve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.6.2 Performance dos classificadores . . . . . . . . . . . . . . . . . . . . . . . . 27 2.6.2.1 Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.6.2.2 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.6.2.3 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.7 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.1 Caracterização da pesquisa . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2 Etapas da realização da pesquisa . . . . . . . . . . . . . . . . . . . . . 30 3.2.1 Coleta dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2.2 Planejamento da ferramenta . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2.3 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.3.1 Remoção de caracteres especiais . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.3.2 Remoção de stop-words . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.3.3 Aplicação de stemming . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.4 Aplicação da mineração de texto . . . . . . . . . . . . . . . . . . . . . . . 33 4 EXPERIMENTAÇÃO E RESULTADOS . . . . . . . . . . . . . . . . 34 4.1 Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.2 Preparação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.2.1 Remoção de caracteres especiais . . . . . . . . . . . . . . . . . . . . . . . 35 4.2.2 Remoção de Stop-words . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.2.3 Aplicação do Stemming . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3 Treinamento do algoritmo Naïve Bayes . . . . . . . . . . . . . . . . . 35 4.4 Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.5 Avaliação da Performance do Classificador . . . . . . . . . . . . . . . 37 4.6 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 42 5.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 APÊNDICES 48 APÊNDICE A – PESQUISA SOBRE A VERTICALIZAÇÃO DO CURSO TÉCNICO DE INFORMÁTICA/MEIO AM- BIENTE PARA CURSO SUPERIOR DO IFBA SE- ABRA . . . . . . . . . . . . . . . . . . . . . . . . . 49 APÊNDICE B – FUNÇÕES EM PYTHON PARA A REMOÇÃO DE CARACTERES ESPECIAIS . . . . . . . . . . . 52 APÊNDICE C – TABELAS UTILIZADAS NA CONSTRUÇÃO DOS GRÁFICOS . . . . . . . . . . . . . . . . . . . . . . 53 13 1 Introdução A educação do Brasil vem apresentando resultados alarmantes, apesar do país estar entre as dez maiores economias do mundo, sua educação está entre as piores. O Brasil ocupou no ranking PISA de 2015, onde participaram 72 países, a 63a posição em Ciências, a 59a em leitura e a 66a colocação em Matemática. Ficando atrás de países subdesenvolvidos, mesmo fazendo parte dos países mais ricos do mundo. (PISA, 2015) Segundo o Art. 205 da Constituição Federal, a educação é um direito de todos e um dever do Estado e da família, que visa o pleno desenvolvimento da pessoa e o seu preparo para o exercício da cidadania e a sua qualificação para o trabalho (BRASIL, 1988, p. 123). Porém, quando se confronta o texto de lei com a realidade percebe-se uma grande contradição. Dados do PISA de 2015 mostram que mais da metade dos alunos do Brasil tiveram um rendimento nas áreas de leitura, Ciência e Matemática abaixo do nível mínimo esperado de acordo com a OCDE, considerado básico para a aprendizagem e a participação plena na vida social, econômica e cívica das sociedades modernas em um mundo globalizado. Diante desse resultado, é inegável que o atual sistema educacional brasileiro precisa ser reavaliado para alcançar um melhor desempenho. De acordo com Belloni (1999), a avaliação institucional é um dos instrumentos para aprimoramento da gestão pedagógica e administrativa, tanto das escolas quanto dos sistemas educacionais, com objetivo de gerar melhorias na educação, tanto em sua qualidade como na sua democratização, impactando assim o processo de transformação social. A avaliação institucional busca o auto-conhecimento e a tomada de decisões no intuito de aperfeiçoar o funcionamento e melhorar o resultado das instituições educacionais. No qual o auto-conhecimento significa identificar os acertos e as insuficiências, vantagens e dificuldades, e a tomada de decisões significa, assim que conhecida as estratégias que dão certo, disseminá-las para generalizar o sucesso e abandonar as velhas estratégias que funcionam mal ou com baixa qualidade. (BELLONI, 1999) Para se realizar uma avaliação institucional é possível recorrer a diversos caminhos na hora de ouvir a opinião dos sujeitos, interno e externos à instituição, sobre o processo de ensino e aprendizagem . Entre eles está o uso de questionários, como proposto por (DIAS; HORIGUELA; MARCHELLI, 2006) para coletar dados sobre a estrutura didática e administrativa das instituições de ensino. Além de investigar o posicionamento dos alunos em relação aos professores para saber se são favoráveis, indiferentes ou desfavoráveis frente aos métodos, técnicas e sistemas de avaliação utilizados por eles. Capítulo 1. Introdução 14 Dias, Horiguela e Marchelli (2006) ainda afirmam que “vendo e ouvindo o docente em ação, geralmente os estudantes são as únicas testemunhas diretas do processo de ensino, o que lhes permite realizar comparações construtivas.” No âmbito da avaliação institucional, o objetivo final é reconstruir e aperfeiçoar o sistema de ensino, para isso, a opinião dos alunos é de suma importância. Como afirma Gibbs (2009), a abordagem qualitativa visa, principalmente, explorar os fenômenos sociais, analisando as experiências individuais ou em grupo, sendo essa abordagem a mais adequada para essetipo de avaliação. Realizar uma avaliação institucional por meio de um questionário qualitativo apresenta vantagens no que tange a obtenção de dados relevantes a instituição de ensino, visto que por meio dessa abordagem é possível compreender mais a fundo a opinião dos alunos e assim tomar decisões a fim de melhor adequar o ensino aos mesmos. Porém, como descreve Gibbs (2009), uma desvantagem dessa abordagem é que ela gera uma grande quantidade de dados, o que torna a análise desses dados um processo trabalhoso e demorado. Como a realização de uma avaliação institucional é feita com a intenção de obter dados para aumentar a assertividade na tomada de decisão, quanto mais rápido e menos trabalhoso esse processo, melhor para a instituição. Com o avanço continuo da tecnologia foram surgindo novas técnicas capazes de transformar opiniões, sentimentos e emoções contidas em bases textuais, em conhecimento. A Análise de Sentimento (AS), uma subárea da Mineração Texto (MT), vem ganhado cada vez mais relevância conforme se dá o crescimento da utilização das redes sociais e os meios de comunicação digitais, além do fato de que se estima que mais de 80% desses dados estão em formato de texto (CHEN, 2001). Utilizando dessa técnica é possível aumentar a velocidade e a confiabilidade da análise dos dados qualitativos. Representando, assim, uma redução de custos e um ganho de tempo ao se realizar uma avaliação institucional com abordagem qualitativa. Extrair informações de bases textuais, cada vez maiores devido a era da internet, representa uma grande vantagem competitiva, pois possibilita as empresas, instituições, governos e outras organizações, que de posse de uma grande quantidade de dados em formato textual acerca da opinião das pessoas sobre seus produtos e/ou serviços, possuem a possibilidade de aplicar a AS nesses dados e obter informações pertinentes sobre suas ações, aumentando assim a sua assertividade nas tomadas de decisões relacionadas a melhoria na qualidade do produto e/ou serviço para melhor se adequar a demanda do seu público. 1.1 Motivação Devido aos avanços nas técnicas de classificação automática de opiniões, sentimentos e emoções, contidos em textos, a área de AS vem ganhando cada vez mais relevância no Capítulo 1. Introdução 15 mundo acadêmico e no meio empresarial. A sua relevância se deve às suas possibilidades de aplicação, pois permite classificar automaticamente textos e assim extrair informações úteis que melhoram a capacidade de tomada de decisão de quem utiliza esta técnica. A realização deste trabalho permite a exploração de outras possíveis aplicações para a AS, bem como contribuir com novos conhecimentos para as pesquisas dessa área. O tema pesquisado é um exemplo de aplicação de AS ainda pouco explorada, pois as pesquisas em geral são feitas com dados extraídos de redes sociais e o deste trabalho é feito com dados extraídos de uma avaliação institucional realizada por meio de um questionário. As pesquisas que fazem AS em textos em Português de Brasil são pouquíssimas, se comparadas com maioria dos trabalhos que fazem AS em texto de língua estrangeira, como é o caso da língua inglesa. Diante disto, a realização desta pesquisa possibilitaria o avanço nessa área de pesquisa que utiliza como base textual textos em Português do Brasil. A importância desse trabalho também se deve ao fato de que a aplicação de AS nas respostas obtidas da avaliação institucional, realizada com os alunos do IFBA por meio de um question ário qualiquantitativo, permite extrair informações pertinentes à tomada de decisão da instituição, no que tange a melhoria da qualidade do ensino ofertado aos alunos. Ao realizar uma avaliaç ão institucional com os alunos, é possível entender as suas opiniões acerca do desempenho das diversas áreas de atuação que compõem o IFBA, facilitando a auto-avaliação do instituto, ação essa que possibilita identificar os pontos que necessitam de melhorias e a prioridade de resolução dos mesmos. De posse dessas informações, a tomada de decisão por parte dos gestores do IFBA, se torna mais precisa, aumentando a assim a taxa de acerto das ações da instituição com o objetivo de melhorar a qualidade do ensino ofertado aos alunos. Além disso, a produção deste trabalho é de suma importância para ampliar os conhecimentos do autor sobre o tema que é tão presente na sua realidade profissional da sua área de estudo. 1.2 Descrição do problema O presente trabalho se depara com a dificuldade de realizar uma avaliação ins- titucional através de um questionário qualitativo. Esse método de avaliação gera uma grande quantidade de dados, em sua maioria texto, o que demanda uma grande quantidade de tempo e recursos para ser tratado e analisado, representando um grande e sforço para transformar os dados obtidos em informações pertinentes a tomada de decisões da Capítulo 1. Introdução 16 instituição. Portanto, diant e desse cenário, surge como problema de pesquisa a seguinte indagação: Como realizar uma avaliação institucional com alunos do ensino médio, através de um questionário qualitativo, de forma rápida e con fiável, utilizando Analise de sentimento? Este problema pode ser sumarizado da seguinte forma: “Uma aplicação baseada nas técnicas de Análise de Sentimentos, poderá obter bons resultados na identificação e classificação de sentimentos contidos em texto escrito em Português do Brasil, utilizando as polaridades: Positivo, Negativo e Neutro.” Desta maneira, apresentam-sem os objetivos a seguir. 1.3 Objetivos Geral e Específicos O objetivo geral deste Trabalho de Conclusão de Curso é identificar e classificar, de forma automática, os sentimentos contidos em bases textuais escritas em Português do Brasil, extraídas de uma avaliação institucional realizada no IFBA Campus Seabra por meio de um questionário qualitativo, utilizando-se da técnica de Análise de Sentimento. Para alcançar tal objetivo, foram delimitados os seguintes objetivos específicos: • Identificar o método mais eficaz para a detecção de sentimentos em bases textuais, de acordo com o contexto do presente trabalho; • Desenvolver uma ferramenta para identificar e classificar, automaticamente, sentimentos em bases textuais; • Testar a ferramenta proposta com os dados coletados por meio da avaliação institucional, para verificar se o seu nível de precisão é aceitável diante o contexto do trabalho. 1.4 Estrutura O presente trabalho é desenvolvido em cinco capítulos: Introdução, Fundamentação Teórica, Metodologia, Experimentação e Resultados e Considerações Finais. • Capítulo 1: Introdução. Apresentação da contextualização do tema de estudo, motivação, descrição da problemática, questão da pesquisa e objetivo Geral e Específicos. • No Capítulo 2: Fundamentação Teórica Neste capítulo são apresentados os conceitos de MT, AS e PLN. Em sequência é apresentado as etapas da MT, as técnicas de Pré-processamento utilizadas, os Classificadores Automáticos de Documentos e por último é apontado alguns trabalhos relacionados sobre AS e as técnicas de PLN utilizadas por eles, a fim Capítulo 1. Introdução 17 de entender qual dessas técnicas se encaixariam melhor no contexto do presente trabalho. • No Capítulo 3: Metodologia Neste capítulo tem-se a caracterização da pesquisa e a definição das etapas de realização das pesquisas, bem como qual técnica, método ou ferramenta é utilizada em cada etapa. • No Capítulo 4: Experimentação e Resultados São detalhadas as etapas desenvolvidas para o pré-processamento das respostas colhidas do questionário, para o treinamento do algoritmo Naïve Bayes, os experimentos feitos com a intenção de descobrir a acurácia e a precisão do classificador utilizado na ferramenta, a avaliação dos resultados do classificador e a interpretação dos resultados obtidos. • No Capítulo 5 Considerações Finais É apresentada brevemente o tema do trabalho, em seguida é apresentada a sua importância para o meio acadêmico e comercial, a importância da sua aplicação no IFBA e a importância da sua realizaçãopara o autor. Após são apresentados os resultados e a conclusão geral da pesquisa, em sequência são demonstrados se os objetivos foram atingidos e o problema de pesquisa foi respondido. Por último são apresentados possíveis temas para trabalhos futuros que podem complementar os resultados obtidos por esse trabalho. 18 2 Fundamentação Teórica Este capítulo apresenta a base teórica necessária à reprodução e ao entendimento deste estudo. Inicialmente, são apresentados os conceitos de Mineração de texto, Analise de Sentimento, Processamento de Linguagem Natural, Etapas da Mineração de Texto, Técnicas de Pré-Processamento em Mineração de Texto e Classificadores Automáticos de Documentos. A seguir são apresentados os trabalhos relacionados que são relevantes e correlatos ao tema do estudo proposto. 2.1 Mineração de Texto Com o avanço das tecnologias da informação, houve um grande aumento no número de aplicações que armazenam dados não estruturados. Tais dados, na maioria das vezes, possuem informações de grande valor, como: tendências, anomalias e padrões que podem ser usados para auxiliarem nas tomadas de decisões (BERRY; KOGAN, 2010). Em contraponto, o crescimento do uso de equipamentos digitais, principalmente aqueles que usam a internet como meio de comunicação, fez com que a busca por sistemas capazes de descobrir conhecimento, em dados não estruturados, aumentasse exponencialmente (BERRY; KOGAN, 2010). Diante desse contexto, diversas técnicas foram desenvolvidas com o propósito de recuperar informações contidas em bases de dados, dando origem à área chamada MT. A MT deriva das técnicas de Mineração de Dados (MD), no qual as duas áreas procuram extrair informações úteis em dados não estruturados, semiestruturados ou não estruturados, sendo esse último de difícil tratamento (FELDMAN; SANGER, 2007). Porém, a MT se dedica a tarefa de extrair informações relevantes contidas em dados não estruturados, no caso, de textos. Para Hearst (1999) os dados textuais englobam uma vasta e rica fonte de infor- mação, mesmo em um formato que seja difícil de extrair de maneira automatizada. Na prática, estamos vivenciando o crescimento acelerado de informações não estruturadas, principalmente através das redes sociais. Com isso a MT ganha espaço não somente no mundo acadêmico, mas também no mundo dos negócios Brito (2017). Essa grande massa de informação textual não estruturada não pode ser utilizada por computadores para a extração de conhecimento, pois os mesmos apenas interpretam como uma sequência de caracteres. Assim, é necessário a aplicação de diferentes métodos e algoritmos para dar estruturação aos dados textuais, visando facilitar a extração de conhecimento dos respectivos dados (FILHO, 2014). Capítulo 2. Fundamentação Teórica 19 O principal objetivo da MT é a extração de características em uma grande quanti- dade de dados não estruturados (BRITO, 2017). Para Tan et al. (1999) a MT se refere ao processo de extrair padrões interessantes e não triviais ou conhecimento a partir de textos desestruturados. Já para Dörre, Gerstl e Seiffert (1999) MT se aplica a algumas funções analíticas de MD, mas também se aplica a funções analíticas de linguagem natural e técnicas de recuperação de informação. Para além das técnicas empregadas na MD que são reutilizadas n MT, outras áreas de estudos são igualmente importantes para a extração de conhecimento em bases textuais, como por exemplo: Aprendizagem de Máquina, Inteligência Computacional (IC), Recuperação da Informação (RI), Ciência Cognitiva e, não menos importante, o (PLN), que explora como os computadores podem ser utilizados para compreender a linguagem natural, conforme afirma Chowdhury (2003). Existem ainda duas abordagens para o processo de mineração em bases textuais: a Análise Estatística, que trabalha diretamente com a frequência de aparição de cada termo em uma frase, não se preocupando com o contexto inserido, e a Análise Semântica, que se preocupa com a funcionalidade dos termos, através do significado morfológico, sintático, semântico, pragmático, conforme o ser humano faz. Ambas as abordagens podem ser utilizadas sozinhas ou em conjunto (CHOWDHURY, 2003). 2.2 Análise de Sentimento Devido a larga expansão do uso da internet, os seus usuários geram cada vez mais informação ricas em conteúdos, opiniões e sentimentos, disseminadas seja por meio de fóruns, comunidades, blogs, redes sociais e etc. Para Indurkhya e Damerau (2010) as opiniões são tão importantes que, onde quer que se queira tomar decisões, as pessoas querem ouvir a opinião de outros. Isso não é uma verdade apenas para as pessoas, como também para as organizações, afinal, conhecer a opinião dos clientes acerca dos seus produtos e serviços é de grande valia para as organizações. A análise dessa quantidade massiva de dados gerados na internet se tornou indispen- sável, representando uma grande vantagem competitiva para aqueles que souberem extrair de tais dados informações úteis que possam melhorar a sua capacidade de tomada de decisão. A AS surge com o intuito de identificar opiniões, sentimentos e emoções em textos Brito (2017). Porém, como essa é uma área relativamente nova, ainda existe discordâncias em relação a concepção de opinião, sentimento e emoção trabalhada por pesquisadores na AS, possuindo assim algumas terminologias para delimitar a área. Para deixar mais claro o conteúdo em torno dessa área, serão mostrados a seguir alguns conceitos pertinentes ao entendimento desse assunto. Segundo Wiebe et al. (2004), a AS trata da detecção automática dos estados Capítulo 2. Fundamentação Teórica 20 privados, que são aqueles que não podem ser observados por outros. Para eles, estes conceitos estão intimamente relacionados à noção de estado interno. Em outra linha, Roman et al. (2007) dizem que antes de falar sobre sentimentos em texto, deve-se trabalhar com análise de emoções. Para este autor, as emoções correspondem as alterações no estado corpóreo em conjunto com as alterações à cognitivas por meio de um estímulo externo, e o sentimento consiste em sentir tal. Por outro lado, Liu (2012) defende a ideia de que uma opinião advém de uma atitude, expressada por um determinado termo polarizado e associado a um aspecto ou atributo de uma entidade por um indivíduo. “Uma opinião é, então, por natureza, relacional, pessoal e explícita”. Este autor ainda distingue suas opiniões em dois tipos: diretas e comparativas. A primeira associa-se diretamente com uma emoção ou atitude de uma entidade; enquanto as comparativas expressam uma relação de similaridades entre dois ou mais objetos. Já em relação a AS, Liu (2012) afirma que este é um campo multidisciplinar que envolve áreas como ciência da computação, linguística, estatística e até psicologia. Que de maneira geral tem por objetivo analisar o sentimento expresso pelo autor de um texto em seu conteúdo. Quando o objetivo é identificar o sentimento expresso em uma classe específica, como positivo ou negativo, é tida como uma tarefa de classificação. Ainda conforme Liu (2012) tal análise pode ser feita em diversos níveis, se desta- cando os níveis de sentença, documento e aspetos. Na análise por sentença, o objetivo é identificar a orientação do sentimento que a sentença expressa, antes classificando a sentença como opinativa ou apenas descritiva, descartando sentenças sem opinião. Na análise a nível de documento, busca-se atribuir um sentimento geral a ele, mesmo contendo em seu conteúdo diversas opiniões e sentimentos. Porém, de maneira bem mais específica, existe a AS a nível de aspectos. Nesse nível a análise procura identificar a opinião do autor sobre determinadas características de um assunto, e não de forma geral. Como cita Ribeiro (2015), existem três abordagens para se efetuar a AS em textos: abordagens baseadas em aprendizagem de máquina, em análises léxicas ou em análises linguísticas. Nas abordagens baseadas em aprendizagem de máquina treina-se um algoritmo com exemplos previamente classificados, buscando atributos quemelhor classifiquem cada classe. Em uma abordagem baseada em análise léxica se utiliza um grupo de palavras cujo sentimento foi previamente anotado. Um algoritmo classifica então um documento baseado na presença de tais palavras no seu texto. Caso a abordagem seja voltada a uma análise linguística, as estruturas das sentenças e suas funções sintáticas são levadas em consideração durante a classificação, para tentar identificar padrões que melhor descrevam textos positivos e textos negativos. Capítulo 2. Fundamentação Teórica 21 2.3 Processamento de Linguagem Natural A comunicação entre as pessoas pode se dar de diferentes formas, através linguagem escrita, falada e até a de sinais. Já para a comunicação entre computadores, é usada uma linguagem precisa e concebida especificamente para este fim. Mas quando essa comunicação se dá entre homem e computador, é preciso utilizar técnicas para que a máquina possa trabalhar com a linguagem utilizada pelas pessoas. A área de estudo que visa estabelecer uma comunicação entre a linguagem do homem e a linguagem da máquina denomina- se Processamento de Linguagem Natural (PLN), ou Linguística Computacional e é um campo que converge conceitos da Ciência da Computação, da Inteligência Artificial e da Linguística (RIBEIRO, 2015). O PLN é uma área da Ciência da Computação que estuda como os computadores podem analisar e/ou gerar textos em linguagem natural Perna, Delgado e Finatto (2010). Segundo Turban et al. (2010) descrevem que o PLN pode ser visto como a forma de comunicação entre o homem e a máquina, sendo essa comunicação em qualquer linguagem que se fale. Por outro lado, Liddy (2001) aborda o PLN como um conjunto de técnicas para analisar e representar ocorrências naturais de texto em um ou mais níveis de análise linguística com o objetivo de se alcançar um processamento de linguagem similar ao humano para uma série de tarefas ou aplicações. Este mesmo autor ainda classifica as técnicas de PLN conforme o nível linguístico processado: fonológico, morfológico, lexical, sintático, semântico e pragmático. Estes níveis precisam ser entendidos e diferenciados. Especificamente, o morfológico trata das palavras isoladamente; o léxico trabalha com o significado das palavras; o sintático refere a estrutura das frases; o fonológico lida com a pronúncia; o semântico interpreta os significados das frases (LIDDY, 2001). Para efetuar tal processamento, utiliza-se de diversas ferramentas que extraem informações de texto baseadas em regras dos idiomas no quais estão escritos. Dentre essas ferramentas destacam-se os tokenizadores, os etiquetadores sintáticos e os lematizadores (stemmers) entre outras Ribeiro (2015). Onde todas essas técnicas podem ser usadas em um processo de PNL, porém para este trabalho, o nível fundamental é o morfológico. 2.4 Etapas da Mineração de Texto A MT é um processo cíclico e constituído de etapas bem definidas. Para a presente pesquisa, o modelo que melhor se adapta ao seu objetivo, é o desenvolvido por Aranha, Vellasco e Passos (2007), no qual ele descreve como um modelo completo para adquirir conhecimentos a partir de um corpus1 textual. A seguir será detalhado as etapas e técnicas 1 Um corpus é uma coleção de textos, que representa um conjunto de linguagens naturais. Capítulo 2. Fundamentação Teórica 22 dessa metodologia usada neste trabalho. É ilustrado na Figura 1 a metodologia. Figura 1 – Etapas da Mineração de Texto Fonte: ARANHA; VELLASCO; PASSOS, 2007. De acordo com Aranha, Vellasco e Passos (2007), a metodologia é dividida em cinco etapas. A primeira é a coleta de dados; a segunda, o pré-processamento destes, como a intenção de criar o primeiro nível de estruturação; a terceira etapa é a indexação, onde são extraídos conceitos dos documentos através da análise de seu conteúdo e traduzidos em termos da linguagem de indexação a quarta, a mineração do texto para a extração de conhecimento; e a quinta, a análise e interpretação dos resultados obtidos. Essas etapas são usadas na execução deste trabalho, porém o passo de indexação não foi utilizado por não ser considerado relevante, não havendo a necessidade de realizar consultas nos textos que compõem a base de dados. 2.4.1 Coleta Na MT, quando estamos diante de um problema de classificação automática de documentos, é necessário obter um conjunto de dados para treinamento (ARANHA; VELLASCO; PASSOS, 2007). Portanto, esta etapa de coleta e extração dos dados, consiste em na criação de uma base de dados textual, ou corpus. A criação do corpus é uma das etapas mais difíceis, uma vez que, na maioria dos casos, exige-se que especialista classifiquem tais dados manualmente. 2.4.2 Pré-Processamento Após a coleta dos dados é necessário transformar eles em um formato propício para serem submetidos aos algoritmos de extração automática de conhecimento (ARANHA; Capítulo 2. Fundamentação Teórica 23 VELLASCO; PASSOS, 2007). Esta segunda etapa, denominada Pré-processamento, é executada imediatamente após a coleta dos dados. Ela é muito onerosa, uma vez que são utilizados diversos algoritmos, consumindo boa parte do tempo do processo de extração de conhecimento, além de não existir uma única técnica que possa ser aplicada em todos os domínios de aplicações (BRITO, 2017). O principal objetivo ao se pré-processar um texto consiste na filtragem e limpeza dos dados, eliminando redundâncias e informações desnecessárias para o conhecimento que se deseja extrair (GONÇALVES et al., 2006). As principais técnicas aplicadas nestas etapas em bases textuais, são apresentadas na Seção 2.5. 2.4.3 Mineração Após os documentos serem representados em um formato adequado, é possível aplicar técnicas de extração de conhecimento utilizando sistemas de MD (ARANHA; VELLASCO; PASSOS, 2007). Nesta etapa de MT são aplicadas técnicas direcionadas ao aprendizado de máquina para a obtenção de novos conhecimentos (WITTEN et al., 2016). Nesta etapa, escolhe-se a tarefa, de acordo com a necessidade do usuário. Por exemplo, se a necessidade for verificar o grau de similaridade e a formação de grupos naturais, então a tarefa a ser escolhida é clusterização. Por outro lado, se estes grupos já estão formados, seja por conhecimento prévio do especialista ou pela execução de algoritmos, então a orientação de onde um novo documento deve ser rotulado é conseguida através de algoritmos de classificação (BRITO, 2017). No contexto deste trabalho, as técnicas aplicadas na etapa de MT, devem ser capazes de identificar as características que diferenciam documentos pertencentes a diferentes classes e realizar o processo de classificação de forma automática. 2.4.4 Análise Por fim, na última etapa o objetivo é descobrir padrões úteis e desconhecidos presentes nos documentos (ARANHA; VELLASCO; PASSOS, 2007). Nela será validada a eficiência do processo como um todo, analisando os dados obtidos após aplicação dos algoritmos na etapa anterior. Em outras palavras, é nesta etapa que avaliamos se o objetivo de descobrir um novo conhecimento foi adquirido, a partir de uma base textual (WITTEN et al., 2016). Brito (2017) ainda afirma que a MT é um processo cíclico e por isso ao final de cada uma das etapas os resultados devem ser analisados individualmente, e, caso não sejam satisfatórios, é necessário realizar alterações no processo para a realização de um novo ciclo. Capítulo 2. Fundamentação Teórica 24 2.5 Técnicas de Pré-Processamento em Mineração de Texto Nesta seção serão apresentadas as técnicas utilizadas neste trabalho na etapa de Pré-processamento, com a intenção de melhorar os resultados na extração de conhecimento. Onde serão apresentados os conceitos de tokenização, remoção de stop-words e stemming. Ao se trabalhar com bases textuais, existe uma grande quantidade de termos e atributos para sua representação, resultando assim, em uma denotação esparsa, em que grande parte dos atributos é nula. Dessa forma, as técnicas aplicadas no pré-processamento são importantes para resolver problemas em que dados textuais estãoenvolvidos. Por- tanto, uma boa amostragem dos dados é aquela que identifica os melhores atributos que representam o conhecimento e que consiga reduzir drasticamente a quantidade destes sem perder as características principais da base de dados (BRITO, 2017). 2.5.1 Tokenização A tokenização é a extração de unidades mínimas do texto. Onde cada unidade representa um token e normalmente corresponde a uma palavra no texto (MANNING et al., 2008). O termo token será usado bastantes neste trabalho, podendo em alguns momentos assumir o mesmo sentido de “palavra”. Sendo que na maioria das vezes, um token representa uma palavra. Como exemplo a frase: “Ensino técnico de qualidade e grandes possibilidades para o futuro.”, que poderá ser dividida em dez tokens, conforme o exemplo abaixo. [Ensino] [técnico] [de] [qualidade] [e] [grandes] [possibilidades] [para] [o] [futuro] [.] Na transformação do texto em tokens o “espaço” é sempre descartado, pois não possuem valor para o contexto trabalhado. Por fim, o principal objetivo de criar tokens é a tradução de um texto em dimensões possíveis de se avaliar, analisar, para obtenção de um conjunto de dados estruturados (JACKSON; MOULINIER, 2007). 2.5.2 Remoção de Stop-words Nem todas as palavras do documento devem ser adicionadas ao corpus. Palavras que aparecem em todos os documentos e com uma elevada frequência são exemplo disso. Isso porque a utilização de uma palavra com estas características não é capaz de colaborar na seleção de documentos relativos a um assunto específico. As preposições são um exemplo deste tipo de palavra, pois são termos que servem para fazer o encadeamento de ideias e palavras, são termos inerentes à linguagem, e não ao conteúdo dos documentos. Normalmente, as palavras que aparecem em muitos documentos não são indexadas pois sua utilização compromete a precisão e a eficiência de um sistema de busca (ARANHA; VELLASCO; PASSOS, 2007). Capítulo 2. Fundamentação Teórica 25 Com o intuito de não prejudicar a precisão e eficiência do sistema de MT, é necessário remover tais palavras do corpus. Para isso se cria uma lista contendo todas as palavras que não devem ser indexadas, conhecida como Stop-list, e as palavras presentes nesta lista são conhecidas como stop-words (ARANHA; VELLASCO; PASSOS, 2007). Segundo Wives e Loh (1998) uma stop-word é considerada como “palavra vazia” que, além de não colaborar para a análise da polaridade de um texto, aparece em praticamente todos os documentos, ou na maioria deles. Normalmente, correspondem aos artigos, preposições, pontuação, conjunções e pronomes de uma língua (INDURKHYA; DAMERAU, 2010). Para Aranha, Vellasco e Passos (2007) o processo de obtenção das stop-words pode ser manual, onde o projetista do sistema avalia quais palavras devem ou não ser indexadas e há ainda a possibilidade de se montar esta lista automaticamente, verificando-se quais são as palavras com maior frequência, selecionando-as como stop-words. Então, após uma palavra ser reconhecida no processo de indexação, sua presença na stoplist é verificada. Caso exista na lista de palavras a serem removidas, ela não é adicionada ao índice. Tal processo é exemplificado na Tabela 1, onde as palavras sublinhadas são descartadas da análise. Tabela 1 – Identificação e remoção de stop-words Stoplist Texto e, o, de, uma, um, com, já, [É] [um] [instituto] [de] [ensino] [de] [qualidade], [com] [professores] [qualificados], [já] [sai] [com] [uma] [formação] [pronto] [para] [o] [mercado] [de] [trabalho] Fonte: Próprio autor. Existem várias listas de stop-words disponíveis na internet, o que elimina a necessi- dade de construir uma lista manualmente. Entretanto, para este trabalho, será construída uma stop-list que atenda a necessidade da aplicação. 2.5.3 Stemming Após a tokenização e a remoção das stop-words, é possível realizar a técnica de stemming, que consiste em reduzir cada palavra para a sua raiz, removendo os prefixo e sufixos que indicam a variação na forma da palavra, como plural e tempos verbais. Utilizado da forma correta, essa técnica pode trazer benefícios para a etapa de pré- processamento. Assim é possível reduzir drasticamente o tamanho do léxico e também o esforço computacional, aumentando assim a precisão dos resultados, exceto quando a retirada de prefixos e sufixos muda a essência original da palavra (BRITO, 2017). É exemplificado através da Tabela 2 o processo de stemming, onde é representado na primeira coluna a frase normalizada e na segunda é apresentado o resultado da aplicação do algoritmo de stemming. Capítulo 2. Fundamentação Teórica 26 Tabela 2 – Demonstração do algoritmo de stemming Frase Normalizada Stemming Ensino médio técnico gratuito qualidade ensin médi técn gratuit qualidad Fonte: Próprio autor. 2.6 Classificadores Automáticos de Documentos A classificação automática de textos reporta-se ao procedimento no qual um algoritmo classificador determina à qual classe um documento é pertencente. O principal objetivo da classificação é atribuir uma classe a um conjunto de documentos (PRABOWO; THELWALL, 2009). Para o presente trabalho, o objetivo é distribuir um conjunto de documentos entre as classes. Existem diversas estratégias para classificar um documento textual e, neste trabalho, será utilizado um classificador baseado em um modelo estatístico que trabalha com métodos indutivos, através de uma abordagem de aprendizado supervisionado, no qual um novo documento é classificado de acordo com as características aprendidas por este classificador, construído e treinado a partir de dados rotulados (MARTINS, 2003). O algoritmo que será utilizado é o Naïve Bayes, onde através dos dados do treinamento, estimará a probabilidade de um documento pertencer a uma determinada classe. 2.6.1 Naïve Bayes O Naïve Bayes é um classificador probabilístico baseado na aplicação do teorema de Bayes, criado por Thomas Bayes no século XVIII, sendo este considerado o mais eficiente na precisão e rotulação de novas amostras (CHAKRABARTI, 2002). Apesar de ser aparentemente simples esse algoritmo tem mostrado um desempenho considerável nas tarefas de MT e AS, como pode ser visto no trabalho de Wang e Manning (2012). P (A|B) = P (B|A)P (A) P (B) (2.1) É apresentado na Equação 2.1 o teorema de Bayes. Considerando que B representa um evento que ocorreu previamente e A um evento que depende de B, para que seja calculada a probabilidade de A ocorrer dado o evento B, o algoritmo deverá contar o número de casos em que A e B ocorrem juntos e dividir pelo número de casos em que B ocorre sozinho (FILHO, 2014). Capítulo 2. Fundamentação Teórica 27 2.6.2 Performance dos classificadores Para ter resultados confiáveis é necessário definir métricas para avaliar a performance das classificações efetuadas pelos classificadores, no caso deste trabalho o Naïve Bayes. Para Liu (2012) avaliar a performance do classificador é muito importante na classificação de textos, pois, com as métricas, é possível averiguar o quão este classificador é capaz de caracterizar um novo exemplo, quando lhe é apresentado. O conceito de matriz de confusão, acurácia e precisão terão seus funcionamentos descritos a seguir. 2.6.2.1 Matriz de Confusão A matriz de confusão é uma tabela que contém a quantidade de amostras clas- sificadas corretamente e incorretamente. No qual é traçada uma relação entre o valor efetivamente calculado pelos classificadores e o valor real da classificação (LIU, 2012). Essa matriz considera amostras positivas e negativas de uma das classes, ou seja, amostras positivas são pertencentes a uma das classes, e amostras negativas são todas as outras pertencentes a outras classes. Desse modo, a matriz poderá ser construída para cada uma das classes do problema a ser avaliado (BRITO, 2017). Tabela 3 – Matriz de Confusão Classificação/Valor Real Positivo Negativo Positivo Verdadeiro-Positivo(VP) Falso-Positivo(FP) Negativo Falso-Negativo(FN) Verdadeiro-Negativo(VN) Fonte: Próprio autor. Na matriz de confusão apresentada na Tabela 3, VPrepresenta o número de amostras positivas classificadas corretamente; FN são as amostras de outras classes classificadas na classe positiva; FP a quantidade de amostra da classe positiva classificada em qualquer outra classe; e VN é o número de amostras das outras classes classificadas corretamente. A partir da matriz de confusão, as métricas de precisão e acurácia, comumente utilizadas na avaliação de classificadores, podem ser definidas (LIU, 2012). Essa avaliação deverá ser realizada logo após a submissão do corpus ao treinamento, utilizando-se do resultado da classificação do conjunto de teste (BRITO, 2017). 2.6.2.2 Acurácia A medida de acurácia serve para medir o quão efetivo o sistema é do ponto de vista da classificação geral, quantificando o número de acertos sobre as amostras positivas e negativas de todas as classes. A medida de acurácia é calculada na Equação 2.2, porém Capítulo 2. Fundamentação Teórica 28 assume um custo igual para todos os tipos de erros, não podendo ser um balizador para a análise. Acurácia = V P + V N V P + FP + FN + V N (2.2) 2.6.2.3 Precisão A medida de precisão calcula um valor para a quantidade de documentos corretos entre os documentos classificados como corretos. Está métrica é útil para avaliar a precisão de cada classe da aplicação, auxiliando a detectar a presença de ruídos na base de treinamento que comprometam os resultados. A medida de precisão é calculada através da Equação 2.3. Precisão = V P V P + FP (2.3) 2.7 Trabalhos Relacionados Atualmente, com o avanço da tecnologia e a sua democratização, principalmente a da internet, cada vez mais pessoas estão se conectando a rede mundial de computadores e gerando cada vez mais dados, seja em fóruns, blogs ou redes sociais. Em sua maioria no formato de texto, onde foi evidenciado que 80% do conteúdo contido na Internet está em formato textual como afirma Chen (2001). Devido a essa grande quantidade de informações em texto circulando no ambiente online, muitos pesquisadores foram atraídos para área de MT. A maioria dessa informação é encontrada em formato de discurso expresso pelos usuários, sendo ricos em conteúdo, opinião e emoções. Onde a análise desse tipo de texto é altamente relevante para pesquisas acadêmicas, uma vez que um texto opinativo desempenha um papel importante em influenciar as percepções das pessoas sobre a maneira como nos comunicamos e na tomada de decisão Brito (2017). Neste capítulo será descrito alguns trabalhos relacionados que serviram de base norteadora para a realização desse Trabalho de Conclusão de Curso, onde é citado o uso de AS utilizando técnicas de MT. Tais trabalhos relacionados possuem a mesma base de estudo, que é a detecção de sentimentos em bases textuais através da AS, porém com o uso de diferentes técnicas e tecnologias. O trabalho de Filho (2014) aborda como a técnica de MT foi usada para coletar, estruturar a base textual extraída do Twitter e como foi usado para criar um modelo de classificação de texto que permita mapear a opinião da rede social dos usuários do Twitter sobre a Copa do Mundo da FIFA Brasil 2014. Capítulo 2. Fundamentação Teórica 29 O trabalho de Ribeiro (2015) apresenta a AS em comentários sobre aplicativos móveis extraídos da Google Play em português e inglês e mostra como os impactos do pré-processamentos dos dados afetam no desempenho do resultado. Ele detalha como as diferentes fases do pré-processamento, como da remoção de stop-words, remoção de repetição de letras nas palavras e pontuações, de correção de gírias e palavras escritas de maneira errada, da aplicação da ferramenta de stemming e ainda da representação do texto em uni-gramas, bigramas ou uma combinação de ambos, podem afetar os resultados. O trabalho de Brito (2017) implementou um modelo de sistema para classificar automaticamente sentimentos em bases textuais escritas em Português do Brasil extraídas de comentários do Twitter, utilizando os conceitos de aprendizagem de máquina. Neste trabalho são feitos dois experimentos, utilizando o classificador supervisionado Naïve Bayes, implementado a partir do Natural Language ToolKit (NLTK 2). Onde os resultados demonstraram que o desempenho do método proposto neste trabalho para analisar mais de duas polaridades utilizando técnica de classificação foi inferior ao das outras ferramentas que testam apenas duas polaridades. O trabalho de Lazzarin (2017) propõem a aplicação de técnicas de MD em textos extraídos da rede social Twitter para AS. A partir de dados extraídos e pré-processados de uma rede social, pretende-se aplicar abordagens de MT para interpretação dos dados no que se refere ao nível emocional dos usuários de uma determinada instituição de ensino. É esperado que a identificação do estado emocional do indivíduos que usam esta rede social possa ajudar a identificar o nível de satisfação desses indivíduos quanto a assuntos relacionados a instituição, e também direcionar esforços para assuntos onde foram identificadas emoções como tristeza, raiva ou decepção em comentários, e com isso sanar problemas até então desconhecidos ou que passavam desapercebidos pela instituição de ensino. Os trabalhos mencionados acima serão as bases para o desenvolvimento desse Trabalho de Conclusão de Curso, possuindo uma grande semelhança com eles. Esta pesquisa tem a pretensão de trabalhar de forma similar com o trabalho de Brito (2017) e Filho (2014), porém utilizando como fonte da base textual, as respostas obtidas de uma avaliação institucional do IFBA Campus Seabra através de um questionário qualiquantitativo. Assim como esses autores, pode-se reutilizar neste trabalho um modelo que tenha como base de treinamento um corpus rotulado, a biblioteca NLTK para realizar o pré-processamento dos textos, o algoritmo Naïve Bayes para gerar a tabela probabilística usada para classificar os sentimentos contidos no textos da base de treinamento e o cálculo de acurácia para analisar a precisão da ferramenta desenvolvida, além de outras características encontradas nos trabalhos citados. 2 NLTK é uma biblioteca para PLN desenvolvida por Steven Bird e Edward Loper lançada em 2001 e distribuída através da licença Apache 2.0 30 3 Metodologia No presente capítulo será feita a caracterização da pesquisa, bem como a apresen- tação dos passos percorridos que são necessários para a sua reprodução. 3.1 Caracterização da pesquisa A presente pesquisa pode ser classificada como aplicada, visto que gera conheci- mentos úteis para a aplicação em problemas práticos e com finalidades imediatas. Pois o objetivo dessa pesquisa consiste em uma tarefa de classificar automaticamente sentimentos contidos em bases textuais extraídas de uma avaliação institucional realizada no IFBA Campus Seabra através de um questionário qualiquantitativo, com o intuito de averiguar o posicionamento dos alunos em relação a qualidade de ensino ofertado na instituição. Além de ter uma abordagem qualitativa para analisar os dados e objetivo exploratórios e descritivos. Quanto aos procedimentos, trata-se de uma pesquisa bibliográfica e de levantamento. A pesquisa bibliográfica foi realizada com base em material já existente, compostos principalmente de livros e artigos, permitindo assim analisar as contribuições de diversos autores sobre o assunto abordado e o levantamento foi feito através da aplicação de um questionário aos alunos do ensino médio de uma instituição federal. Tal questionário foi aplicado no IFBA Campus Seabra, que fica a 475 quilômetros de distância da capital da Bahia, Salvador. Questionando a opinião dos alunos sobre a sua preferência quanto ao curso superior que deve ser implantado na instituição, bem como identificar a sua satisfação em relação a qualidade do ensino ofertado pela instituição. Porém só foram utilizadas nesta pesquisa as respostas dadas as perguntas que questionavam sobre a qualidade de ensino do IFBA. O instrumento foi aplicado a 148 alunos do dia 26 agosto ao dia 09 de setembro de 2019, de forma anônima, no qual eles responderam um questionárioonline nos laboratórios de informática do Campus. 3.2 Etapas da realização da pesquisa Para alcançar o objetivo do trabalho, que é classificar automaticamente sentimen- tos em bases textuais, utilizou-se a metodologia de Aranha, Vellasco e Passos (2007), comumente aceita no mundo acadêmico acerta da MT (seção 2.4). Capítulo 3. Metodologia 31 3.2.1 Coleta dos dados A ferramenta utilizada para criar o questionário e armazenar as respostas foi o Formulários Google, pois ele permite que esse processo seja realizado de forma online, rápida e confiável. O questionário aplicado é constituído de 16 perguntas, das quais 6 são qualitativas e as outras 10 são quantitativas. O questionário completo pode ser encontrado no Apêndice A. Após a aplicação do questionário, os dados foram salvos em uma planilha eletrônica, para serem usados posteriormente como base do trabalho. Considerando que o objetivo do trabalho é classificar automaticamente sentimentos em bases textuais, foi feita uma análise preliminar das respostas dada as perguntas, selecionando apenas perguntas que continham respostas com sentimento positivo, negativo ou neutro, no caso, as perguntas 3, 4, 5, 6 e 7. Do total de respostas selecionadas para o trabalho, 75% foram usados na base de treinamento e os outros 25% foram usados na base de teste, tal divisão é necessária para que depois que a aplicação esteja pronta, seja possível calcular a sua taxa de acerto através das métricas de acurácia e precisão. 3.2.2 Planejamento da ferramenta Após coletados os dados, que serviram como base para este trabalho, se iniciou a etapa de planejamento e elaboração da ferramenta, pois é por meio dela que será possível extrair conhecimento dos dados coletados. Esta etapa consistiu em pesquisar em artigos e em livros a melhor forma de implementar a ferramenta para atender os objetivos deste trabalho. A linguagem escolhida foi Python para desenvolver a ferramenta em conjunto com a biblioteca NLTK para realizar o PLN. Python é uma linguagem de alto nível usada para diversas tarefas, desde de simples scripts até complexos sistemas web. Possui uma ampla biblioteca, com mais de 100 módulos em constante desenvolvimento, fato que justifica sua popularidade entre os desenvolvedores. Alguns desses módulos contém funções de calculo matemático, expressões regulares, threads, protocolo de redes, interface gráfica entre outros (PYTHON SOFTWARE FOUNDATION, 2019). O motivo da escolha da linguagem Python para o desenvolvimento da ferramenta nesse trabalho se deve a sua eficiência e fácil manutenção na programação de diversas tarefas. Além de apresentar um ótimo desempenho na manipulação de arquivos de texto, principal fator que levou a escolha dessa linguagem. Dentre as bibliotecas na linguagem Python, a que mais se destaca no mundo acadêmico na área de PLN é a biblioteca NLTK. Esta biblioteca foi lançada em 2001 por Steven Bird e Edward Loper no Departamento de Ciência da Computação e Informação da Universidade da Pensilvânia, sendo escrito na linguagem Python e distribuído sob a Capítulo 3. Metodologia 32 licença Apache 2.0. Ele é um conjunto de bibliotecas e programas para o processamento simbólico e estatístico da linguagem natural (PNL), com o objetivo de apoiar a pesquisa e o ensino na PNL ou em áreas estreitamente relacionada (LOPER; BIRD, 2002). Esta biblioteca foi escolhida por ser uma das mais usadas por pesquisadores na área de PLN. Segundo Liddy (2001), esta biblioteca está sendo usada com sucesso como plataforma de desenvolvimento para sistemas de prototipagem e para pesquisas em análises de sentimentos. Para a sua escolha também foi levada em consideração a sua baixa curva de aprendizagem, a sintaxe clara e a fácil manipulação das funções através da linguagem Python. Além disso, os códigos criados nessa linguagem podem ser encapsulados e reutilizados com facilidade (BEAZLEY, 2006). 3.2.3 Pré-processamento Com a ferramenta pronta e em posse de todos os dados coletados, que serviram como base para este trabalho, foi iniciada a etapa de pré-processamento, que consiste na remoção de caracteres especiais, remoção de stop-words, stemming e tokenização. 3.2.3.1 Remoção de caracteres especiais O primeiro passo foi a remoção de caracteres especiais, pois nessa etapa foi iden- tificado nas respostas que muitas delas continham caracteres especiais que poderiam afetar no desempenho da aplicação, por gerar ruídos na etapa de MT. Além de interferir nas próximas etapas de pré-processamento, como a de stemming, em que a ferramenta de stemming não reduzia a palavra ao seu radical pois não a reconhecia por estar com caracteres especiais no início e/ou no fim da palavra. Para isso, foram utilizadas funções próprias escritas em Python que são capazes de remover os caracteres especiais indesejados do corpus. Estas funções podem ser encontradas no Apêndice B. 3.2.3.2 Remoção de stop-words O próximo passo foi a remoção das stop-words, comumente usado em ferramentas que se utilizam de estatística, que são palavras cuja frequência de aparação no texto é tão alta, que sua presença na etapa de analise poderia ser descartada pois representaria valores similares independente da classe em que determinado texto esteja inserido. Para isso foi usado a stoplist, em português, disponibilizada da biblioteca NLTK, contendo as stop-words que deveriam ser excluídas da análise. Em texto em Português do Brasil os artigos "o", "a", "os"e "as"são exemplos de stop-words que podem ser descartadas da análise. Capítulo 3. Metodologia 33 3.2.3.3 Aplicação de stemming O passo seguinte é a aplicação da ferramenta de stemming em Português, o Stemmer Portuguese, mais conhecido pela sigla RSLP (Removedor de Sufixos para a Língua Portuguesa) também disponíveis na biblioteca do NLTK em todas as palavras do corpus. Neste passo são removidos os sufixos e prefixos das palavras, reduzindo elas ao seu radical. Esta etapa, apesar de custosa, é valiosa para a redução do número de palavras do corpus, reduzindo várias variações de um mesmo morfema para uma única representação, aumentando assim seu peso nas classificações. Porém, ela suprime o significado real das palavras caso seja necessário fazer análises futuras. E, por fim, com o corpus do trabalho já pré-processado, a próxima etapa é a de treinamento do algoritmo Naïve Bayes. 3.2.4 Aplicação da mineração de texto Após a etapa de pré-processamento, o corpus foi então submetido a classificação utilizando o Naïve Bayes. O classificador foi implementado utilizando a função Naive- BayesClassifier da biblioteca NLTK. É nessa etapa onde a base de dados pré-processada é transformada em uma tabela de probabilidade, onde cada palavra, ou token, assume uma probabilidade de pertencer a uma determinada classe. A análise que será feita se baseia em três classes: Positivo, Negativo e Neutro. Através da base de treinamento é que será possível classificar as novas amostras nessas três classes. Logo após a etapa de treinamento do algoritmo Naïve Bayes, o classificar já está pronto para classificar sentimentos de forma automática e o último passo é realizar testes com novas amostras para avaliar a precisão do sentimento do qual o classificador irá retornar. 34 4 Experimentação e Resultados Este capítulo descreve os passos realizados para atingir os objetivos propostos na introdução. Os passos se basearam na coleta dos dados, pré-processamento, aplicação da mineração de texto, avaliação da performance dos classificadores e interpretação dos resultados. Todos os códigos da aplicação estão disponibilizados através da licença GNU General Public License v3.0 na plataforma do GitHub1 e os dados utilizados para a construção dos gráficos estão disponíveis no Apêndice C. 4.1 Coleta de Dados Os dados utilizados neste trabalho são compostos por respostas de um questionário aplicado a alunos do IFBA Campus Seabra, sobre a qualidade de ensino ofertado por esta instituição. Participaram 148 alunos, 31,8% sexo masculino e 64,2% do sexo feminino, dos cursos técnicos deMeio Ambiente e Informática, do 1o, 2o, 3o e 4o ano, residentes de 19 cidades, sendo a maioria provenientes das cidades de Seabra (54,7%), Iraquara (19,6%) e Piatã (7,4%) e possuindo uma faixa etária média de 16 a 18 anos (69,6%). Como descrito na metodologia, foram escolhidas para serem utilizadas neste estudo apenas as perguntas do questionário que continham respostas com sentimento positivo, negativo ou neutro, no caso, as perguntas 3, 4, 5, 6 e 7. Para a construção das bases de treinamento e teste foram utilizadas as respostas dadas as perguntas escolhidas, que corresponde a um total de 740 frases. Para a de treinamento foram 75% do total, correspondendo a 555 frases, das quais 340 foram rotuladas como positiva, 156 como neutra e 59 como negativa. Já para a bases de teste foram utilizadas 25% do total, correspondendo a 185 frases, das quais 116 foram rotuladas como positiva, 51 como neutra e 18 como negativa. 4.2 Preparação dos dados Uma vez coletados os dados que serviram de base para este trabalho, foi executado a etapa de preparação dos dados. Nesta etapa foram utilizadas técnicas e ferramentas de PLN para criar uma base de treinamento pré-processada que será utilizada para treinar o algoritmo Naive Bayes, onde tal algoritmo ficará responsável de classificar novas amostras de texto em três classes: Positivo, Negativo e Neutro. Nessa seção foram utilizadas as 1 O código utilizado neste trabalho pode ser encontrado através da seguinte url: <https://github.com/ leonflicts42/sentiment-analyzer> https://github.com/leonflicts42/sentiment-analyzer https://github.com/leonflicts42/sentiment-analyzer Capítulo 4. Experimentação e Resultados 35 seguintes técnicas de pré-processamentos: remoção de caracteres especiais, remoção de Stop-words e aplicação de Stemming. 4.2.1 Remoção de caracteres especiais O primeiro passo aplicado na etapa de pré-processamento foi a remoção de caracte- res especiais. A função responsável por remover os caracteres especiais de uma palavra é a char_remove(), no qual são passadas por parâmetro a palavra que se deseja remover os caracteres especiais e a lista de caracteres especiais a serem removidos. E a função responsá- vel por aplicar a remoção de caracteres em toda a base de dados é a apply_char_remove() na qual é passado por parâmetro a base de treinamento e de teste. A remoção de caracteres especiais impactou positivamente no número de palavras únicas após a aplicação do stemming, onde sem esta etapa havia um total de 1542 palavras e com esta etapa havia um total de 1093, representando uma redução de aproximadamente 29%. 4.2.2 Remoção de Stop-words O próximo passo será a remoção das stop-words do corpus, através do método nltk.corpus.stopwords.words, sendo composta por 204 palavras. Nesse passo, a função apply_stoplist recebe como parâmetro a base de treinamento e de teste e através de um loop compara todas as palavras com a stoplist, retornando a mesma base de treinamento, porém sem as stop-words contidas na lista. A remoção das stopwords também impactou positivamente no número total de palavras do corpus, onde sem esta etapa haviam 9832 palavras e após a remoção das stop-words este número caiu para 5908, representando uma redução de aproximadamente 60%. 4.2.3 Aplicação do Stemming O passo seguinte foi a aplicação do stemming na base de treinamento e de teste. A função responsável por aplicar o stemming é a apply_stemmer, na qual recebe por parâmetro a base de treinamento e de teste sem stop-words e com os caracteres especiais removidos e através de um loop, percorre cada palavra das bases e aplica o método nltk.stem.RSLPStemmer para reduzi-la ao seu radical. 4.3 Treinamento do algoritmo Naïve Bayes Após os dados estarem pré-processados, o passo final é o treinamento do algoritmo Naïve Bayes, que foi implementado utilizando a função Naive-BayesClassifier da biblioteca Capítulo 4. Experimentação e Resultados 36 NLTK. Nessa etapa é construída uma tabela probabilística que armazena a probabilidade de cada palavra pertencer a uma determinada classe. O classificador após estar treinado já esta pronto para classificar novas amostras de texto de acordo sua polaridade, em positivo, neutro e negativo. 4.4 Experimento Com o classificador treinado, o próximo passo é testar sua precisão em classificar novas amostras. Para isso, foi realizado um experimento com o objetivo de avaliar a eficácia da ferramenta criada na tarefa de classificar automaticamente os sentimentos de positivo, neutro e negativo presente nos textos. Nesta etapa, o corpus contendo três polaridades foi montado a partir das respostas obtidas de uma avaliação institucional através de um questionário qualiquantitativo. Dessa forma foram coletadas respostas de 148 alunos. Depois de coletadas e armazenadas, foi necessário fazer a filtragem e a classificação manual das respostas em texto, rotulando cada resposta entre as características positivo, negativo e neutro. Após a rotulação, foram separadas aleatoriamente 75% das frases para a base de treinamento e 25% para a base de teste. A base de treinamento foi preenchida com um total de 555 frases, sendo 340 positivas, 156 neutras e 59 negativas. Com a base de treinamento montada, ela foi testada com a base de teste para calcular a acurácia do algoritmo, que foi de aproximadamente de 78%, onde das 185 respostas analisada, 145 foram classificadas corretamente pelo algoritmo. A matriz de confusão é representada pela Tabela 4. Tal resultado pode ser considerado bom, visto que é equivalente às taxas de acerto esperada de uma classificação humana, variando entre 72% a 85% segundo Wiebe e Riloff (2005) e Golden (2011). Tabela 4 – Matriz de Confusão do teste Negativo Neutro Positivo Negativo <10> 7 1 Neutro 9 <34> 8 Positivo 2 13 <101> Fonte: Próprio autor. A partir da matriz de confusão é possível extrair a precisão e a acurácia do algoritmo, mostrando os resultados individuais de cada classe, úteis para identificar o desempenho da classificação de cada classe. Nesse teste a precisão individual de cada classe são apresentadas na Tabela 5. Por meio do resultado da precisão, apresentado na Tabela 5, para cada classe é possível perceber que quanto maior o número de frases rotuladas de uma classe, maior a Capítulo 4. Experimentação e Resultados 37 Tabela 5 – Precisão do classificador para cada uma das categorias testadas Polaridade Precisão Negativo 0.55 Neutro 0.66 Positivo 0.87 Média 0.70 Fonte: Próprio autor. precisão da mesma. Como é o caso da classe positivo, que apresenta o maior número de frases rotuladas e por consequência a maior precisão entre as 3 classes. Além disso, fica constatado que pelos resultados alcançados tanto na acurácia quanto na precisão, que o desempenho da aplicação esta diretamente relacionada com o número de frases utilizadas na fase de treinamento do algoritmo Naïve Bayes. Uma das formas de resolver esse baixo desempenho na precisão da classificação de cada classe seria acrescentar mais frases rotuladas nas classes neutro e negativo para que elas possam ter mais exemplos de frases de cada polaridade. 4.5 Avaliação da Performance do Classificador Ao avaliar a performance desempenhada pelo classificador, a primeira coisa a considerar é o contexto no qual o problema está inserido. No caso, classificar automa- ticamente sentimentos contidos em textos escritos em Português do Brasil e extraídos de uma avaliação institucional no IFBA Campus Seabra através de um questionário quáli-quantitativo. Tal avaliação preliminar é importante para podermos ter uma noção da precisão necessária para resolver o problema. Cada problema exige um nível de precisão diferente. Como por exemplo uma ferramenta que faz a predição de medicamentos, onde a sua taxa de acerto precisa ser o mais próximo possível de 100%, pois o menor dos erros poderia causar a morte de um paciente. Para a ferramenta desenvolvida nessa pesquisa o nível de precisão não precisa ter o mesmo desempenho que o exemplo anterior, porém também deve ter um nível de acertoconsiderável para poder evitar erros nas tomadas de decisão. Uma das formas de avaliar a performance do classificador seria pelo número de classes e do algoritmo Zero R. A primeira forma verificaria a probabilidade de se classificar a frase corretamente em sua devida classe de maneira aleatória. Como neste trabalho estão sendo utilizadas três classes, a probabilidade de se classificar corretamente uma frase de maneira aleatória é de 33,33%, então se a ferramenta apresentar um valor inferior a esse, é mais vantajoso ao invés de realizar todo processo de MT e AS, criar uma função randômica para a Capítulo 4. Experimentação e Resultados 38 tarefa de classificação. Porém, como o classificador apresentou uma precisão superior a 33,33%, atingindo uma acurácia de 78%, então significa que a ferramenta desenvolvida nesta pesquisa passa por essa avaliação. A segunda forma de avaliação considera a classe com o maior número de frases, que no caso desta pesquisa seria a classe positivo e passa a classificar todas as novas amostras como pertencentes a essa classe. Para se calcular o acerto mínimo aceitável nessa avaliação, utiliza-se a classe que tem a maior quantidade de frases, no caso a positiva, com 340 frases e divide pelo número de frases contidas em todas as classes, no caso 555, chegando assim a um acerto mínimo de aproximadamente 61%. Então, por intermédio dessa avaliação, a ferramenta desenvolvida nesta pesquisa também passaria por essa avaliação. 4.6 Resultados Após ter avaliado a performance do classificador e considerado que ele possui um nível de precisão adequado para a finalidade desse trabalho, foi iniciado a fase de classificação da polaridade das respostas, onde tal classificação foi feita sobre uma acurácia de 78%. A seguir será apresentado o resultado da polaridade encontrada nas respostas das perguntas 3, 4, 5, 6 e 7 do questionário. A pergunta número 3 “Que argumento você utilizaria para convencer um(a) amigo(a) a estudar, ou não, no IFBA?” foi feita com a intenção de mensurar a aceitação da Instituição entres os alunos e o seu grau de recomendação, onde tal pergunta foi baseada no Net Promoter Score, uma métrica criada por Fred Reichheld para medir a satisfação dos clientes através da pergunta De 0 a 10, o quanto você indicaria nossa empresa aos amigos?”. Esta pergunta apresentou um resultado de 67% de respostas positivas, 14% neutras e 19% negativas. A pergunta número 4 “De modo geral qual a sua opinião sobre a metodologia de ensino utilizada pelos professores do IFBA?” foi feita com a intenção de avaliar a aceitação dos alunos em relação a metodologia utilizada pelos professores. Esta pergunta apresentou um resultado de 27% respostas positivas, 51% neutras e 22% negativas. A pergunta número 5 “Qual sua opinião sobre a capacidade de planejamento e resolução de problemas do time de gestão (Diretor, Pedagogos, Coordenadores, Técnicos, Assistentes de Alunos e etc.) para atender o curso superior do IFBA?” foi feita com a intenção de identificar a visão dos alunos em relação a capacidade de planejamento e resolução de problemas do time de gestão do IFBA tanto em relação aos cursos técnicos quanto em relação a um futuro ensino superior. Esta pergunta apresentou um resultado de 32% respostas positivas, 30% neutras e 38% negativas. A pergunta número 6 “Qual a sua opinião sobre a qualidade e a disponibilidade da Capítulo 4. Experimentação e Resultados 39 infraestrutura (Refeitório, Biblioteca, Laboratórios, Salas de Aula, Área de Lazer, Área de Esporte e etc.) para atender o curso superior?” foi feita com a intenção de identificar a visão dos alunos em relação a qualidade da infraestrutura do IFBA, bem como a sua disponibilidade e utilização. Esta pergunta apresentou um resultado de 49% de respostas positivas, 24% neutras e 27% negativas. A pergunta número 7 “De modo geral qual o seu ponto de vista sobre a qualidade do ensino ofertado pelo IFBA?” foi feita com a intenção de identificar a visão geral que o aluno tem sobre a qualidade de ensino do IFBA. Esta pergunta apresentou um resultado de 65% de respostas positivas, 22% neutras e 13% negativas. Os resultados das polaridades das respostas foram condensadas na Figura 2, para permitir uma visualização geral dos resultados e também para permitir realizar comparações entre os resultados de cada pergunta. Figura 2 – Gráfico das Polaridades das respostas Fonte: Próprio autor. Os dados apresentados (Figura 2) tornam possível realizar a analisar do resultado das polaridades das perguntas. A pergunta número 3 pode ser avaliada através da mesma lógica do Net Promoter Score (NPS), onde o NPS separa o público em três classes: detratoras, aquelas que não tiveram uma boa experiência com o produto ou serviço ofertado e o avaliaram com uma nota entre 0 a 6; as neutras, aquelas que tiveram uma experiência mediana, porém não ficaram totalmente satisfeitas com o produto ou serviço e o avaliaram com uma nota entre 7 a 8; e os promotores, que são pessoas que tiveram uma Capítulo 4. Experimentação e Resultados 40 boa experiência e ficaram muito satisfeitos com o produto e serviço ofertado e o avaliaram com uma nota entre 9 a 10. Para se calcular o NPS, é subtraído a percentagem de pessoas detratoras da percentagem de pessoas promotoras. No contexto desse trabalho os alunos que emitiram respostas negativas fazem parte do grupo dos detratores, os que emitiram respostas neutras, fazem parte do grupo dos neutros e os que emitiram respostas positivas, fazem parte do grupo dos promotores. Sendo assim, o NPS do IFBA é de 48%, o que significa que apesar da qualidade encontrada é preciso aperfeiçoar o seu serviço ainda mais fazendo importantes ajustes nas suas diferentes áreas de atuação. A pergunta número 4 demonstra uma predominância de respostas neutras e nega- tivas em relação a metodologia utilizada pelos professores, onde apenas 27% dos alunos tem uma opinião positiva, 51% tem uma opinião neutra e 22% tem uma opinião negativa. Diante de tal resultado fica evidente que é necessário identificar os problemas e/ou falhas da metodologia utilizada pelos professores em geral, para então encontrar uma forma que melhor atenda a demanda dos alunos. A pergunta número 5 demonstram um resultado equilibrado das polaridades das respostas em relação ao time de gestão do IFBA no que tange a capacidade de planejamento e resolução de problemas, onde 32% dos alunos tem uma opinião positiva, 30% neutra e 38% negativa, sendo a pergunta com o maior percentual de reprovação. Através desse resultado é possível perceber uma providência precisa ser tomada para identificar os problemas e/ou falhas que geraram esse tão alto nível de reprovação, para que então medidas cabíveis sejam tomadas para solucionar e/ou amenizar os problemas. A pergunta número 6 demonstrou que apesar de ter um bom percentual de repostas positiva, muitas respostas ainda foram negativas sobre a infraestrutura do IFBA em relação a sua qualidade e disponibilidade, apresentando 49% de repostas positivas, 24% de respostas neutras e 27% repostas negativas. Diante desse resultado também se torna necessário identificar o que esta causando essa reprovação e tomar medidas cabíveis para solucionar os problemas e/ou falhas e atender da melhor forma a necessidade dos alunos. A pergunta número 7 que questionava sobre a qualidade geral do ensino ofertado pelo IFBA apresentou resultados mais positivos, com um percentual de respostas positivas de 65%, muito superior em relação as outras perguntas, 22% de respostas neutras e 13% de respostas negativas, o menor percentual de reprovação entre todas as perguntas. Diante desse resultado, fica evidente que apesar dos problemas identificados, o Instituto ainda consegue agregar muito valor no processo de ensino-aprendizado dos alunos. Por isso a pergunta 3 também apresenta um resultado similar, o que significa que o Instituto agrega valor aos alunos e que por isso eles o recomendariam aos seus(as) amigos(as) que estudem nessa instituição de ensino técnico. Capítulo
Compartilhar