Baixe o app para aproveitar ainda mais
Prévia do material em texto
Uso de Mineração de Dados Educacionais para a classificação e identificação de perfis de Evasão de graduandos em Sistemas de Informação da UFRN Inamar Pereira de Brito 1,5 , Humberto Rabelo 1 , Ângela Maria Chuvas Naschold 2 , Almir Miranda Ferreira 1 , Aquiles Medeiros Filgueira Burlamaqui 3 , Danieli Silva de Souza Rabelo 5 , Ricardo Alexsandro de Medeiros Valentim 4,5 1-DCT (Departamento de Computação e Tecnologia), 2-DE (Departamento de Educação), 3-ECT (Escola de Ciências e Tecnologia), 4-DEB (Departamento de Engenharia Biomédica), 5-LAIS (Laboratório de Inovação Tecnológica em Saúde). UFRN (Universidade Federal do Rio Grande do Norte). { inamarpereira, hrabeloufrn, anaschold, almirmirandaufrn, rabrlodanni, ricardo.lahb@gmail.com }@gmail.com, aquiles@natalnet.br Abstract. This work presents the application of data mining techniques through predictive classification, using the application of data mining algorithms in an academic educational database of a higher education institution. Our objective was to identify patterns and classify students with the most prone to evasion profile and to discover the possible reasons that contribute to the growth of evasion. The results of the experiments show that: failing in the four basic subjects of the course, not participating in any type of project, together with the extrapolation of the 8 normal semesters of the course and having an age group over 26 years, are the factors that collaborated most for the course dropout. Resumo. Esse trabalho apresenta a aplicação de técnicas mineração de dados através de classificação preditiva, utilizando a aplicação de algoritmos de mineração de dados em uma base de dados educacionais acadêmicos de uma instituição de ensino superior. Nosso objetivo foi identificar padrões e classificar os discentes com o perfil mais propenso à evasão além de descobrir os possíveis motivos que contribuem para o crescimento da evasão. Os resultados dos experimentos mostram que: reprovar nas quatro disciplinas base do curso, não participar de nenhum tipo de projeto, junto com a extrapolação dos 8 semestres normais do curso e ter uma faixa etária superior a 26 anos, são os fatores que mais colaboraram para a evasão do curso. 1. Introdução A evasão nos cursos brasileiros de graduação vem trazendo preocupação aos órgãos públicos e privados. Esse fenômeno traz consequências negativas, tanto para as instituições que deixam de receber verbas, quanto para o mercado de trabalho que sofre com a falta de mão de obra qualificada. Esse fenômeno é amplamente estudado e suas principais causas ainda não são concretas. DOI: 10.5753/cbie.wcbie.2019.159 159 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019) Segundo a definição do MEC no Censo 2009, evasão é a saída definitiva do curso de origem sem conclusão. A evasão destes alunos gera custos sociais e privados para o país. (PEREIRA, 2003). Segundo NOGUEIRA (2011), as perdas financeiras causadas pela evasão no estudo feito no ensino superior em 2009 chegam a 9 bilhões, com base no cálculo do pesquisador Oscar Hipólito do instituto Lobo para o desenvolvimento da Educação, da Ciência e da Tecnologia, de acordo com os dados do Censo do Ensino Superior, divulgados pelo Ministério da Educação em 2010. Considerando o contexto exposto, podemos perceber que sobre os problemas causados pelo fenômeno da evasão, não há variáveis ou informações que permitam identificar alunos com risco de evasão no curso de Bacharelado em Sistemas de Informação da Universidade Federal do Rio Grande do Norte. Com isso este artigo apresenta técnicas que possibilitam a obtenção de informações interessantes sobre como solucionar o problema da identificação e classificação dos perfis dos discentes com possibilidade de evasão. Este artigo está organizado da seguinte forma: Na seção 2 discorre-se sobre os trabalhos relacionados; Na seção 3 é exposta a delimitação do estudo; Na seção 4 são contextualizadas as ferramentas e a base de dados utilizada; Na seção 5 descreve-se a execução dos experimentos sobre os dados utilizados; Na seção 6 apresenta-se a conclusão e os trabalhos futuros. 2. Trabalhos Relacionados No Brasil foram feitos estudos relacionados, por autores que buscavam entender os fatores e as causas mais frequentes que contribuem para a evasão nos cursos de graduação, principalmente nos cursos de computação e tecnologia, buscando identificar informações que possam justificar as crescentes taxas de evasão nesses cursos, além de outros trabalhos mostrando a utilização da mineração de dados no ambiente educacional. SILVA, et al. (2018) apresentam um estudo prático para avaliação dos níveis de expectativa e motivação de estudantes de graduação do ensino presencial em relação ao seu atual semestre e mostra de que maneira as suas habilidades podem influenciar neste resultado. Essa pesquisa deu-se por meio da utilização de tarefas de mineração de dados. Já Rabelo et al. (2017) apresentou a aplicação de técnicas de Mineração de Dados Educacionais para a predição do desempenho de alunos de EaD em ambiente virtual de aprendizagem (AVA) utilizando o Moodle como plataforma para realização de cursos de graduação à distância. O experimento utilizou dados reais de uma base histórica contendo treze turmas de cursos de graduação, sendo parte de um estudo que visa melhorar o processo de ensino à distância de uma Universidade Federal. CARNIEL (2013) realizou um estudo no curso de Ciência da Computação para identificar os fatores que contribuem para a evasão do curso, tendo identificado na sua pesquisa alguns aspectos importantes relacionados ao fator da evasão, tais como: 160 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019) - As taxas de evasão tendem a ser maiores entre o primeiro e terceiro períodos. - As disciplinas com maior frequência de alunos matriculados nos anos que evadiram são Algoritmos e Programação, Computação Básica, Matemática Computacional, Álgebra Linear e Cálculo - A faixa etária dos alunos com maior índice de evasão esta entre 18 e 21 anos. O levantamento das maiores causas de evasão, feito por SLHESSARENKO et al (2014), mostra vários fatores influentes, no curso de Sistemas de Informação da Universidade Federal de Santa Catarina (UFSC). Os dados foram coletados e tabulados de acordo com a prioridade e frequência, destacando as sete causas mais relevantes: - A mudança de interesse, opção de vida e/ou indecisão profissional. - A didática dos professores ineficiente. - O não atendimento às expectativas. - A carga horária semanal de trabalho. - Os aspectos inadequados das salas de aula ao ensino. - A insuficiente orientação por parte da coordenação do curso. - As dificuldades de acompanhamento do curso. 3. Delimitação do estudo O presente trabalho busca analisar os dados sobre os históricos educacionais descaracterizados dos alunos do curso de Sistemas de informação, visto que segundo a afirmação de CARVALHO (2006) em sua pesquisa, os cursos com maior índice de evasão foram os relacionados com informática: Sistemas de Informação (13%) e Ciência da Computação (11,9%). Em outras análises divulgadas sobre o ingresso e evasão no Ensino Superior no Brasil, mostram claramente o baixo percentual de alunos formados nos cursos pertencentes à área de Exatas, tais como Ciências, Matemática e principalmente cursos ligados à área de Computação, tais como Ciência da Computação, Sistemas de Informação, Processamento de Dados e Automação. 4. Descrição da base de dados e das ferramentas utilizadas A base de dados utilizada neste trabalho foi diretamente coletada do sistema acadêmico da UFRN - Universidade Federaldo Rio Grande do Norte e disponibilizada em forma de arquivo PDF (Portable Document Format). Ela contém dados de 196 (cento e noventa e seis) discentes do curso de graduação em Sistemas de informação da UFRN, além de diversos atributos sobre as disciplinas cursadas, o estado da disciplina (Aprovado, Reprovado, Cumpriu, etc), dentre outros atributos. Vale salientar que os dados não possibilitam a identificação pessoal dos discentes, mantendo assim o completo anonimato dos participantes. 161 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019) Em primeiro momento foram analisados os dados em busca de atributos que fossem relevantes para melhor formar um conjunto de dados que abrangesse todos os possíveis indicadores que pudessem influir na evasão. A escolha dos atributos que compõem o dataset foi baseada nos critérios de seleção utilizados por (CORNELIUS, 2015). Após a seleção dos dados, foi executada a limpeza, remoção de dados repetidos ou fora do escopo da pesquisa e a transformação dos dados para adequar os mesmos aos algoritmos de mineração de dados, por fim, foi executado o algoritmo de árvore de decisão utilizando a biblioteca da ferramenta WEKA (Waikato Environment for Knowledge Analysis), essa ferramenta desenvolvida pela Universidade de Waikato na Nova Zelândia, e que contém diversas bibliotecas de algoritmos e oferece suporte para todo o processo de mineração de dados (HALL et al., 2009). 4.1 Descrição e Análise dos Dados estatísticos da base utilizada De posse dos dados iniciais, pré-processados, transformados e organizados, foram selecionados os valores referentes às quantidades de evadidos e formados entre o ano de 2011.1 a 2018.1, os dados referentes a residência do discente, tempo de permanência no curso antes da evasão, faixa etária dos discentes, quantidades de matrículas em componentes por semestre, quantidades de reprovações nas quatro disciplinas básicas escolhidas e adaptadas com base na pesquisa de CORNELIUS(2015), que nesse caso foram: Logica, Algoritmo, Introdução a Informática e Fundamentos da Matemática. Figura 1 - Gráfico das quantidades de evadidos e formados por semestre. O primeiro gráfico gerado foi através das informações referentes às quantidades de evadidos e formados por semestre entre o período de 2011.1 e 2018.1, assim foi possível observar na figura 1 um padrão nas quantidades de discentes que se evadiram nos semestres em relação a quantidade de discentes que concluíram a formação, sendo a evasão em sua maioria, ocorridas no primeiro semestre do ano. 162 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019) Junto das informações sobre as quantidades de formados e evadidos foi possível descobrir o valor percentual da evasão, foram 486 discentes ingressantes de 2009 até 2018. Assim comparando com o valor total de evadidos, temos que 196 discentes evadidos que equivale a 40,5% de todos os ingressantes no curso, ou seja, quase metade dos ingressantes se evadem. O conjunto de dados a seguir, exibe todos os valores referentes às quantidades dos discentes que se evadiram e que possuem algum valor referente aos atributos estudados, como a faixa etária, moradia na cidade do campus, quantidade de matérias por semestre e tempo de permanência no curso. Figura 2 - Dados sobre os discentes evadidos Os dados exibidos na figura 2, mostram no primeiro campo as quantidades referentes a faixa etária que mais se evadiu do curso. Nota-se que a faixa etária com maior taxa de evasão esta entre 26 e 35 anos. O segundo campo mostra a quantidade de discentes evadidos que moram e os que não moram na mesma cidade do campus. O campo posterior mostra a média das quantidades das matérias matriculadas por semestre de cada discente. Assim é possível notar que a maioria dos discentes evadidos, se matricularam em média em 3 a 4 matérias por semestre. E o último campo mostra dados sobre o tempo de permanência no curso até a evasão. É possível notar que a maioria dos discentes evadiu entre o primeiro e o terceiro semestre do curso. 5. Experimentos realizados Com o objetivo de esclarecer o entendimento sobre os dados e também aplicar as técnicas de mineração de dados para assim encontrar informações relevantes que compõem o perfil de evasão, foram realizados alguns experimentos. Os algoritmos utilizados através da ferramenta WEKA foram o K-Means e o J48, sendo o primeiro para agrupar e fornecer um maior entendimento do conjunto de dados original, além de possibilitar o desenvolvimento de esquemas de classificação (CASSIANO et al.,2014). O segundo é usado para Classificar e Identificar através das variáveis de maior impacto sobre a evasão. Árvores de decisão são muito populares para resolver problemas de classificação, pois possibilitam o encontro de correlações entre os atributos e uma classe, de modo que o processo de classificação possa usá-lo para predizer a classe de um novo e desconhecido exemplo. (COSTA et al.,2013). 163 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019) 5.1. Realização do experimento A No experimento A, foram utilizados os valores obtidos do status dos discentes em cada uma das quatro disciplinas base do curso, considerando os discentes que em algum momento do curso reprovaram em alguma das disciplinas. Foi utilizado o algoritmo de clusterização K-Means que teve como saída o agrupamento do conjunto de informações sobre as quantidades de discentes reprovados e assim foi gerado o diagrama dos círculos de Venn 1 . Quatro círculos foram criados para representar as quatro disciplinas, sendo todos com interseções, os valores mais externos são referentes às quantidades de reprovações exclusivas na disciplina e as interseções seria a combinação desses valores, e assim cada um contendo os valores referentes às quantidades dos discentes evadidos que reprovaram como mostra a figura 3. Figura 3 - Diagrama das quantidades de reprovações por disciplina 5.2. Realização do experimento B Neste experimento foram utilizados os atributos referentes a “possuir auxilio”, junto com o atributo sobre “participar de projetos de pesquisa, extensão ou monitoria” em conjunto com os resultados obtidos nas “disciplinas base”. Utilizando o algoritmo J48 na base de dados e tendo sua configuração em validação cruzada Analisando os 216 discentes, deste total somente 34 deles possuíam algum auxílio, somando 182 os discentes que não eram contemplados com nenhum auxílio, já a participação em projetos foram somente 20 discentes, e os que não participam e nem participaram somou 196. Os resultados apresentaram uma precisão de 1 SILVA, Marcos Noé Pedro da. “Diagrama de Venn”; Brasil Escola. Disponível em <https://brasilescola.uol.com.br/matematica/diagrama-de-venn.html>. Acesso em 05 de maio de 2019. 164 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019) aproximadamente 92% de acurácia na classificação, com obtenção de apenas 17 instâncias classificadas de forma incorreta, contra 199 instâncias classificadas corretamente, conforme mostra a figura 4. Figura 4 - Configuração e resultados do experimento B Neste experimento o atributo que teve maior relevância foi o atributo pos_proj seguidamente dos atributos de rep_fundMat e rep_alg, assim observa se caso ocorra a reprovação da matéria Algoritmo, seguida da não matrícula em algum projeto de pesquisa iria indicar uma grande possibilidade de evasão do discente. 5.3. Realização do experimento CNeste experimento foi utilizado o mesmo método do experimento anterior, porém com todos os atributos estudados. Foi observado que os atributos form_ingress e qtd_mat_sem não tiveram nenhuma influência na geração do modelo de árvore. Os valores resultantes da taxa de sucesso na classificação obtiveram uma precisão aproximadamente de 95% de acurácia na classificação através do Algoritmo J48. Figura 5 - Configuração e resultados do experimento C 165 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019) É possível observar que aproximadamente 16 discentes que reprovaram se evadiram e 4 discentes que não reprovaram concluíram, levando em consideração os discentes que excederam o tempo de permanência de mais de 8 semestres, com essas informações pode-se concluir que os discentes que têm dificuldade em concluir o curso tendem a evasão. A figura 5 apresenta a configuração e os resultados desse experimento. 5.4. Discussão dos Resultados Os resultados Encontrados mostraram uma precisão dos classificadores de aproximadamente 90 e 95%, esses valores foram determinados a partir da média geral de todos os experimentos feitos. O experimento A nos trouxe o entendimento de qual combinação de insucesso entre as disciplinas reprovadas obteve uma maior quantidade de discentes evadidos. No experimento B mostrou que a não matricula em algum projeto seguida da reprovação na disciplina de algoritmos teve a maior parcela de discentes evadidos, somando no total de 129 instâncias de discentes evadidos somente neste caso e ficando o experimento B com o valor aproximado de 92% de instâncias classificadas corretamente. O experimento C mostrou que o tempo de permanência antes dos 6 primeiros semestres foi em sua totalidade dos discentes evadidos, somando no total entre o primeiro e terceiro semestre 114 evasões. Este experimento teve a maior porcentagem de acerto, cerca de 95% das instâncias foram classificadas de forma correta. Com esses resultados foi possível gerar alguns perfis de evasão dos discentes do curso de Sistema de Informação estudado nesta pesquisa: 1. O discente que reprovou nas quatro disciplinas base do curso. 2. O discente com a faixa etária de 26 anos ou mais. 3. O discente que excedeu os 8 semestres comuns do curso e não é matriculado em nenhum projeto. 4. O discente que reprovou na disciplina de introdução a informática, seguido da disciplina de algoritmos. 6. Conclusões e trabalhos futuros Após todos os estudos realizados, ficou evidente a importância desta pesquisa que teve como objetivo combater a evasão através da identificação dos perfis mais propícios a esse fenômeno, foi possível notar também a grande importância do uso da mineração de dados neste contexto, pois possibilitou em seus experimentos a identificação de padrões dos discentes com o perfil de evasão. 166 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019) A mineração de dados nesta pesquisa foi aplicada com o intuito de auxiliar no agrupamento e na classificação do domínio de dados coletados, o que possibilitou identificar quais os atributos que tiveram maior influência na permanência do discente no curso. A classificação correta dos atributos teve de 90 a 95% de precisão, com essa porcentagem pode-se assumir de forma confiante, os resultados dos experimentos realizados. Os resultados dos experimentos constataram que os fatores que causam a evasão são tantos internos quanto externos. Os fatores internos estudados foram, o desempenho dos discentes nos componentes exigidos na grade do curso e a inserção em atividades extra sala de aula, tais como projetos de ensino, pesquisa e ou extensão. No domínio dos dados foi identificada a necessidade de um agrupamento dos valores referentes às disciplinas base do curso com a técnica de agrupamento utilizada pelo algoritmo K- Means e também uma classificação geral dos atributos utilizando o algoritmo J48, através da ferramenta WEKA. Concluindo, os perfis identificados de evasão dos discentes do curso, foram os que reprovam nas quatro disciplinas base, os que estão inclusos na faixa de idade entre 26 anos ou mais, os que excederem os 8 semestres do curso e não fazer parte de nenhum projeto e os que reprovam em Fundamentos e em Algoritmos Como trabalhos futuros baseado nos estudos realizados, algumas alternativas que não foram exploradas são recomendadas como um aprofundamento no assunto ou como melhoria para os resultados obtidos com esta pesquisa. Estes seriam uma análise dos fatores externos ao curso, a influência de outras disciplinas e ainda a utilização de outras Técnicas de Mineração de Dados. Referências CARNIEL, M. Aplicação de Algoritmos de Mineração de Dados para Identificação de fatores que influenciam a evasão de alunos do Curso de Ciência da Computação da UNIVALI. 2013. Monografia (Ciência da Computação) — Universidade do Vale de Itajaí. CARVALHO, Márcia de; TAFNER, Paulo. Ensino Superior Brasileiro: a evasão dos alunos e a relação entre formação e profissão. Anais do 30º Encontro anual da ANPOCS, 2006. CASSIANO, Keila Mara. Análise de Séries Temporais Usando Análise Espectral Singular (SSA) e Clusterização de Suas Componentes Baseada em Densidade. Pontifícia Universidade Católica do Rio de Janeiro, 2014. CORNELIUS JUNIOR, Romeu. Uso da mineração de dados na identificação de alunos com perfil de evasão do ensino superior. 2015, Trabalho de Conclusão de Curso, Universidade de Santa Cruz do Sul. 167 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019) COSTA, Evandro et al. Mineração de dados educacionais: conceitos, técnicas, ferramentas e aplicações. Jornada de Atualização em Informática na Educação, v. 1, n. 1, p. 1-29, 2013. HALL, Mark et al. The WEKA data mining software: an update. ACM SIGKDD explorations newsletter, v. 11, n. 1, p. 10-18, 2009. NOGUEIRA, F. País perde R$ 9 bilhões com evasão no ensino superior, diz pesquisador. G1 Portal de Notícias da Globo, São Paulo, 07 fev. 2011. Disponível em:<http://g1.globo.com/educacao/noticia/2011/02/pais-perde-r-9-bilhoes-com- evasao-no-ensino-superior-diz-pesquisador.html>. acessado em: 15 de maio de 2018. PEREIRA, Fernanda Cristina Barbosa et al. Determinantes da evasão de alunos e os custos ocultos para as instituições de ensino superior: uma aplicação na Universidade do Extremo Sul Catarinense. 2003. RABELO, Humberto et al. Utilização de técnicas de mineração de dados educacionais para predição de desempenho de alunos de EaD em ambientes virtuais de aprendizagem. In: Brazilian Symposium on Computers in Education (Simpósio Brasileiro de Informática na Educação-SBIE. 2017. p. 1527. SILVA, Cristóvão et al. Avaliação dos níveis de expectativa e motivação de estudantes de graduação do ensino presencial através da Mineração de dados. In: Anais dos Workshops do Congresso Brasileiro de Informática na Educação. 2018. p. 409. SLHESSARENKO, Michelli et al. A evasão na educação superior para o curso de bacharelado em sistema de informação. Revista Gestão Universitária na América Latina-GUAL, v. 7, n. 1, 2014. 168 Anais dos Workshops do VIII Congresso Brasileiro de Informática na Educação (WCBIE 2019) VIII Congresso Brasileiro de Informática na Educação (CBIE 2019)
Compartilhar