Baixe o app para aproveitar ainda mais
Prévia do material em texto
Mineração de Dados na Investigação de Fatores Socioeconômicos Relativos ao Desempenho de Alunos de um Curso de Administração no ENADE 2012 Herderson Gomes Couto, Matheus Victor Lira de Araújo herderson@gmail.com, mvla1994@gmail.com Curso de Ciência da Computação Centro Universitário Augusto Motta (UNISUAM) – Av. Paris 72 – 21.041-020 – Rio de Janeiro – RJ – Brasil Orientador Reinaldo Viana Alvares Resumo. No Brasil, diversos cursos de graduação são avaliados pelo Ministério da Educação (MEC), por meio de um exame denominado ENADE, cujo resultado compõe o Conceito Preliminar de Curso (CPC). Os resultados do ENADE, são de acesso livre a qualquer cidadão, entretanto divulgados no site do Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep) em formato de planilha. Este trabalho investigou os fatores socioeconômicos com maior relevância para explicar o desempenho dos alunos concluintes do curso de Administração de uma instituição de ensino do Rio de Janeiro no ano de 2012, utilizando os microdados disponibilizados no site do Inep, onde foi aplicada uma técnica de mineração de dados, especificamente a tarefa de classificação pela execução do algoritmo CHAID para a construção de uma árvore de decisão, cujos resultados obtidos são formados por dados organizados de maneira de fácil entendimento e podem servir como importante ferramenta para tomada de decisão. Palavras chave: ENADE, Mineração de Dados, CHAID. Abstract. In Brazil, several undergraduate courses are evaluated by the Ministry of Education (MEC), through a test called ENADE, whose result the Preliminary Concept of course (CPC). The results of the ENADE, are free access to any citizen, however disclosed on the website of the Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep) in spreadsheet format. This work investigated the socioeconomic factors with most relevant to explain the performance of the students graduating from the administration of an educational institution in Rio de Janeiro in the year 2012, using the micro-data made available on the website of Inep, where it was applied a data mining technique, specifically the task of sorting the implementation of CHAID algorithm for constructing a decision tree , whose results are made up of data organized in a manner that is easy to understand and can serve as an important tool for decision-making. Keywords: ENADE, Data Mining, CHAID. 1. Introdução O Ministério da Educação implantou o Exame Nacional de Desempenho de Estudantes (ENADE), tendo como objetivo medir o desempenho dos estudantes em mailto:mvla1994@gmail.com relação ao conteúdo programático previsto, habilidades e competências desenvolvidas na sua formação. As avaliações são compostas por questões de conhecimento específicos e gerais e o conceito atribuído a cada curso varia de 1 a 5. O cálculo dos indicadores de qualidade do ensino superior é formado pelos resultados do ENADE, Conceito Preliminar de Curso (CPC) e o Índice Geral de Cursos Avaliados da Instituição (IGC). O Conceito Preliminar de Curso (CPC) é calculado com base na avaliação de desempenho de estudantes, corpo docente, infraestrutura, recursos didático-pedagógicos e demais insumos. Em alguns casos, os cursos que não cumprem os critérios necessários são registrados como Sem Conceito (SC), no qual, o Conceito Preliminar de Curso não é calculado. No caso do Índice Geral de Cursos Avaliados da Instituição (IGC), é calculado anualmente e utiliza informações da média dos últimos CPCs disponíveis dos cursos avaliados da instituição no ano do cálculo e nos dois anteriores, a média dos conceitos de avaliação dos programas de pós-graduação stricto sensu atribuídos pela CAPES e a distribuição dos estudantes entre os diferentes níveis, graduação ou pós-graduação stricto sensu [1]. A análise dos dados de inscrição e desempenho obtidos a partir da realização do ENADE pode fornecer importantes informações para explicar o desempenho de alunos. A técnica eficiente para esse tipo de análise é conhecida como mineração de dados, que consiste na aplicação de algoritmos para extração de informações relevantes a partir dos dados. Este trabalho tem como objetivo analisar a relação entre os fatores socioeconômicos, medindo o desempenho dos alunos do curso de Administração de uma instituição de ensino privada do Rio de Janeiro na edição do ENADE 2012, por meio da aplicação da técnica de mineração de dados através do processo de indução de árvore de decisão, utilizando a tarefa de classificação pela execução do algoritmo CHAID. Além desta introdução, o trabalho está organizado em oito seções. A seção dois apresenta o ENADE e os critérios de avaliação de cursos de graduação no Brasil. A seção três discorre os conceitos relativos ao processo de mineração de dados que foram usados no desenvolvimento da pesquisa. Na seção quatro é detalhada a aplicação e suas principais funcionalidades. Na seção cinco são apresentados os trabalhos correlatos. Na seção seis as considerações finais do trabalho. Na seção sete são apresentadas as referências e na última seção é apresentado o tutorial do processo de indução de árvore de decisão. 2. ENADE e avaliação de cursos de graduação O ENADE é um procedimento de avaliação, aplicada anualmente, que integra o Sistema Nacional de Avaliação da Educação Superior (SINAES). É realizado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep), autarquia vinculada ao Ministério da Educação (MEC), segundo diretrizes estabelecidas pela Comissão Nacional de Avaliação da Educação Superior (CONAES), órgão colegiado de coordenação e supervisão de SINAES. O ENADE foi criado no ano 2004, com a necessidade de substituir o exame anterior, Exame Nacional de Cursos (ENC), popularmente conhecido como “Provão”. O exame tem como objetivo acompanhar o processo de aprendizagem e desempenho dos estudantes em relação aos conteúdos previstos nas diretrizes curriculares do respectivo curso de graduação, suas habilidades para se ajustar às exigências decorrentes da evolução do conhecimento e suas competências em sua formação. Esta avaliação é composta por questões de conhecimento específicos e gerais sendo dividida em 25% para formação geral e 75% para formação específica. O conceito atribuído a cada curso varia de 1 a 5, avaliando o desempenho dos alunos ingressantes e concluintes [2]. Antes do exame, o aluno deve preencher um questionário de avaliação do curso, que contém, além de informações pessoais, questões sobre a infraestrutura, instalações físicas e os recursos didático–pedagógicos do curso, que comporá o Relatório do ENADE, documento que contém os resultados dos alunos e as suas impressões sobre o exame. As questões, em geral, mudam a cada edição bem como o procedimento de cálculo que levam em consideração tais indicadores. Os resultados dos cursos também apresentam as graduações com os melhores índices IDD (Indicador de Diferença Entre os Desempenhos Observados e Esperados). O IDD é a diferença entre o desempenho médio do concluinte de um curso e o desempenho esperado para os ingressantes desse mesmo curso. Esse indicador determina o quanto de conhecimento os cursos agregam aos alunos. Outro conceito bastante importante, é o Conceito Preliminar de Curso (CPC), que representa de maneira prévia a situação dos cursos de graduação. Criado no ano 2007, é considerado um indicador preliminar, e pode ser alterado após procedimento de visita para fins de avaliação do curso em questão, também é utilizado como referência no licenciamento de funcionamento dos cursos de graduação. 3. Mineração de Dados Com o grande avanço dos sistemas computacionais nas últimas décadas, o armazenamento de dados tem sido um dos principais objetivos das organizações.Essas grandes quantidades de dados, quando analisadas, podem revelar informações muito valiosas, que poderão dar apoio a tomada de decisões em um ambiente organizacional. A exploração desses dados não é uma tarefa fácil de ser realizada. Nem sempre as ferramentas e técnicas tradicionais de análise de dados são possíveis de ser aplicadas, em muitos casos, a enorme quantidade de informação ou a natureza não corriqueira dos dados acaba inviabilizando o processo de análise destas abordagens. A Mineração de Dados (Data Mining) é uma área da Ciência da Computação que utiliza algoritmos sofisticados de aprendizagem ou classificação para análise de grandes bases de dados, procurando extrair informações que estejam implícitas, que sejam previamente desconhecidas e potencialmente úteis [3]. A partir da reunião de técnicas de áreas como: Estatística, Inteligência Artificial e Banco de Dados tornaram– se possível representar de diversas formas essas informações. 3.1. Processo de Descoberta de Conhecimento O KDD (Knowledge Discovery in Databases) é um processo de transformação de dados em conhecimento útil, válido e relevante. Ele é composto por várias etapas, iniciando com a seleção dos dados e terminando com a interpretação dos resultados da mineração de dados. Na figura 1 é possível ver as fases do processo de KDD. Figura 1: O ciclo do processo de KDD. Fonte: FAYYAD, 1996, p. 41. Na fase de seleção, é escolhido o conjunto de possíveis variáveis que farão parte da análise. Esta etapa do processo é complexa e normalmente a escolha dos dados fica a critério de um especialista do domínio. No Pré-processamento e limpeza, são realizadas as eliminações de dados redundantes, limpeza para remoção dos ruídos e a seleção dos dados com características relevantes à tarefa de mineração de dados. A Transformação de dados é a fase de descoberta do conhecimento, após os dados passarem pelo pré-processamento, é feita a padronização dos dados para suprir as limitações das técnicas de Data Mining, de modo que os algoritmos possam ser aplicados. A etapa de Mineração de dados consiste em aplicar as técnicas e algoritmos com a finalidade de determinar as características dos dados, com o objetivo de descobrir padrões e regras. Com os resultados obtidos na mineração, é possível interpretar e avaliar os dados de maneira simples, extraindo informações úteis. 3.2. Árvore de decisão Neste trabalho é utilizada a técnica de árvore de decisão, pois os resultados obtidos são formados por dados que ficam organizados de maneira simples e de fácil entendimento, servindo como importante instrumento de apoio à tomada de decisão. Uma árvore de decisão consiste em uma representação gráfica de atributos classificados a partir da execução de algoritmos classificadores baseados em árvore de decisão, entre estes algoritmos é possível citar: o algoritmo CART (Classification And Regression Trees), o ID3 (Interative Dichotomiser 3), o C4.5 e o CHAID (Chi-Squared Automatic Detection). As árvores de decisão também podem ser representadas com um conjunto de regras condicionais SE-ENTÃO (IF-THEN), que quando aplicadas a um registro de dados, resultam na classificação do mesmo. Na figura 2 é mostrado um exemplo básico dos elementos de uma árvore de decisão fictícia: Figura 2: Exemplo de árvore de decisão fictícia. Fonte: Os autores (2015). Na árvore da figura 2, temos os seguintes elementos: • Raiz: Nó que está situado no topo da árvore; Homem Casada Idade > 35 Casado Solteiro Sim Não Sim Não Raiz Nó de decisão Folhas Ramo • Nó de decisão: são os nós internos conectados pelos ramos da árvore; • Ramo: Fazem as ligações dos nós da árvore; • Folha: São os nós terminas da árvore, não possuem ramos. A partir da árvore da figura 2, é possível extrair as seguintes regras SE-ENTÃO (IF-THEN): • SE “Homem”=Sim E “Idade>35”=Sim, ENTÃO Casado; • SE “Homem”=Sim E “Idade>35”=Não, ENTÃO Solteiro; • SE “Homem”=Não, ENTÃO Casada. As regras condicionais são obtidas através do percurso que parte do nó raiz até o um nó folha, percebe-se que através de uma árvore de decisão é possível extrair regras de classificação de maneira bastante simples. 3.3. O algoritmo CHAID Neste trabalho, o algoritmo de classificação escolhido para a geração da árvore de decisão foi o CHAID (Chi-Squared Automatic Detection), este algoritmo foi criado por Gordon V. Kass em 1980 e tem por base os testes de Qui-Quadrado de Pearson, usado para determinar se uma distribuição de frequências observadas difere das frequências esperadas teóricas. A estatística de Qui-Quadrado (2) é calculada pela fórmula: 2 = Σ [(o-e)²/e] Em que, “o” é a frequência observada e “e” é a frequência esperada. Quanto maior o valor de 2 maior será a probabilidade de as frequências observadas estarem diferentes das frequências esperadas. Os passos do algoritmo CHAID podem ser encontrados em [4]. O objetivo do algoritmo é criar uma árvore de classificação que contenha apenas as variáveis mais relevantes para a classificação. Uma das vantagens de usar o CHAID é fato de se obter uma árvore de fácil interpretação e leitura. Por outro lado, o CHAID requer grandes quantidades de dados para ser possível garantir que a quantidade de observações dos nós folha é significativa, logo não apresentou nenhum problema para este trabalho. 4. Estudo de caso O estudo de caso envolveu dados do ENADE do ano de 2012, referentes ao curso de graduação de Administração de uma instituição de ensino privada do Rio de Janeiro. Desta forma, este trabalho tem o objetivo de analisar quais as características socioeconômicas de alunos concluintes que mais influenciam no seu desempenho. Esta análise foi realizada por meio do algoritmo de classificação CHAID, onde foi possível obter os atributos mais promissores em relação à nota geral do aluno, e assim, fornecer subsídios para uma análise. 4.1. Questionário socioeconômico e desempenho O questionário socioeconômico é um instrumento de coleta de informações do ENADE, que tem por objetivo construir um perfil socioeconômico do estudante. Este questionário é composto por 54 perguntas e os respectivos códigos e possíveis respostas são encontrados no dicionário de variáveis dos microdados. De acordo com objetivo da análise, foram escolhidos os atributos relacionados ao questionário socioeconômico, além do atributo "nota geral da prova" para ser gerada a árvore de decisão. O atributo nota geral da prova é calculado pela média ponderada da nota de componente específico (75%) e a nota de formação geral (25%), variando de 0 a 100. Com o intuito de otimizar a classificação dos atributos da árvore de decisão gerada pelo algoritmo, foi criado um atributo-meta chamado "Desempenho". Com a criação deste atributo, a "nota geral" foi dividida em duas categorias: • Notas menores que 50: o atributo "Desempenho" recebeu a predição "não"; e • Notas maiores ou iguais a 50: o atributo "Desempenho" recebeu a predição "sim". 4.2. Obtenção da fonte de dados e pré-processamento Os microdados do ENADE estão disponíveis no Portal do Inep para download em arquivos (.csv). A base de dados original é dividida em 8 tipos de variáveis: varáveis de instituição de ensino superior (3 atributos), variáveis do curso (4 atributos), variáveis do inscrito (18 atributos), variáveis de presença (11 atributos), variáveis da prova (6 atributos), variáveis de desempenho (16 atributos), variáveis de percepção da prova (11 atributos) e variáveis do questionário socioeconômico (56 atributos). Durante a preparação dos dados para execução do algoritmo, foram considerados apenas os registros em que o candidato compareceu para realização da prova e respondeu o questionário socioeconômico. Sendoassim, a base de dados resultante para a tarefa de mineração de dados se configurou em um arquivo em forma de planilha (.xls) com 547 registros, cada qual contendo 56 atributos: • 54 referentes ao questionário socioeconômico (co_rs_s1 até co_rs_s54); • 1 atributo-meta (Desempenho); e • 1 atributo criado para identificação de cada registro (ID). 4.3. Indução de árvore de decisão A ferramenta escolhida para a tarefa de mineração de dados e execução do algoritmo CHAID foi o software RapidMiner Studio. O RapidMiner é uma ferramenta Open-Source que apresenta uma interface visual para a realização de processos relacionados à mineração de dados. Estes processos são realizados pela ferramenta conectando-se blocos de construção ou operadores com as funções necessárias para o processo pretendido. O tutorial do experimento realizado para a construção do modelo de indução de árvore de decisão no RapidMiner e a árvore resultante encontram-se no anexo deste trabalho. 4.4. Resultados e Discussões Como parte dos estudos de pesquisa, a fim de obter a classificação de atributos com maior percentual de previsões corretas na classificação feita pelo algoritmo CHAID aplicado a base de dados pré-processada, foram realizados três experimentos além do qual se fundamentou este trabalho. Com o auxílio de um software de código livre chamado WaikatoEnvironmente for KnowledgeAnalysis(WEKA), executou-se o algoritmo CfsSubsetEval sobre a base de dados pré-processada para seleção dos atributos do questionário socioeconômico com maior correlação em relação ao atributo-meta de cada experimento. Os atributos selecionados pelo CfsSubsetEval para o experimento que utilizou a predição que dividiu a nota geral do aluno na categoria “maior que 50 (sim)” e “menor que 50 (não)” foram: co_rs_s3, co_rs_s6, co_rs_s8, co_rs_s11, co_rs_s12, co_rs_s17, co_rs_s18, co_rs_s19, co_rs_s20, co_rs_s29, co_rs_s35, co_rs_s37, co_rs_s40, co_rs_s47, co_rs_s50 e co_rs_s54. Sobre os atributos selecionados foi executado o algoritmo CHAID, sendo obtidos os seguintes resultados: • Total de regras condicionais obtidas a partir da árvore de decisão resultante: 67 regras; • Total de regras condicionais obtidas com a predição (sim): 10 regras; e • Percentual de previsões corretas (cálculo do operador Performance do RapidMiner): 90,68%. Tabela 1: Regras condicionais obtidas. Fonte: Os autores (2015). Ordem Regras mais promissoras 1 SE co_rs_s19 = D E co_rs_s6 = E E co_rs_s50 = B ENTÃO sim 2 SE co_rs_s19 = B E co_rs_s18 = B E co_rs_s50 = B E co_rs_s6 = D E co_rs_s3 = B ENTÃO sim 3 SE co_rs_s19 = B E co_rs_s18 = A E co_rs_s47 = D E co_rs_s29 = D E co_rs_s8 = D E co_rs_s11 = E ENTÃO sim 4 SE co_rs_s19 = E E co_rs_s20 = B E co_rs_s35 = A ENTÃO sim Também utilizando a ferramenta WEKA para execução do algoritmo CfsSubsetEval mais um experimento foi realizado. Dessa vez, usando como predição a média Brasil da nota geral do curso de Administração no ENADE 2012. A média Brasil do curso de Administração foi de 34,63, desta forma o atributo-meta se configurou em: nota geral do aluno maior ou igual que a média Brasil recebeu a predição “sim” e as notas menores, a predição “não”. Os atributos selecionados pelo o CfsSubsetEval para este experimento foram: co_rs_s1, co_rs_s3, co_rs_s4, co_rs_s5, co_rs_s10, co_rs_s16, co_rs_s18, co_rs_s24, co_rs_s33, co_rs_s36, co_rs_s38, co_rs_s40. Sobre os atributos selecionados foi executado o algoritmo CHAID, obtendo-se os seguintes resultados: • Total de regras condicionais obtidas a partir da árvore de decisão resultante: 87 regras; • Total de regras condicionais obtidas com a predição (sim): 30 regras; e • Percentual de previsões corretas (cálculo do operador Performance do RapidMiner): 56,49%. Tabela 2: Regras condicionais obtidas. Fonte: Os autores (2015). Ordem Regras mais promissoras 1 SE co_rs_s38 = A E co_rs_s5 = F E co_rs_s36 = A E co_rs_s1 = B ENTÃO sim 2 SE co_rs_s38 = B E co_rs_s18 = B E co_rs_s4 = F ENTÃO sim 3 SE co_rs_s38 = C E co_rs_s36 = A E co_rs_s5 = F ENTÃO sim 4 SE co_rs_s38 = B E co_rs_s18 = B E co_rs_s4 = D E co_rs_s36 = B E co_rs_s40 = C ENTÃO sim O terceiro experimento envolveu a execução do algoritmo CHAID sobre os 54 atributos relacionados ao questionário socioeconômico e o mesmo atributo-meta do segundo experimento (maior ou igual que média Brasil (sim) e menor que média Brasil (não)). Foram obtidos os seguintes resultados: • Total de regras condicionais obtidas a partir da árvore de decisão resultante: 105 regras; • Total de regras condicionais obtidas com a predição (sim): 22 regras; e • Percentual de previsões corretas (calculo do operador Performance do RapidMiner): 55,21%. Tabela 3: Regras condicionais obtidas. Fonte: Os autores (2015). Ordem Regras mais promissoras 1 SE co_rs_s38 = C E co_rs_s31 = A E co_rs_s45 = C E co_rs_s12 = A ENTÃO sim 2 SE co_rs_s38 = B E co_rs_s52 = A E co_rs_s43 = A E co_rs_s48 = A E co_rs_s11 = E E co_rs_s32 = A E co_rs_s20 = B ENTÃO sim 3 SE co_rs_s38 = B E co_rs_s52 = A E co_rs_s43 = C ENTÃO sim 4 SE co_rs_s38 = C E co_rs_s31 = A E co_rs_s45 = B E co_rs_s2 = A E co_rs_s30 = A ENTÃO sim Os atributos que têm maior correlação com o atributo "Desempenho", obtidos após a execução do algoritmo CHAID sobre os 54 atributos do questionário socioeconômico para o experimento que se fundamentou este trabalho estão descritos na Tabela 4: Tabela 4: Atributos selecionados pelo algoritmo CHAID. Fonte: Inep (2012). co_rs_s5 5 - Somando a sua renda com a renda dos familiares que moram com você, quanto é, aproximadamente, a renda familiar? (Considere a renda de todos os seus familiares que moram na sua casa com você) A = Nenhuma. B = Até 1,5 salário mínimo (até R$ 697,50) C = Acima de 1,5 até 3 salários mínimos (R$ 697,51 a R$ 1.395,00). D = Acima de 3 até 4,5 salários mínimos (R$ 1.395,01 a R$ 2.092,50). E = Acima de 4,5 até 6 salários mínimos (R$ 2.092,51 a R$ 2.790,00). F = Acima de 6 até 10 salários mínimos (R$ 2.790,01 a R$ 4.650,00). G = Acima de 10 até 30 salários mínimos (R$ 4.650,01 a R$ 13.950,00). H = Acima de 30 salários mínimos (mais de R$ 13.950,01). co_rs_s6 6 - Assinale a situação abaixo que melhor descreve seu caso (incluindo bolsa) A = Não tenho renda e meus gastos são financiados pela minha família ou por outras pessoas. B = Tenho renda, mas recebo ajuda da família ou de outras pessoas para financiar meus gastos. C = Tenho renda e me sustento totalmente. D = Tenho renda, me sustento e contribuo com o sustento da família. E = Tenho renda, me sustento e sou o principal responsável pelo sustento da família. co_rs_s7 7 - Indique a resposta que melhor descreve sua atual situação de trabalho. (Não contar estágio, bolsas de pesquisa ou monitoria) A = Não estou trabalhando. B = Trabalho eventualmente. C = Trabalho até 20 horas semanais. D = Trabalho mais de 20 horas semanais e menos de 40 horas semanais. E = Trabalho em tempo integral - 40 horas semanais ou mais. co_rs_s13 13 - Até que nível seu pai estudou? A = Nenhuma escolaridade. B = Ensino fundamental: 1º ao 5º ano (antiga 1ª à 4ª série). C = Ensino fundamental: 6º ao 9º ano (antiga 5ª à 8ª série). D = Ensino médio. E = Ensino superior. F = Pós-graduação. co_rs_s19 19 - Excetuando-se os livros indicados na bibliografia do seu curso, quantos livros você leu este ano? A = Nenhum. B = Um ou dois. C = Entre três e cinco. D = Entre seis e oito. E = Mais de oito. co_rs_s20 20 - Quantas horas por semana, aproximadamente, você dedica aos estudos, excetuando as horas de aula? A = Nenhuma, apenas assisto às aulas. B = Uma a três. C = Quatro a sete. D = Oito a doze. E = Mais de doze. co_rs_s22 22 - As condições gerais das instalações físicas de salas de aula, bibliotecas e ambientesde trabalho e estudo para o funcionamento do curso são adequadas? (Se for estudante de EAD - Educação a distância, considere as condições do polo de apoio presencial e/ou sede) A = Sim, todas. B = Sim, a maior parte. C = Somente algumas. D = Nenhuma. co_rs_s34 34 - Na maioria das vezes, os planos de ensino apresentados pelos professores contêm os seguintes aspectos: objetivos, metodologias de A = Sim, todos os aspectos. B = Sim, a maior parte dos aspectos. C = Somente alguns aspectos. D = Nenhum dos aspectos. ensino e critérios de avaliação, conteúdos e bibliografia da disciplina? E = Não sei responder. co_rs_s38 38 - Os professores indicam como material de estudo a utilização de artigos de periódicos especializados (artigos científicos)? A = Sim, todos os professores. B = Sim, a maior parte. C = Somente alguns. D = Nenhum. co_rs_s39 39 - Os professores indicam a utilização em suas disciplinas de manuais ou materiais elaborados pelos docentes? A = Sim, todos os professores. B = Sim, a maior parte. C = Somente alguns. D = Nenhum. co_rs_s42 42 - Os professores demonstram domínio do conteúdo das disciplinas? A = Sim, todos os professores. B = Sim, a maior parte. C = Somente alguns. D = Nenhum. co_rs_s43 43 - O curso contextualiza o conhecimento da área (teorias, procedimentos, técnicas, instrumentos, etc.) com os temas gerais e situações do cotidiano da realidade brasileira? A = Sim, em todas as disciplinas. B = Sim, na maior parte das disciplinas. C = Sim, somente em algumas disciplinas. D = Não contextualiza. Para os atributos que tiveram proporções do desempenho maiores que 10% em qualquer uma das faixas, foram criados gráficos de colunas com a finalidade de facilitar a visualização da distribuição de valores de cada atributo selecionado, bem como a distribuição da proporção por desempenho.. O Gráfico 1 mostra a distribuição dos alunos por renda familiar. Gráfico 1: Distribuição de valores do atributo CO_RS_S5. Fonte: Os autores (2015). Ao avaliar o Gráfico 1 é possível perceber que a maior proporção de alunos com nota geral igual ou superior a 50 está entre os alunos que possuem renda familiar de 6 até 10 salários mínimos (10,98%) e os que têm renda familiar acima de 10 até 30 salários mínimos (13,33%). A questão que se refere a situação que melhor descreve o sustento do aluno é mostrada no Gráfico 2. Gráfico 2: Distribuição de valores do atributo CO_RS_S6. Fonte: Os autores (2015). Destaque para os candidatos que tem renda se sustentam e são o principal responsável pelo sustento da família, onde a maior proporção de alunos com nota geral igual ou superior a 50 foi de 15,79%. O Gráfico 3 mostra a quantidade de livros lidos pelo aluno excetuando-se àqueles indicados na bibliografia. Gráfico 3: Distribuição de valores do atributo CO_RS_S19. Fonte: Os autores (2015). A maior proporção de alunos com o desempenho igual ou superior a 50% está entre os alunos que leram entre seis e oito livros (25%). Na questão que está relaciona a horas dedicadas por semana aos estudos, excetuando as horas de aula, a maior proporção de alunos com nota geral igual ou superiores a 50 ficou com os que responderam que se dedicam oito a doze horas (21,05%), conforme o Gráfico 4. Gráfico 4: Distribuição de valores do atributo CO_RS_S20. Fonte: Os autores (2015). O cálculo de previsões corretas de acordo com o operador Performance do RapidMiner ficou em 91,41%, ou seja, existe 91,41% de chance de os atributos classificados pelo algoritmo CHAID estarem corretos. A árvore de decisão gerada pela execução do algoritmo CHAID tem 40 nós- folha, sendo 7 com a predição "sim". Com a análise da árvore de decisão gerada, foi possível extrair as seguintes regras SE-ENTÃO (IF-THEN) para os nós-folha que contém a predição “sim” (nota geral maior ou igual a 50): Tabela 5: Regras condicionais IF-THEN obtidas a partir da árvore de decisão. Fonte: Os autores (2015) 1 SE co_rs_s19=B E co_rs_s38=B E co_rs_s20=B E co_rs_s39=A E co_rs_s22=B, ENTÃO sim 2 SE co_rs_s19=B E co_rs_s38=B E co_rs_s20=C E co_rs_s13=B E co_rs_s42=A, ENTÃO sim 3 SE co_rs_s19=B E co_rs_s38=C E co_rs_s7=D E co_rs_s20=B, ENTÃO sim 4 SE co_rs_s19=B E co_rs_s38=C E co_rs_s7=E E co_rs_s5=E E co_rs_s20=A, ENTÃO sim 5 SE co_rs_s19=B E co_rs_s38=C E co_rs_s7=E E co_rs_s5=G, ENTÃO sim 6 SE co_rs_s19=D E co_rs_s6=B E co_rs_s43=B, ENTÃO sim 7 SE co_rs_s19=D E co_rs_s6=E E co_rs_s34=A, ENTÃO sim De acordo com as regras 1 e 2, se o aluno leu no ano de realização do ENADE um ou dois livros excetuando-se os indicados na bibliografia do curso e a maior parte dos professores indicaram como material de estudo artigos periódicos especializados e o aluno dedica aproximadamente uma a três horas de estudo por semana excetuando as horas de aula (regra 1) ou quatro a sete (regra 2) e todos os professores indicam a utilização em suas disciplinas o uso de manuais ou materiais elaborados por docentes (regra 1) ou o pai do aluno estudou até o Ensino fundamental (regra 2) e a maior parte das instalações físicas de salas de aula, bibliotecas e ambiente de trabalho e estudo para o funcionamento do curso são adequadas (regra 1) ou os professores mostram domínio do conteúdo das disciplinas (regra 2), então o desempenho do ENADE é classificado como satisfatório (igual ou superior a 50). Conforme as regras 3, 4 e 5, se o aluno leu no ano de realização do ENADE um ou dois livros excetuando-se os indicados na bibliografia do curso e somente alguns professores indicaram como material de estudo artigos periódicos especializados e o aluno trabalha mais de 20 horas semanais e menos de 40 horas (regra 3) ou trabalha em tempo integral – 40 horas semanais ou mais (regras 4 e 5) e o aluno dedica aproximadamente uma a três horas de estudo por semana excetuando as horas de aula (regra 3) ou possui uma renda familiar de 4,5 até 6 salários mínimos (regra 4) ou acima de 10 até 30 salários mínimos (regra 5) e o aluno apenas assiste aulas, sem dedicar nenhuma hora aos estudos por semana excetuando as horas de aula (regra 4), então o desempenho do aluno é classificado como sendo igual ou superior a 50. Por fim, nas regras 6 e 7 se o aluno leu no ano de realização do ENADE entre seis e oito livros excetuando-se os indicados na bibliografia do curso e tem renda, mas recebe ajuda da família para financiar seus gastos (regra 6) ou o aluno tem renda e é o principal responsável pelo sustento da família (regra 7) e a maior parte das disciplinas do curso contextualiza o conhecimento da área (teorias, procedimentos, técnicas, instrumentos, etc) com os temas gerais e situações do cotidiano da realidade brasileira (regra 6) ou na maioria das vezes todos os aspectos dos planos de ensino apresentados pelos professores contém os seguintes aspectos: objetivos, metodologias de ensino e critérios de avaliação, conteúdos e bibliografia da disciplina, então o desempenho do aluno é classificado como sendo igual ou superior a 50. 5. Trabalhos correlatos Durante o andamento desta pesquisa, foram encontrados alguns trabalhos que apresentaram os resultados obtidos através de técnicas e ferramentas de mineração de dados, tabelas e gráficos para análise. Os principais estão citados a seguir: Foi realizada análise da trajetória formal de emprego de profissionais recém- formados em engenharias, medicina e licenciaturas [5]. Para tal, foram combinados dados dos concluintes inscritos nas edições de 2010 e 2011 do ENADE, o conceito das instituições de ensino e informações dos vínculos formais de trabalho dos mesmos, declarados na Relação Anual de Informações Sociais(Rais) dos anos de 2011 e 2012. Foi encontrado um artigo que realizou a Mineração de Dados para Análise da Relação entre as Características Socioeconômicas de Concluintes do Ensino Superior e o Desempenho desses Estudantes no ENADE 2012 [6], tendo como referência os cursos de Direito. O referido artigo teve o objetivo de fazer uma análise da relação entre as características socioeconômicos dos concluintes do curso de Direito com o desempenho destes no ENADE, através de algoritmos de classificação. 6. Conclusões No desenvolvimento do trabalho, foram analisados os dados referentes ao curso de Administração de uma instituição de ensino privada do Rio de Janeiro na edição do ENADE 2012, utilizando a aplicação da técnica de mineração de dados, especificamente através do processo de indução de árvore de decisão através do algoritmo CHAID. Com a execução do algoritmo utilizado obteve-se os atributos que mais influenciaram na nota geral do aluno. Através desta classificação foram gerados os gráficos com o intuito de facilitar a visualização da distribuição de valores de alguns atributos selecionados, bem como a distribuição da proporção por desempenho. Para pesquisas futuras, é viável a expansão da análise para outros cursos de graduação, com a finalidade de avaliar outras características socioeconômicas que influenciam diretamente no desempenho do aluno no ENADE. 7. Referências [1] Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). Índice Geral de Cursos Avaliados na Instituição – IGC. Disponível em http://portal.inep.gov.br/educacao-superior/indicadores/indice-geral-de-cursos-igc. [2] Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). Conceito do Exame Nacional de Desempenho de Estudantes – ENADE. Disponível em http://portal.inep.gov.br/enade. [3] FAYYAD, U.M., Piatetsky-Shapiro, G.. e Smyth, P. (1996a). From Data Mining to Knowledge Discovery in Databases. AI Magazine 17(3): 37-54. [4] SANTOS, A. R.; OLIVEIRA, L. A. Comparação entre os algoritmos CHAID, CHAID-Exaustivo, CART e QUEST para dados com variável resposta categórica nominal via simulação bootstrap. no. 180. Jul 2007. 40 f. Relatório Técnico do Departamento de Estatística – UFSCar. [5] Maciente, A.N. et al. (2015) “A inserção de recém-graduados em engenharias, medicina e licenciatura no mercado de trabalho formal”. Radar nº 38. Cadernos do Ipea. Brasília, DF. [6] Nogueira, Eduardo Dimas Andrino. Tsunoda, Denise Fukumi. (2015) “Mineração de dados para análise da relação entre as características socioeconômicas de concluintes do ensino superior e o desempenho desses estudantes no ENADE 2012”. Percurso v.5.n.1 245-268. FAYYAD, Usama; SHAPIRO, Gregory Piatetsky; SMYTH, Padhraic; UTHURUSAMY, Ramasamy. Advances in Knowledge discovery and data mining. MenloPark:Mit Press, 1996.560P. 8. Anexo: tutorial do experimento e árvore de decisão resultante Na figura 3 é mostrada a primeira etapa do processo, onde são utilizados três operadores. O operador Retrive ADM que contém a base de dados pré-processada em arquivo Exel, seguindo pelo operador Set Role que altera a função de um atributo. Como parâmetro do operador Set Role, o atributo ID da base de dados foi selecionado como id, não interferindo no resultado da árvore e, como label (atributo-meta), foi selecionado o atributo Desempenho, os demais atributos não precisaram ser especificados. Figura 3: Processo de indução de árvore de decisão no RapidMiner http://portal.inep.gov.br/educacao-superior/indicadores/indice-geral-de-cursos-igc http://portal.inep.gov.br/educacao-superior/indicadores/indice-geral-de-cursos-igc http://portal.inep.gov.br/enade O operador Validation tem duas fases: Training (treinamento) e Testing (teste), conforme mostrado na figura 4. Figura 4: Training e Testing do operador Validation Na etapa do processo da figura 4 são mostradas as duas fases do operador Validation. Na fase de Training é escolhido o algoritmo de aprendizagem, no caso é o operador CHAID, que será usado para realização da classificação dos atributos, porém para garantir que fosse gerada uma árvore com profundidade máxima, o parâmetro maximal depth foi alterado para -1. Na fase de Testing, são utilizados dois operadores: Apply Model que aplica o modelo a cada exemplo do conjunto de testes e o operador Performance que é usado para avaliação de desempenho, oferecendo uma lista de valores de critérios de desempenho. Após executado o experimento, foi possível obter uma árvore de decisão para realização das análises e extração de regras condicionais. A árvore de decisão gerada é vista na figura 5. Figura 5: Árvore de Decisão gerada no RapidMiner
Compartilhar