Buscar

Mineração de Dados na Investigação de Fatores Socioeconômicos Relativos ao Desempenho de Alunos de um Curso de Administração no ENADE 2012

Prévia do material em texto

Mineração de Dados na Investigação de Fatores 
Socioeconômicos Relativos ao Desempenho de Alunos de um 
Curso de Administração no ENADE 2012 
Herderson Gomes Couto, Matheus Victor Lira de Araújo 
herderson@gmail.com, mvla1994@gmail.com 
 
Curso de Ciência da Computação 
Centro Universitário Augusto Motta (UNISUAM) – Av. Paris 72 – 21.041-020 – 
Rio de Janeiro – RJ – Brasil 
 
Orientador 
Reinaldo Viana Alvares 
 
Resumo. No Brasil, diversos cursos de graduação são avaliados pelo Ministério da 
Educação (MEC), por meio de um exame denominado ENADE, cujo resultado compõe 
o Conceito Preliminar de Curso (CPC). Os resultados do ENADE, são de acesso livre a 
qualquer cidadão, entretanto divulgados no site do Instituto Nacional de Estudos e 
Pesquisas Educacionais Anísio Teixeira (Inep) em formato de planilha. Este trabalho 
investigou os fatores socioeconômicos com maior relevância para explicar o 
desempenho dos alunos concluintes do curso de Administração de uma instituição de 
ensino do Rio de Janeiro no ano de 2012, utilizando os microdados disponibilizados no 
site do Inep, onde foi aplicada uma técnica de mineração de dados, especificamente a 
tarefa de classificação pela execução do algoritmo CHAID para a construção de uma 
árvore de decisão, cujos resultados obtidos são formados por dados organizados de 
maneira de fácil entendimento e podem servir como importante ferramenta para tomada 
de decisão. 
 
Palavras chave: ENADE, Mineração de Dados, CHAID. 
 
Abstract. In Brazil, several undergraduate courses are evaluated by the Ministry of 
Education (MEC), through a test called ENADE, whose result the Preliminary Concept 
of course (CPC). The results of the ENADE, are free access to any citizen, however 
disclosed on the website of the Instituto Nacional de Estudos e Pesquisas Educacionais 
Anísio Teixeira (Inep) in spreadsheet format. This work investigated the socioeconomic 
factors with most relevant to explain the performance of the students graduating from 
the administration of an educational institution in Rio de Janeiro in the year 2012, 
using the micro-data made available on the website of Inep, where it was applied a data 
mining technique, specifically the task of sorting the implementation of CHAID 
algorithm for constructing a decision tree , whose results are made up of data 
organized in a manner that is easy to understand and can serve as an important tool for 
decision-making. 
 
Keywords: ENADE, Data Mining, CHAID. 
1. Introdução 
 
 O Ministério da Educação implantou o Exame Nacional de Desempenho de 
Estudantes (ENADE), tendo como objetivo medir o desempenho dos estudantes em 
mailto:mvla1994@gmail.com
relação ao conteúdo programático previsto, habilidades e competências desenvolvidas 
na sua formação. As avaliações são compostas por questões de conhecimento 
específicos e gerais e o conceito atribuído a cada curso varia de 1 a 5. 
O cálculo dos indicadores de qualidade do ensino superior é formado pelos 
resultados do ENADE, Conceito Preliminar de Curso (CPC) e o Índice Geral de Cursos 
Avaliados da Instituição (IGC). O Conceito Preliminar de Curso (CPC) é calculado com 
base na avaliação de desempenho de estudantes, corpo docente, infraestrutura, recursos 
didático-pedagógicos e demais insumos. Em alguns casos, os cursos que não cumprem 
os critérios necessários são registrados como Sem Conceito (SC), no qual, o Conceito 
Preliminar de Curso não é calculado. No caso do Índice Geral de Cursos Avaliados da 
Instituição (IGC), é calculado anualmente e utiliza informações da média dos últimos 
CPCs disponíveis dos cursos avaliados da instituição no ano do cálculo e nos dois 
anteriores, a média dos conceitos de avaliação dos programas de pós-graduação stricto 
sensu atribuídos pela CAPES e a distribuição dos estudantes entre os diferentes níveis, 
graduação ou pós-graduação stricto sensu [1]. 
A análise dos dados de inscrição e desempenho obtidos a partir da realização do 
ENADE pode fornecer importantes informações para explicar o desempenho de alunos. 
A técnica eficiente para esse tipo de análise é conhecida como mineração de dados, que 
consiste na aplicação de algoritmos para extração de informações relevantes a partir dos 
dados. 
Este trabalho tem como objetivo analisar a relação entre os fatores 
socioeconômicos, medindo o desempenho dos alunos do curso de Administração de 
uma instituição de ensino privada do Rio de Janeiro na edição do ENADE 2012, por 
meio da aplicação da técnica de mineração de dados através do processo de indução de 
árvore de decisão, utilizando a tarefa de classificação pela execução do algoritmo 
CHAID. 
Além desta introdução, o trabalho está organizado em oito seções. A seção dois 
apresenta o ENADE e os critérios de avaliação de cursos de graduação no Brasil. A 
seção três discorre os conceitos relativos ao processo de mineração de dados que foram 
usados no desenvolvimento da pesquisa. Na seção quatro é detalhada a aplicação e suas 
principais funcionalidades. Na seção cinco são apresentados os trabalhos correlatos. Na 
seção seis as considerações finais do trabalho. Na seção sete são apresentadas as 
referências e na última seção é apresentado o tutorial do processo de indução de árvore 
de decisão. 
 
2. ENADE e avaliação de cursos de graduação 
 
O ENADE é um procedimento de avaliação, aplicada anualmente, que integra o 
Sistema Nacional de Avaliação da Educação Superior (SINAES). É realizado pelo 
Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep), 
autarquia vinculada ao Ministério da Educação (MEC), segundo diretrizes estabelecidas 
pela Comissão Nacional de Avaliação da Educação Superior (CONAES), 
órgão colegiado de coordenação e supervisão de SINAES. 
O ENADE foi criado no ano 2004, com a necessidade de substituir o exame 
anterior, Exame Nacional de Cursos (ENC), popularmente conhecido como “Provão”. O 
exame tem como objetivo acompanhar o processo de aprendizagem e desempenho dos 
estudantes em relação aos conteúdos previstos nas diretrizes curriculares do respectivo 
curso de graduação, suas habilidades para se ajustar às exigências decorrentes da 
evolução do conhecimento e suas competências em sua formação. Esta avaliação é 
composta por questões de conhecimento específicos e gerais sendo dividida em 25% 
para formação geral e 75% para formação específica. O conceito atribuído a cada curso 
varia de 1 a 5, avaliando o desempenho dos alunos ingressantes e concluintes [2]. 
 Antes do exame, o aluno deve preencher um questionário de avaliação do curso, 
que contém, além de informações pessoais, questões sobre a infraestrutura, instalações 
físicas e os recursos didático–pedagógicos do curso, que comporá o Relatório do 
ENADE, documento que contém os resultados dos alunos e as suas impressões sobre o 
exame. As questões, em geral, mudam a cada edição bem como o procedimento de 
cálculo que levam em consideração tais indicadores. 
 Os resultados dos cursos também apresentam as graduações com os melhores 
índices IDD (Indicador de Diferença Entre os Desempenhos Observados e Esperados). 
O IDD é a diferença entre o desempenho médio do concluinte de um curso e o 
desempenho esperado para os ingressantes desse mesmo curso. Esse indicador 
determina o quanto de conhecimento os cursos agregam aos alunos. 
 Outro conceito bastante importante, é o Conceito Preliminar de Curso (CPC), 
que representa de maneira prévia a situação dos cursos de graduação. Criado no ano 
2007, é considerado um indicador preliminar, e pode ser alterado após procedimento de 
visita para fins de avaliação do curso em questão, também é utilizado como referência 
no licenciamento de funcionamento dos cursos de graduação. 
 
3. Mineração de Dados 
 
 Com o grande avanço dos sistemas computacionais nas últimas décadas, o 
armazenamento de dados tem sido um dos principais objetivos das organizações.Essas 
grandes quantidades de dados, quando analisadas, podem revelar informações muito 
valiosas, que poderão dar apoio a tomada de decisões em um ambiente organizacional.
 A exploração desses dados não é uma tarefa fácil de ser realizada. Nem sempre 
as ferramentas e técnicas tradicionais de análise de dados são possíveis de ser aplicadas, 
em muitos casos, a enorme quantidade de informação ou a natureza não corriqueira dos 
dados acaba inviabilizando o processo de análise destas abordagens. 
 A Mineração de Dados (Data Mining) é uma área da Ciência da Computação 
que utiliza algoritmos sofisticados de aprendizagem ou classificação para análise de 
grandes bases de dados, procurando extrair informações que estejam implícitas, que 
sejam previamente desconhecidas e potencialmente úteis [3]. A partir da reunião de 
técnicas de áreas como: Estatística, Inteligência Artificial e Banco de Dados tornaram–
se possível representar de diversas formas essas informações. 
 
3.1. Processo de Descoberta de Conhecimento 
 
 O KDD (Knowledge Discovery in Databases) é um processo de transformação 
de dados em conhecimento útil, válido e relevante. Ele é composto por várias etapas, 
iniciando com a seleção dos dados e terminando com a interpretação dos resultados da 
mineração de dados. Na figura 1 é possível ver as fases do processo de KDD. 
Figura 1: O ciclo do processo de KDD. Fonte: FAYYAD, 1996, p. 41. 
Na fase de seleção, é escolhido o conjunto de possíveis variáveis que farão parte 
da análise. Esta etapa do processo é complexa e normalmente a escolha dos dados fica a 
critério de um especialista do domínio. 
No Pré-processamento e limpeza, são realizadas as eliminações de dados 
redundantes, limpeza para remoção dos ruídos e a seleção dos dados com características 
relevantes à tarefa de mineração de dados. 
A Transformação de dados é a fase de descoberta do conhecimento, após os 
dados passarem pelo pré-processamento, é feita a padronização dos dados para suprir as 
limitações das técnicas de Data Mining, de modo que os algoritmos possam ser 
aplicados. 
A etapa de Mineração de dados consiste em aplicar as técnicas e algoritmos com 
a finalidade de determinar as características dos dados, com o objetivo de descobrir 
padrões e regras. 
Com os resultados obtidos na mineração, é possível interpretar e avaliar os dados 
de maneira simples, extraindo informações úteis. 
 
3.2. Árvore de decisão 
 
 Neste trabalho é utilizada a técnica de árvore de decisão, pois os resultados 
obtidos são formados por dados que ficam organizados de maneira simples e de fácil 
entendimento, servindo como importante instrumento de apoio à tomada de decisão. 
 Uma árvore de decisão consiste em uma representação gráfica de atributos 
classificados a partir da execução de algoritmos classificadores baseados em árvore de 
decisão, entre estes algoritmos é possível citar: o algoritmo CART (Classification And 
Regression Trees), o ID3 (Interative Dichotomiser 3), o C4.5 e o CHAID (Chi-Squared 
Automatic Detection). 
 As árvores de decisão também podem ser representadas com um conjunto de 
regras condicionais SE-ENTÃO (IF-THEN), que quando aplicadas a um registro de 
dados, resultam na classificação do mesmo. Na figura 2 é mostrado um exemplo básico 
dos elementos de uma árvore de decisão fictícia: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 2: Exemplo de árvore de decisão fictícia. Fonte: Os autores (2015). 
 
Na árvore da figura 2, temos os seguintes elementos: 
 
• Raiz: Nó que está situado no topo da árvore; 
Homem 
Casada Idade > 35 
Casado Solteiro 
Sim Não 
Sim Não 
Raiz 
Nó de decisão 
Folhas 
Ramo 
• Nó de decisão: são os nós internos conectados pelos ramos da árvore; 
• Ramo: Fazem as ligações dos nós da árvore; 
• Folha: São os nós terminas da árvore, não possuem ramos. 
 
 A partir da árvore da figura 2, é possível extrair as seguintes regras SE-ENTÃO 
(IF-THEN): 
 
• SE “Homem”=Sim E “Idade>35”=Sim, ENTÃO Casado; 
• SE “Homem”=Sim E “Idade>35”=Não, ENTÃO Solteiro; 
• SE “Homem”=Não, ENTÃO Casada. 
 
 As regras condicionais são obtidas através do percurso que parte do nó raiz até o 
um nó folha, percebe-se que através de uma árvore de decisão é possível extrair regras 
de classificação de maneira bastante simples. 
 
3.3. O algoritmo CHAID 
 
 Neste trabalho, o algoritmo de classificação escolhido para a geração da árvore 
de decisão foi o CHAID (Chi-Squared Automatic Detection), este algoritmo foi criado 
por Gordon V. Kass em 1980 e tem por base os testes de Qui-Quadrado de Pearson, 
usado para determinar se uma distribuição de frequências observadas difere das 
frequências esperadas teóricas. 
A estatística de Qui-Quadrado (2) é calculada pela fórmula: 
 
2 = Σ [(o-e)²/e] 
 
Em que, “o” é a frequência observada e “e” é a frequência esperada. 
Quanto maior o valor de 2 maior será a probabilidade de as frequências 
observadas estarem diferentes das frequências esperadas. Os passos do algoritmo 
CHAID podem ser encontrados em [4]. O objetivo do algoritmo é criar uma árvore de 
classificação que contenha apenas as variáveis mais relevantes para a classificação. 
Uma das vantagens de usar o CHAID é fato de se obter uma árvore de fácil 
interpretação e leitura. Por outro lado, o CHAID requer grandes quantidades de dados 
para ser possível garantir que a quantidade de observações dos nós folha é significativa, 
logo não apresentou nenhum problema para este trabalho. 
 
4. Estudo de caso 
 
 O estudo de caso envolveu dados do ENADE do ano de 2012, referentes ao 
curso de graduação de Administração de uma instituição de ensino privada do Rio de 
Janeiro. Desta forma, este trabalho tem o objetivo de analisar quais as características 
socioeconômicas de alunos concluintes que mais influenciam no seu desempenho. 
 Esta análise foi realizada por meio do algoritmo de classificação CHAID, onde 
foi possível obter os atributos mais promissores em relação à nota geral do aluno, e 
assim, fornecer subsídios para uma análise. 
 
4.1. Questionário socioeconômico e desempenho 
O questionário socioeconômico é um instrumento de coleta de informações do 
ENADE, que tem por objetivo construir um perfil socioeconômico do estudante. Este 
questionário é composto por 54 perguntas e os respectivos códigos e possíveis respostas 
são encontrados no dicionário de variáveis dos microdados. 
 De acordo com objetivo da análise, foram escolhidos os atributos relacionados 
ao questionário socioeconômico, além do atributo "nota geral da prova" para ser gerada 
a árvore de decisão. O atributo nota geral da prova é calculado pela média ponderada da 
nota de componente específico (75%) e a nota de formação geral (25%), variando de 0 a 
100. 
 Com o intuito de otimizar a classificação dos atributos da árvore de decisão 
gerada pelo algoritmo, foi criado um atributo-meta chamado "Desempenho". Com a 
criação deste atributo, a "nota geral" foi dividida em duas categorias: 
 
• Notas menores que 50: o atributo "Desempenho" recebeu a predição "não"; e 
• Notas maiores ou iguais a 50: o atributo "Desempenho" recebeu a predição 
"sim". 
4.2. Obtenção da fonte de dados e pré-processamento 
 Os microdados do ENADE estão disponíveis no Portal do Inep para download 
em arquivos (.csv). A base de dados original é dividida em 8 tipos de variáveis: varáveis 
de instituição de ensino superior (3 atributos), variáveis do curso (4 atributos), variáveis 
do inscrito (18 atributos), variáveis de presença (11 atributos), variáveis da prova (6 
atributos), variáveis de desempenho (16 atributos), variáveis de percepção da prova (11 
atributos) e variáveis do questionário socioeconômico (56 atributos). 
 Durante a preparação dos dados para execução do algoritmo, foram considerados 
apenas os registros em que o candidato compareceu para realização da prova e 
respondeu o questionário socioeconômico. Sendoassim, a base de dados resultante 
para a tarefa de mineração de dados se configurou em um arquivo em forma de planilha 
(.xls) com 547 registros, cada qual contendo 56 atributos: 
 
• 54 referentes ao questionário socioeconômico (co_rs_s1 até co_rs_s54); 
• 1 atributo-meta (Desempenho); e 
• 1 atributo criado para identificação de cada registro (ID). 
4.3. Indução de árvore de decisão 
 A ferramenta escolhida para a tarefa de mineração de dados e execução do 
algoritmo CHAID foi o software RapidMiner Studio. O RapidMiner é uma ferramenta 
Open-Source que apresenta uma interface visual para a realização de processos 
relacionados à mineração de dados. Estes processos são realizados pela ferramenta 
conectando-se blocos de construção ou operadores com as funções necessárias para o 
processo pretendido. 
 O tutorial do experimento realizado para a construção do modelo de indução de 
árvore de decisão no RapidMiner e a árvore resultante encontram-se no anexo deste 
trabalho. 
 
4.4. Resultados e Discussões 
 
 Como parte dos estudos de pesquisa, a fim de obter a classificação de atributos 
com maior percentual de previsões corretas na classificação feita pelo algoritmo 
CHAID aplicado a base de dados pré-processada, foram realizados três experimentos 
além do qual se fundamentou este trabalho. 
 Com o auxílio de um software de código livre chamado WaikatoEnvironmente 
for KnowledgeAnalysis(WEKA), executou-se o algoritmo CfsSubsetEval sobre a base 
de dados pré-processada para seleção dos atributos do questionário socioeconômico 
com maior correlação em relação ao atributo-meta de cada experimento. Os atributos 
selecionados pelo CfsSubsetEval para o experimento que utilizou a predição que dividiu 
a nota geral do aluno na categoria “maior que 50 (sim)” e “menor que 50 (não)” foram: 
co_rs_s3, co_rs_s6, co_rs_s8, co_rs_s11, co_rs_s12, co_rs_s17, co_rs_s18, co_rs_s19, 
co_rs_s20, co_rs_s29, co_rs_s35, co_rs_s37, co_rs_s40, co_rs_s47, co_rs_s50 e 
co_rs_s54. Sobre os atributos selecionados foi executado o algoritmo CHAID, sendo 
obtidos os seguintes resultados: 
 
• Total de regras condicionais obtidas a partir da árvore de decisão resultante: 67 
regras; 
• Total de regras condicionais obtidas com a predição (sim): 10 regras; e 
• Percentual de previsões corretas (cálculo do operador Performance do 
RapidMiner): 90,68%. 
 
Tabela 1: Regras condicionais obtidas. Fonte: Os autores (2015). 
Ordem Regras mais promissoras 
1 SE co_rs_s19 = D E co_rs_s6 = E E co_rs_s50 = B ENTÃO sim 
2 
SE co_rs_s19 = B E co_rs_s18 = B E co_rs_s50 = B E co_rs_s6 = D E co_rs_s3 = B ENTÃO 
sim 
3 
SE co_rs_s19 = B E co_rs_s18 = A E co_rs_s47 = D E co_rs_s29 = D E co_rs_s8 = D E 
co_rs_s11 = E ENTÃO sim 
4 SE co_rs_s19 = E E co_rs_s20 = B E co_rs_s35 = A ENTÃO sim 
 
 Também utilizando a ferramenta WEKA para execução do algoritmo 
CfsSubsetEval mais um experimento foi realizado. Dessa vez, usando como predição a 
média Brasil da nota geral do curso de Administração no ENADE 2012. A média Brasil 
do curso de Administração foi de 34,63, desta forma o atributo-meta se configurou em: 
nota geral do aluno maior ou igual que a média Brasil recebeu a predição “sim” e as 
notas menores, a predição “não”. Os atributos selecionados pelo o CfsSubsetEval para 
este experimento foram: co_rs_s1, co_rs_s3, co_rs_s4, co_rs_s5, co_rs_s10, co_rs_s16, 
co_rs_s18, co_rs_s24, co_rs_s33, co_rs_s36, co_rs_s38, co_rs_s40. Sobre os atributos 
selecionados foi executado o algoritmo CHAID, obtendo-se os seguintes resultados: 
 
• Total de regras condicionais obtidas a partir da árvore de decisão resultante: 87 
regras; 
• Total de regras condicionais obtidas com a predição (sim): 30 regras; e 
• Percentual de previsões corretas (cálculo do operador Performance do 
RapidMiner): 56,49%. 
 
Tabela 2: Regras condicionais obtidas. Fonte: Os autores (2015). 
Ordem Regras mais promissoras 
1 SE co_rs_s38 = A E co_rs_s5 = F E co_rs_s36 = A E co_rs_s1 = B ENTÃO sim 
2 SE co_rs_s38 = B E co_rs_s18 = B E co_rs_s4 = F ENTÃO sim 
3 SE co_rs_s38 = C E co_rs_s36 = A E co_rs_s5 = F ENTÃO sim 
4 
SE co_rs_s38 = B E co_rs_s18 = B E co_rs_s4 = D E co_rs_s36 = B E co_rs_s40 = C ENTÃO 
sim 
 
 O terceiro experimento envolveu a execução do algoritmo CHAID sobre os 54 
atributos relacionados ao questionário socioeconômico e o mesmo atributo-meta do 
segundo experimento (maior ou igual que média Brasil (sim) e menor que média Brasil 
(não)). Foram obtidos os seguintes resultados: 
 
• Total de regras condicionais obtidas a partir da árvore de decisão resultante: 105 
regras; 
• Total de regras condicionais obtidas com a predição (sim): 22 regras; e 
• Percentual de previsões corretas (calculo do operador Performance do 
RapidMiner): 55,21%. 
 
Tabela 3: Regras condicionais obtidas. Fonte: Os autores (2015). 
Ordem Regras mais promissoras 
1 SE co_rs_s38 = C E co_rs_s31 = A E co_rs_s45 = C E co_rs_s12 = A ENTÃO sim 
2 
SE co_rs_s38 = B E co_rs_s52 = A E co_rs_s43 = A E co_rs_s48 = A E co_rs_s11 = E E 
co_rs_s32 = A E co_rs_s20 = B ENTÃO sim 
3 SE co_rs_s38 = B E co_rs_s52 = A E co_rs_s43 = C ENTÃO sim 
4 
SE co_rs_s38 = C E co_rs_s31 = A E co_rs_s45 = B E co_rs_s2 = A E co_rs_s30 = A 
ENTÃO sim 
 
Os atributos que têm maior correlação com o atributo "Desempenho", obtidos 
após a execução do algoritmo CHAID sobre os 54 atributos do questionário 
socioeconômico para o experimento que se fundamentou este trabalho estão descritos na 
Tabela 4: 
Tabela 4: Atributos selecionados pelo algoritmo CHAID. Fonte: Inep (2012). 
co_rs_s5 
5 - Somando a sua renda com a 
renda dos familiares que moram 
com você, quanto é, 
aproximadamente, a renda familiar? 
(Considere a renda de todos os seus 
familiares que moram na sua casa 
com você) 
A = Nenhuma. 
B = Até 1,5 salário mínimo (até R$ 697,50) 
C = Acima de 1,5 até 3 salários mínimos (R$ 697,51 a R$ 1.395,00). 
D = Acima de 3 até 4,5 salários mínimos (R$ 1.395,01 a R$ 2.092,50). 
E = Acima de 4,5 até 6 salários mínimos (R$ 2.092,51 a R$ 2.790,00). 
F = Acima de 6 até 10 salários mínimos (R$ 2.790,01 a R$ 4.650,00). 
G = Acima de 10 até 30 salários mínimos (R$ 4.650,01 a R$ 13.950,00). 
H = Acima de 30 salários mínimos (mais de R$ 13.950,01). 
co_rs_s6 
6 - Assinale a situação abaixo que 
melhor descreve seu caso (incluindo 
bolsa) 
A = Não tenho renda e meus gastos são financiados pela minha família ou por 
outras pessoas. 
B = Tenho renda, mas recebo ajuda da família ou de outras pessoas para 
financiar meus gastos. 
C = Tenho renda e me sustento totalmente. 
D = Tenho renda, me sustento e contribuo com o sustento da família. 
E = Tenho renda, me sustento e sou o principal responsável pelo sustento da 
família. 
co_rs_s7 
7 - Indique a resposta que melhor 
descreve sua atual situação de 
trabalho. (Não contar estágio, bolsas 
de pesquisa ou monitoria) 
A = Não estou trabalhando. 
B = Trabalho eventualmente. 
C = Trabalho até 20 horas semanais. 
D = Trabalho mais de 20 horas semanais e menos de 40 horas semanais. 
E = Trabalho em tempo integral - 40 horas semanais ou mais. 
co_rs_s13 13 - Até que nível seu pai estudou? 
A = Nenhuma escolaridade. 
B = Ensino fundamental: 1º ao 5º ano (antiga 1ª à 4ª série). 
C = Ensino fundamental: 6º ao 9º ano (antiga 5ª à 8ª série). 
D = Ensino médio. 
E = Ensino superior. 
F = Pós-graduação. 
co_rs_s19 
19 - Excetuando-se os livros 
indicados na bibliografia do seu 
curso, quantos livros você leu este 
ano? 
A = Nenhum. 
B = Um ou dois. 
C = Entre três e cinco. 
D = Entre seis e oito. 
E = Mais de oito. 
co_rs_s20 
20 - Quantas horas por semana, 
aproximadamente, você dedica aos 
estudos, excetuando as horas de 
aula? 
A = Nenhuma, apenas assisto às aulas. 
B = Uma a três. 
C = Quatro a sete. 
D = Oito a doze. 
E = Mais de doze. 
co_rs_s22 
22 - As condições gerais das 
instalações físicas de salas de aula, 
bibliotecas e ambientesde trabalho e 
estudo para o funcionamento do 
curso são adequadas? (Se for 
estudante de EAD - Educação a 
distância, considere as condições do 
polo de apoio presencial e/ou sede) 
A = Sim, todas. 
B = Sim, a maior parte. 
C = Somente algumas. 
D = Nenhuma. 
co_rs_s34 
34 - Na maioria das vezes, os planos 
de ensino apresentados pelos 
professores contêm os seguintes 
aspectos: objetivos, metodologias de 
A = Sim, todos os aspectos. 
B = Sim, a maior parte dos aspectos. 
C = Somente alguns aspectos. 
D = Nenhum dos aspectos. 
ensino e critérios de avaliação, 
conteúdos e bibliografia da 
disciplina? 
E = Não sei responder. 
co_rs_s38 
38 - Os professores indicam como 
material de estudo a utilização de 
artigos de periódicos especializados 
(artigos científicos)? 
A = Sim, todos os professores. 
B = Sim, a maior parte. 
C = Somente alguns. 
D = Nenhum. 
co_rs_s39 
39 - Os professores indicam a 
utilização em suas disciplinas de 
manuais ou materiais elaborados 
pelos docentes? 
A = Sim, todos os professores. 
B = Sim, a maior parte. 
C = Somente alguns. 
D = Nenhum. 
co_rs_s42 
42 - Os professores demonstram 
domínio do conteúdo das 
disciplinas? 
A = Sim, todos os professores. 
B = Sim, a maior parte. 
C = Somente alguns. 
D = Nenhum. 
co_rs_s43 
43 - O curso contextualiza o 
conhecimento da área (teorias, 
procedimentos, técnicas, 
instrumentos, etc.) com os temas 
gerais e situações do cotidiano da 
realidade brasileira? 
A = Sim, em todas as disciplinas. 
B = Sim, na maior parte das disciplinas. 
C = Sim, somente em algumas disciplinas. 
D = Não contextualiza. 
 
 Para os atributos que tiveram proporções do desempenho maiores que 10% em 
qualquer uma das faixas, foram criados gráficos de colunas com a finalidade de facilitar 
a visualização da distribuição de valores de cada atributo selecionado, bem como a 
distribuição da proporção por desempenho.. O Gráfico 1 mostra a distribuição dos 
alunos por renda familiar. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Gráfico 1: Distribuição de valores do atributo CO_RS_S5. Fonte: Os autores (2015). 
 
 Ao avaliar o Gráfico 1 é possível perceber que a maior proporção de alunos com 
nota geral igual ou superior a 50 está entre os alunos que possuem renda familiar de 6 
até 10 salários mínimos (10,98%) e os que têm renda familiar acima de 10 até 30 
salários mínimos (13,33%). 
 A questão que se refere a situação que melhor descreve o sustento do aluno é 
mostrada no Gráfico 2. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Gráfico 2: Distribuição de valores do atributo CO_RS_S6. Fonte: Os autores (2015). 
 
Destaque para os candidatos que tem renda se sustentam e são o principal 
responsável pelo sustento da família, onde a maior proporção de alunos com nota geral 
igual ou superior a 50 foi de 15,79%. 
 O Gráfico 3 mostra a quantidade de livros lidos pelo aluno excetuando-se 
àqueles indicados na bibliografia. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Gráfico 3: Distribuição de valores do atributo CO_RS_S19. Fonte: Os autores (2015). 
 
 A maior proporção de alunos com o desempenho igual ou superior a 50% está 
entre os alunos que leram entre seis e oito livros (25%). 
 Na questão que está relaciona a horas dedicadas por semana aos estudos, 
excetuando as horas de aula, a maior proporção de alunos com nota geral igual ou 
superiores a 50 ficou com os que responderam que se dedicam oito a doze horas 
(21,05%), conforme o Gráfico 4. 
 
 
 
 
 
Gráfico 4: Distribuição de valores do atributo CO_RS_S20. Fonte: Os autores (2015). 
 
O cálculo de previsões corretas de acordo com o operador Performance do 
RapidMiner ficou em 91,41%, ou seja, existe 91,41% de chance de os atributos 
classificados pelo algoritmo CHAID estarem corretos. 
A árvore de decisão gerada pela execução do algoritmo CHAID tem 40 nós- 
folha, sendo 7 com a predição "sim". Com a análise da árvore de decisão gerada, foi 
possível extrair as seguintes regras SE-ENTÃO (IF-THEN) para os nós-folha que 
contém a predição “sim” (nota geral maior ou igual a 50): 
 
Tabela 5: Regras condicionais IF-THEN obtidas a partir da árvore de decisão. Fonte: Os autores 
(2015) 
1 SE co_rs_s19=B E co_rs_s38=B E co_rs_s20=B E co_rs_s39=A E co_rs_s22=B, ENTÃO sim 
2 SE co_rs_s19=B E co_rs_s38=B E co_rs_s20=C E co_rs_s13=B E co_rs_s42=A, ENTÃO sim 
3 SE co_rs_s19=B E co_rs_s38=C E co_rs_s7=D E co_rs_s20=B, ENTÃO sim 
4 SE co_rs_s19=B E co_rs_s38=C E co_rs_s7=E E co_rs_s5=E E co_rs_s20=A, ENTÃO sim 
5 SE co_rs_s19=B E co_rs_s38=C E co_rs_s7=E E co_rs_s5=G, ENTÃO sim 
6 SE co_rs_s19=D E co_rs_s6=B E co_rs_s43=B, ENTÃO sim 
7 SE co_rs_s19=D E co_rs_s6=E E co_rs_s34=A, ENTÃO sim 
 
De acordo com as regras 1 e 2, se o aluno leu no ano de realização do ENADE 
um ou dois livros excetuando-se os indicados na bibliografia do curso e a maior parte 
dos professores indicaram como material de estudo artigos periódicos especializados e o 
aluno dedica aproximadamente uma a três horas de estudo por semana excetuando as 
horas de aula (regra 1) ou quatro a sete (regra 2) e todos os professores indicam a 
utilização em suas disciplinas o uso de manuais ou materiais elaborados por docentes 
(regra 1) ou o pai do aluno estudou até o Ensino fundamental (regra 2) e a maior parte 
das instalações físicas de salas de aula, bibliotecas e ambiente de trabalho e estudo para 
o funcionamento do curso são adequadas (regra 1) ou os professores mostram domínio 
do conteúdo das disciplinas (regra 2), então o desempenho do ENADE é classificado 
como satisfatório (igual ou superior a 50). 
Conforme as regras 3, 4 e 5, se o aluno leu no ano de realização do ENADE um 
ou dois livros excetuando-se os indicados na bibliografia do curso e somente alguns 
professores indicaram como material de estudo artigos periódicos especializados e o 
aluno trabalha mais de 20 horas semanais e menos de 40 horas (regra 3) ou trabalha em 
tempo integral – 40 horas semanais ou mais (regras 4 e 5) e o aluno dedica 
aproximadamente uma a três horas de estudo por semana excetuando as horas de aula 
(regra 3) ou possui uma renda familiar de 4,5 até 6 salários mínimos (regra 4) ou acima 
de 10 até 30 salários mínimos (regra 5) e o aluno apenas assiste aulas, sem dedicar 
nenhuma hora aos estudos por semana excetuando as horas de aula (regra 4), então o 
desempenho do aluno é classificado como sendo igual ou superior a 50. 
Por fim, nas regras 6 e 7 se o aluno leu no ano de realização do ENADE entre 
seis e oito livros excetuando-se os indicados na bibliografia do curso e tem renda, mas 
recebe ajuda da família para financiar seus gastos (regra 6) ou o aluno tem renda e é o 
principal responsável pelo sustento da família (regra 7) e a maior parte das disciplinas 
do curso contextualiza o conhecimento da área (teorias, procedimentos, técnicas, 
instrumentos, etc) com os temas gerais e situações do cotidiano da realidade brasileira 
(regra 6) ou na maioria das vezes todos os aspectos dos planos de ensino apresentados 
pelos professores contém os seguintes aspectos: objetivos, metodologias de ensino e 
critérios de avaliação, conteúdos e bibliografia da disciplina, então o desempenho do 
aluno é classificado como sendo igual ou superior a 50. 
 
5. Trabalhos correlatos 
 
Durante o andamento desta pesquisa, foram encontrados alguns trabalhos que 
apresentaram os resultados obtidos através de técnicas e ferramentas de mineração de 
dados, tabelas e gráficos para análise. Os principais estão citados a seguir: 
Foi realizada análise da trajetória formal de emprego de profissionais recém-
formados em engenharias, medicina e licenciaturas [5]. Para tal, foram combinados 
dados dos concluintes inscritos nas edições de 2010 e 2011 do ENADE, o conceito das 
instituições de ensino e informações dos vínculos formais de trabalho dos mesmos, 
declarados na Relação Anual de Informações Sociais(Rais) dos anos de 2011 e 2012. 
 Foi encontrado um artigo que realizou a Mineração de Dados para Análise da 
Relação entre as Características Socioeconômicas de Concluintes do Ensino Superior e 
o Desempenho desses Estudantes no ENADE 2012 [6], tendo como referência os cursos 
de Direito. O referido artigo teve o objetivo de fazer uma análise da relação entre as 
características socioeconômicos dos concluintes do curso de Direito com o desempenho 
destes no ENADE, através de algoritmos de classificação. 
 
6. Conclusões 
 
No desenvolvimento do trabalho, foram analisados os dados referentes ao curso 
de Administração de uma instituição de ensino privada do Rio de Janeiro na edição do 
ENADE 2012, utilizando a aplicação da técnica de mineração de dados, 
especificamente através do processo de indução de árvore de decisão através do 
algoritmo CHAID. 
Com a execução do algoritmo utilizado obteve-se os atributos que mais 
influenciaram na nota geral do aluno. Através desta classificação foram gerados os 
gráficos com o intuito de facilitar a visualização da distribuição de valores de alguns 
atributos selecionados, bem como a distribuição da proporção por desempenho. 
Para pesquisas futuras, é viável a expansão da análise para outros cursos de 
graduação, com a finalidade de avaliar outras características socioeconômicas que 
influenciam diretamente no desempenho do aluno no ENADE. 
 
 
 
 
 
7. Referências 
 
[1] Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira 
(INEP). Índice Geral de Cursos Avaliados na Instituição – IGC. Disponível em 
http://portal.inep.gov.br/educacao-superior/indicadores/indice-geral-de-cursos-igc. 
 
[2] Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira 
(INEP). Conceito do Exame Nacional de Desempenho de Estudantes – ENADE. 
Disponível em http://portal.inep.gov.br/enade. 
 
[3] FAYYAD, U.M., Piatetsky-Shapiro, G.. e Smyth, P. (1996a). From Data Mining to 
Knowledge Discovery in Databases. AI Magazine 17(3): 37-54. 
 
[4] SANTOS, A. R.; OLIVEIRA, L. A. Comparação entre os algoritmos CHAID, 
CHAID-Exaustivo, CART e QUEST para dados com variável resposta categórica 
nominal via simulação bootstrap. no. 180. Jul 2007. 40 f. Relatório Técnico do 
Departamento de Estatística – UFSCar. 
 
[5] Maciente, A.N. et al. (2015) “A inserção de recém-graduados em engenharias, 
medicina e licenciatura no mercado de trabalho formal”. Radar nº 38. Cadernos do Ipea. 
Brasília, DF. 
 
[6] Nogueira, Eduardo Dimas Andrino. Tsunoda, Denise Fukumi. (2015) “Mineração de 
dados para análise da relação entre as características socioeconômicas de concluintes do 
ensino superior e o desempenho desses estudantes no ENADE 2012”. Percurso v.5.n.1 
245-268. 
 
FAYYAD, Usama; SHAPIRO, Gregory Piatetsky; SMYTH, Padhraic; 
UTHURUSAMY, Ramasamy. Advances in Knowledge discovery and data mining. 
MenloPark:Mit Press, 1996.560P. 
 
8. Anexo: tutorial do experimento e árvore de decisão resultante 
 
 Na figura 3 é mostrada a primeira etapa do processo, onde são utilizados três 
operadores. O operador Retrive ADM que contém a base de dados pré-processada em 
arquivo Exel, seguindo pelo operador Set Role que altera a função de um atributo. Como 
parâmetro do operador Set Role, o atributo ID da base de dados foi selecionado como id, 
não interferindo no resultado da árvore e, como label (atributo-meta), foi selecionado o 
atributo Desempenho, os demais atributos não precisaram ser especificados. 
 
Figura 3: Processo de indução de árvore de decisão no RapidMiner 
 
http://portal.inep.gov.br/educacao-superior/indicadores/indice-geral-de-cursos-igc
http://portal.inep.gov.br/educacao-superior/indicadores/indice-geral-de-cursos-igc
http://portal.inep.gov.br/enade
 O operador Validation tem duas fases: Training (treinamento) e Testing (teste), 
conforme mostrado na figura 4. 
Figura 4: Training e Testing do operador Validation 
 
 Na etapa do processo da figura 4 são mostradas as duas fases do operador 
Validation. Na fase de Training é escolhido o algoritmo de aprendizagem, no caso é o 
operador CHAID, que será usado para realização da classificação dos atributos, porém 
para garantir que fosse gerada uma árvore com profundidade máxima, o parâmetro 
maximal depth foi alterado para -1. Na fase de Testing, são utilizados dois operadores: 
Apply Model que aplica o modelo a cada exemplo do conjunto de testes e o operador 
Performance que é usado para avaliação de desempenho, oferecendo uma lista de 
valores de critérios de desempenho. 
 Após executado o experimento, foi possível obter uma árvore de decisão para 
realização das análises e extração de regras condicionais. A árvore de decisão gerada é 
vista na figura 5. 
Figura 5: Árvore de Decisão gerada no RapidMiner

Continue navegando