Mineração de Dados na Investigação de Fatores Socioeconômicos Relativos ao Desempenho de Alunos de um Curso de Administração no ENADE 2012

•

UNISUAM

Herderson Couto

30/03/2021

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Trabalho de Conclusão de Curso - TCC

96.117 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Mineração de Dados na Investigação de Fatores
Socioeconômicos Relativos ao Desempenho de Alunos de um
Curso de Administração no ENADE 2012
Herderson Gomes Couto, Matheus Victor Lira de Araújo
herderson@gmail.com, mvla1994@gmail.com

Curso de Ciência da Computação
Centro Universitário Augusto Motta (UNISUAM) – Av. Paris 72 – 21.041-020 –
Rio de Janeiro – RJ – Brasil

Orientador
Reinaldo Viana Alvares

Resumo. No Brasil, diversos cursos de graduação são avaliados pelo Ministério da
Educação (MEC), por meio de um exame denominado ENADE, cujo resultado compõe
o Conceito Preliminar de Curso (CPC). Os resultados do ENADE, são de acesso livre a
qualquer cidadão, entretanto divulgados no site do Instituto Nacional de Estudos e
Pesquisas Educacionais Anísio Teixeira (Inep) em formato de planilha. Este trabalho
investigou os fatores socioeconômicos com maior relevância para explicar o
desempenho dos alunos concluintes do curso de Administração de uma instituição de
ensino do Rio de Janeiro no ano de 2012, utilizando os microdados disponibilizados no
site do Inep, onde foi aplicada uma técnica de mineração de dados, especificamente a
tarefa de classificação pela execução do algoritmo CHAID para a construção de uma
árvore de decisão, cujos resultados obtidos são formados por dados organizados de
maneira de fácil entendimento e podem servir como importante ferramenta para tomada
de decisão.

Palavras chave: ENADE, Mineração de Dados, CHAID.

Abstract. In Brazil, several undergraduate courses are evaluated by the Ministry of
Education (MEC), through a test called ENADE, whose result the Preliminary Concept
of course (CPC). The results of the ENADE, are free access to any citizen, however
disclosed on the website of the Instituto Nacional de Estudos e Pesquisas Educacionais
Anísio Teixeira (Inep) in spreadsheet format. This work investigated the socioeconomic
factors with most relevant to explain the performance of the students graduating from
the administration of an educational institution in Rio de Janeiro in the year 2012,
using the micro-data made available on the website of Inep, where it was applied a data
mining technique, specifically the task of sorting the implementation of CHAID
algorithm for constructing a decision tree , whose results are made up of data
organized in a manner that is easy to understand and can serve as an important tool for
decision-making.

Keywords: ENADE, Data Mining, CHAID.
1. Introdução

O Ministério da Educação implantou o Exame Nacional de Desempenho de
Estudantes (ENADE), tendo como objetivo medir o desempenho dos estudantes em
mailto:mvla1994@gmail.com
relação ao conteúdo programático previsto, habilidades e competências desenvolvidas
na sua formação. As avaliações são compostas por questões de conhecimento
específicos e gerais e o conceito atribuído a cada curso varia de 1 a 5.
O cálculo dos indicadores de qualidade do ensino superior é formado pelos
resultados do ENADE, Conceito Preliminar de Curso (CPC) e o Índice Geral de Cursos
Avaliados da Instituição (IGC). O Conceito Preliminar de Curso (CPC) é calculado com
base na avaliação de desempenho de estudantes, corpo docente, infraestrutura, recursos
didático-pedagógicos e demais insumos. Em alguns casos, os cursos que não cumprem
os critérios necessários são registrados como Sem Conceito (SC), no qual, o Conceito
Preliminar de Curso não é calculado. No caso do Índice Geral de Cursos Avaliados da
Instituição (IGC), é calculado anualmente e utiliza informações da média dos últimos
CPCs disponíveis dos cursos avaliados da instituição no ano do cálculo e nos dois
anteriores, a média dos conceitos de avaliação dos programas de pós-graduação stricto
sensu atribuídos pela CAPES e a distribuição dos estudantes entre os diferentes níveis,
graduação ou pós-graduação stricto sensu [1].
A análise dos dados de inscrição e desempenho obtidos a partir da realização do
ENADE pode fornecer importantes informações para explicar o desempenho de alunos.
A técnica eficiente para esse tipo de análise é conhecida como mineração de dados, que
consiste na aplicação de algoritmos para extração de informações relevantes a partir dos
dados.
Este trabalho tem como objetivo analisar a relação entre os fatores
socioeconômicos, medindo o desempenho dos alunos do curso de Administração de
uma instituição de ensino privada do Rio de Janeiro na edição do ENADE 2012, por
meio da aplicação da técnica de mineração de dados através do processo de indução de
árvore de decisão, utilizando a tarefa de classificação pela execução do algoritmo
CHAID.
Além desta introdução, o trabalho está organizado em oito seções. A seção dois
apresenta o ENADE e os critérios de avaliação de cursos de graduação no Brasil. A
seção três discorre os conceitos relativos ao processo de mineração de dados que foram
usados no desenvolvimento da pesquisa. Na seção quatro é detalhada a aplicação e suas
principais funcionalidades. Na seção cinco são apresentados os trabalhos correlatos. Na
seção seis as considerações finais do trabalho. Na seção sete são apresentadas as
referências e na última seção é apresentado o tutorial do processo de indução de árvore
de decisão.

2. ENADE e avaliação de cursos de graduação

O ENADE é um procedimento de avaliação, aplicada anualmente, que integra o
Sistema Nacional de Avaliação da Educação Superior (SINAES). É realizado pelo
Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep),
autarquia vinculada ao Ministério da Educação (MEC), segundo diretrizes estabelecidas
pela Comissão Nacional de Avaliação da Educação Superior (CONAES),
órgão colegiado de coordenação e supervisão de SINAES.
O ENADE foi criado no ano 2004, com a necessidade de substituir o exame
anterior, Exame Nacional de Cursos (ENC), popularmente conhecido como “Provão”. O
exame tem como objetivo acompanhar o processo de aprendizagem e desempenho dos
estudantes em relação aos conteúdos previstos nas diretrizes curriculares do respectivo
curso de graduação, suas habilidades para se ajustar às exigências decorrentes da
evolução do conhecimento e suas competências em sua formação. Esta avaliação é
composta por questões de conhecimento específicos e gerais sendo dividida em 25%
para formação geral e 75% para formação específica. O conceito atribuído a cada curso
varia de 1 a 5, avaliando o desempenho dos alunos ingressantes e concluintes [2].
Antes do exame, o aluno deve preencher um questionário de avaliação do curso,
que contém, além de informações pessoais, questões sobre a infraestrutura, instalações
físicas e os recursos didático–pedagógicos do curso, que comporá o Relatório do
ENADE, documento que contém os resultados dos alunos e as suas impressões sobre o
exame. As questões, em geral, mudam a cada edição bem como o procedimento de
cálculo que levam em consideração tais indicadores.
Os resultados dos cursos também apresentam as graduações com os melhores
índices IDD (Indicador de Diferença Entre os Desempenhos Observados e Esperados).
O IDD é a diferença entre o desempenho médio do concluinte de um curso e o
desempenho esperado para os ingressantes desse mesmo curso. Esse indicador
determina o quanto de conhecimento os cursos agregam aos alunos.
Outro conceito bastante importante, é o Conceito Preliminar de Curso (CPC),
que representa de maneira prévia a situação dos cursos de graduação. Criado no ano
2007, é considerado um indicador preliminar, e pode ser alterado após procedimento de
visita para fins de avaliação do curso em questão, também é utilizado como referência
no licenciamento de funcionamento dos cursos de graduação.

3. Mineração de Dados

Com o grande avanço dos sistemas computacionais nas últimas décadas, o
armazenamento de dados tem sido um dos principais objetivos das organizações.Essas
grandes quantidades de dados, quando analisadas, podem revelar informações muito
valiosas, que poderão dar apoio a tomada de decisões em um ambiente organizacional.
A exploração desses dados não é uma tarefa fácil de ser realizada. Nem sempre
as ferramentas e técnicas tradicionais de análise de dados são possíveis de ser aplicadas,
em muitos casos, a enorme quantidade de informação ou a natureza não corriqueira dos
dados acaba inviabilizando o processo de análise destas abordagens.
A Mineração de Dados (Data Mining) é uma área da Ciência da Computação
que utiliza algoritmos sofisticados de aprendizagem ou classificação para análise de
grandes bases de dados, procurando extrair informações que estejam implícitas, que
sejam previamente desconhecidas e potencialmente úteis [3]. A partir da reunião de
técnicas de áreas como: Estatística, Inteligência Artificial e Banco de Dados tornaram–
se possível representar de diversas formas essas informações.

3.1. Processo de Descoberta de Conhecimento

O KDD (Knowledge Discovery in Databases) é um processo de transformação
de dados em conhecimento útil, válido e relevante. Ele é composto por várias etapas,
iniciando com a seleção dos dados e terminando com a interpretação dos resultados da
mineração de dados. Na figura 1 é possível ver as fases do processo de KDD.
Figura 1: O ciclo do processo de KDD. Fonte: FAYYAD, 1996, p. 41.
Na fase de seleção, é escolhido o conjunto de possíveis variáveis que farão parte
da análise. Esta etapa do processo é complexa e normalmente a escolha dos dados fica a
critério de um especialista do domínio.
No Pré-processamento e limpeza, são realizadas as eliminações de dados
redundantes, limpeza para remoção dos ruídos e a seleção dos dados com características
relevantes à tarefa de mineração de dados.
A Transformação de dados é a fase de descoberta do conhecimento, após os
dados passarem pelo pré-processamento, é feita a padronização dos dados para suprir as
limitações das técnicas de Data Mining, de modo que os algoritmos possam ser
aplicados.
A etapa de Mineração de dados consiste em aplicar as técnicas e algoritmos com
a finalidade de determinar as características dos dados, com o objetivo de descobrir
padrões e regras.
Com os resultados obtidos na mineração, é possível interpretar e avaliar os dados
de maneira simples, extraindo informações úteis.

3.2. Árvore de decisão

Neste trabalho é utilizada a técnica de árvore de decisão, pois os resultados
obtidos são formados por dados que ficam organizados de maneira simples e de fácil
entendimento, servindo como importante instrumento de apoio à tomada de decisão.
Uma árvore de decisão consiste em uma representação gráfica de atributos
classificados a partir da execução de algoritmos classificadores baseados em árvore de
decisão, entre estes algoritmos é possível citar: o algoritmo CART (Classification And
Regression Trees), o ID3 (Interative Dichotomiser 3), o C4.5 e o CHAID (Chi-Squared
Automatic Detection).
As árvores de decisão também podem ser representadas com um conjunto de
regras condicionais SE-ENTÃO (IF-THEN), que quando aplicadas a um registro de
dados, resultam na classificação do mesmo. Na figura 2 é mostrado um exemplo básico
dos elementos de uma árvore de decisão fictícia:

Figura 2: Exemplo de árvore de decisão fictícia. Fonte: Os autores (2015).

Na árvore da figura 2, temos os seguintes elementos:

• Raiz: Nó que está situado no topo da árvore;
Homem
Casada Idade > 35
Casado Solteiro
Sim Não
Sim Não
Raiz
Nó de decisão
Folhas
Ramo
• Nó de decisão: são os nós internos conectados pelos ramos da árvore;
• Ramo: Fazem as ligações dos nós da árvore;
• Folha: São os nós terminas da árvore, não possuem ramos.

A partir da árvore da figura 2, é possível extrair as seguintes regras SE-ENTÃO
(IF-THEN):

• SE “Homem”=Sim E “Idade>35”=Sim, ENTÃO Casado;
• SE “Homem”=Sim E “Idade>35”=Não, ENTÃO Solteiro;
• SE “Homem”=Não, ENTÃO Casada.

As regras condicionais são obtidas através do percurso que parte do nó raiz até o
um nó folha, percebe-se que através de uma árvore de decisão é possível extrair regras
de classificação de maneira bastante simples.

3.3. O algoritmo CHAID

Neste trabalho, o algoritmo de classificação escolhido para a geração da árvore
de decisão foi o CHAID (Chi-Squared Automatic Detection), este algoritmo foi criado
por Gordon V. Kass em 1980 e tem por base os testes de Qui-Quadrado de Pearson,
usado para determinar se uma distribuição de frequências observadas difere das
frequências esperadas teóricas.
A estatística de Qui-Quadrado (2) é calculada pela fórmula:

2 = Σ [(o-e)²/e]

Em que, “o” é a frequência observada e “e” é a frequência esperada.
Quanto maior o valor de 2 maior será a probabilidade de as frequências
observadas estarem diferentes das frequências esperadas. Os passos do algoritmo
CHAID podem ser encontrados em [4]. O objetivo do algoritmo é criar uma árvore de
classificação que contenha apenas as variáveis mais relevantes para a classificação.
Uma das vantagens de usar o CHAID é fato de se obter uma árvore de fácil
interpretação e leitura. Por outro lado, o CHAID requer grandes quantidades de dados
para ser possível garantir que a quantidade de observações dos nós folha é significativa,
logo não apresentou nenhum problema para este trabalho.

4. Estudo de caso

O estudo de caso envolveu dados do ENADE do ano de 2012, referentes ao
curso de graduação de Administração de uma instituição de ensino privada do Rio de
Janeiro. Desta forma, este trabalho tem o objetivo de analisar quais as características
socioeconômicas de alunos concluintes que mais influenciam no seu desempenho.
Esta análise foi realizada por meio do algoritmo de classificação CHAID, onde
foi possível obter os atributos mais promissores em relação à nota geral do aluno, e
assim, fornecer subsídios para uma análise.

4.1. Questionário socioeconômico e desempenho
O questionário socioeconômico é um instrumento de coleta de informações do
ENADE, que tem por objetivo construir um perfil socioeconômico do estudante. Este
questionário é composto por 54 perguntas e os respectivos códigos e possíveis respostas
são encontrados no dicionário de variáveis dos microdados.
De acordo com objetivo da análise, foram escolhidos os atributos relacionados
ao questionário socioeconômico, além do atributo "nota geral da prova" para ser gerada
a árvore de decisão. O atributo nota geral da prova é calculado pela média ponderada da
nota de componente específico (75%) e a nota de formação geral (25%), variando de 0 a
100.
Com o intuito de otimizar a classificação dos atributos da árvore de decisão
gerada pelo algoritmo, foi criado um atributo-meta chamado "Desempenho". Com a
criação deste atributo, a "nota geral" foi dividida em duas categorias:

• Notas menores que 50: o atributo "Desempenho" recebeu a predição "não"; e
• Notas maiores ou iguais a 50: o atributo "Desempenho" recebeu a predição
"sim".
4.2. Obtenção da fonte de dados e pré-processamento
Os microdados do ENADE estão disponíveis no Portal do Inep para download
em arquivos (.csv). A base de dados original é dividida em 8 tipos de variáveis: varáveis
de instituição de ensino superior (3 atributos), variáveis do curso (4 atributos), variáveis
do inscrito (18 atributos), variáveis de presença (11 atributos), variáveis da prova (6
atributos), variáveis de desempenho (16 atributos), variáveis de percepção da prova (11
atributos) e variáveis do questionário socioeconômico (56 atributos).
Durante a preparação dos dados para execução do algoritmo, foram considerados
apenas os registros em que o candidato compareceu para realização da prova e
respondeu o questionário socioeconômico. Sendoassim, a base de dados resultante
para a tarefa de mineração de dados se configurou em um arquivo em forma de planilha
(.xls) com 547 registros, cada qual contendo 56 atributos:

• 54 referentes ao questionário socioeconômico (co_rs_s1 até co_rs_s54);
• 1 atributo-meta (Desempenho); e
• 1 atributo criado para identificação de cada registro (ID).
4.3. Indução de árvore de decisão
A ferramenta escolhida para a tarefa de mineração de dados e execução do
algoritmo CHAID foi o software RapidMiner Studio. O RapidMiner é uma ferramenta
Open-Source que apresenta uma interface visual para a realização de processos
relacionados à mineração de dados. Estes processos são realizados pela ferramenta
conectando-se blocos de construção ou operadores com as funções necessárias para o
processo pretendido.
O tutorial do experimento realizado para a construção do modelo de indução de
árvore de decisão no RapidMiner e a árvore resultante encontram-se no anexo deste
trabalho.

4.4. Resultados e Discussões

Como parte dos estudos de pesquisa, a fim de obter a classificação de atributos
com maior percentual de previsões corretas na classificação feita pelo algoritmo
CHAID aplicado a base de dados pré-processada, foram realizados três experimentos
além do qual se fundamentou este trabalho.
Com o auxílio de um software de código livre chamado WaikatoEnvironmente
for KnowledgeAnalysis(WEKA), executou-se o algoritmo CfsSubsetEval sobre a base
de dados pré-processada para seleção dos atributos do questionário socioeconômico
com maior correlação em relação ao atributo-meta de cada experimento. Os atributos
selecionados pelo CfsSubsetEval para o experimento que utilizou a predição que dividiu
a nota geral do aluno na categoria “maior que 50 (sim)” e “menor que 50 (não)” foram:
co_rs_s3, co_rs_s6, co_rs_s8, co_rs_s11, co_rs_s12, co_rs_s17, co_rs_s18, co_rs_s19,
co_rs_s20, co_rs_s29, co_rs_s35, co_rs_s37, co_rs_s40, co_rs_s47, co_rs_s50 e
co_rs_s54. Sobre os atributos selecionados foi executado o algoritmo CHAID, sendo
obtidos os seguintes resultados:

• Total de regras condicionais obtidas a partir da árvore de decisão resultante: 67
regras;
• Total de regras condicionais obtidas com a predição (sim): 10 regras; e
• Percentual de previsões corretas (cálculo do operador Performance do
RapidMiner): 90,68%.

Tabela 1: Regras condicionais obtidas. Fonte: Os autores (2015).
Ordem Regras mais promissoras
1 SE co_rs_s19 = D E co_rs_s6 = E E co_rs_s50 = B ENTÃO sim
2
SE co_rs_s19 = B E co_rs_s18 = B E co_rs_s50 = B E co_rs_s6 = D E co_rs_s3 = B ENTÃO
sim
3
SE co_rs_s19 = B E co_rs_s18 = A E co_rs_s47 = D E co_rs_s29 = D E co_rs_s8 = D E
co_rs_s11 = E ENTÃO sim
4 SE co_rs_s19 = E E co_rs_s20 = B E co_rs_s35 = A ENTÃO sim

Também utilizando a ferramenta WEKA para execução do algoritmo
CfsSubsetEval mais um experimento foi realizado. Dessa vez, usando como predição a
média Brasil da nota geral do curso de Administração no ENADE 2012. A média Brasil
do curso de Administração foi de 34,63, desta forma o atributo-meta se configurou em:
nota geral do aluno maior ou igual que a média Brasil recebeu a predição “sim” e as
notas menores, a predição “não”. Os atributos selecionados pelo o CfsSubsetEval para
este experimento foram: co_rs_s1, co_rs_s3, co_rs_s4, co_rs_s5, co_rs_s10, co_rs_s16,
co_rs_s18, co_rs_s24, co_rs_s33, co_rs_s36, co_rs_s38, co_rs_s40. Sobre os atributos
selecionados foi executado o algoritmo CHAID, obtendo-se os seguintes resultados:

• Total de regras condicionais obtidas a partir da árvore de decisão resultante: 87
regras;
• Total de regras condicionais obtidas com a predição (sim): 30 regras; e
• Percentual de previsões corretas (cálculo do operador Performance do
RapidMiner): 56,49%.

Tabela 2: Regras condicionais obtidas. Fonte: Os autores (2015).
Ordem Regras mais promissoras
1 SE co_rs_s38 = A E co_rs_s5 = F E co_rs_s36 = A E co_rs_s1 = B ENTÃO sim
2 SE co_rs_s38 = B E co_rs_s18 = B E co_rs_s4 = F ENTÃO sim
3 SE co_rs_s38 = C E co_rs_s36 = A E co_rs_s5 = F ENTÃO sim
4
SE co_rs_s38 = B E co_rs_s18 = B E co_rs_s4 = D E co_rs_s36 = B E co_rs_s40 = C ENTÃO
sim

O terceiro experimento envolveu a execução do algoritmo CHAID sobre os 54
atributos relacionados ao questionário socioeconômico e o mesmo atributo-meta do
segundo experimento (maior ou igual que média Brasil (sim) e menor que média Brasil
(não)). Foram obtidos os seguintes resultados:

• Total de regras condicionais obtidas a partir da árvore de decisão resultante: 105
regras;
• Total de regras condicionais obtidas com a predição (sim): 22 regras; e
• Percentual de previsões corretas (calculo do operador Performance do
RapidMiner): 55,21%.

Tabela 3: Regras condicionais obtidas. Fonte: Os autores (2015).
Ordem Regras mais promissoras
1 SE co_rs_s38 = C E co_rs_s31 = A E co_rs_s45 = C E co_rs_s12 = A ENTÃO sim
2
SE co_rs_s38 = B E co_rs_s52 = A E co_rs_s43 = A E co_rs_s48 = A E co_rs_s11 = E E
co_rs_s32 = A E co_rs_s20 = B ENTÃO sim
3 SE co_rs_s38 = B E co_rs_s52 = A E co_rs_s43 = C ENTÃO sim
4
SE co_rs_s38 = C E co_rs_s31 = A E co_rs_s45 = B E co_rs_s2 = A E co_rs_s30 = A
ENTÃO sim

Os atributos que têm maior correlação com o atributo "Desempenho", obtidos
após a execução do algoritmo CHAID sobre os 54 atributos do questionário
socioeconômico para o experimento que se fundamentou este trabalho estão descritos na
Tabela 4:
Tabela 4: Atributos selecionados pelo algoritmo CHAID. Fonte: Inep (2012).
co_rs_s5
5 - Somando a sua renda com a
renda dos familiares que moram
com você, quanto é,
aproximadamente, a renda familiar?
(Considere a renda de todos os seus
familiares que moram na sua casa
com você)
A = Nenhuma.
B = Até 1,5 salário mínimo (até R$ 697,50)
C = Acima de 1,5 até 3 salários mínimos (R$ 697,51 a R$ 1.395,00).
D = Acima de 3 até 4,5 salários mínimos (R$ 1.395,01 a R$ 2.092,50).
E = Acima de 4,5 até 6 salários mínimos (R$ 2.092,51 a R$ 2.790,00).
F = Acima de 6 até 10 salários mínimos (R$ 2.790,01 a R$ 4.650,00).
G = Acima de 10 até 30 salários mínimos (R$ 4.650,01 a R$ 13.950,00).
H = Acima de 30 salários mínimos (mais de R$ 13.950,01).
co_rs_s6
6 - Assinale a situação abaixo que
melhor descreve seu caso (incluindo
bolsa)
A = Não tenho renda e meus gastos são financiados pela minha família ou por
outras pessoas.
B = Tenho renda, mas recebo ajuda da família ou de outras pessoas para
financiar meus gastos.
C = Tenho renda e me sustento totalmente.
D = Tenho renda, me sustento e contribuo com o sustento da família.
E = Tenho renda, me sustento e sou o principal responsável pelo sustento da
família.
co_rs_s7
7 - Indique a resposta que melhor
descreve sua atual situação de
trabalho. (Não contar estágio, bolsas
de pesquisa ou monitoria)
A = Não estou trabalhando.
B = Trabalho eventualmente.
C = Trabalho até 20 horas semanais.
D = Trabalho mais de 20 horas semanais e menos de 40 horas semanais.
E = Trabalho em tempo integral - 40 horas semanais ou mais.
co_rs_s13 13 - Até que nível seu pai estudou?
A = Nenhuma escolaridade.
B = Ensino fundamental: 1º ao 5º ano (antiga 1ª à 4ª série).
C = Ensino fundamental: 6º ao 9º ano (antiga 5ª à 8ª série).
D = Ensino médio.
E = Ensino superior.
F = Pós-graduação.
co_rs_s19
19 - Excetuando-se os livros
indicados na bibliografia do seu
curso, quantos livros você leu este
ano?
A = Nenhum.
B = Um ou dois.
C = Entre três e cinco.
D = Entre seis e oito.
E = Mais de oito.
co_rs_s20
20 - Quantas horas por semana,
aproximadamente, você dedica aos
estudos, excetuando as horas de
aula?
A = Nenhuma, apenas assisto às aulas.
B = Uma a três.
C = Quatro a sete.
D = Oito a doze.
E = Mais de doze.
co_rs_s22
22 - As condições gerais das
instalações físicas de salas de aula,
bibliotecas e ambientesde trabalho e
estudo para o funcionamento do
curso são adequadas? (Se for
estudante de EAD - Educação a
distância, considere as condições do
polo de apoio presencial e/ou sede)
A = Sim, todas.
B = Sim, a maior parte.
C = Somente algumas.
D = Nenhuma.
co_rs_s34
34 - Na maioria das vezes, os planos
de ensino apresentados pelos
professores contêm os seguintes
aspectos: objetivos, metodologias de
A = Sim, todos os aspectos.
B = Sim, a maior parte dos aspectos.
C = Somente alguns aspectos.
D = Nenhum dos aspectos.
ensino e critérios de avaliação,
conteúdos e bibliografia da
disciplina?
E = Não sei responder.
co_rs_s38
38 - Os professores indicam como
material de estudo a utilização de
artigos de periódicos especializados
(artigos científicos)?
A = Sim, todos os professores.
B = Sim, a maior parte.
C = Somente alguns.
D = Nenhum.
co_rs_s39
39 - Os professores indicam a
utilização em suas disciplinas de
manuais ou materiais elaborados
pelos docentes?
A = Sim, todos os professores.
B = Sim, a maior parte.
C = Somente alguns.
D = Nenhum.
co_rs_s42
42 - Os professores demonstram
domínio do conteúdo das
disciplinas?
A = Sim, todos os professores.
B = Sim, a maior parte.
C = Somente alguns.
D = Nenhum.
co_rs_s43
43 - O curso contextualiza o
conhecimento da área (teorias,
procedimentos, técnicas,
instrumentos, etc.) com os temas
gerais e situações do cotidiano da
realidade brasileira?
A = Sim, em todas as disciplinas.
B = Sim, na maior parte das disciplinas.
C = Sim, somente em algumas disciplinas.
D = Não contextualiza.

Para os atributos que tiveram proporções do desempenho maiores que 10% em
qualquer uma das faixas, foram criados gráficos de colunas com a finalidade de facilitar
a visualização da distribuição de valores de cada atributo selecionado, bem como a
distribuição da proporção por desempenho.. O Gráfico 1 mostra a distribuição dos
alunos por renda familiar.

Gráfico 1: Distribuição de valores do atributo CO_RS_S5. Fonte: Os autores (2015).

Ao avaliar o Gráfico 1 é possível perceber que a maior proporção de alunos com
nota geral igual ou superior a 50 está entre os alunos que possuem renda familiar de 6
até 10 salários mínimos (10,98%) e os que têm renda familiar acima de 10 até 30
salários mínimos (13,33%).
A questão que se refere a situação que melhor descreve o sustento do aluno é
mostrada no Gráfico 2.

Gráfico 2: Distribuição de valores do atributo CO_RS_S6. Fonte: Os autores (2015).

Destaque para os candidatos que tem renda se sustentam e são o principal
responsável pelo sustento da família, onde a maior proporção de alunos com nota geral
igual ou superior a 50 foi de 15,79%.
O Gráfico 3 mostra a quantidade de livros lidos pelo aluno excetuando-se
àqueles indicados na bibliografia.

Gráfico 3: Distribuição de valores do atributo CO_RS_S19. Fonte: Os autores (2015).

A maior proporção de alunos com o desempenho igual ou superior a 50% está
entre os alunos que leram entre seis e oito livros (25%).
Na questão que está relaciona a horas dedicadas por semana aos estudos,
excetuando as horas de aula, a maior proporção de alunos com nota geral igual ou
superiores a 50 ficou com os que responderam que se dedicam oito a doze horas
(21,05%), conforme o Gráfico 4.

Gráfico 4: Distribuição de valores do atributo CO_RS_S20. Fonte: Os autores (2015).

O cálculo de previsões corretas de acordo com o operador Performance do
RapidMiner ficou em 91,41%, ou seja, existe 91,41% de chance de os atributos
classificados pelo algoritmo CHAID estarem corretos.
A árvore de decisão gerada pela execução do algoritmo CHAID tem 40 nós-
folha, sendo 7 com a predição "sim". Com a análise da árvore de decisão gerada, foi
possível extrair as seguintes regras SE-ENTÃO (IF-THEN) para os nós-folha que
contém a predição “sim” (nota geral maior ou igual a 50):

Tabela 5: Regras condicionais IF-THEN obtidas a partir da árvore de decisão. Fonte: Os autores
(2015)
1 SE co_rs_s19=B E co_rs_s38=B E co_rs_s20=B E co_rs_s39=A E co_rs_s22=B, ENTÃO sim
2 SE co_rs_s19=B E co_rs_s38=B E co_rs_s20=C E co_rs_s13=B E co_rs_s42=A, ENTÃO sim
3 SE co_rs_s19=B E co_rs_s38=C E co_rs_s7=D E co_rs_s20=B, ENTÃO sim
4 SE co_rs_s19=B E co_rs_s38=C E co_rs_s7=E E co_rs_s5=E E co_rs_s20=A, ENTÃO sim
5 SE co_rs_s19=B E co_rs_s38=C E co_rs_s7=E E co_rs_s5=G, ENTÃO sim
6 SE co_rs_s19=D E co_rs_s6=B E co_rs_s43=B, ENTÃO sim
7 SE co_rs_s19=D E co_rs_s6=E E co_rs_s34=A, ENTÃO sim

De acordo com as regras 1 e 2, se o aluno leu no ano de realização do ENADE
um ou dois livros excetuando-se os indicados na bibliografia do curso e a maior parte
dos professores indicaram como material de estudo artigos periódicos especializados e o
aluno dedica aproximadamente uma a três horas de estudo por semana excetuando as
horas de aula (regra 1) ou quatro a sete (regra 2) e todos os professores indicam a
utilização em suas disciplinas o uso de manuais ou materiais elaborados por docentes
(regra 1) ou o pai do aluno estudou até o Ensino fundamental (regra 2) e a maior parte
das instalações físicas de salas de aula, bibliotecas e ambiente de trabalho e estudo para
o funcionamento do curso são adequadas (regra 1) ou os professores mostram domínio
do conteúdo das disciplinas (regra 2), então o desempenho do ENADE é classificado
como satisfatório (igual ou superior a 50).
Conforme as regras 3, 4 e 5, se o aluno leu no ano de realização do ENADE um
ou dois livros excetuando-se os indicados na bibliografia do curso e somente alguns
professores indicaram como material de estudo artigos periódicos especializados e o
aluno trabalha mais de 20 horas semanais e menos de 40 horas (regra 3) ou trabalha em
tempo integral – 40 horas semanais ou mais (regras 4 e 5) e o aluno dedica
aproximadamente uma a três horas de estudo por semana excetuando as horas de aula
(regra 3) ou possui uma renda familiar de 4,5 até 6 salários mínimos (regra 4) ou acima
de 10 até 30 salários mínimos (regra 5) e o aluno apenas assiste aulas, sem dedicar
nenhuma hora aos estudos por semana excetuando as horas de aula (regra 4), então o
desempenho do aluno é classificado como sendo igual ou superior a 50.
Por fim, nas regras 6 e 7 se o aluno leu no ano de realização do ENADE entre
seis e oito livros excetuando-se os indicados na bibliografia do curso e tem renda, mas
recebe ajuda da família para financiar seus gastos (regra 6) ou o aluno tem renda e é o
principal responsável pelo sustento da família (regra 7) e a maior parte das disciplinas
do curso contextualiza o conhecimento da área (teorias, procedimentos, técnicas,
instrumentos, etc) com os temas gerais e situações do cotidiano da realidade brasileira
(regra 6) ou na maioria das vezes todos os aspectos dos planos de ensino apresentados
pelos professores contém os seguintes aspectos: objetivos, metodologias de ensino e
critérios de avaliação, conteúdos e bibliografia da disciplina, então o desempenho do
aluno é classificado como sendo igual ou superior a 50.

5. Trabalhos correlatos

Durante o andamento desta pesquisa, foram encontrados alguns trabalhos que
apresentaram os resultados obtidos através de técnicas e ferramentas de mineração de
dados, tabelas e gráficos para análise. Os principais estão citados a seguir:
Foi realizada análise da trajetória formal de emprego de profissionais recém-
formados em engenharias, medicina e licenciaturas [5]. Para tal, foram combinados
dados dos concluintes inscritos nas edições de 2010 e 2011 do ENADE, o conceito das
instituições de ensino e informações dos vínculos formais de trabalho dos mesmos,
declarados na Relação Anual de Informações Sociais(Rais) dos anos de 2011 e 2012.
Foi encontrado um artigo que realizou a Mineração de Dados para Análise da
Relação entre as Características Socioeconômicas de Concluintes do Ensino Superior e
o Desempenho desses Estudantes no ENADE 2012 [6], tendo como referência os cursos
de Direito. O referido artigo teve o objetivo de fazer uma análise da relação entre as
características socioeconômicos dos concluintes do curso de Direito com o desempenho
destes no ENADE, através de algoritmos de classificação.

6. Conclusões

No desenvolvimento do trabalho, foram analisados os dados referentes ao curso
de Administração de uma instituição de ensino privada do Rio de Janeiro na edição do
ENADE 2012, utilizando a aplicação da técnica de mineração de dados,
especificamente através do processo de indução de árvore de decisão através do
algoritmo CHAID.
Com a execução do algoritmo utilizado obteve-se os atributos que mais
influenciaram na nota geral do aluno. Através desta classificação foram gerados os
gráficos com o intuito de facilitar a visualização da distribuição de valores de alguns
atributos selecionados, bem como a distribuição da proporção por desempenho.
Para pesquisas futuras, é viável a expansão da análise para outros cursos de
graduação, com a finalidade de avaliar outras características socioeconômicas que
influenciam diretamente no desempenho do aluno no ENADE.

7. Referências

[1] Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira
(INEP). Índice Geral de Cursos Avaliados na Instituição – IGC. Disponível em
http://portal.inep.gov.br/educacao-superior/indicadores/indice-geral-de-cursos-igc.

[2] Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira
(INEP). Conceito do Exame Nacional de Desempenho de Estudantes – ENADE.
Disponível em http://portal.inep.gov.br/enade.

[3] FAYYAD, U.M., Piatetsky-Shapiro, G.. e Smyth, P. (1996a). From Data Mining to
Knowledge Discovery in Databases. AI Magazine 17(3): 37-54.

[4] SANTOS, A. R.; OLIVEIRA, L. A. Comparação entre os algoritmos CHAID,
CHAID-Exaustivo, CART e QUEST para dados com variável resposta categórica
nominal via simulação bootstrap. no. 180. Jul 2007. 40 f. Relatório Técnico do
Departamento de Estatística – UFSCar.

[5] Maciente, A.N. et al. (2015) “A inserção de recém-graduados em engenharias,
medicina e licenciatura no mercado de trabalho formal”. Radar nº 38. Cadernos do Ipea.
Brasília, DF.

[6] Nogueira, Eduardo Dimas Andrino. Tsunoda, Denise Fukumi. (2015) “Mineração de
dados para análise da relação entre as características socioeconômicas de concluintes do
ensino superior e o desempenho desses estudantes no ENADE 2012”. Percurso v.5.n.1
245-268.

FAYYAD, Usama; SHAPIRO, Gregory Piatetsky; SMYTH, Padhraic;
UTHURUSAMY, Ramasamy. Advances in Knowledge discovery and data mining.
MenloPark:Mit Press, 1996.560P.

8. Anexo: tutorial do experimento e árvore de decisão resultante

Na figura 3 é mostrada a primeira etapa do processo, onde são utilizados três
operadores. O operador Retrive ADM que contém a base de dados pré-processada em
arquivo Exel, seguindo pelo operador Set Role que altera a função de um atributo. Como
parâmetro do operador Set Role, o atributo ID da base de dados foi selecionado como id,
não interferindo no resultado da árvore e, como label (atributo-meta), foi selecionado o
atributo Desempenho, os demais atributos não precisaram ser especificados.

Figura 3: Processo de indução de árvore de decisão no RapidMiner

http://portal.inep.gov.br/educacao-superior/indicadores/indice-geral-de-cursos-igc
http://portal.inep.gov.br/educacao-superior/indicadores/indice-geral-de-cursos-igc
http://portal.inep.gov.br/enade
O operador Validation tem duas fases: Training (treinamento) e Testing (teste),
conforme mostrado na figura 4.
Figura 4: Training e Testing do operador Validation

Na etapa do processo da figura 4 são mostradas as duas fases do operador
Validation. Na fase de Training é escolhido o algoritmo de aprendizagem, no caso é o
operador CHAID, que será usado para realização da classificação dos atributos, porém
para garantir que fosse gerada uma árvore com profundidade máxima, o parâmetro
maximal depth foi alterado para -1. Na fase de Testing, são utilizados dois operadores:
Apply Model que aplica o modelo a cada exemplo do conjunto de testes e o operador
Performance que é usado para avaliação de desempenho, oferecendo uma lista de
valores de critérios de desempenho.
Após executado o experimento, foi possível obter uma árvore de decisão para
realização das análises e extração de regras condicionais. A árvore de decisão gerada é
vista na figura 5.
Figura 5: Árvore de Decisão gerada no RapidMiner