Buscar

Learninganalyticsavaliacoes-Melo-2023


Prévia do material em texto

UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE TECNOLOGIA
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E
DE COMPUTAÇÃO
Learning Analytics e Avaliações Online: Uma
Metodologia Orientada a Ciência de Dados em
Grafos
Elvis Medeiros de Melo
Orientador: Prof. Dr. Ivanovitch Medeiros Dantas da Silva
Tese de Doutorado apresentada ao Pro-
grama de Pós-Graduação em Engenharia
Elétrica e de Computação da UFRN (área de
concentração: Engenharia de Computação)
como parte dos requisitos para obtenção do
título de Doutor em Ciências.
Número de ordem PPgEEC: D329
Natal, RN, janeiro de 2023
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação da publicação na fonte. UFRN / Biblioteca Central Zila Mamede
Melo, Elvis Medeiros de.
Learning Analytics e Avaliações Online: Uma Metodologia Orientada a Ci-
ência de Dados em Grafos / Elvis Medeiros de Melo. - 2023.
169 f.: il.
Tese (doutorado) - Universidade Federal do Rio Grande do Norte. Centro de
Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica e de Compu-
tação, Natal, RN, 2023.
Orientador: Prof. Dr. Ivanovitch Medeiros Dantas da Silva.
1. Learning analytics - Tese. 2. Ciência de dados em grafos - Tese. 3. Grafos
- Tese. 4. Avaliação online - Tese. 5. Machine learning - Tese. 6. eXplainable
artificial intelligence - Tese. I. Silva, Ivanovitch Medeiros Dantas da. II. Título.
RN/UF/BCZM CDU 004.85
À família Medeiros de Melo, que
sempre me apoiou e me deu suporte
para seguir meus estudos. Também
aos meus amigos e companheiros
que estiveram sempre ao meu lado,
me ouvindo quando chorei e me
levantando quando eu caí!
A eles, dedico.
Agradecimentos
Gostaria de poder agradecer a todas as pessoas nominalmente, mas precisarei fazer uma
clusterização em pequenos grupos, com palavras sucintas. Isso não significará o tama-
nho da minha gratidão corresponda ao número de caracteres escritos. Correlação não é
causalidade!
Primeiramente à minha família, especialmente ao meu pai e minha mãe, por estarem
sempre me apoiando e me dando suporte para conseguir os meus sonhos. Como primeiro
graduado, mestre e doutor de toda a família, consegui vivenciar o que é ascender soci-
almente por meio dos estudos. Isso tudo posso ter conseguido por causa de vocês, que
muitas vezes deixavam de comprar algum alimento para me proporcionar o acesso a uma
educação de qualidade.
Aos amigos especiais Marcelo e Raphael, que me deram suporte emocional em diversos
momentos da minha vida, que me ouviram sempre quando teve algum problema e eu
não conseguia me expressar. Por terem secado minhas lágrimas nos momentos difíceis,
assim como compartilhado dos momentos de alegria nas inúmeras conquistas que obtive
no decorrer desses três anos.
Ao professor, amigo, orientador, Ivanovitch Silva pelos conselhos, pela orientação, pela
parceria, pela paciência e pelo tamanho de seu coração. A experiência do doutorado foi
muito mais leve devido a forma que fui orientado. Posso dizer que a fase do doutorado foi
uma das mais difíceis da minha vida, mas o professor Ivan sempre esteve do meu lado, me
apoiando, apoitando meu crescimento como profissional, pessoal, pedagógico e humano.
Agradeço também pela confiança em mim depositada.
Aos desenvolvedores da plataforma Multiprova pela disponibilização dos dados para a
pesquisa de Tese.
À CAPES, pelo apoio financeiro no primeiro ano de doutorado.
Aos professores que participaram das bancas de qualificação e defesa da Tese Ismênia,
Diego, Raymundo, Betânia, Affonso e Daniel, que me motivaram a sempre dar 100% na
construção da Tese, com colocações pertinentes que fizeram este trabalho ser aprovado.
Resumo
A avaliação é um instrumento importante para corrigir falhas e promover acertos em
processos de aprendizagem. É um dos pilares da educação, junto com o currículo e o
processo de ensino e aprendizagem. Com a pandemia de COVID-19, a Universidade Fe-
deral do Rio Grande do Norte (UFRN) adotou a plataforma Multiprova para suportar a
avaliação online. Com a informatização dos processos de avaliação, surge a necessidade
de usar técnicas de Learning Analytics (LA) e ciência de dados em grafos para enten-
der o comportamento dos estudantes e identificar perfis de alunos a partir de registros de
resoluções de avaliações online. Ao analisar a literatura, existe a necessidade de transfor-
mar modelos interpretáveis na educação. Para isso, técnicas de visualização de dados e
eXplainable Artificial Intelligence (XAI) precisam ser consideradas. A hipótese proposta
é de que é possível usar esses dados para obter insights sobre o processo de aprendiza-
gem e perfis de estudantes usando técnicas de LA, como modelagem de grafos e Machine
Learning (ML). Para tanto, é apresentado o quadro de fundamentação teórica acerca dos
temas que compõem o objeto de estudo, como grafos, LA e avaliações online. Dentre os
resultados, uma revisão sistemática da literatura apontou 40 trabalhos envolvendo LA e
avaliações online, porém, nenhum trabalho utilizou métricas grafos com técnicas de LA,
como ML para analisar o desempenho dos estudantes. Além disso, dois estudos de caso
foram modelados segundo a proposta de metodologia orientada a ciência de dados em
grafos, com cerca de 78,75% das features de grafo explicando os modelos de ML uti-
lizados. Percebemos a importância do uso de features de grafos em técnicas de LA na
identificação de insights sobre a aprendizagem dos estudante considerando a sua jornada
na avaliação online, assim como uso de métricas de grafos e XAI para a interpretação dos
resultados.
Palavras-chave: Learning Analytics, Ciência de Dados em Grafos, Grafos, Avaliação
online, Machine Learning, eXplainable Artificial Intelligence.
Abstract
Evaluation is an important tool to correct failures and promote successes in learning
processes. It is one of the pillars of education, along with the curriculum and the teaching
and learning process. With the pandemic of COVID-19, the Federal University of Rio
Grande do Norte (UFRN) has adopted the Multiprova platform to support online assess-
ment. With the computerization of assessment processes comes the need to use Learning
Analytics (LA) and graph data science techniques to understand student behavior and
identify student profiles from online assessment resolution records. When analyzing the
literature, there is a need to transform interpretable models into education. For this, data
visualization techniques and eXplainable Artificial Intelligence (XAI) need to be consi-
dered. The proposed hypothesis is that it is possible to use this data to gain insights into
the learning process and student profiles using LA techniques such as graph modeling
and Machine Learning (ML). To this end, the theoretical framework is presented about
the topics that make up the object of study, such as graphs, LA, and online evaluations.
Among the results, a systematic literature review pointed to 40 papers involving LA and
online assessments, but no papers used graph metrics with LA techniques such as ML to
analyze student performance. In addition, two case studies were modeled according to
the proposed graph data science oriented methodology, with about 78.75% of the graph
features explaining the ML models used. We see the importance of using graph features
in LA techniques in identifying insights about student learning considering their journey
in online evaluation, as well as using graph metrics and XAI for the interpretation of the
results.
Keywords: Learning Analytics, Graph Data Science, Graphs, Online Evaluations,
Machine Learning, eXplainable Artificial Intelligence
Sumário
Sumário i
Lista de Figuras v
Lista de Tabelas vii
Lista de Símbolos e Abreviaturas ix
1 Introdução 1
1.1 Objetivos da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Estrutura do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Referencial Teórico 5
2.1 Grafos e Análise de Redes Complexas . . .. . . . . . . . . . . . . . . . 5
2.1.1 Métricas do Nó . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Métricas da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.3 Grafos e Avaliações Online . . . . . . . . . . . . . . . . . . . . . 11
2.1.4 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Learning Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 Ciência de Dados Educacionais . . . . . . . . . . . . . . . . . . 15
2.2.2 Definições de Learning Analytics . . . . . . . . . . . . . . . . . 15
2.2.3 Mineração de Dados Educacionais . . . . . . . . . . . . . . . . . 18
2.2.4 Extração de Dados em Learning Analytics . . . . . . . . . . . . . 19
2.2.5 eXplainable Artificial Intelligence . . . . . . . . . . . . . . . . . 28
2.3 Avaliações Online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Plataforma Multiprova . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.2 Experiências em Avaliações Online . . . . . . . . . . . . . . . . 39
3 Revisão Sistemática da Literatura 43
3.1 Protocolo da Revisão Sistemática da Literatura . . . . . . . . . . . . . . 43
3.1.1 Questões de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.2 Seleção de estudos primários . . . . . . . . . . . . . . . . . . . . 45
3.1.3 Avaliação de qualidade dos estudos primários . . . . . . . . . . . 45
3.1.4 Extração e síntese dos dados . . . . . . . . . . . . . . . . . . . . 49
3.2 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
i
4 Metodologia 57
4.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.1 Construção de Grafos . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.2 Aprendizagem Não-Supervisionada . . . . . . . . . . . . . . . . 63
4.2.3 Classificador Machine Learning . . . . . . . . . . . . . . . . . . 63
4.3 Apresentação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . 63
5 Resultados e Discussão 67
5.1 Primeiro Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.1 Visão Macro da avaliação . . . . . . . . . . . . . . . . . . . . . 67
5.1.2 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.1.3 Modelagem com grafos . . . . . . . . . . . . . . . . . . . . . . . 69
5.1.4 Clusterização . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.1.5 Redução de dimensionalidade . . . . . . . . . . . . . . . . . . . 72
5.1.6 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.1.7 Importância das features . . . . . . . . . . . . . . . . . . . . . . 75
5.1.8 Análise do Cluster 1 . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.9 Análise do Cluster 2 . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.10 Análise do Cluster 3 . . . . . . . . . . . . . . . . . . . . . . . . 79
5.1.11 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2 Segundo Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2.1 Visão Macro da avaliação . . . . . . . . . . . . . . . . . . . . . 80
5.2.2 Modelagem com Grafos . . . . . . . . . . . . . . . . . . . . . . 82
5.2.3 Clusterização . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2.4 Redução de dimensionalidade . . . . . . . . . . . . . . . . . . . 83
5.2.5 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2.6 Importância das features . . . . . . . . . . . . . . . . . . . . . . 87
5.2.7 Análise do cluster 1 . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.8 Análise do cluster 2 . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.9 Análise do cluster 3 . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.10 Análise do cluster 4 . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.2.11 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3 Sumarização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6 Conclusão 95
Referências bibliográficas 98
A Análise Quantitativa e Qualitativa da RSL 111
A.1 Análise Quantitativa dos artigos selecionados na RSL . . . . . . . . . . . 111
A.1.1 QP01 - Quais são as definições de Learning Analytics em pesqui-
sas com avaliações online? . . . . . . . . . . . . . . . . . . . . . 112
A.1.2 QP02 - De quais países são oriundas a pesquisa em Learning
Analytics e avaliações online? . . . . . . . . . . . . . . . . . . . 114
A.1.3 QP03 - Quais estudos utilizam ARC e grafos na pesquisa em Le-
arning Analytics e avaliações online? . . . . . . . . . . . . . . . 116
A.1.4 QP04 - Qual termo em inglês está melhor relacionado a avaliações
online e que foi mais utilizado pelos pesquisadores? . . . . . . . 116
A.1.5 QP05 - Quais são os agrupamentos de autores possíveis dos tra-
balhos selecionados? . . . . . . . . . . . . . . . . . . . . . . . . 116
A.1.6 QP06 - Quantos são os agrupamentos de autores possíveis com
os trabalhos selecionados? . . . . . . . . . . . . . . . . . . . . . 116
A.1.7 QP07 - Quais são as redes de colaboração entre os autores dos
trabalhos selecionados sobre Learning Analytics e avaliações on-
line? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.1.8 QP08 - Quais são as palavras-chave mais citadas nos trabalhos
selecionados? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.1.9 QP09 - Quais são os agrupamentos de palavras-chave possíveis
nos trabalhos selecionados? . . . . . . . . . . . . . . . . . . . . 119
A.1.10 QP10 - Quais são os agrupamentos de trabalhos selecionados, le-
vando em consideração os títulos e resumos? . . . . . . . . . . . 119
A.1.11 QP11 - Quantos são os agrupamentos dos trabalhos selecionados,
levando em consideração os títulos e resumos? . . . . . . . . . . 122
A.2 Análise Qualitativa dos artigos selecionados na RSL . . . . . . . . . . . . 125
A.2.1 QP12 - Quais os objetivos das pesquisas atuais que estão sendo
desenvolvidas sobre Learning Analytics e avaliações online? . . . 125
A.2.2 QP13 - Quais as metodologias e técnicas das pesquisas compre-
endendo Learning Analytics e avaliações online? . . . . . . . . . 131
A.2.3 QP14 - Quais ferramentas foram utilizadas em pesquisas com Le-
arning Analytics e avaliações online? . . . . . . . . . . . . . . . 139
A.2.4 QP15 - Quem é o maior beneficiado com o trabalho desenvolvido
em Learning Analytics e avaliações online? . . . . . . . . . . . . 140
A.2.5 QP16 - Qual é o público-alvo do trabalho desenvolvido em Lear-
ning Analytics e avaliações online? . . . . . . . . . . . . . . . . 140
A.2.6 QP17 - Os trabalhos apontam ou direcionam para a realização de
técnicas de agrupamento ou técnicas de aprendizado não-supervisionado?
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
A.2.7 QP18 - Quais foram os algoritmos mais utilizados na pesquisa
com Learning Analytics e Avaliações online? . . . . . . . . . . . 142
A.2.8 QP19 - Quais foram os benefícios apontados pelos autores com a
pesquisa de Learning Analytics e avaliações online? . . . . . . . 142
Lista de Figuras
2.1 Relação das áreas no referencial teórico do trabalho . . . . . . . . . . . . 5
2.2 Problema das pontes de Konigsberg resolvido por Leonhard Euler . . . . 6
2.3 Uma parte da rede de palavras-chave em trabalhos sobre Learning Analy-
tics e avaliações online . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Processo de Learning Analytics e avaliações online . . . . . . . . . . . . 17
2.5 Processo de explicação de um modelo de IA . . . . . . . . . . . . . . . . 31
2.6 Pilares da escolarização . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1 Quantidade de artigos retornado pela string de busca por base de dados . . 46
3.2 Processo de seleção dos artigos na RSL . . . . . . . . . . . . . . . . . . 46
3.3 Escala Likert de qualidade dos artigos . . . . . . . . . . . . . . . . . . . 48
4.1 Exemplo de topologia de grafo construído para cada avaliaçãode cada
estudante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Pipeline da proposta de procedimentos da pesquisa . . . . . . . . . . . . 65
5.1 Gráfico de desempenho dos estudantes na avaliação . . . . . . . . . . . . 68
5.2 Visão geral da quantidade de passos para resolução da avaliação por dife-
rentes estudantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.3 Visão geral do caminho de aprendizagem da avaliação realizada pelo es-
tudante 47 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.4 Visão geral do caminho de aprendizagem da avaliação realizada pelo es-
tudante 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.5 Completude do dataset para clusterização . . . . . . . . . . . . . . . . . 71
5.6 Agrupamento em 3 grupos com algoritmo Spectral . . . . . . . . . . . . 72
5.7 Comparação dos modelos de classificação . . . . . . . . . . . . . . . . . 74
5.8 Árvore de decisão para clusters . . . . . . . . . . . . . . . . . . . . . . . 75
5.9 Horário de término da avaliação online dos clusters . . . . . . . . . . . . 76
5.10 Razão entre o tempo em cada questão em relação aos clusters . . . . . . . 77
5.11 Impacto da MLP no cluster 1 . . . . . . . . . . . . . . . . . . . . . . . . 78
5.12 Impacto da MLP no cluster 2 . . . . . . . . . . . . . . . . . . . . . . . . 78
5.13 Impacto da MLP no cluster 3 . . . . . . . . . . . . . . . . . . . . . . . . 79
5.14 Desempenho dos estudantes na avaliação . . . . . . . . . . . . . . . . . 81
5.15 Visão geral da avaliação no Multiprova em forma de grafo direcionado . . 82
5.16 Jornada do estudante 189 na avaliação online, modelada com grafos . . . 83
5.17 t-SNE do dataset com métricas de grafos . . . . . . . . . . . . . . . . . . 85
5.18 Perspectiva da avaliação com métricas de grafos . . . . . . . . . . . . . . 85
v
5.19 Perspectiva da avaliação com J-48 . . . . . . . . . . . . . . . . . . . . . 86
5.20 Visão geral da nota da avaliação no Multiprova de acordo com 4 clusters . 87
5.21 Impacto do KMeans++ no cluster 1 . . . . . . . . . . . . . . . . . . . . 88
5.22 Impacto do KMeans++ no cluster 2 . . . . . . . . . . . . . . . . . . . . 89
5.23 Impacto do KMeans++ no cluster 3 . . . . . . . . . . . . . . . . . . . . 90
5.24 Impacto do KMeans++ no cluster 4 . . . . . . . . . . . . . . . . . . . . 91
A.1 Base de dados por ano de publicação dos artigos selecionados . . . . . . 111
A.2 Análise de similaridade para definição de Learning Analytics de acordo
com os artigos selecionados . . . . . . . . . . . . . . . . . . . . . . . . . 112
A.3 Países com pesquisas selecionadas a nível mundial . . . . . . . . . . . . 114
A.4 Países com pesquisas selecionadas no continente europeu . . . . . . . . . 115
A.5 Países com pesquisas selecionadas no continente asiático . . . . . . . . . 115
A.6 Termos mais utilizado ao se relacionar a avaliações online nas pesquisas
selecionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
A.7 Agrupamento de autores de trabalhos na RSL . . . . . . . . . . . . . . . 117
A.8 Agrupamentos de autores de trabalho por ano . . . . . . . . . . . . . . . 118
A.9 Palavras-chave mais citadas nos trabalhos selecionados . . . . . . . . . . 119
A.10 Agrupamentos de palavras-chave nos trabalhos selecionados . . . . . . . 120
A.11 Quantidade de palavras que se repetem no corpus . . . . . . . . . . . . . 120
A.12 Análise de similaridade nos resumos, títulos e palavras-chave dos artigos
selecionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
A.13 Classificação dos artigos em 5 classes . . . . . . . . . . . . . . . . . . . 122
A.14 Análise de classificação dos artigos com palavras destacadas de cada classe 123
A.15 Artigos de acordo com a classificação em classes . . . . . . . . . . . . . 124
A.16 Análise de similaridade dos objetivos das pesquisas sobre LA e Avalia-
ções online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
A.17 palavras que mais aparecem nas metodologias dos artigos sobre LA e
Avaliações online por classes . . . . . . . . . . . . . . . . . . . . . . . . 137
A.18 Análise de similaridade das metodologias dos artigos sobre LA e Avalia-
ções online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
A.19 Ferramentas utilizadas em pesquisas em Learning Analytics e avaliações
online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
A.20 Beneficiado com trabalho de Learning Analytics de acordo com classes
de trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
A.21 Trabalhos que utilizam técnicas inteligentes . . . . . . . . . . . . . . . . 141
A.22 Técnicas e algoritmos mais utilizados na pesquisa em Learning Analytics
e Avaliações online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
A.23 Considerações dos estudos sobre LA e Avaliações online . . . . . . . . . 148
Lista de Tabelas
2.1 Métricas de grafos aplicadas ao trabalho de Learning Analytics e Avalia-
ções online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Desafios ao trabalhar com ALogE . . . . . . . . . . . . . . . . . . . . . 22
2.3 Abordagens em Mineração de Processos Educacionais . . . . . . . . . . 24
2.4 Medidas de Processo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Medidas de Interpretação . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1 Trabalhos selecionados para RSL . . . . . . . . . . . . . . . . . . . . . . 53
4.1 Features do dataset da plataforma Multiprova . . . . . . . . . . . . . . . 58
4.2 Features de registroResolucao da plataforma Multiprova . . . . . . . . . 60
5.1 Questões analisadas da avaliação online . . . . . . . . . . . . . . . . . . 68
5.2 Valores de Silhouette score para os algoritmos de aprendizagem não-
supervisionado de acordo com as distâncias e quantidade de grupos . . . 73
5.3 Questões analisadas da avaliação online . . . . . . . . . . . . . . . . . . 80
5.4 Resultados da clusterização . . . . . . . . . . . . . . . . . . . . . . . . . 84
A.1 Classificação dos trabalhos de acordo com as classes para RSL . . . . . . 125
vii
Lista de Símbolos e Abreviaturas
ALogE Arquivos de Log de Eventos
ARC Análise de Redes Complexas
DataViz Técnicas de Visualização de Dados
ECT Escola de Ciências e Tecnologia
EDM Educacional Data Mining
EDS Educational Data Science
EDS Educational Data Science
EPM Educational Process Mining
ERIC Education Resources Information Center
IA Inteligência Artificial
IES Instituição de Ensino Superior
ITS Sistema de Tutoria Inteligente
KDD Knowledge Discovery in Databases
LA Learning Analytics
LGPD Lei Geral de Proteção de Dados
LIME Local Interpretable Model-agnostic Explanations
ML Machine Learning
PLN Processamento de Linguagem Natural
RSL Revisão Sistemática da Literatura
SHAP SHapley Additive exPlanations
SNA Social Network Analysis
TDIC Tecnologias Digitais de Informação e Comunicação
ix
UFRN Universidade Federal do Rio Grande do Norte
XAI eXplainable Artificial Intelligence
Capítulo 1
Introdução
A pandemia de Covid-19, que começou em 2020 no Brasil, trouxe decretos de lock-
down que levaram ao desenvolvimento de muitos processos educativos com o suporte de
computadores, configurando um dos cenários mais desafiadores da educação do século
XXI (UNESCO 2020). De acordo com (Rosenberg 2005), a e-learning é o uso das tecno-
logias da internet para distribuir uma ampla gama de soluções que permitem aumentar o
conhecimento e as habilidades, tanto em nível individual quanto institucional. Com a vir-
tualização dos processos educacionais, as avaliações também foram realizadas de forma
online.
A avaliação é uma ferramenta fundamental para corrigir falhas, incentivar o sucesso
e progressão em um processo de aprendizagem. Portanto, ela não pode ser realizada de
forma isolada do processo de implementação e monitoramento das ações do estudante em
um ambiente virtual (Violante &Vezzetti 2015).
Quando planejada corretamente, a avaliação é de responsabilidade e competência de
todos os envolvidos no processo educacional. Dependendo do momento em que é apli-
cada, a avaliação pode ter caráter diagnóstico (no início), formativo (durante, como uma
prevenção do insucesso do estudante, por exemplo) ou somativo (ao final). Apesar dos
avanços da internet na educação online, ainda há dúvidas sobre a credibilidade dos méto-
dos de avaliação online (Mastan et al. 2022).
No entanto, a avaliação online pode oferecer vantagens, tais quais: feedback imediato,
flexibilidade na data de realização das atividades, respeito ao ritmo individual do aluno,
abordagem modular, oportunidade de fazer cursos não oferecidos na localidade em que
se reside, uso da internet para ampliar o conhecimento, correção em tempo real da prova,
além de o professor obter feedback do processo de aprendizagem em turmas com grande
quantidade de alunos (Katane et al. 2015). Portanto, os alunos não precisam ser avaliados
somente no final do curso, mas podem ser avaliados durante todo o processo de aprendi-
zagem, sempre por meio de um retorno rápido e dialógico dos resultados apresentados,
que podem ser proporcionados pelas avaliações online (Libâneo 2017).
Considerando a nova realidade, a Universidade Federal do Rio Grande do Norte
(UFRN) institucionalizou a plataforma Multiprova para dar suporte aos processos de ava-
liação online na universidade. A plataforma foi desenvolvida na Escola de Ciências e
Tecnologia (ECT) da UFRN para simplificar e automatizar as etapas operacionais de or-
ganização, correção, análise e compartilhamento de informações das avaliações (Bessa
2 CAPÍTULO 1. INTRODUÇÃO
& Silva 2017). Dessa forma, o uso das avaliações online se torna uma possibilidade
no contexto da UFRN, considerando sua facilidade de aplicação, auxílio no processo de
aprendizagem para o estudante e para o professor.
Em agosto de 2021, cerca de 420 mil avaliações foram realizadas pelos alunos através
da plataforma Multiprova. Isso permite a identificação de registros de resolução dessas
avaliações e o uso de técnicas de Análise de Redes Complexas (ARC) com ciência de
dados em grafos para analisá-las. Além das técnicas envolvendo ARC, outras análises
podem ser realizadas no campo da Ciência de Dados Educacionais (EDS, na sigla em
inglês), como variações na elaboração das questões de forma que cada estudante receba
questões diferentes, mas equivalentes (Bessa & Silva 2017).
A análise do comportamento de estudantes durante avaliações online pode ser rea-
lizada com a ajuda de modelagem com ciência de dados em grafos. Neste trabalho, a
jornada de resolução das avaliações online dos estudantes é o objetivo principal da mo-
delagem. Esse percurso é descrito como os movimentos de um aluno em um ambiente
de avaliação online (Bogarín et al. 2018). Utilizando técnicas de ML e ciência de dados
em grafos, é possível combinar diferentes métodos de ML para analisar os dados coleta-
dos durante as avaliações na plataforma Multiprova. De acordo com (Saint et al. 2020),
a combinação de diferentes métodos pode fornecer uma visão mais rica e inovadora dos
comportamentos dos alunos, fornecendo insights sobre sua aprendizagem.
Ao trabalhar com arquivos de Logs1, alguns problemas podem surgir. Como apontado
por (Bogarín et al. 2018), esses desafios incluem a presença de ruído nos dados, incom-
pletude, problemas com a data e hora (timestamp), tamanho do arquivo, mudanças no
contexto (concept drift), granularidade, tempo de clique e outros.
Um pré-processamento dos dados é necessário para utilizá-los como grafos, dada a
natureza não estruturada desses dados (Saint et al. 2020). Além disso, a recente imple-
mentação da Lei Geral de Proteção de Dados (LGPD) (Brasil 2018) no Brasil, em agosto
de 2020, e a necessidade de interpretabilidade em modelos de ML tornam ainda mais
complexo o trabalho com ALogE. Isso porque a difusão de técnicas de Inteligência Arti-
ficial Explicável (do inglês eXplainable Artificial Intelligence, ou XAI) na educação tem
aumentado (Miller 2017). Em estudos de levantamento do estado da arte recentes, não
foi encontrado nenhum artigo que utilizasse modelagem orientada a ciência de dados em
grafos para o trabalho com avaliação de desempenho em educação, muito menos que con-
siderasse os modelos XAI para interpretação por professores em modelos denominados
gray-box ou black-box (Bogarín et al. 2018, Romero & Ventura 2020).
Ao utilizar modelagem orientada a ciência de dados em grafos com ML, realizamos
uma combinação de métodos de Learning Analytics em avaliações online da plataforma
Multiprova. Segundo o trabalho de (Saint et al. 2020), essa combinação de métodos pode
proporcionar uma visão mais rica e inovadora dos comportamentos do aluno, permitindo
a captura e análise dos dados para fornecer insights2 sobre a aprendizagem.
1No nosso caso, arquivos que contém os registros de resolução da avaliação online são denominados
Arquivos de Logs de Eventos (ALogE).
2Nesta Tese, consideramos insights como sendo acontecimentos cognitivos que podem estar associados
a vários fenômenos, podendo ser sinônimo de compreensão, conhecimento, intuição, perspectiva. Ele é a
compreensão de uma causa e efeito específicos dentro de um contexto particular.
1.1. OBJETIVOS DA PESQUISA 3
1.1 Objetivos da Pesquisa
Com vista à problematização de avaliações online no campo de estudo da Learning
Analytics, o objeto desta Tese é utilizar dados de registros de resolução de avaliações on-
line com técnicas combinadas de Learning Analytics com modelagem orientada a ciência
de dados em grafos e Machine Learning, para obtenção de insights sobre o processo de
aprendizagem e perfis de estudante em avaliações online.
Partindo desse pressuposto, surge a hipótese da Tese: É possível utilizar dados de
registros de resolução de avaliações online para obtenção de insights sobre o processo
de aprendizagem e perfis de estudantes utilizando as técnicas de Learning Analytics com
modelagem orientada a ciência de dados em grafos e Machine Learning.
Para tanto, delimitamos o objetivo geral da Tese: Propor uma metodologia orientada
a ciência de dados em grafos com o uso de registro de resolução de avaliações online uti-
lizando técnicas combinadas de Learning Analytics com modelagem orientada a ciência
de dados em grafos e Machine Learning.
Para atingir o objetivo geral foram traçados os seguintes objetivos específicos da
Tese:
• Realizar um pré-processamento dos dados de avaliações online
• Modelar avaliação online utilizando técnicas de ciência de dados em grafos e suas
métricas
• Utilizar métricas de grafos como atributos (do inglês, features) para uso de técnicas
de Learning Analytics em avaliações online
• Gerar visualizações e interpretações dos resultados com uso de técnicas combinadas
de Learning Analytics e de XAI
As principais características deste trabalho consistem em: modelagem orientada a ci-
ência de dados em grafos de avaliações online, construção de um método de Learning
Analytics com uso de features de grafos, detecção de dificuldades de aprendizagem por
meio da avaliação realizada na plataforma Multiprova e visualizações que possam garan-
tir a interpretabilidade dos resultados com obtenção de insights sobre agrupamento de
estudantes e importância das features.
1.2 Estrutura do Texto
A estrutura desta Tese está dividida em 6 capítulos, nos quais buscam dar completude
ao estudo aqui introduzido.
• O capítulo 2 apresenta os principais temas e conceitos relevantes para a Tese, quais
foram: grafos e análise de redes complexas, Learning Analytics e avaliações on-
line. Neste capítulo, foram discutidas as implicações dos grafos na educação e a
interpretação das métricas de nós e redes no contexto de avaliação online.
• No capítulo 3 foram apresentados trabalhos relacionados encontrados na literatura
sobre Learning Analytics e Avaliações online em uma Revisão Sistemática da Lite-
ratura (RSL), destacando a inovação e unicidade da Tese.4 CAPÍTULO 1. INTRODUÇÃO
• A descrição dos procedimentos e experimentos podem ser encontrados no capí-
tulo 4.
• Os resultados de experimentos realizados em 2 estudos de caso foram apresentados
no capítulo 5.
• Por fim, no capítulo 6 foram realizadas as conclusões sobre o trabalho.
Capítulo 2
Referencial Teórico
Neste capítulo, apresentamos o quadro teórico que utilizamos para embasar os prin-
cipais temas da Tese, que são: Grafos e Análise de Redes Complexas, Learning Analy-
tics e Avaliações online. A relação dessas áreas no referencial teórico pode ser vista na
figura 2.1. Na figura, a grosso modo, o tamanho do nó corresponde a quantidade de li-
gações que um tema possui com os demais temas na Tese. Cada tema foi discutido com
base nas definições da literatura, para dar uma visão geral das áreas de estudo em cada
tema e embasar o objeto de estudo e hipótese desta Tese.
Figura 2.1: Relação das áreas no referencial teórico do trabalho
2.1 Grafos e Análise de Redes Complexas
A teoria dos grafos tem suas origens no trabalho de Leonhard Euler, que contribuiu
para vários campos, incluindo a Análise de Redes Complexas (ARC). O trabalho de Euler
com grafos ficou conhecido por meio do enigma das pontes de Konigsberg, resolvido
em 1736. A cidade de Konigsberg foi construída parcialmente em duas ilhas que eram
6 CAPÍTULO 2. REFERENCIAL TEÓRICO
interligadas por 7 pontes. O desafio era verificar se era possível atravessar todas as pontes
uma vez cada, partindo e retornando ao mesmo ponto, como mostra a figura 2.2.
Figura 2.2: Problema das pontes de Konigsberg resolvido por Leonhard Euler
Euler mostrou que o problema não tinha solução. Na prova, ele utilizou grafos para
modelar o problema. As pontes foram representadas como arestas do grafo e as partes
conectadas da cidade como nós. Como cada nó precisava de duas conexões (uma de
entrada e uma de saída), era necessário um número par de arestas para atravessar as pontes
sem repetição.
Em geral, a teoria dos grafos é o fundamento das métricas e dos algoritmos utilizados
para calcular elementos da rede e construí-las. Portanto, a representação de uma rede
construída com base em um algoritmo é geralmente chamada de grafo. Neste trabalho,
usamos os termos "rede"e "grafo"como sinônimos.
Autores como (Easley & Kleinberg 2010) consideram os grafos como o estudo das
estruturas de rede e a base para compreender as propriedades das redes. Os grafos são
usados para visualizar as redes e suas propriedades são calculadas por meio de algoritmos
e métricas de avaliação de ARC. Portanto, a teoria dos grafos se concentra na representa-
ção de fenômenos como grafos e nas propriedades que podem ser extraídas das redes.
Os grafos são usados como representação de fenômenos diversos. Quando usado
como representação de um sistema complexo, ele geralmente é uma foto de um momento
específico. Portanto, é preciso lembrar que uma representação estática pode retratar toda
a diversidade de um sistema, assim como a topologia de um processo inteiro pode ser
modelada com grafos e analisada com ARC. Ao estudar grafos, é importante considerar,
por exemplo, a evolução de uma rede complexa no tempo e seus fluxos (Watts & Strogatz
1998).
É importante lembrar que a ARC deve ser realizada por meio do cálculo de métricas de
grafos em conjunto com análise de sua topologia, pois não é possível identificar elementos
relevantes para o pesquisador apenas analisando a disposição dos nós e arestas de uma
rede (Easley & Kleinberg 2010).
Portanto, o uso apenas da topologia é limitado nos estudos de ARC (Tutte & Tutte
2001). No entanto, há campos de pesquisa em que a busca da topologia é importante,
como na descoberta de formas de proteínas nos estudos de genética (Gross et al. 2018).
Um nó na rede é uma representação de atores, como perfis de pessoas, textos, pu-
blicações de artigos, questões em uma avaliação online, módulos em um curso online,
2.1. GRAFOS E ANÁLISE DE REDES COMPLEXAS 7
palavras-chave em artigos de uma determinada área de estudo, como mostra a figura 2.3,
entre outros. Matematicamente, um nó pode ser representado pelo vértice de um grafo.
Figura 2.3: Uma parte da rede de palavras-chave em trabalhos sobre Learning Analytics
e avaliações online
As conexões entre nós em um grafo podem ser estabelecidas de duas formas, de
acordo com a definição de nó. Essas conexões podem ter características diferentes, como
redes associativas e emergentes (Stam & Reijneveld 2007). As redes associativas depen-
dem de uma relação de associação, enquanto as redes emergentes são construídas por
meio de interações. Portanto, em ARC é importante definir o tipo de conexão e o tipo de
rede que foi analisada (Stam & Reijneveld 2007). Nós, vértices, conexões e arestas foram
usados de forma intercambiável neste trabalho.
Na literatura (Gross et al. 2018), existem dois tipos de redes: redes direcionadas, nas
quais as arestas têm uma direção; e redes não direcionadas, nas quais as arestas não têm
direção, apenas ligações sem sentido. As métricas de ARC geralmente são baseadas nos
nós e em sua posição na rede (Stam & Reijneveld 2007). O cálculo da métrica deve
levar em consideração o tipo de rede. Além disso, se a rede for direcionada, é importante
entender o que a direção significa no contexto de ARC.
A seguir, estudaremos algumas das métricas que podem ser calculadas não apenas
para os vértices do grafo, mas para a rede como um todo. Ao final, faremos interpreta-
ções dessas métricas no contexto do problema de LA aplicado a avaliações online. Essas
métricas são fundamentais na modelagem em ciência de dados em grafos.
8 CAPÍTULO 2. REFERENCIAL TEÓRICO
2.1.1 Métricas do Nó
As métricas do nó se referem principalmente a sua centralidade. Elas são calculadas
para todos os nós da rede e precisam ser observadas em relação umas com as outras. Aqui,
as métricas de nó estão relacionadas as questões da avaliação online.
Grau do Nó
Em um sistema complexo, representado por uma rede ou um grafo, diferentes elemen-
tos podem ter diferentes números de conexões com outros elementos. Para diferenciar
essa característica, chama-se grau de um nó o número de arestas que incidem nele (Tutte
& Tutte 2001).
Uma métrica que pode ser calculada a partir do grau do nó é o grau da aresta. Os
pesos das arestas em um grafo são caracterizados pelo análise de pares e relações entre
dois vértices (Stam & Reijneveld 2007).
No entanto, a noção de peso de uma aresta também pode ser usada em conjunto com
grafos direcionados, permitindo que o grau de um vértice seja determinado de outras
formas, como o total de pesos das arestas incidentes, ou o total de pesos das arestas
incidentes de entrada menos o total de pesos das arestas incidentes de saída (Stam &
Reijneveld 2007).
Como em outras aplicações da matemática como ferramenta, a decisão de análise
depende dos sentidos que se produzem sobre o modelo.
Um grafo direcionado possui dois tipos de grau: Indegree, que representa a quantidade
de conexões que um determinado nó recebe; e Outdegree, que representa a quantidade
de conexões que o nó faz. No contexto do nosso problema, as redes que representam
avaliações online são redes direcionadas e o Indegree, Outdegree e Degree Centrality
foram calculados para cada questão de uma avaliação online. O sentido da rede faz relação
com os passos que um estudante realiza em sua jornada na resolução da avaliação online.
Grau de Intermediação (Betwenness centrality)
A centralidade betwenness é uma métrica que mede o quanto um determinado nó está
"entre"grupos de nós no grafo, ou seja, a quantidade de vezes que ele é usado como uma
ponte entre um nó e outro no grafo. Isso torna esse nó importante para a comunicação
entre diferentes agrupamentos de nós na rede. A centralidade betwenness também pode
ser uma medida da influência que um determinado nó tem no espalhamento de informação
na rede. Um nó com alta centralidade betwenness conecta vários grupos diferentes que
não estariam conectados se ele não existisse, e é importante parareduzir as distâncias
dentro do grafo. É possível calcular a centralidade de intermediação de um vértice usando
a equação dada.
BetwennessCentrality(n) = ∑
θi j(n)
θi j
(2.1)
Onde θi j(n) representa o número de caminhos mínimos entre os nós i e j que passam
pelo nó n e θi j representa o número de todos os caminhos mínimos entre i e j.
2.1. GRAFOS E ANÁLISE DE REDES COMPLEXAS 9
Grau de Proximidade (Closeness centrality)
A centralidade de proximidade é uma métrica que mede o quanto um nó está próximo
dos demais nós de uma rede. É importante que os nós estejam próximos uns dos outros
para que possam se influenciar e trocar informações. Quanto mais distante um nó está dos
demais, mais demora ele tem para receber informações da rede. Essa medida é relevante
para compreender o papel de cada nó na difusão e recepção de informação.
Para calcular o valor da centralidade de proximidade para um nó, podemos usar a
seguinte equação:
ClosenessCentrality(n) =
n−1
∑
n
j=1 d(i, j)
(2.2)
Aqui, n representa o número de nós do grafo, ∑nj=1 representa a soma de todas as
distâncias para todos os vértices e d(i, j) o número de caminhos mais curtos que ligam os
nós i e j.
No caso modelado, é uma medida que vai indicar o quanto uma questão foi visitada
no momento da avaliação online realizada pelo estudante.
Centralidade do Autovetor (Eigenvector centrality)
Essa medida leva em consideração não apenas as conexões dos nós que são avaliados,
mas também suas conexões indiretas, ou seja, aquelas dos que estão conectados a ele. Ela
tende a apontar quais nós são mais centrais nos clusters de nós.
Assim, não basta que um determinado nó seja central, mas a quantidade de nós ao qual
ele está conectado também estejam bem conectados. Essa métrica é associada a prestígio
e influência na rede.
No nosso contexto, é uma métrica que vai indicar a importância da questão nas avali-
ações online, tanto em relação às demais questões quanto à proficiência do estudante no
momento de realizá-la.
2.1.2 Métricas da Rede
Essas métricas auxiliam identificar comunidades ou grupos nas redes, mas também
verificar redes densas ou não, entre outros insights possíveis. Assim, as métricas da rede
estão relacionadas a uma avaliação online realizada pelo estudante (levando em conside-
ração uma avaliação particular - Visão Micro) ou a uma avaliação aplicada pelo professor
(levando em consideração a somatória do comportamento de todos os estudantes na ava-
liação aplicada pelo professor - Visão Macro). Descrevemos cada uma delas nos tópicos
a seguir.
10 CAPÍTULO 2. REFERENCIAL TEÓRICO
Diâmetro
É a maior distância geodésica1 no grafo, ou seja, é o maior dos menores caminhos
entre cada par de nós de um grafo. Para cada par de nós existe um caminho mínimo ne-
cessário para ir de um nó ao outro. O maior caminho observado em cada grafo representa
o seu diâmetro.
Diametro = max
i, j
li, j (2.3)
Onde li, j representa a largura entre dois nós i e j no grafo.
Aqui, vale salientar que o grafo de uma avaliação pode ter seus nós completamente
conectados ou não, indicando se houve maior ou menor percurso entre as questões das
avaliações dos estudantes.
Grau médio da rede (Average Degree)
É medido em função da soma do grau de todos os nós dividido pelo número de nós
existentes. Como cada aresta é incidente a dois nós e conta no grau de ambos, o grau
médio de um grafo não dirigido é calculado duas vezes o número de arestas dividido pelo
número de nós.
AverageDegree =
2∗A
N
(2.4)
Aqui, A é o número de arestas e N é o número de nós do grafo.
No caso do problema de avaliações online, o grafo é dirigido, então ele foi registrado
apenas uma vez. Dessa forma, se o estudante possuir uma medida alta de average degree
para a avaliação, significa que houve mais interações com a avaliação, e vice-versa.
Densidade
A densidade do grafo refere-se a quantidade de conexões em relação ao número total
de conexões possíveis da rede. Assim, quanto maior a densidade da rede, mais interco-
nectado o grafo é. Sendo assim, redes densas são aquelas que possuem maior número de
conexões entre nós.
Quando uma rede tem o número máximo de conexões possíveis, ela é chamada de
clique. Em nosso problema, a maior parte das redes construídas são cliques, tendo em
vista que os estudantes podem passear por todas as questões da avaliação em qualquer
ordem por quantas vezes acharem necessário. Podemos calcular a densidade de um grafo
utilizando a fórmula a seguir.
Densidade =
< k >
n−1
(2.5)
Aqui, < k > é o número médio de vizinhos da rede e n é o número de nós do grafo.
1Num plano, a geodésica é a menor distância que une dois pontos tal que, para pequenas variações da
forma da curva, o seu comprimento é estacionário
2.1. GRAFOS E ANÁLISE DE REDES COMPLEXAS 11
Coeficiente de Clustering
A agregabilidade é uma medida que expressa o grau de ligação entre nós. O coe-
ficiente de agregabilidade expressa o número de tríades fechadas (conjunto de três nós
conectados) em relação ao número completo de tríades abertas ou fechadas.
Esse valor pode ser medido utilizando a seguinte equação:
ClusteringCoe f iciente =
3∗ triangulos
triades
(2.6)
Onde triangulos representa o número de triângulos no grafo e triades o número de
tríades do grafo.
O coeficiente de clustering expressa o índice de agregabilidade de nós vizinhos, cujo
ponto máximo é a interconectividade entre todos os nós que formariam o clique. Essa
métrica é importante para a identificação, por exemplo, de small-worlds.
Uma rede pode ser considerada small-world quando a média dos coeficientes de clus-
terização é maior do que se poderia esperar pela construção aleatória de um grafo com
o mesmo número de nós e com a mesma distância média entre os nós (Watts & Strogatz
1998).
2.1.3 Grafos e Avaliações Online
As métricas de grafos são ferramentas úteis para analisar relações em diversos con-
textos, incluindo o educacional (Rodrigues 2020). Elas podem ser usadas para entender
como os indivíduos se relacionam em um grupo e como seus comportamentos são influ-
enciados pelo grupo como um todo. Em pesquisas recentes (Mastan et al. 2022), tem
havido iniciativas de explorar diferentes usos das redes em educação, como para analisar
relações semânticas e sociais. As métricas de grafos também podem ser úteis para medir
a importância de questões em avaliações online (Pucinelli & Giordan 2017).
Neste trabalho, consideramos as avaliações online realizadas pelos estudantes como
redes e as questões dessas avaliações como nós. Essas questões podem ser de diferentes
tipos, como múltipla escolha ou discursivas. Assim, descrevemos as métricas utilizadas,
mas é importante ressaltar que existem muitas outras métricas, pois o campo da análise
de redes está em constante crescimento (Gross et al. 2018, Bogarín et al. 2018). Uma
sumário das métricas usadas e seus usos em nosso contexto pode ser visto na tabela 2.1.
Métrica Onde foi
aplicada
Objetivo
Degree Nó Quantas vezes o estudante passa por uma questão
Indegree Nó Quantas ligações de outra questão para a questão atual
Outdegree Nó Quantas ligações da questão atual para outra questão
Betweenness
centrality
Nó O quanto que uma questão esteve entre questões na
avaliação online
Closeness
centrality
Nó O quão central a questão esteve na avaliação online
12 CAPÍTULO 2. REFERENCIAL TEÓRICO
Eigenvector
centrality
Nó O quão importante a questão foi para uma avaliação
online
Diâmetro Rede O maior percurso possível entre questões de uma ava-
liação online
Average
Degree
Rede A quantidade média de transições que um estudante re-
alizou em uma avaliação online
Densidade Rede O quanto que um estudante interagiu com a avaliação
online
Coeficiente
de Cluste-
ring
Rede O quanto que uma questão esteve agregada a outros
grupos de questões possíveis em uma avaliação online
Tabela 2.1: Métricas de grafos aplicadas ao trabalho de Learning Analytics e Avaliações
online
De acordo com a tabela 2.1, podemos ver que as métricas de grafos são aplicáveis em
diversos contextos. Para que elassejam usadas no contexto educacional aqui modelado,
seus significados são semelhantes aos descritos na literatura (Watts & Strogatz 1998, Tutte
& Tutte 2001, Stam & Reijneveld 2007, Easley & Kleinberg 2010, Gross et al. 2018, Oeh-
lers & Fabian 2021). É importante notar que essas interpretações foram feitas com base na
perspectiva do estudante. Em uma perspectiva mais ampla, as análises descrevem o com-
portamento geral dos estudantes que responderam à avaliação. Em uma perspectiva mais
individual, elas nos permitem entender o comportamento específico de cada estudante. É
importante realizar ambas as análises, considerando os diferentes perfis de alunos em uma
turma e a aplicação dessas avaliações em turmas com um grande número de estudantes
(Violante & Vezzetti 2015).
Para a construção da modelagem orientada a ciência de dados em grafos, o registro
de resolução dos estudantes foi coletado por meio de sequências de cliques, e o tempo
utilizado em cada atividade foi computado pelo tempo entre cada clique, caracterizando
um evento no Arquivo de Log de Evento (ALogE).
De acordo com a hipótese desta Tese, somando a análise aqui realizada sobre métricas
de grafos e modelagem orientada a ciência de dados em grafos, notamos que é possí-
vel utilizar a interpretação dessas métricas para Learning Analytics em avaliações online.
Para tanto, é interessante que sejam utilizadas técnicas de Machine Learning, como agru-
pamentos e classificação, assim como a interpretação dos resultados.
2.1.4 Machine Learning
Segundo definição da IBM2, Machine Learning (ML) é uma tecnologia onde os com-
putadores tem a capacidade de aprender de acordo com as respostas esperadas por meio
associações de diferentes dados, os quais podem ser imagens, números e tudo que a tec-
nologia possa identificar.
2https://www.ibm.com/br-pt/analytics/machine-learning
2.1. GRAFOS E ANÁLISE DE REDES COMPLEXAS 13
Machine Learning é o termo em inglês para a tecnologia conhecida no Brasil como
aprendizado de máquina. O seu uso é inerente aos processos de Ciência de Dados Edu-
cacionais (EDS). Existem quatro abordagens que podem ser utilizadas, a depender da
natureza dos dados e do problema: aprendizagem supervisionada, aprendizagem não-
supervisionada, aprendizagem semi-supervisionada e aprendizagem por reforço.
Com o intuito de descrever as abordagens escolhidas para a análise dos problemas em
Learning Analytics e avaliações online, enfatizamos a definição das abordagens supervi-
sionada e não-supervisionada, que foram as abordagens utilizadas neste trabalho.
Aprendizagem Supervisionada
A classificação e a regressão são as técnicas mais comuns aplicadas em Learning
Analytics (LA) e Educational Data Mining (EDM), segundo pesquisa dos autores (Vahdat
2017). Essas técnicas são caracterizadas como aprendizagem supervisionada.
Na classificação, o objetivo é desenvolver um modelo que preveja um variável de
um conjunto de variáveis preditoras. Esse método preditivo pode ter uma importância
no apoio à educação e aprendizagem. Na regressão, é possível prever o risco de um
estudante evadir de um curso (Barros et al. 2019) ou a nota que ele deve tirar em uma
avaliação online (Scoular & Care 2020), por exemplo.
A aprendizagem supervisionada é empregada em uma variedade de contextos edu-
cacionais para prever o comportamento de aprendizagem, identificando as variáveis que
estão associadas ao conhecimento adquirido pelo estudante. Alguns estudos compara-
ram diferentes métodos e técnicas de classificação de alunos de acordo com os perfis de
aprendizagem (Tóth et al. 2017a).
Com predições anteriores, a depender do projeto político pedagógico da escola de
Educação Básica ou IES (Instituição de Ensino Superior) e do incentivo aos docentes a
utilizarem ferramentas de LA em avaliações online, há a possibilidade de serem realizadas
intervenções precoces no processo de aprendizagem.
Aprendizagem Não-Supervisionada
Algumas abordagens descritivas mais utilizadas pertencem ao domínio dos métodos
de agrupamento, que mostraram sua eficácia em vários domínios heterogêneos e em vá-
rios contextos educacionais.
A clusterização é usada na educação para descobrir grupos de estudantes (cada grupo
é denominado de cluster) com comportamento semelhante, materiais, conteúdos educaci-
onais ou sessões de aprendizagem.
O grupo pode ser composto com base em várias características, como os padrões de
interação dos alunos (Yang et al. 2022), a quantidade de acesso aos conteúdos educacio-
nais, de acordo com dados oriundos de ALogE, entre outros. Vale salientar que os dados
educacionais são, em sua maioria, dados não estruturados (Ravikiran & Kumar 2021).
Sendo assim, ao invés de decidir subjetivamente sobre os valores de atributo para cada
categoria de aluno, a clusterização detecta grupos de casos semelhantes e os valores de
atributo para cada cluster são encontrados daqueles dos membros do agrupamento.
14 CAPÍTULO 2. REFERENCIAL TEÓRICO
Membros do mesmo cluster são semelhantes em termos de seus dados de resposta,
e membros mais próximos do centro do cluster são mais típicos dessa categoria do que
aqueles a uma distância maior do centro (Castellano et al. 2001).
Abordagens existentes para extração de perfil de usuário com base em técnicas de
clusterização requerem o número de clusters para ser corrigido com antecedência. Uma
vez que a estrutura inerente aos dados é desconhecida e conhecimento a priori sobre o
número de categorias de usuários raramente estão disponíveis, o número adequado dos
clusters pode ser estabelecido por meio de tentativa e erro, utilizando métricas de simila-
ridade do cluster, como a métrica de Silhouette score (Nitya Sai et al. 2017).
Em revisão da literatura, (Ahmad & Khan 2019) consideram algumas arquiteturas para
a clusterização de dados, como hierárquica, particional, baseada em modelos, baseada em
rede neural e outras. O problema de identificação de grupos de estudantes se encaixa em
um problema de classificação particional, no qual os algoritmos levam em consideração
variações do algoritmo clássico k-Means. Segundo os autores, um problema particional
procura:
• Um centro de cluster que pode representar características categóricas e característi-
cas numéricas
• Uma medida de distância que pode combinar características numéricas e categóri-
cas
• Uma função de custo, que é minimizada iterativamente, que pode manipular dados
Na literatura, há diversas variações do algoritmo k-Means (Ahmad & Khan 2019).
No processo de avaliação dos agrupamentos, são utilizadas medidas de similaridade Si-
lhouette score (Nitya Sai et al. 2017) com as medidas de distância adequadas para o pro-
blema de particionamento, como a Jaccard, Sokal e Michener, Yule’s Q, e Hamming.
Essas medidas são amplamente utilizadas na literatura, segundo estudo de revisão de
(Rezankova 2009).
Sendo assim, é interessante que o uso de técnicas automáticas de ML sejam aplicadas
em problemas educacionais (Casalino et al. 2020), tendo em vista que há diferentes con-
textos a serem analisados em problemas clássicos ou emergentes da educação, como é o
caso do uso de Learning Analytics em avaliações online.
2.2 Learning Analytics
Entre as possibilidades que a Inteligência Artificial (IA) pode proporcionar no âmbito
educacional, observa-se que ela abre grandes possibilidades na educação. Com uso de
IA na educação, pode-se remover barreiras relacionadas à língua e logística para grupos
vulneráveis, para que eles possam ganhar acesso à educação (UNESCO 2020).
Além disso, a inteligência artificial não é utilizada apenas para reduzir a carga horária
de professores em atividades de cunho mecânico para um ensino mais significativo, mas
ela permite que aconteça também a tutoria inteligente e personalização da aprendizagem,
o que é favorável para áreas com escassez de professores (UNESCO 2020).
2.2. LEARNING ANALYTICS 15
Segundo relatório da UNESCO (UNESCO 2020), a IA também pode otimizar a aloca-
ção de recursos em favor dos grupos desfavorecidos, automatizando o processode geren-
ciamento e melhorando o processo de aprendizagem e os resultados ao analisar modelos
de aprendizagem.
2.2.1 Ciência de Dados Educacionais
Dentro do âmbito da Educação, existe uma área que se preocupa com a aplicação de
IA e soluções com dados para otimização de processos educacionais, tomadas de decisão
e apoio da aprendizagem. Esta área de estudos é denominada de Ciência de Dados Educa-
cionais ou Educational Data Science (EDS) (Silva et al. 2017) e engloba conhecidamente
trabalhos de Learning Analytics (LA) e Educacional Data Mining (EDM).
Para (Filatro 2020), a EDS reúne áreas da ciência da computação, educação, estatística
e outras ciências sociais para examinar e compreender o fenômeno da educação.
A EDS, portanto, pode ser definida como um campo orientado a dados, sistêmico,
transdisciplinar e dinâmico, que combina habilidades técnicas e sociais à compreensão
profunda da prática educacional em diferentes ambientes de aprendizagem.
De acordo com a pesquisa de revisão de literatura e perspectivas para o futuro da
área de EDS, os autores (Ong & Uddin 2020) destacam a necessidade de serem utilizadas
novas formas de analisar antigas questões de pesquisa. Para (Ong & Uddin 2020), a EDS
busca aplicar ferramentas e novas perspectivas a fenômenos e problemas educacionais.
Uma pesquisa apontada como promissora é o uso de ALogE para obtenção de insights
sobre o comportamento dos estudantes. Com esses dados, é possível mapear habilidades
cognitivas, traços sociais e relações sustentadas. Além disso, (Ong & Uddin 2020) des-
tacam a importância de modelos de XAI que promovam a transparência e aumentem a
confiança, utilizando técnicas de Learning Analytics para promoção da aprendizagem do
estudante. Segundo os autores, a construção de modelos de XAI são importantes para evi-
tar que desigualdades do passado possam ser projetadas no futuro (Ong & Uddin 2020).
A área de EDS tem contribuído com o objetivo comum de melhorar a qualidade da
análise de dados educacionais em larga escala, além de apoiar tanto a pesquisa básica
quanto a prática pedagógica na Educação. Os desafios se somam a Big data e a forma
em que o dado é disponibilizado para análise, com 80% dos dados estando de forma não
estruturada (Ong & Uddin 2020).
Entre as técnicas mais utilizadas, estão sendo aplicados algoritmos de Machine Lear-
ning e clusterização de dados, sendo aproximadamente 75% dos trabalhos desenvolvidos
dedicados em analisar o desempenho do estudante (Maschio et al. 2018).
2.2.2 Definições de Learning Analytics
Sendo assim, a Learning Analytics (LA) vem proporcionando o desenvolvimento de
ferramentas que otimizam o processo de ensino e aprendizagem do estudante e a gestão
da educação (Sciarrone & Temperini 2019, Silva et al. 2022, Chaudhry & Kazim 2022).
Dentre os seus objetivos, estão:
• Melhorar o desempenho do aluno e do corpo docente
16 CAPÍTULO 2. REFERENCIAL TEÓRICO
• Melhorar a compreensão do aluno sobre o material do curso
• Avaliar e atender às necessidades de alunos com dificuldades
• Melhorar a precisão na classificação de estudantes
• Permitir que os instrutores avaliem e desenvolvam seus próprios pontos fortes
• Encorajar o uso mais eficiente dos recursos no nível institucional
• Previsão de notas dos alunos
• Detecção de padrões de comportamento
• Previsão de progresso acadêmico
• Modelagem do estudante
• Previsão de risco de evasão de curso
• Fornecer feedback de desempenho dos alunos aos professores
• Reduzir a carga de trabalho dos professores
• Promover aprendizagem contextualizada para os alunos
• Revolucionar a aplicação de avaliações (Isso inclui não apenas o que eles sabem,
mas também como aprendem e quais pedagogias funcionam para eles).
• Construir Sistemas de Tutoria Inteligentes (ITS)
Segundo autores (Siemens 2013), ainda há muitas divergências entre o conceito de
LA. Os trabalhos focam no campo das aplicações para melhor promoção de ensino e
aprendizagem do estudante.
Os trabalhos (Hernández-de Menéndez et al. 2022) traz algumas das definições de LA,
entre elas:
• LA é a coleta, análise e uso de grandes quantidades de dados e informações dos alu-
nos para melhorar a compreensão de seus comportamentos e contextos e melhorar
os resultados da aprendizagem, aumentando a eficiência e eficácia da instituição
• É a coleta e analise dados de usuários associados ao aprendizado do aluno
• É definida como a medição, coleta, análise e relato de dados sobre os alunos e seus
contextos de aprendizagem, a fim de compreender e otimizar a aprendizagem e o
ambiente em que ela ocorre
• LA é observar e compreender comportamentos de aprendizagem para possibilitar
intervenções adequadas, e essas intervenções podem ser realizadas por meio de
sistemas inteligentes
• LA é um campo que mede, analisa e relata dados sobre os alunos e seus contextos
para entender/melhorar a aprendizagem e o local em que ela ocorre
De acordo com resultados de revisão da literatura em LA (Hernández-de Menéndez
et al. 2022), os autores constatam que a maioria das iniciativas utiliza o LA para melhorar
a retenção de alunos. Além disso, poucos estudos estão focados apenas em melhorar
o processo de ensino e de aprendizagem ou questões acadêmicas. Apesar disso, uma
definição universal para o termo não é consensual de acordo com a análise da literatura.
Sendo assim, a LA é composta de entrada (dados), um processo (análise) e uma saída
(otimização do aprendizado) (Hernández-de Menéndez et al. 2022). Os autores apontam
que o benefício mais significativo do LA é que ele permite realizar intervenções precoces
quando um aluno está enfrentando dificuldades.
2.2. LEARNING ANALYTICS 17
Análise
Dados Otimização do Aprendizado
Entrada Processo Saída
Figura 2.4: Processo de Learning Analytics e avaliações online
Os processos de LA dão suporte ao ensino e a aprendizagem, como a avaliação dos
estudantes, de currículos e de atividades, feedback de desempenho dos estudantes, ajuda
na autorregulação da aprendizagem, na personalização e aumento da qualidade de enga-
jamento em atividades, além de previsão do desempenho.
Vale salientar que a tecnologia ajuda as organizações a serem preventivas e não rea-
tivas, pois vários modelos determinam os alunos em risco de reprovação (Hernández-de
Menéndez et al. 2022). Essas informações permitem que eles façam intervenções adequa-
das, o que aumenta o sucesso da iniciativa.
Segundo (Siemens 2013), a utilização do LA permite lidar com aspectos como visua-
lização das notas e interação dos alunos, geração de padrões de comportamento e criação
de alternativas de apoio às atividades de aprendizagem. De acordo com os autores, os
relatórios gerados pela LA podem ser úteis para instrutores (atividades e progresso dos
alunos), alunos (feedback sobre seu progresso) e administradores (por exemplo, possíveis
agregações de curso e informações de andamento do curso).
O uso de IA nesses processos já estão presentes em algumas iniciativas, porém a ade-
são do professor ao uso dessas ferramentas requer uma explicação de como ela funciona
para que ele ganhe confiança e consiga utilizá-las de acordo com a necessidade pedagó-
gica (Miller 2017).
Dentre as possibilidades de uso da IA em contexto da educação com LA, conseguimos
prospectar atividades em que os estudantes podem receber recomendações sobre recursos
de acordo com seu desempenho, objetivos e motivações, analisar graficamente os resulta-
dos de seu processo de aprendizagem, compará-los com os do resto da classe e observar
o desempenho e as contribuições relacionadas às atividades colaborativas (Sciarrone &
Temperini 2019).
Os diretores podem utilizar as informações para projetar uma melhor alocação de
recursos humanos e materiais para melhorar a qualidade geral de sua oferta acadêmica
(Sciarrone & Temperini 2019).
Finalmente, os professores e pesquisadores podem testar e adaptar suas teorias com
base em dados educacionais (Sciarrone & Temperini 2019).
No contexto da educação superior, os autores (Hernández-de Menéndez et al. 2022)
18 CAPÍTULO2. REFERENCIAL TEÓRICO
apontam que a pesquisa em LA neste contexto está relacionada à retenção de alunos,
análise preditiva, análise de discurso, ajudar os alunos a aprender, e aprimorar a relação
entre teoria educacional e design de aprendizagem.
Além disso, (Hernández-de Menéndez et al. 2022) apontam a necessidade de estudo
utilizando dados em larga escala, longitudinais e experimentais relacionados ao impacto
no ensino e na aprendizagem no contexto da educação superior.
2.2.3 Mineração de Dados Educacionais
Por outro lado, a Mineração de Dados Educacionais (EDM) tem interesse em empre-
gar uma abordagem baseada em dados para tomar melhores decisões, como é comum em
inteligência de negócios ou análise.
Assim, no contexto da EDM, existem métodos e técnicas estatísticas, de ML e de mi-
neração de dados para pesquisa de padrões e construção de modelos preditivos ou regras
de decisão que podem ser adaptados aos dados educacionais (Liñán & Pérez 2015).
Dessa forma, informações podem ser prospectadas a partir de uma mineração de dados
em contextos educacionais relacionados à educação. A EDM começou a explorar proces-
sos de aprendizagem usando conjuntos de dados maiores e aumento das interconexões
entre dados.
A mineração de dados é uma das técnicas mais utilizadas na LA. Os métodos po-
dem ser classificados em cinco grupos: predição, agrupamento, mineração de relaciona-
mento, descoberta com modelos e separação de dados para uso em julgamento humano
(Hernández-de Menéndez et al. 2022):
• Previsão de desempenho: Isso pode ser feito avaliando as interações dos alunos
com professores e colegas em um Ambiente Virtual de Aprendizagem (AVA)
• Detecção de risco: Ao analisar o comportamento dos alunos, pode-se detectar o
risco de que os alunos abandonem um curso. Modificações podem ser feitas para o
curso com base em tal análise
• Visualização de dados: Relatórios visuais amigáveis podem ser desenvolvidos gra-
ças a várias técnicas de visualização de dados que já existem
• Feedback inteligente: Feedback instantâneo pode ser oferecido aos alunos com base
em suas entradas. Esse feedback melhora as interações dos alunos e seu desempe-
nho
• Recomendação de curso: Os cursos podem ser recomendados aos alunos com base
em seus interesses. Esta recomendação é feita analisando suas atividades
• Estimativa das habilidades dos alunos: Estima das habilidades adquiridas pelos
alunos
• Outros: agrupamento e colaboração de alunos, análise de redes sociais, desenvolvi-
mento de mapas conceituais, construção de material didático e planejamento, agen-
damento e identificação de padrões de comportamento de usuários em AVAs
Segundo revisão da literatura em (Romero & Ventura 2020), a EDM e LA são áreas in-
terdisciplinares, incluindo, mas não se limitando a: recuperação de informações, sistemas
2.2. LEARNING ANALYTICS 19
de recomendação, análise de dados visuais, mineração de dados orientada por domínio,
análise de redes sociais, psicopedagogia, psicologia cognitiva, entre outros.
Embora LA e EDM sejam duas áreas distintas, elas compartilham o interesse em
explorar plenamente o potencial dos tipos únicos de dados gerados e armazenados pelo
próprio ambiente de aprendizagem. Para isso, utilizam uma variedade de métodos e técni-
cas analíticas e de mineração de dados, que lhes permitem adquirir importantes informa-
ções e conhecimentos sobre como os alunos se comportam e aprendem nesses ambientes
(Juhaňák et al. 2019).
Na verdade, eles podem ser desenhados como a combinação de três áreas principais:
Ciência da computação, educação e estatística. Para os autores, o processo de aplicação
de EDM e LA é uma execução de ciclo da Descoberta de Conhecimento em Base de
Dados, ou Knowledge Discovery in Databases (KDD).
Esses modelos devem prezar pela utilidade no processo de tomada de decisão em
educação. Nesta linha, modelos de white-box (modelos interpretáveis), como árvores de
decisão são preferíveis a modelos de black-box, como redes neurais, que não são inter-
pretáveis (Adadi & Berrada 2018). DataViz3 também são úteis para mostrar os resultados
de uma forma mais fácil de interpretar (Romero & Ventura 2020).
Vemos, portanto, a EDM e a LA como campos de pesquisa que focam no processo de
análise de dados educacionais. Apesar de serem dois fluxos de pesquisa separados, EDM
e LA compartilham o mesmo objetivo, para explorar e analisar dados educacionais e obter
insights em dados para apoiar tomadas de decisões relacionadas à educação (Bogarín
et al. 2018).
No contexto desta pesquisa, observamos que o KDD para obtenção de insights sobre
agrupamentos de estudantes em avaliações online é uma atividade de EDM em LA.
2.2.4 Extração de Dados em Learning Analytics
O uso de ferramentas digitais na educação gera muitos dados e experiências de di-
versas fontes como plataformas pedagógicas online, matrículas acadêmicas, bibliotecas,
sistemas de informação, avaliação online, redes sociais, etc. O comportamento digital de
qualquer usuário pode ser rastreado e analisado (Hernández-de Menéndez et al. 2022).
O uso de tecnologia de informação moderna em avaliações online torna a coleta e
armazenamento de dados de exames mais eficientes e confiáveis. Através da mineração
de dados em avaliações online, os professores podem melhorar sua eficiência de ensino
com conhecimento sobre as fraquezas e problemas na educação, sobre o que os alunos
dominam e o que ainda não dominam (Balderas & Caballero-Hernández 2020b).
Técnicas comuns de mineração de dados tendem a utilizar apenas dados brutos quan-
tificados, não permitindo compreender o processo educacional por completo. Para isso,
um subcampo da mineração de dados educacionais foi criado, intitulado como Mine-
ração de Processos Educacionais ou Educational Process Mining (EPM) (Romero &
Ventura 2020). Neste trabalho, utilizamos as técnicas de EPM para a extração de dados
em LA.
3Técnicas de Visualização de Dados
20 CAPÍTULO 2. REFERENCIAL TEÓRICO
Sendo assim, a ideia básica de EPM é descobrir, monitorar e melhorar os processos
reais, extraindo conhecimento de ALogE registrados automaticamente por sistemas de
informação (Cairns et al. 2014).
Para (Bogarín et al. 2018), a EPM tem o objetivo de tornar o conhecimento não ex-
presso explícito e facilitar a compreensão do processo educacional, envolvendo a des-
coberta, análise e aprimoramento de processos e fluxos subjacentes aos ALogE gerados
pelos AVAs.
Com o uso dessas técnicas, há possibilidades do aluno visualizar seu comportamento
dentro do sistema e o comportamento dos demais alunos da mesma turma, assim, permi-
tindo que melhore seu próprio comportamento e aumentando o desempenho educacional.
Por meio da análise do comportamento do aluno, é possível observar as diferenças
em relação aos demais alunos da classe, bem como identificar o que está prejudicando a
aprovação de um determinado aluno ou grupo de alunos (Watanabe et al. 2020).
Assim, a LA fornece a possibilidade do professor intervir e ajudar os alunos com
baixa taxa de aprovação para que estes atinjam um crescimento satisfatório (Bogarín et al.
2018).
Além disso, a LA permite que os cientistas descubram novas formas de análise de
dados na área educacional. Enquanto a medição somativa de avaliação pode apenas for-
necer insights a partir da análise dos resultados finais, a LA pode rastrear as habilidades
dos alunos para resolver as tarefas.
Segundo (Tóth et al. 2017a), a EPM fornece uma análise mais granular das habilidades
dos alunos, pois a maneira como eles resolvem os problemas é registrada, fornecendo
informações além dos resultados de testes online, por exemplo.
Em estudo, (Cairns et al. 2014) citam que a extração de conhecimento relacionado ao
processo de registros de eventos educacionais serve para:
• Modelagem de processos e redes sociais seguindo indicadores de desempenho ou
um conjunto de modelos de padrão de currículo
• A análise dos processos educacionais e suas conformidades com as restrições do
currículo estabelecido, hipóteses e pré-requisitosdos educadores
• O aprimoramento dos modelos dos processos educacionais com indicadores de de-
sempenho: Tempo de execução, gargalos, ponto de decisão, etc.
• A personalização dos processos educacionais por meio de recomendação das me-
lhores unidades de curso ou trilhas de aprendizagem para os alunos (dependendo
de seus perfis, suas preferências ou suas habilidades)
• Detecção de violações dos pré-requisitos
Já para (Trcka & Pechenizkiy 2009), a LA em avaliações online possuem algumas
finalidades, dentre elas:
• Identificação de grupos de questões (cor)relacionadas
• Identificação de grupos de estudantes
• Padrões emergentes de resolução de problemas
• Estimação de poder discriminativo e preditivo de perguntas em uma avaliação on-
line
2.2. LEARNING ANALYTICS 21
Portanto, a EPM como um método pode abrir novas formas de analisar o compor-
tamento de resolução de problemas dos alunos. No entanto, a implementação dessas
técnicas pode ser considerado um desafio interdisciplinar que exige especialistas no as-
sunto, desenvolvedores de itens, psicometristas e cientistas da computação para trabalha-
rem juntos para extrair, agregar, modelar e interpretar os dados de forma adequada (Tóth
et al. 2017a).
Ao observar os dados de ALogE registrados a partir das interações dos alunos com
computadores, tarefas de avaliação de resolução de problemas podem ser analisadas. Es-
sas análises podem desempenhar um papel importante no desenvolvimento e refinamento
de regras para pontuação automática de sequências complicadas de dados do processo
que descrevem os aspectos procedimentais da resolução de problemas (Silva et al. 2022).
Segundo (Zoanetti & Griffin 2017), as interações entre o aluno e a tarefa são facil-
mente registradas para produzir o ALogE. Esses registros geralmente descrevem pressio-
namentos de tecla distintos e eventos do mouse (digitar, clicar, arrastar, soltar, movimento
do cursor, etc.). Cada ação discreta é registrada com um carimbo de data e hora corres-
pondente ou hora da ocorrência (Zoanetti & Griffin 2017).
Vale salientar que esses dados são coletados por meio de sequências de cliques, e o
tempo gasto em cada atividade é computado pelo tempo entre cada clique, caracterizando
um evento no ALogE. Segundo (Nguyen et al. 2018), na constituição dos ALogE há
algumas limitações, dentre as quais:
• A incapacidade de deduzir qual o tempo ativo do inativo do estudante
• O último clique do dia no AVA é seguido do clique do dia seguinte (Uma seção de
longa duração)
• Falta de generalização de avaliações online, por exemplo, para outros contextos
(Cada avaliação é única, em termos de comportamento e estratégias de resolução)
• Pode haver uma sub ou superestimação do engajamento do aluno nesses ambientes
Esses ALogE podem ser gerados e armazenados como arquivos de texto simples. Para
(Zoanetti & Griffin 2017), os dados do ALogE incorporam naturalmente a amplitude e a
profundidade das informações de interação necessárias para monitorar os tipos de testes
que os alunos realizam, incluindo seu número, sequência realizada e tempo.
Tendo em vista essa problemática, técnicas de DataViz em ALogE podem destacar
recursos de desempenho e dados correspondentes que podem ser informativos, incluindo
o tempo que os alunos passam trabalhando em tarefas, o tempo que os alunos gastam
antes de interagir com as tarefas, a qualidade de suas interações iniciais com as tarefas, o
total número de interações com tarefas e se elas concluem as tarefas com sucesso ou não.
Estes dados tendem a estar prontamente disponíveis em ALogE, que incluem um re-
gistro de data e hora para cada interação aluno com a tarefa (Zoanetti & Griffin 2017).
Pode-se extrair algumas características de ALogE (Zoanetti & Griffin 2017), tais como:
• Contagem de ações
• Contagem de erros
• Contagem de ações inválidas
• Contagem de ações repetidas
22 CAPÍTULO 2. REFERENCIAL TEÓRICO
• Tempo total de resposta
• Latências entre os principais eventos
• Tempo para a primeira ação
• Escopo da pesquisa ou contagem de problemas distintos resolvidos
• Correção do resultado
• Contagem de partidas do estado objetivo
• Contagem de visitas ao estado da meta
• Rapidez da ação
• Submetas específicas da tarefa atingidas
• Sequências de ação específicas da tarefa
• Qualidade de ações iniciais
• Validade das ações iniciais
A aplicação de técnicas de extração de dados em LA enfrenta desafios relacionados
com as especificidades dos ALogE. Entre os desafios, os autores (Cairns et al. 2014)
destacaram em seu trabalho:
• Big Data: Logs de eventos no domínio da educação, particularmente aqueles vindos
de ambientes de e-learning, contêm grandes quantidades de eventos granulares e
dados relacionados ao processo
• Heterogeneidade e complexidade: Processos educacionais são complexos e flexí-
veis por natureza, refletindo a alta diversidade de comportamentos nos percursos de
aprendizagem dos alunos. Consequentemente, técnicas de descoberta de processos
tradicionais geram modelos que costumam ser muito confusos e difíceis de analisar
• Concept drift: No domínio da educação, currículos e treinamentos podem evoluir
ao longo do tempo e ocasionalmente sofrem grandes mudanças. A mudança de
conceito (concept drift) se refere a uma situação em que o processo mudará ao ser
analisado
• Interpretação dos resultados pelos usuários finais: Aplicação de técnicas de DataViz
e XAI podem facilitar a interpretação pelos usuários
Em revisão da literatura em na área de EDM, (Bogarín et al. 2018) cita os desafios ao
lidar com dados de ALogE, conforme tabela 2.2:
Tabela 2.2: Desafios ao trabalhar com ALogE
Desafio Descrição Exemplo
Correlação Os eventos são agrupados por caso em um
evento. Há necessidade dos eventos estarem
relacionados entre si
Os alunos realizam
ações semelhantes em
um fórum
Noise Um de eventos pode conter outliers. Um
comportamento excepcional não é represen-
tativo do comportamento típico do processo
Os alunos podem sair
de uma sessão aberta
2.2. LEARNING ANALYTICS 23
Incompletude Um problema comum é que o evento tam-
bém contém poucos eventos para poder des-
cobrir estruturas de fluxo de controle subja-
centes
Os sistemas de e-
learning saem do
ar
Distribuição Os dados podem ser distribuídos por uma va-
riedade de fontes
As informações do
aluno podem ser ob-
tidas de diferentes
fontes: informação
administrativa, teoria
e sala de aula prá-
tica, ambientes de
aprendizagem online,
etc.
Timestamp Os eventos precisam ser solicitados por caso.
Problemas típicos: Apenas datas, Fusos ho-
rários diferentes, Registro atrasado. Os casos
podem ter uma vida útil que se estende além
do período gravado
O aluno iniciou a ava-
liação porém o sistema
não registrou sua reso-
lução no ALogE
Escopo Qual é o processo que queremos investigar?
Como decidir quais tabelas incluir?
AVAs podem fornecer
tabelas diferentes para
investigar diferentes
processos
Granularidade Os eventos no ALogE estão em um nível di-
ferente de granularidade
As informações educa-
cionais podem ter di-
ferentes níveis de gra-
nularidade, variando de
cliques de baixo nível,
atividades, cursos, etc.
Contextualização Os eventos ocorrem em um determinado
contexto. Este contexto pode explicar cer-
tos fenômenos. Isso requer a fusão de dados
de eventos com dados contextuais
Os professores desco-
brem modelos em uma
classe de alunos repeti-
dos
Tamanho O número de casos ou eventos nos ALogE
pode ser alto. Esses arquivos podem ser difí-
ceis de manusear devido ao seu tamanho
AVAs podem gerar
grandes arquivos de
histórico
Complexidade Rastros e atividades distintos em registros de
eventos podem ser altos devido à grande di-
versidade de comportamentos dos alunos
Ambientes educaci-
onais podem gerar
modelos complexos
que são difíceis de
entender
24 CAPÍTULO 2. REFERENCIAL TEÓRICO
Concept drift
(Mudança de
conceito)
Situação em que o processo muda enquanto
está sendo analisados
Cursos, currículos
e avaliações podem
ser modificados a
qualquer momento
durante o período de
aprendizagem
Privacidade

Mais conteúdos dessa disciplina