Buscar

Extração de Fatores Latentes e Analise de Dados Sobre Alunos Egressos

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Extração de fatores latentes e análise de clusters em dados 
sobre egressos da UFC/Quixadá 
Crislânio de Souza Macêdo, Críston Pereira Souza, Lucas Ismaily Bezerra Freitas, 
Davi Romero de Vasconcelos 
Curso de Bacharelado em Ciência da Computação – Universidade Federal do Ceará 
(UFC) – Campus Quixadá 
Caixa Postal 15.064 – 91.501-970 – Ceará – CE – Brazil 
 crislanio.ufc@gmail.com, criston@ufc.com, ismailybf@ufc.br, 
daviromero@ufc.br 
Abstract. The aim of this study is to draw the profiles of students who have 
completed graduation on UFC Campus Quixadá. In order to do it, we applied 
a questionnaire for former students. The study takes place through the 
statistical techniques: Factor Analysis and K-Means Clustering. 
Resumo. O objetivo deste estudo é traçar os perfis de alunos que já 
concluíram a graduação na UFC em Quixadá. Para isso foi feito um 
questionário com alunos egressos. O estudo se dá através das técnicas 
estatísticas: Análise Fatorial (AF) e K-Means Clustering. 
1. Introdução 
Este trabalho segue a metologia do livro “Análise multivariada: para cursos de 
administração, ciências contábeis e economia” [DIAS FILHO, J.M,; CORRAR, L.J 
(2009)]. Não apresentamos detalhadamente a metodologia por falta de espaço. Temos 
como objetivo extrair quais características são mais importantes para diferenciar os 
alunos que se formam dos que evadem. Essa parte inicial é exploratória, e o estudo 
remete somente aos alunos egressos. 
2. Metodologia 
Foi utilizado um questionário com 15 questões respondidas por 72 egressos. Em 
seguida, utilizamos a ferramenta Statistical Package for the Social Sciences (SPSS) da 
IBM (1) para realizar as análises estatísticas nos dados, a saber: Análise Fatorial (AF) e 
K-means Clustering. 
3. Análise Multivariada de Dados 
A Análise Multivariada de Dados refere-se a um conjunto de métodos estatísticos que 
torna possível a análise simultânea de medidas múltiplas para cada indivíduo, objeto ou 
fenômeno observado [DIAS FILHO, J.M, CORRAR, L.J (2009)]. Para nossa análise 
utilizaremos duas técnicas descritas brevemente a seguir. 
3.1. K-Means 
Agrupamento k-means é um método de Clusterização que objetiva particionar n 
observações dentre k grupos, onde cada observação pertence ao grupo mais próximo do 
ponto médio do grupo. 
 
 
 
 
 
3.2. Análise Fatorial (AF) 
A AF é uma técnica estatística que estuda os inter-relacionamentos entre as variáveis, 
num esforço para encontrar um conjunto de fatores (em menor número que o conjunto 
de variáveis originais) que exprime o que as variáveis originais partilham em comum. A 
AF pressupõe que altas correlações entre as variáveis geram agrupamentos que 
configuram os fatores. Ela é usada para identificação de fatores que podem ser usados 
para explicar o relacionamento entre um conjunto de variáveis. 
4. Análise dos Dados 
Os dados em análise são descritos na Figura 1, temos as seguintes variáveis: teve_bolsa, 
ano_ingresso, ano_conc (onde os anos vão de 2007-2015, representados por 2007=0, 
2008=1 e assim em diante), tempo_fst_job, escolaridade_pai, escolaridade_mae (onde a 
escolaridade é representada pelo ponto médio em anos, Fund. Incompleto (FI)=4,5 anos 
e assim em diante ), n_familiares (representado pelo ponto médio, ou seja, de até 3 
pessoas=1,5 e assim por diante), renda (representado pelo ponto médio, renda até R$ 
1000=0,5 e assim em diante), curso_es, curso_si, curso_rc, duração_curso, 
anos_formado, idade_quando_se_formou, dist_cidade_pra_qxd (representado pela 
distância em km), onde as variáveis representam, respectivamente, as perguntas da 
Figura 1. 
 
 
 
 
Figura 1.Estatísticas Descritivas da amostra 
Fonte: O autor, 2015 
5. Resultados obtidos 
Na AF cada variável é explicada levando em consideração todas as outras, incluindo-se 
as variáveis latentes. Conseguimos um grau de explicação de 76,4 % com 6 fatores, ou 
seja, o modelo consegui explicar aproximadamente 77% da variância dos dados 
originais. 
 
Figura 2. AF fatores 
Fonte: O autor, 2015 
A Figura 2 mostra os fatores após a rotação Varimax (Rotated Component Matrix), 
onde é possível fazer uma classificação mais precisa dos indicadores em cada um dos 
fatores. Na análise a seguir, consideramos apenas os coeficientes dos fatores latente 
acima de 0,5. Desse modo podemos concluir que: o Fator 1 (“graduação”) é composto 
pelo ano de ingresso, ano de conclusão e anos formado; o Fator 2 (“percurso na 
graduação”) é composto pela idade quando se formou, se teve bolsa e duração do curso. 
Alunos com maior valor nesse fator são os mais velhos e que demoraram mais tempo 
para se formar, além de menor chance de ter obtido bolsa; o Fator 3 (“Estrutura 
familiar”); o Fator 4 (“Perfil do aluno de SI, RC n° de familiares”) é composto por 
curso si, rc e n° de familiares que dependem da renda; o Fator 5 (“Conseguir emprego 
durante a graduação”) é formado por alunos do curso de es. O Fator 6 (“Distância da 
cidade onde morava pra Quixadá”) formado pela variável dist_cidade_pra_qxd. 
Na Figura 4 temos a matriz de correlação, onde os valores variam de -1 a 1. Para Cohen 
(1988), escores entre 0,10 e 0,29 podem ser considerados pequenos; escores entre 0,30 e 
0,49 podem ser considerados médios; e escores entre 0,50 e 1 podem ser interpretados 
como grandes. 
 
 
 
 
Figura 3. Matriz de Correlação 
Fonte: O autor, 2015 
Através da matriz de correlação observamos que alunos com renda acima da média, 
tende a ter escolaridade dos pais, duração do curso acima da média e menor chance de 
ser do curso de redes. Os que se formaram mais jovens possuem chance acima da média 
de ter obtido bolsa durante a graduação, e propendem a se formar em menos tempo. 
Alunos mais jovens que terminaram a graduação em menos tempo têm chance acima da 
média de ter obtido bolsa durante a graduação. Alunos que concluíram a graduação mais 
velhos, tendem a possuir a renda e a duração da graduação acima da média. Alunos que 
se formaram com idade acima da média, propendem a ter a duração do curso maior e 
tem menor chance de ter obtido bolsa durante a graduação. A Figura 4 mostra um 
gráfico em 3D para os três fatores mais explicativos (fatores 1,2,3). As Figuras 5 e 6, 
mostra os agrupamento com 3 clusters e o número de casos em cada cluster. 
Consideramos como ponto de corte de 0,4 assim que na Figura 5 para 3 grupos, o 
cluster 1 desfraldam do Fator 3 (“Estrutura familiar”) e Fator 5 (“Conseguir emprego 
durante a graduação”) abaixo da média. No cluster 2 temos o Fator 3 acima da média. 
Para o cluster 3 temos alunos com Fator 2 (“percurso na graduação”) e Fator 3 abaixo 
da média, e Fator 4 acima da média. 
 
Figura 4. Gráfico Scatter para fatores de mais variância 
Fonte: O autor, 2015 
 
 
 
 
 
Figura 5. K-Means para 3 agrupamentos de fatores latentes 
Fonte: O autor, 2015 
 
 
Figura 6. Números de casos para casa agrupamento 
 Fonte: O autor, 2015 
6. Conclusão 
Em síntese este trabalho traz um estudo sobre os perfis de alunos egressos do Campus 
da UFC Quixadá. Como continuação deste trabalho realizaremos estudos para obter 
uma melhor compreensão dos motivos pelos quais os alunos evadem. 
Referências 
DIAS FILHO, J.M.; CORRAR, L.J. Regressão Logística. In: CORRAR, L.J.; 
PAULO, E.; DIAS FILHO, J.M. (Coord.). Análise multivariada:para cursos de 
administração, ciências contábeis e economia. FIPECAFI – Fundação Instituto de 
Pesquisas Contábeis, Atuariais e Financeiras; São Paulo: Atlas, 2009 
COHEN,Jacob. (1988),Statistical power analysis for the behavioral sciences. Hillsdale, 
NJ,Erlbaum. 
1 “Disponível: http://www-01.ibm.com/software/br/analytics/spss/ Outubro/2015.

Outros materiais