Utilizando_Analise_Discriminante_atraves

2

0

2

0

Peixoto Maria Macuácua

22/11/2020

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatistica Multivariada

81 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Utilizando Análise Discriminante através da extração de
fatores latentes para previsão de alunos bons na disciplina de
Estrutura de Dados na UFC Campus Quixadá
Crislânio de Souza Macêdo, David Oliveira Silva, Críston Pereira Souza, Lucas
Ismaily Bezerra Freitas,
Curso de Bacharelado em Ciência da Computação – Universidade Federal do Ceará
(UFC) – Campus Quixadá
Caixa Postal 15.064 – 91.501-970 – Ceará – CE – Brasil
crislanio.ufc@gmail.com, davidoliveirasilva@hotmail.com
criston@ufc.com, ismailybf@ufc.br
Abstract. The aim of this study is identify the profiles of good students in data
structure (ED) on UFC Campus Quixadá. In order to do it, we use data’s with
students of UFC Campus Quixadá. The study takes place through the
statistical techniques: Factor Analysis and Analyze Discriminant .
Resumo. O objetivo deste estudo é identificar os perfis de alunos bons em
estrutura de dados (ED) na UFC em Quixadá. Para isso foi utilizado uma
base de dados com alunos da UFC-Quixadá. O estudo se dá através das
técnicas estatísticas: Análise Fatorial (AF) e Análise Discriminante (AD).
1. Introdução
Este trabalho tem objetivo de identificar fatores que diferenciam um aluno ser bom ou
não em ED (passar na primeira vez que cursar a disciplina), com base nas disciplinas de
matemática básica (BÁSICA), matemática discreta (DISCRETA), fundamentos de
programação (FUP).
2. Metodologia
Foi utilizado uma base de dados dos alunos da UFC Campus Quixadá na qual foi
analisado (754 dados de entrada). Em seguida, utilizamos a ferramenta Statistical
Package for the Social Sciences (SPSS) da IBM (1) para realizar as análises estatísticas
nos dados, a saber: Análise Fatorial (AF) e Análise Discriminante (AD).
3. Análise Multivariada de Dados
A Análise Multivariada de Dados refere-se a um conjunto de métodos estatísticos que
torna possível a análise simultânea de medidas múltiplas para cada indivíduo, objeto ou
fenômeno observado [DIAS FILHO, J.M,; CORRAR, L.J (2009)]. Para nossa análise
utilizaremos duas técnicas descritas brevemente a seguir.
3.1. Análise Discriminante (AD)
A AD é uma técnica estatística que auxilia a identificar as variáveis que diferenciam os
grupos e quantas dessas variáveis são necessárias para obter a melhor classificação dos
indivíduos de uma determinada população.
file:///C:/Users/crisl_000/OneDrive/crislanio.ufc@gmail.com
davidoliveirasilva@hotmail.com
mailto:criston@ufc.com
file:///C:/Users/crisl_000/OneDrive/ismailybf@ufc.br

3.2. Análise Fatorial (AF)
A AF é uma técnica estatística que estuda os inter-relacionamentos entre as variáveis,
num esforço para encontrar um conjunto de fatores (em menor número que o conjunto
de variáveis originais) que exprime o que as variáveis originais partilham em comum.
4. Análise dos Dados
Na Figura 1 temos a estatística descritivas da amostra.

Figura 1.Estatística Descritiva da Amostra
Fonte: O autor, 2015

Figura 2.Gráfico Scatter para fatores de mais variância
Fonte: O autor, 2015
5. Resultados obtidos
Na AF cada variável é explicada levando em consideração todas as outras, incluindo-se
as variáveis latentes. Na Figura 3, vemos que o grau de explicação atingido por 3 fatores
é de 72,294 %, ou seja, o modelo consegui explicar aproximadamente 73% da variância
dos dados originais. Foi utilizado como método de extração a análise de componentes
principais.

Figura 3.Total de Variância Explicada
Fonte: O autor, 2015

A Figura| 4 mostra os fatores após a rotação Varimax (Rotated Component Matrix),
onde é possível fazer uma classificação mais precisa dos indicadores em cada um dos
fatores. Os Fatores formados foram Fator 1 (“Aluno bom em BÁSICA, DISCRETA,
FUP”) é composto por fup_media_medias, basica_media_medias,
discreta_media_medias; o Fator 2 (“Aluno Ruim em DISCRETA”) é composto por
discreta_media_faltas, discreta_n_rep_tranc; o Fator 3 (“Aluno que falta muito em
FUP, BÁSICA, e que reprova ou tranca BÁSICA”) é composto por fup_media_faltas,
basica_media_faltas, basica_n_rep_tranc;

Figura 4.Matriz dos Componentes Rotacionada
Fonte: O autor, 2015
Extraídos os fatores latentes foi feito uma AD, onde foi feito uma seleção aleatória dos
alunos. Em ED tivemos 655 alunos bons assim que escolhemos um total de 198 casos
aleatórias nas amostras para fazer a AD.

Figura 5.Tabelas de Frequências para Bons Alunos
Fonte: O autor, 2015

Figura 6.Estatística U
Fonte: O autor, 2015
Na Estatística U, vemos que o Fator 1 tem o melhor poder de discriminação, em função
do baixo valor da estatística de Wilks’ Lambda (quanto menor o valor e mais próximo
de zero melhor). No teste F-Anova o Fator 1 tem nível de significância <0,05 (indica
diferença significante entre as médias do grupo), esse teste auxilia o teste anterior e
confirma que de fato o Fator 1 é o que tem o melhor poder discriminante.
No teste de multicolinearidade o Fator 1 contribuiu para a formação de uma função
discriminante.

Figura 7.Função Discriminante
Fonte: O autor, 2015
Com base nos coeficientes não padronizados acima, a função discriminante (Escore Z)
é:
Z= 0,000 + 1,099(Fator 1) +0,417(Fator 2)

Figura 8.Centroides
Fonte: O autor, 2015
Os centroides dos grupos 0 e 1 são respectivamente 0,620 e -0,620. Calculando tem-se
Z’ = [99 (0,620) + 99(-0,620) / 198] = 0. Então, se utilizássemos os dados coletados da
primeira amostra e substituíssemos na função discriminante, encontraríamos Escore Z
no valor de: Z= 0,000+1,099 (99) + 0,417 (99) = 150,084. Como esse valor é maior que
o Z crítico classificamos essa observação no grupo 1. Tal classificação pela AD está
correta quando observamos a classificação original na Figura 10.

Figura 9.Capacidade Preditiva do Modelo
Fonte: O autor, 2015
Com a análise dos coeficientes na Figura 9 vemos que alunos com os coeficientes mais
altos no fator 1 e menor coeficiente no fator 2 serão classificados como bons alunos em
ED.

Figura 10.Classificação Final
Fonte: O autor, 2015
Utilizando a função discriminante, há 78 classificações corretas no grupo 0, e 68 no
grupo 1; sendo assim 73, 7% dos casos seriam classificados corretamente nos grupos
originais pela AD. Na Validação Cruzada 77, 8 % dos casos seriam classificados
corretamente no grupo 0 e 68, 7% no grupo 1.

Figura 11.Função Discriminante para os grupos 0 e 1
Fonte: O autor, 2015
Na Figura 11 vemos a discriminação dos grupos de alunos bons (aprovados na 1° vez
que fazem ED) e ‘ruins’.
6. Conclusão
Em síntese este trabalho traz um estudo sobre os perfis de alunos bons em ED no
Campus da UFC Quixadá. Foi possível observar que o Fator 1 foi mais importante para
determinar se o aluno terá bom desempenho em Estrutura de Dados.
Referências
DIAS FILHO, J.M.; CORRAR, L.J. Regressão Logística. In: CORRAR, L.J.; PAULO,
E.; DIAS FILHO, J.M. (Coord.). Análise multivariada: para cursos de administração,
ciências contábeis e economia. FIPECAFI – Fundação Instituto de Pesquisas
Contábeis, Atuariais e Financeiras; São Paulo: Atlas, 2009
COHEN, Jacob. (1988), Statistical power analysis for the behavioral sciences. Hillsdale,
NJ, Erlbaum.
1 “Disponível: http://www-01.ibm.com/software/br/analytics/spss/ Novembro/2015.
http://www-01.ibm.com/software/br/analytics/spss/