Buscar

FatoresQueInfluenciam-RAgo-2021

Prévia do material em texto

Universidade Federal do Rio Grande do Norte
Centro de Ciências Exatas e da Terra
Departamento de Estatística
Fabrício Emiliano Dantas do Rêgo
Fatores que influenciam na nota da redação do
ENEM no Rio Grande do Norte
Natal - RN
Abril de 2021
Fabrício Emiliano Dantas do Rêgo
Fatores que influenciam na nota da redação do ENEM no
Rio Grande do Norte
Monografia de Graduação apresentada ao De-
partamento de Estatística do Centro de Ci-
ências Exatas e da Terra da Universidade
Federal do Rio Grande do Norte como re-
quisito parcial para a obtenção do grau de
Bacharel em Estatística.
Universidade Federal do Rio Grande do Norte
Centro de Ciências Exatas e da Terra
Departamento de Estatística
Orientador: Prof. Dr. Antonio Hermes Marques da Silva Junior
Natal - RN
Abril de 2021
Rêgo, Fabrício Emiliano Dantas do.
 Fatores que influenciam na nota da redação do ENEM no Rio
Grande do Norte / Fabrício Emiliano Dantas do Rêgo. - 2021.
 61f.: il.
 Monografia (Bacharelado em Estatística) - Universidade
Federal do Rio Grande do Norte, Centro de Ciências Exatas e da
Terra, Departamento de Estatística. Natal, 2021.
 Orientador: Prof. Dr. Antonio Hermes Marques da Silva Junior.
 1. Estatística - Monografia. 2. GAMLSS - Monografia. 3. INEP
- Monografia. 4. Machine Learning - Monografia. 5. Regressão
semi-paramétrica - Monografia. 6. Distribuição Beta -
Monografia. I. Silva Junior, Antonio Hermes Marques da. II.
Título.
RN/UF/CCET CDU 519.2
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET
Elaborado por Joseneide Ferreira Dantas - CRB-15/324
Fabrício Emiliano Dantas do Rêgo
Fatores que influenciam na nota da redação do ENEM no
Rio Grande do Norte
Monografia de Graduação apresentada ao De-
partamento de Estatística do Centro de Ci-
ências Exatas e da Terra da Universidade
Federal do Rio Grande do Norte como re-
quisito parcial para a obtenção do grau de
Bacharel em Estatística.
Aprovado em de de .
Prof. Dr. Antonio Hermes Marques da
Silva Junior
Orientador – DEST/UFRN
Prof. Dr. Francisco Moisés Cândido
de Medeiros
Examinador – DEST/UFRN
Profa. Dra. Fernanda de Bastiani
Examinadora – DE/UFPE
Natal - RN
Abril de 2021
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
SISTEMA INTEGRADO DE PATRIMÔNIO, ADMINISTRAÇÃO E
CONTRATOS
FOLHA DE ASSINATURAS
Emitido em 03/05/2021
ATA Nº 7/2021 - EST/CCET (12.02) 
 NÃO PROTOCOLADO)(Nº do Protocolo:
 (Assinado digitalmente em 03/05/2021 14:28 )
ANTONIO HERMES MARQUES DA SILVA JUNIOR
PROFESSOR DO MAGISTERIO SUPERIOR
EST/CCET (12.02)
Matrícula: 1714215
 (Assinado digitalmente em 05/05/2021 15:11 )
FRANCISCO MOISES CANDIDO DE MEDEIROS
PROFESSOR DO MAGISTERIO SUPERIOR
EST/CCET (12.02)
Matrícula: 2612836
 (Assinado digitalmente em 04/05/2021 10:45 )
FERNANDA DE BASTIANI
ASSINANTE EXTERNO
CPF: 062.334.179-45
Para verificar a autenticidade deste documento entre em informando seu número: ,https://sipac.ufrn.br/documentos/ 7
ano: , tipo: , data de emissão: e o código de verificação: 2021 ATA 03/05/2021 6214362fae
Dedico esse trabalho ao meu pai Irineu, à minha mãe Jeane, aos meus irmãos Ueniry
Felipe e Francisco Emiliano, à minha namorada Jaylhane, ao meu amigo Rayland, ao
meu amigo Franklyn e ao meu orientador ,e hoje amigo, Antônio Hermes, pois foram as
pessoas que me deram apoio para alcançar essa conquista.
Agradecimentos
Agradeço à minha mãe, ao meu pai e aos meus irmãos por toda alegria, amor, afeto
e conselhos para a vida. À Jaylhane, minha namorada, por me ajudar a manter os “pés no
chão”, por todo o apoio, amor, companheirismo e carinho. Ao meu amigo Rayland pela
sincera amizade, por me acompanhar nessa jornada acadêmica, profissional e partilhar
os momentos na vida. Ao meu amigo de longa data Franklyn, pela amizade firme, por se
manter presente e por todo o apoio que me foi dado, e ao meu orientador Antônio Hermes
por aceitar e me guiar nesse desafio e me aconselhar durante os obstáculos enfrentados.
Agradeço também ao Programa de Educação Tutorial e os amigos que lá fiz, pois foi para
mim um momento de crescimento acadêmico, profissional e social. Por fim, Agradeço à
Universidade Federal do Rio Grande do Norte e os seus programas de assistência social
que fizeram toda a diferença para chegar onde estou hoje.
“[...] A motivação (do senso comum) é volátil como álcool que, ao despejar um pouco
sobre a mesa, logo evapora [...]. Ao invés da motivação, precisamos de disciplina para
fazer o que precisa ser feito, precisamos também da persistência para fazê-lo várias vezes
repetidamente até atingir o objetivo final e também, um dos mais importantes aspectos, é
o comprometimento, que, querendo ou não, é se colocar vulnerável para o fracasso. A
união desses três aspectos torna-lhe apto para conseguir atingir seu objetivo final com o
maior potencial que você tem.”
Júlio Lobo.
Resumo
As notas obtidas no Exame Nacional do Ensino Médio (ENEM) são um dos mais importan-
tes critérios de acesso as universidades públicas e privadas no Brasil. O exame é composto
de provas nas áreas de Ciências Humanas e suas tecnologias, Ciências da Natureza e suas
tecnologias, Matemática e suas tecnologias, Linguagens e códigos e suas tecnologias e
Redação, sendo a última a única prova não objetiva. Diante disso, o presente trabalho aplica
a teoria do modelo beta ajustado em zeros sob a ótica dos modelos aditivos generalizados
para localização, escala e forma para realizar a análise de regressão das notas da redação
dos participantes que realizaram o ENEM 2019 no Rio Grande do Norte. Os resultados
indicam por meio das variáveis preditoras que o comportamento da nota da redação para
participantes que estudam em escolas privadas é diferente do comportamento da nota
da redação dos participantes em escolas federais, mas que em geral, quanto mais alta as
notas nas provas relacionadas com Ciências Humanas e suas tecnologias ou Linguagens e
Códigos e suas tecnologias maior a chance de atender corretamente aos critérios da nota
da redação e assim alcançar escores mais altos na redação.
Palavras-chave: GAMLSS. INEP. Machine Learning. Regressão semi-paramétrica. Dis-
tribuição Beta.
Abstract
The scores obtained in the Exame Nacional do Ensino Médio (ENEM) are one of the most
important criteria for access to both public and private universities in Brazil. The exam
consists of tests in the areas of Human Sciences and its technologies, Natural Sciences
and its technologies, Mathematics and its technologies, Languages and codes, and its
technologies, and Writing, the last being the only non-objective test. Therefore, the present
work applies the theory of the beta model adjusted in zeros from the perspective of the
generalized additive models for location, scale, and shape to perform the regression analysis
of the essay notes of the participants who took the ENEM 2019 in Rio Grande do Norte.
The results indicate through the predictor variables that the behavior of the essay grade
for participants who study in private schools is different from the behavior of the essay
grade of participants in federal schools, but that in general, the higher the grades in the
tests related to Humanities and their technologies or Languages and Codes and their
technologies the greater the chance of correctly meeting the criteria of the essay score and
thus reaching higher scores in the essay.
Keywords: GAMLSS. INEP. Machine Learning. Semi-parametric regression. Beta Distri-
bution.
Lista de ilustrações
Figura 3.1 – Histograma da distribuição de notas da redação para os participantes
de escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Figura 3.2 – Gráfico de dispersão das notas da redação versus a nota nas provas
objetivas para os participantes de escolas privadas . . . . . . . . . . . . 27
Figura 3.3 – Histograma da distribuição de notas da redaçãode acordo com a nota
em Ciências da Natureza e suas Tecnologias para os participantes de
escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 3.4 – Histograma da distribuição de notas da redação de acordo com a nota
em Ciências Humanas e suas Tecnologias para os participantes de escolas
privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 3.5 – Histograma da distribuição de notas da redação de acordo com a nota
em Linguagens e códigos e suas Tecnologias para os participantes de
escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 3.6 – Histograma da distribuição de notas da redação de acordo com a nota
em Matemática e suas Tecnologias para os participantes de escolas
privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Figura 3.7 – Histograma da distribuição de notas da redação de acordo com a pre-
sença de telefone fixo na casa dos participantes de escolas privadas . . 29
Figura 3.8 – Histograma da distribuição de notas da redação de acordo com o tipo
de escola que os participantes de escolas privadas estudaram na maior
parte do ensino médio . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Figura 3.9 – Histograma da distribuição das notas da redação para os participantes
de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Figura 3.10–Gráfico de dispersão das notas da redação versus a nota nas provas
objetivas para os participantes de escolas federais . . . . . . . . . . . . 33
Figura 3.11–Histograma da distribuição das notas da redação de acordo com as
notas em Ciências da Natureza e suas Tecnologias para os participantes
de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Figura 3.12–Histograma da distribuição das notas da redação de acordo com as
notas em Ciências Humanas e suas Tecnologias para os participantes
de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Figura 3.13–Histograma da distribuição das notas da redação de acordo com as
notas em Linguagens e Códigos e suas Tecnologias para os participantes
de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 3.14–Histograma da distribuição das notas da redação de acordo com as notas
em Matemática e suas Tecnologias para os participantes de escolas federais 35
Figura 3.15–Histograma da distribuição das notas da redação de acordo com a idade
dos participantes de escolas federais . . . . . . . . . . . . . . . . . . . . 36
Figura 3.16–Histograma da distribuição das notas da redação de acordo com o sexo
dos participantes de escolas federais . . . . . . . . . . . . . . . . . . . . 36
Figura 3.17–Histograma da distribuição das notas da redação de acordo com a
presença de aparelho de DVD na residência dos participantes de escolas
federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 3.18–Histograma da distribuição das notas da redação de acordo com a
presença de telefone celular na residência dos participantes de escolas
federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 5.1 – Diagrama da divisão da modelagem dos dados . . . . . . . . . . . . . . 46
Figura 5.2 – Worm plot dos resíduos do modelo para os participantes que estudaram
em escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 5.3 – Análise dos resíduos do modelo para os participantes que estudaram
em escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 5.4 – Análise de resíduos do modelo para os participantes que estudaram em
escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Figura 5.5 – wormplot dos resíduos do modelo para os participantes que estudaram
em escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Lista de tabelas
Tabela 3.1 – Resumo das variáveis para participantes de escolas privadas . . . . . . 24
Tabela 3.2 – Resumo das variáveis para o conjunto dos participantes de escolas
federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Tabela 4.3 – Funções de ligação canônicas para o respectivo parâmetro da distribuição
BEZI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Tabela 5.1 – Tabela de construção da modelagem das escolas privadas . . . . . . . . 47
Tabela 5.2 – Critérios de seleção dos modelos para a nota da redação dos alunos que
estudaram em escolas privadas . . . . . . . . . . . . . . . . . . . . . . 48
Tabela 5.3 – Estimativa dos coeficientes do modelo para a nota da redação dos
participantes que estudaram em escolas privadas . . . . . . . . . . . . 50
Tabela 5.4 – Tabela da estimativa dos coeficientes do modelo para a média da nota
da redação das escolas privadas . . . . . . . . . . . . . . . . . . . . . . 51
Tabela 5.5 – Construção do modelo para os participantes que estudaram em escolas
federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Tabela 5.6 – Tabela contendo critérios de seleção dos modelos para a nota da redação
dos alunos que estudaram em escolas privadas . . . . . . . . . . . . . . 54
Tabela 5.7 – Estimativa dos coeficientes do modelo para a nota da redação dos
participantes que estudaram em escolas federais . . . . . . . . . . . . . 56
Tabela 5.8 – Tabela da estimativa dos coeficientes do modelo para a média da nota
da redação das escolas federais . . . . . . . . . . . . . . . . . . . . . . 57
Sumário
Lista de ilustrações . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Lista de tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Estrutura da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 REVISÃO DA LITERATURA . . . . . . . . . . . . . . . . . . . . . . 17
3 BASE DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1 Processamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Estatísticas descritivas para participantes de escolas privadas . . . . 24
3.4 Estatísticas descritivas para participantes de escolas federais . . . . 30
4 MODELAGEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1 Os Modelos Aditivos Generalizados para Localização, Escala e Forma 38
4.1.1 Processo de estimação do modelo . . . . . . . . . . . . . . . . . . . . . 39
4.1.2 Algoritmo RS() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2.1 Iteração externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2.2 Iteração interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2.3 O algoritmo de retroajustamento modificado . . . . . . . . . . . . . . . . . . 42
4.2 Distribuição Beta Ajustada em Zero . . . . . . . . . . . . . . . . . . . 43
4.3 Metodologia para seleção de modelos . . . . . . . . . . . . . . . . . . 44
4.3.1 Seleção das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2 Pacotes Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4 Metodologia da apresentação dos resultados . . . . . . . . . . . . . . 45
5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1 Modelagem para participantes de escolas privadas . . . . . . . . . . 46
5.1.1 Seleção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1.2 Análise de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.3 Apresentação das estimativas dos coeficientes .. . . . . . . . . . . . . . . 49
5.2 Modelagem para Escolas Federais . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Seleção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.2 Análise de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.3 Apresentação das estimativas dos coeficientes . . . . . . . . . . . . . . . . 56
6 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 59
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
14
1 Introdução
O Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP),
desenvolveu, em 1998, a primeira versão do Exame Nacional do Ensino Médio (ENEM) com
o objetivo de avaliar o aprendizado, bem como influenciar o currículo do ensino médio no
Brasil. Em 1999, o exame passou a ser uma alternativa ao vestibular em 93 instituições de
ensino superior do país, em 2004 o exame passou a servir de ingresso em cursos superiores
para os estudantes que, utilizando a nota obtida na prova, puderam inscrever-se e concorrer
a bolsas de estudos integrais ou parciais em universidades particulares pelo Programa
Universidade para Todos (ProUni). A partir da criação do Sistema de Seleção Unificada
(SiSU) em 2009, o ENEM ganhou sua segunda versão que se mantém até os dias atuais e
se tornou o principal meio de acesso às universidades públicas brasileiras. Nessa versão
o exame passou a ter 45 questões objetivas nas provas dos seguintes temas: Linguagens,
Códigos e suas Tecnologias e Redação, Ciências Humanas e suas Tecnologias, Ciências
da Natureza e suas Tecnologias e Matemática e suas Tecnologias. As provas passaram a
ser aplicadas no sábado e domingo consecutivos. Em 2013 o ENEM passou a ser porta de
entrada para todas as instituições de ensino superior públicas do país. Em 2017, quando o
INEP fez uma consulta pública para levantar melhorias, o exame passou a ser aplicado em
dois domingos consecutivos, em que a redação passou a ser aplicada no primeiro domingo e
a certificação do Ensino Médio passou a não ser mais competência do ENEM, a aplicação
ficou mais acessível com a criação da videoprova em libras e mais segura com a adoção
do identificador de receptor de ponto eletrônico. O INEP disponibiliza em seu site os
microdados do ENEM desde 1998 até 2019, sendo esse último o que está sendo utilizado
para desenvolvimento desse trabalho.
1.1 Motivação
Quando se pesquisa sobre modelagem de dados do ENEM na literatura, na maioria
das vezes são encontrados estudos que utilizaram uma abordagem de modelos de regressão
com efeitos aleatórios para modelar parâmetros de localização e desconsiderando as notas
zero que os alunos obtiveram. Diante disso, a motivação para realizar esse trabalho surgiu
em modelar as notas da redação, incluindo os zeros, dos participantes do ENEM 2019
para verificar que características influenciam no comportamento da nota da redação. A
inclusão dos zeros no modelo permite desvendar as variáveis que têm relação na chance do
participante obter nota zero e com esse conhecimento permitir que o gestor da instituição
de ensino crie medidas para que diminua a chance de seus alunos obterem nota zero na
redação do ENEM.
Capítulo 1. Introdução 15
1.2 Justificativa
Esse estudo é importante por apresentar as variáveis que influenciam a nota da
redação como um todo, englobando tanto as notas zero como as que não são zero do Exame
Nacional do Ensino Médio em 2019 no estado Rio Grande do Norte (RN) para as escolas
privadas e escolas federais para que pesquisas desenvolvidas envolvendo professores e alunos
da UFRN possam contribuir para a comunidade vizinha a ela. A redação é a única prova
subjetiva do ENEM, pois o participante precisa utilizar suas habilidades e seu conhecimento
para desenvolver um texto que atenda aos critérios de avaliação, por essa razão, a nota
da redação é interessante de ser modelada. A interpretação dos resultados auxiliarão
os gestores das instituições de ensino a conhecerem melhor as variáveis que afetam o
desempenho de seus alunos no ENEM e, a partir disso, tomarem decisões que auxiliem
na melhoria da educação de suas turmas e, consequentemente, do estado. Escolheu-se o
Rio Grande do Norte como população para essa análise por que na literatura não existem
estudos que aplicam um modelo de regressão para a nota da redação considerando os zeros
obtidos para essa unidade da federação e a quantidade de zeros obtidos no ENEM não é
negligenciável. Portanto, considerar os zeros da nota da redação enriquece a literatura e os
resultados pois desvenda quais são as variáveis que influenciam na chance do participante
obter zero na nota da redação.
1.3 Objetivos
O objetivo geral desse trabalho é investigar e identificar variáveis que influenciam
na nota da redação do ENEM do ano de 2019 no estado do Rio Grande do Norte utilizando
uma abordagem de modelos de regressão semiparametricos. Portanto, para ser possível
alcançar o objetivo geral, serão respondidos os seguintes objetivos específicos:
1- Estudar o modelo beta ajustado em zero dentro do contexto da classe dos modelos
aditivos generalizados para localização, escala e forma;
2- Aplicar o ajuste do modelo beta ajustado em zero às notas da redação do ENEM
2019 no Rio Grande do Norte;
3- Com base no modelo ajustado, desvendar quais são as variáveis presentes nos
microdados que influênciam na nota da redação dos participantes do ENEM 2019
no estado do Rio Grande do Norte.
1.4 Estrutura da Monografia
A estrutura do trabalho se organiza da seguinte maneira: No Capítulo 2 é apre-
sentado o referencial teórico sobre o tema de modelagem dos microdados do ENEM, no
Capítulo 1. Introdução 16
Capítulo 3 são apresentadas estatísticas descritivas da base de dados utilizada, no Capítulo
4 é apresentado o modelo de regressão beta ajustado em zero, no Capítulo 5 são discutidos
os resultados obtidos com a modelagem e no Capítulo 6 são tratadas das considerações
finais do presente trabalho.
17
2 Revisão da literatura
O ENEM é amplamente discutido na literatura, uma vez que o exame tem o
propósito de avaliar a qualidade da educação brasileira, além de ser a porta princípal de
entrada para os brasileiros ingressarem no ensino superior nos dias atuais. Na literatura,
existem diversos trabalhos no tema de análise de regressão, mas percebeu-se que em geral
utilizam-se de modelos de efeitos aleatórios para modelar as notas nas provas do exame e
não é comum utilizar uma estrutura de regressão que considere modelar os zeros obtidos
pelos participantes. No trabalho de (PEREIRA et al., 2019) utiliza-se uma distribuição
beta ajustada em zero aos dados do ENEM 2014 tendo como variável resposta a nota
da redação e como variáveis preditoras as notas nas quatro provas objetivas, a idade e
também o sexo dos participantes. Nessa edição, os autores observaram que 51 participantes
obtiveram nota zero na redação. A aplicação desse método aos dados do ENEM foi para
averiguar o desempenho da nova classe de resíduos que os autores desenvolveram. Devido
a escassez de trabalhos que consideram as notas zero obtidas pelos participantes, abaixo
são apresentados trabalhos que utilizam métodos de análise de regressão para uma ou
mais provas que constituem a nota final do ENEM.
Travitzki, Calero e Boto (2014) estudam as possibilidades de se utilizar o ENEM
como indicador do ensino médio no Brasil por meio do uso da regressão com efeitos
aleatórios, o autor analisa a diferença entre as 5 notas obtidas pelos alunos no ENEM do
ano de 2009 e 2010. As variáveis respostas usadas foram a diferença da nota geral dos
alunos do ano de 2010 menos 2009 e a média aritmética das notas obtidas pelos alunos no
ENEM 2010.
No trabalho de Travitzki, Ferrão e Couto (2016), os autores analisaram a nota
de Linguagens e Códigos e suas tecnologias e de Matemática e Suas tecnologias dos
participantes do ENEM 2009 ao ENEM 2012 utilizando-se do método de curvas de Lorenz,
coeficiente de Gini e regressão com efeitos aleatórios. Em seus resultados evidencia-seque o acesso à educação está mais igualitário na geração dos participantes entre essas
edições comparando com o acesso à educação aos pais desses participantes. Nesse estudo
considera-se quatro UFs de acordo com o critério de selecionar duas UFs que apresentam a
maior renda per capita e duas UFs que apresentam a menor renda per capita do país. As
análises do trabalho dividiram-se em duas etapas, na primeira etapa utilizam-se as análises
das curvas de Lorenz e o respectivo coeficiente de Gini a fim de ilustrar a distribuição
da educação na população brasileira. Na segunda etapa realiza-se a análise de regressão
com efeitos aleatórios como sendo os municípios e escolas dos participantes. Nesse estudo
são criados três modelos de regressão, sendo o primeiro o modelo nulo contendo apenas o
intercepto, o efeito aleatório referente à escola j, o efeito aleatório referente ao município k
Capítulo 2. Revisão da literatura 18
e o erro desse modelo. O modelo 1 com o intercepto, dois coeficientes de variação referente
às duas variáveis preditoras (Nível Socioeconômico (NSE) e Cor/Raça), o efeito aleatório
referente à escola j e o efeito aleatório referente ao município k e o erro desse modelo. Por
fim o modelo 2 com o intercepto, um coeficiente da variável NSE variando nas diferentes
escolas, um coeficiente de variação da variável Cor/Raça e o efeito aleatório referente à
escola j, o efeito aleatório referente ao município k e o erro desse modelo. A distribuição do
erro aleatório dos modelos é �ijk ∼ N(0,σ22e). O modelo nulo é mostrado na Equação 2.1, o
modelo 1 é apresentado na Equação 2.2 e o modelo 2 é apresentado na Equação 2.3, vale
ressaltar que apenas esse trabalho considerou k como sendo o município do participante. Os
resultados alcançados pelos autores mostram que apesar de haver uma melhoria no acesso
à educação nas UFs com menor renda per capita, tal melhoria ainda é inferior ao acesso à
educação de UFs com maior renda per capita. Diante desse resultado, ao considerar para o
presente trabalho apenas os dados dos participantes nascidos e residentes do Rio Grande
do Norte mantém os resultados mais homogêneos pois esses participantes cresceram no RN
e obtiveram influências econômicas, sociais, culturais e políticas semelhantes. Portanto, os
modelos são definidos como:
yijk = β0 + uj + vk + �ijk, (2.1)
yijk = β0 + β1x1ijk + β2x2ijk + uj + vk + �ijk, (2.2)
yijk = β0 + β1jx1ijk + β2x2ijk + u0j + vk + �ijk
β1j = β1 + u1j
(2.3)
em que yijk é o desempenho nas notas das provas de matemática ou linguagens e códigos
do aluno i, pertencente à escola j e ao município k, x1ijk é a escolaridade média em anos
dos pais do aluno i, pertencente à escola j e ao município k. x2ijk é a cor da pele (variável
binária) do aluno i pertencente à escola j e ao município k, β1 e β2 são os coeficientes
fixos das variáveis x1 e x2, respectivamente, β1j é o coeficiente da variável x1, que varia
entre as diferentes escolas, ui e vk são os efeitos aleatórios na escola j e no município k,
�ijk é o erro referente ao desempenho do aluno i, pertencente à escola j e ao município k.
No trabalho Oliveira (2017) utiliza-se de métodos de mineração de dados e árvores
de decisão para encontrar características da escola que influenciam nas notas do ENEM.
Como resultado foram encontradas 52 características que influenciam no desempenho da
escola no ENEM. Esses atributos indicam que quanto melhor a infraestrutura da escola
Capítulo 2. Revisão da literatura 19
maior o desempenho desta no ENEM, mas também que fatores socioeconômicos dos alunos
influenciam no desempenho da escola no ENEM.
Albuquerque (2017) utilizando os microdados do ENEM 2015 estudou o desempenho
dos alunos na prova de Matemática e suas tecnologias. Estimou-se um modelo de regressão
com intercepto aleatório em dois níveis sendo o primeiro relacionado às características
socioeconômicas dos alunos e o segundo relacionado ao tipo de escola (pública ou privada).
Na Equação 2.4 é apresentado o modelo de regressão utilizado no trabalho.
yij = β0j + β1jXij + �ij,
β0j = γ00 + γ01Zj + u0j,
β1j = γ10
(2.4)
Em que i indica o indivíduo (i = 1 . . . nj), yij representa o desempenho do estudante
na nota de matemática que varia no intervalo de [0,1000], β0j é o intercepto, β1j é o
coeficiente angular da regressão Xij é a matriz de variáveis independentes relacionadas
ao nível dos alunos, Zj representa a variável tipo da escola, �ij e u0j são termos do erro
que pertencem ao primeiro e segundo efeitos aleatórios, respectivamente, com média 0
e variância σ2, γ10 caracteriza a média dos coeficientes de regressão das j escolas para
as variáveis independentes. Substituindo β0j e β1j na equação de regressão obtém-se a
Equação 2.5.
yij = γ00 + γ01Zj + γ10Xi + u0j + �ij (2.5)
Em Oliveira et al. (2017) realiza-se um estudo das escolas públicas do estado do
Goiás que ofertam o ensino médio utilizando os microdados do ENEM 2014 e dados
institucionais de cada escola do estado fornecidos pela Secretaria de Educação do Goiás.
Empregou-se nesse estudo a análise envoltória de dados (método não-paramétrico) e
também o modelo de regressão inflacionado de zero para identificar quais foram as escolas
mais eficientes do estado. Entende-se por escola eficiente como a escola que realiza a
alocação ótima dos recursos para obter maior desempenho. O autor compara o desempenho
dos alunos com relação ao investimento na educação segundo municípios e estado do Goiás.
Lobo, Cassuce e Cirino (2017) realizam um estudo do desempenho escolar dos
estudantes da região Nordeste que participaram do ENEM. Nesse trabalho utilizou-se o
modelo de efeitos aleatórios cuja variável resposta é a nota em matemática e os efeitos
aleatórios são considerados como o primeiro nível o estudante e o segundo nível a escola,
dentro de cada nível há uma estrutura de regressão.
Na dissertação de pós-graduação em Educação Brasileira do autor Carvalho (2017)
estuda-se os fatores socioeconômicos associados ao desempenho dos estudantes na prova de
Capítulo 2. Revisão da literatura 20
redação do Exame Nacional do Ensino Médio ENEM. Nesse estudo analisa-se a nota obtida
pelos estudantes em redação agrupadas nas diferentes variáveis que constituem o nível
socioeconômico, como raça/cor, renda familiar, tipo de escola (pública ou privada), entre
outras. As ferramentas estatísticas utilizadas foram a ANOVA, os testes de homogeneidade
de variância ou apenas teste de Levene, teste de igualdade das médias e teste de Tukey HSD.
As análises contemplam alunos de escola pública e privada do país, concluintes/concludentes
do ensino médio, que realizaram a prova de redação e responderam o questionário contextual,
incluindo o intervalo de [0,1000) em sua análise. O software utilizado para esse trabalho
foi o SPSS.
De forma análoga Fernandes (2018) utiliza modelos com efeitos aleatórios para
analisar o resultado do ENEM de cada aluno, que é formada pela média aritmética das
4 (quatro) notas das provas mais nota da redação. Na etapa do pré-processamento dos
dados, a autora excluiu os registros dos alunos que obtiveram nota zero eliminando qual
quer inflação de zero que pudessem existir. O modelo utilizado encontra-se na Equação 2.6
yij =β0j + β1jXij + β2jXij + �ij,
β0j =γ00 + γ01Zj + u0j,
β1j =γ10 + γ11Zj + u1j
(2.6)
Em que i indica cada indivíduo (i = 1, . . . , nj), j indica o tipo da escola (j = 1,2), sendo 1
para pública e 2 para particular, yij é a média aritmética das quatro provas e redação do
estudante i, ela varia no intervalo de [0,1000], β0j é o intercepto, β1j é o coeficiente angular
da regressão, Xij é a matriz de variáveis independentes relacionadas aos alunos como sexo,
escolaridade da mãe e idade, Zj é a variável pertencente ao tipo da escola, �ij, u0j e u1j
são termos do erro que pertencem aos níveis dos efeitos aleatórios com média 0 e variância
σ2, γ10 caracteriza a média dos coeficientes de regressão das j escolas para as variáveis
independentes, Se substituir β0j e β1j na equação de regressão, tem-se a Equação 2.7
yij=γ00 + γ01Zj + γ10Xi + u0j + �ij (2.7)
Os autores Pereira et al. (2019) desenvolveram uma nova classe de resíduos para
identificação de outliers em modelos de regressão ajustados em zero. O estudo utiliza
simulações com o método de Monte Carlo para validar as propriedades da nova classe
de modelos e também ajusta um modelo de regressão beta inflacionado de zero a uma
amostra aleatória de 1000 (mil) registros do ENEM de 2014 tendo como variável resposta a
nota na redação e como variáveis preditoras as 4 (quatro) notas nas provas, o gênero do(a)
aluno(a) e a idade para identificar os outliers presente nessa amostra. Por fim, constatou-se
Capítulo 2. Revisão da literatura 21
que a nova classe de resíduos é melhor para identificação de outliers na regressão beta
ajustada em zero do que os resíduos usuais.
O trabalho de Lima (2018) é uma monografia de graduação em Estatística. Nesse
trabalho utilizam-se técnicas de estatística multivariada para analisar o desempenho obtido
no ENEM 2015 pelos participantes que ingressaram na UFRN em 2016 pelo SiSU e também
estudar o desempenho no curso um ano após o ingresso na universidade. Os resultados
das análises permitiu separar os cursos em quatro grupos distintos. Percebeu-se que as
variáveis socioeconômicas têm impacto no desempenho dos participantes durante o exame,
de maneira que a competição por uma vaga na universidade não é justa para todos, sendo
o ingresso mais difícil para os participantes menos favorecidos socioeconomicamente. Entre-
tanto, as variáveis socioeconômicas não se mostraram significativas quanto ao desempenho
após o ingresso no curso e muito provavelmente por conta das políticas de incentivo da
universidade, como bolsas de estudo, auxílio creche, auxilio moradia entre outros.
Na dissertação de Silva (2020) estuda-se o modelo de regressão beta modal e
aplica-se o modelo a dois conjuntos de dados, a primeira aplicação considera a taxa de
analfabetismo tendo como variável preditora o Índice de Desenvolvimento Humano (IDH)
dos municípios do estado de Mato Grosso em 2010 e na segunda aplicação ajusta-se o
modelo proposto aos dados do ENEM 2017 para os participantes que haviam concluído o
ensino médio e foram aprovados na UFRN nesse mesmo ano, tendo como variável resposta
a porcentagem de acertos na prova de linguagens, códigos e suas tecnologias como e as
demais variáveis foram utilizadas como variáveis preditoras.
É importante informar que o trabalho de Silva (2020) tem uma proposta diferente
da proposta deste trabalho, uma vez que a variável resposta da dissertação foi a nota
em Linguagens, Códigos e suas Tecnologias do ENEM 2017 e utilizou-se do modelo de
regressão para modelar a moda da variável, o presente trabalho tem como variável resposta
a nota da redação do ENEM do ano de 2019 e utiliza-se a regressão beta ajustada em zero
tendo como objetivo desvendar quais variáveis influenciam a nota da redação.
Diante de todos os trabalhos apresentados nessa seção, o presente trabalho traz uma
nova perspectiva na análise de dados do ENEM pois, a estruturação da classe de modelos
aditivos generalizados para localização, escala e forma utilizando-se a distribuição beta
ajustada em zero permite que uma estrutura de regressão seja criada para a localização da
variável, outra estrutura de regressão para a variabilidade da variável, e outra estrutura de
regressão para a probabilidade do participante obter nota zero e demais parâmetros. As
estruturas de regressão podem ser lineares, não lineares e também podem conter funções de
suavização. Desta forma, o presente trabalho traz uma inovação para a literatura voltada
a análise de dados do ENEM.
22
3 Base de dados
3.1 Processamento dos dados
O tema da redação do ENEM 2019 era “Democratização do acesso ao cinema no
Brasil”, a nota que os alunos obtiveram na redação foi utilizada como variável resposta
na modelagem desse trabalho. Os dados dos participantes contendo tanto a nota da
redação como as demais variáveis encontram-se nos microdados do ENEM 2019 que estão
disponíveis no site oficial do Instituto Nacional de Estudos e Pesquisas Educacionais
(INEP). A população em estudo são participantes nascidos e que residiam no Rio Grande
do Norte (RN) durante a execução das provas. Fez-se essa seleção para manter no estudo os
participantes mais homogêneos, ou seja, que receberam influências econômicas, geográficas,
culturais e educacionais que existem no RN, evitando manter em estudo, alunos que
porventura nasceram no RN e mudaram-se para outro estado ou alunos que nasceram em
outro estado e mudaram-se para o RN algum tempo antes de realizar o exame. Infelizmente,
é possível que alguns alunos, apesar de nascidos e residirem no RN durante o exame,
tenham morado em algum outro estado e mudou-se de volta para o RN antes da realização
das provas. As estatísticas descritivas apresentadas nessa seção são referentes às variáveis
que se mostraram significativas na modelagem da nota da redação.
Essa população foi selecionada, pois, de acordo com Travitzki, Ferrão e Couto
(2016), há evidências de que o rendimento nominal per capita médio dos estados influenciam
no desempenho educacional do aluno e ainda de acordo com a Pesquisa Nacional por
Amostra de Domicílios Contínua PNAD (2018), os estados do nordeste apresentam uma
renda nominal per capita média homogênea, comparado com as outras regiões e selecionar
apenas o RN mantém as informações mais homogêneas.
3.2 Conjunto de dados
Para conseguir os microdados, acessou-se o site do INEP INEP (2020). Fez-se o
procedimento de organização dos dados utilizando o software R (R Core Team, 2021). O
procedimento está descrito a seguir:
1. Selecionou-se os participantes que nasceram e residiam no RN no período de execução
das provas do ENEM;
2. Excluiu-se os participantes que deixaram em branco pelo menos uma das perguntas
socioeconômicas que solicitavam a escolaridade da mãe, a escolaridade do pai, a
ocupação da mãe ou a ocupação do pai;
Capítulo 3. Base de dados 23
3. Excluiu-se os participantes que faltaram em pelo menos uma das quatro provas;
4. Haviam três indivíduos que obtiveram nota mil na redação do ENEM 2019 no RN.
Por ser uma quantidade negligível de observações não houve necessidade de aplicar
um modelo beta ajustado no zero e no um. Portanto, excluiu-se essas observações.
5. Para utilizar o modelo Beta Ajustado em Zero (BEZI) é necessário que a variável
resposta pertença ao intervalo de zero a um [0,1), para tanto, dividiu-se a nota da
redação pelo valor máximo que essa nota pode alcançar (1000).
6. Também dividiu-se por 1000 as notas em Ciências Humanas e suas Tecnologias,
Ciências da Natureza e suas Tecnologias, Linguagens e códigos e suas Tecnologias e
Matemática e suas Tecnologias para manter na mesma escala que a variável resposta.
A variável resposta, nota na redação, é uma variável quantitativa contínua assu-
mindo possíveis valores no intervalo [0, 1) incluso o zero. A redação é a única prova do
ENEM que é totalmente subjetiva, contendo cinco competências que devem ser atendidas
de forma satisfatória para atingir a nota máxima. Para corrigir a nota da redação do
participante dois professores avaliam de forma independente cada uma das competências
dando uma nota de zero a duzentos. A soma da nota dada pelo avaliador em cada uma das
competências gera a nota total, podendo chegar a mil. A nota final da redação do partici-
pante é obtida da média aritmética das notas dos dois avaliadores. As cinco competências
da nota da redação são:
1. Demonstrar domínio da modalidade escrita formal da Língua Portuguesa.
2. Compreender a proposta de redação e aplicar conceitos das várias áreas de conheci-
mento para desenvolver o tema, dentro dos limites estruturais do texto dissertativo-
argumentativo em prosa.
3. Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argu-
mentos em defesa de um ponto de vista.
4. Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção
da argumentação.
5. Elaborar propostade intervenção para o problema abordado, respeitando os direitos
humanos.
O conjunto de dados completo originou-se dos microdados do ENEM disponibili-
zados no site INEP. Após o processamento de dados, utiliza-se dois conjuntos de dados
distintos. O primeiro é o conjunto de dados referente aos participantes que estudaram
em escolas privadas contendo 1420 participantes e utilizou-se 7 variáveis, o segundo é
Capítulo 3. Base de dados 24
o conjunto de dados referente aos participantes que estudaram em escolas federais con-
tendo 1763 linhas e utilizou-se 8 variáveis. Na seção seguinte apresentam-se as estatísticas
descritivas para cada conjunto de dados.
Todas as variáveis apresentadas nas seções a seguir estão presentes no ajuste de cada
um dos conjuntos de dados. Portanto, são apresentadas a seguir duas seções de estatísticas
descritivas. Note que as variáveis que são apresentadas na seção de participantes de escolas
privadas não são as mesmas que são apresentadas na seção das escolas federais, isso se dá
por que os modelos são aplicados a dois universos diferentes e portanto as relações com as
covariáveis são diferentes.
3.3 Estatísticas descritivas para participantes de escolas privadas
As variáveis que foram utilizadas no modelo do conjunto dos participantes que
estudaram em escolas privadas foram a idade do participante (NU_IDADE), a nota em
Ciências da Natureza e suas Tecnologias (NU_NOTA_CN), a nota em Ciências Humanas
e suas Tecnologias (NU_NOTA_CH), a nota em Linguagens e Códigos e suas Tecnologias
(NU_NOTA_LC), a nota em Matemática e suas Tecnologias (NU_NOTA_MT), se há
telefone fixo na casa do participante (Q023) sendo as opções de resposta Não (A) e Sim (B) e
o Tipo de Escola que estudou no ensino médio (TP_ESCOLA), sendo as possíveis respostas
Não respondeu (1), Pública (2), Privada (3) e Federal (4). Na Tabela 3.1 apresenta-se um
resumo numérico dessas variáveis mais a Nota na redação (NU_NOTA_REDACAO) para
o presente conjunto de dados. Note que as nota nas cinco provas têm valores variando no
intervalo de 0 a 1.
Tabela 3.1 – Resumo das variáveis para participantes de
escolas privadas
Variável Tipo Resumo Numérico
NU_IDADE Quantitativo
Mínimo = 15
Quartil 1 = 17
Mediana = 17
Média = 17,53
Quartil 3 = 18
Máximo = 35
NU_NOTA_CN Quantitativo
Mínimo = 0,33
Quartil 1 = 0,46
Mediana = 0,53
Média = 0,52
Quartil 3 = 0,58
Capítulo 3. Base de dados 25
(Continuação)
Variável Tipo Resumo Numérico
Máximo = 0,85
NU_NOTA_CH Quantitativo
Mínimo = 0
Quartil 1 = 0,5
Mediana = 0,56
Média = 0,55
Quartil 3 = 0,6
Máximo = 0,76
NU_NOTA_LC Quantitativo
Mínimo = 0,32
Quartil 1 = 0,52
Mediana = 0,55
Média = 0,55
Quartil 3 = 0,59
Máximo = 0,69
NU_NOTA_MT Quantitativo
Mínimo = 0,36
Quartil 1 = 0,5
Mediana = 0,59
Média = 0,59
Quartil 3 = 0,67
Máximo = 0,98
Q023 Qualitativo
A = 1108
B = 312
TP_ESCOLA Qualitativo
1 = 0
2 = 263
3 = 1157
4 = 0
NU_NOTA_REDACAO Quantitativo
Mínimo = 0
Quartil 1 = 0,62
Mediana = 0,72
Média = 0,72
Quartil 3 = 0,84
Máximo = 0,99
Para verificar como a nota da redação se distribui de acordo com as variáveis da
Tabela 3.1, apresenta-se a seguir o histograma da nota da redação contra as variáveis
Capítulo 3. Base de dados 26
da tabela. Note que as variáveis explicativas numéricas estão divididas em intervalos,
apresentados no título de cada gráfico. Na Figura 3.1 é apresentado o histograma da
nota da redação do ENEM dos participantes que estudaram em escolas privadas, percebe-
se que esse gráfico tem um formato assimétrico a esquerda, com média em torno de
0,73 e com um pico na nota zero correspondente a 16(1,14%) participantes. Na Figura
3.2 é apresentado um gráfico de densidade em duas dimensões, em que cada ponto é
na verdade um agrupamento de pelo menos 5 notas dos participantes. Observa-se que
conforme a nota nas provas objetivas aumentam, a nota da redação aumenta também.
Segundo as Figuras 3.3, 3.4, 3.5, 3.6 conforme a nota das provas objetivas aumentam, as
notas da redação concentram-se nos valores mais altos e a quantidade de zeros diminui,
indicando que as notas nas provas objetivas influenciam positivamente na média da nota
da redação. Além disso, observa-se na Figura 3.7 que os participantes com telefone fixo
em sua residência apresentam notas na redação mais concentradas no valores mais altos e
menos zeros do que aqueles que não tem. Por fim, nota-se na Figura 3.8 que participantes
que estudaram somente em escolas privadas durante o ensino médio têm uma média
maior, menor quantidade de zeros e variabilidade menor na nota da redação do que os
participantes que estudaram a maior parte do ensino médio em escolas públicas.
Figura 3.1 – Histograma da distribuição de notas da redação para os participantes de
escolas privadas
0
25
50
75
100
125
0 0,2 0,40 0,60 0,80 0,99
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 27
Figura 3.2 – Gráfico de dispersão das notas da redação versus a nota nas provas objetivas
para os participantes de escolas privadas
NU NOTA CN NU NOTA CH NU NOTA LC NU NOTA MT
0,0 0,2 0,5 0,8 1,0 0,0 0,2 0,5 0,8 1,0 0,0 0,2 0,5 0,8 1,0 0,0 0,2 0,5 0,8 1,0
0
0,2
0,40
0,60
0,80
0,99
Proporção da nota nas provas objetivas
P
ro
p
or
çã
o
d
a
n
ot
a
d
a
R
ed
aç
ão
10 20 30 40
Frequência de pontos na vizinhança
Figura 3.3 – Histograma da distribuição de notas da redação de acordo com a nota em
Ciências da Natureza e suas Tecnologias para os participantes de escolas
privadas
(0.6,0.8] (0.8,1]
(0.2,0.4] (0.4,0.6]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
50
100
150
0,00
0,50
1,00
1,50
2,00
0,0
5,0
10,0
15,0
20,0
0
20
40
60
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 28
Figura 3.4 – Histograma da distribuição de notas da redação de acordo com a nota em
Ciências Humanas e suas Tecnologias para os participantes de escolas privadas
(0.4,0.6] (0.6,0.8]
[0,0.2] (0.2,0.4]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0,0
5,0
10,0
15,0
0
25
50
75
100
0,00
0,25
0,50
0,75
1,00
0
50
100
150
F
re
q
u
ên
ci
a
Figura 3.5 – Histograma da distribuição de notas da redação de acordo com a nota em
Linguagens e códigos e suas Tecnologias para os participantes de escolas
privadas
(0.2,0.4] (0.4,0.6] (0.6,0.8]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
20
40
60
0
50
100
150
200
0,0
2,0
4,0
6,0
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 29
Figura 3.6 – Histograma da distribuição de notas da redação de acordo com a nota em
Matemática e suas Tecnologias para os participantes de escolas privadas
(0.6,0.8] (0.8,1]
(0.2,0.4] (0.4,0.6]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
50
100
0,0
5,0
10,0
0,0
5,0
10,0
15,0
0
25
50
75
100
125
F
re
q
u
ên
ci
a
Figura 3.7 – Histograma da distribuição de notas da redação de acordo com a presença de
telefone fixo na casa dos participantes de escolas privadas
A B
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
10
20
30
40
50
0
50
100
150
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 30
Figura 3.8 – Histograma da distribuição de notas da redação de acordo com o tipo de
escola que os participantes de escolas privadas estudaram na maior parte do
ensino médio
2 3
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
50
100
150
0
10
20
30
F
re
q
u
ên
ci
a
3.4 Estatísticas descritivas para participantes de escolas federais
As variáveis que foram utilizadas no conjunto dos participantes que estudaram
em escolas federais foram a idade do participante (NU_IDADE), a nota em Ciências
da Natureza e suas Tecnologias (NU_NOTA_CN), a nota em Ciências Humanas e suas
Tecnologias (NU_NOTA_CH), a nota em Linguagens e Códigos e suas Tecnologias
(NU_NOTA_LC), a nota em Matemática e suas Tecnologias (NU_NOTA_MT), o sexo
do participante (TP_SEXO) sendo as possíveis respostas Feminino (F) e Masculino (M),
se há aparelho de DVD na residência do participante (Q020) com as possíveis respostas
Não (A) e Sim (B) e se há telefone celular na residência do participante (Q022) com
possíveisrespostas Não (A), Sim, um (B), Sim, dois (C), Sim, três (D) e Sim, quatro ou
mais (E). Na Tabela 3.2 apresenta-se um resumo numérico dessas variáveis mais a Nota
na redação (NU_NOTA_REDACAO) para o presente conjunto de dados, note que as
notas nas cinco provas têm valores variando no intervalo de 0 a 1.
Tabela 3.2 – Resumo das variáveis para o conjunto dos
participantes de escolas federais
Variável Tipo Descrição
NU_IDADE Quantitativo
Mínimo = 15
Quartil 1 = 18
Capítulo 3. Base de dados 31
(Continuação)
Variável Tipo Descrição
Mediana = 19
Média = 18,78
Quartil 3 = 19
Máximo = 51
NU_NOTA_CN Quantitativo
Mínimo = 0,34
Quartil 1 = 0,49
Mediana = 0,54
Média = 0,53
Quartil 3 = 0,58
Máximo = 0,77
NU_NOTA_CH Quantitativo
Mínimo = 0
Quartil 1 = 0,52
Mediana = 0,56
Média = 0,56
Quartil 3 = 0,6
Máximo = 0,74
NU_NOTA_LC Quantitativo
Mínimo = 0,36
Quartil 1 = 0,54
Mediana = 0,57
Média = 0,56
Quartil 3 = 0,59
Máximo = 0,71
NU_NOTA_MT Quantitativo
Mínimo = 0,36
Quartil 1 = 0,53
Mediana = 0,61
Média = 0,6
Quartil 3 = 0,68
Máximo = 0,92
TP_SEXO Qualitativo
F = 1026
M = 737
Q020 Qualitativo
A = 1321
B = 442
Q022 Qualitativo
A = 32
B = 196
Capítulo 3. Base de dados 32
(Continuação)
Variável Tipo Descrição
C = 556
D = 630
E = 349
NU_NOTA_REDACAO Quantitativo
Mínimo = 0
Quartil 1 = 0,64
Mediana = 0,72
Média = 0,73
Quartil 3 = 0,84
Máximo = 0,98
Para verificar como a nota da redação dos participantes de escolas federais se
distribuem de acordo com as variáveis da Tabela 3.2, apresenta-se a seguir os gráficos
para estudar a relação da nota da redação versus as covariáveis. Note que dividiu-se
as variáveis numéricas em intervalos que pode observá-lo no título dos histogramas. Na
Figura 3.9 é apresentado o histograma da nota da redação do ENEM dos participantes que
estudaram em escolas federais, percebe-se que esse gráfico tem um formato assimétrico a
esquerda e com média em torno de 0,73 e um pico no valor zero, representando 12 (0,68%)
dos participantes . Na Figura 3.10, observa-se que conforme a nota nas provas objetivas
aumentam a nota da redação aumenta também. Além disso nas Figuras 3.11, 3.12, 3.13,
3.14, observa-se que conforme a nota das provas objetivas aumentam, as notas da redação
concentram-se nos valores mais altos e a quantidade de zeros diminui, indicando que
as notas nas provas objetivas influenciam positivamente na média da nota da redação.
Na Figura 3.16 nota-se que os participantes de sexo masculino obtém notas um pouco
maiores na redação do que participantes de sexo feminino, entretanto, a quantidade de
zeros dentre os participantes masculinos é maior do que a quantidade de zeros dentre
participantes femininos. Na Figura 3.17 nota-se que a nota da redação dos participantes
que tem aparelho de DVD é muito semelhante aos participantes que não tem, mas há
menos zeros dentre os participantes que tem o aparelho. Por fim, na Figura 3.18 observa-se
que a nota da redação concentra-se em valores maiores conforme a quantidade de telefones
celulares na casa dos participantes cresce, além disso a quantidade de zeros é muito maior
no grupo que não tem telefone celular em suas residências comparado com aqueles que
têm pelo menos um telefone celular.
Capítulo 3. Base de dados 33
Figura 3.9 – Histograma da distribuição das notas da redação para os participantes de
escolas federais
0
100
200
300
0 0,20 0,40 0,60 0,80 0,99
F
re
q
u
ên
ci
a
Figura 3.10 – Gráfico de dispersão das notas da redação versus a nota nas provas objetivas
para os participantes de escolas federais
NU NOTA CN NU NOTA CH NU NOTA LC NU NOTA MT
0,0 0,2 0,4 0,6 0,8 0,0 0,2 0,4 0,6 0,8 0,0 0,2 0,4 0,6 0,8 0,0 0,2 0,4 0,6 0,8
0
0,2
0,40
0,60
0,80
0,99
Proporção da nota nas provas objetivas
P
ro
p
or
çã
o
d
a
n
ot
a
d
a
R
ed
aç
ão
10 20 30 40 50
Frequência de pontos na vizinhança
Capítulo 3. Base de dados 34
Figura 3.11 – Histograma da distribuição das notas da redação de acordo com as notas
em Ciências da Natureza e suas Tecnologias para os participantes de escolas
federais
(0.2,0.4] (0.4,0.6] (0.6,0.8]
0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99
0
20
40
60
0
100
200
0,0
5,0
10,0
15,0
F
re
q
u
ên
ci
a
Figura 3.12 – Histograma da distribuição das notas da redação de acordo com as notas
em Ciências Humanas e suas Tecnologias para os participantes de escolas
federais
(0.4,0.6] (0.6,0.8]
[0,0.2] (0.2,0.4]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0,0
5,0
10,0
0
30
60
90
0,00
0,25
0,50
0,75
1,00
0
100
200
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 35
Figura 3.13 – Histograma da distribuição das notas da redação de acordo com as notas em
Linguagens e Códigos e suas Tecnologias para os participantes de escolas
federais
(0.2,0.4] (0.4,0.6] (0.6,0.8]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
20
40
60
80
0
100
200
0,0
1,0
2,0
3,0
4,0
5,0
F
re
q
u
ên
ci
a
Figura 3.14 – Histograma da distribuição das notas da redação de acordo com as notas
em Matemática e suas Tecnologias para os participantes de escolas federais
(0.6,0.8] (0.8,1]
(0.2,0.4] (0.4,0.6]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
50
100
150
0,0
2,5
5,0
7,5
10,0
12,5
0,0
2,5
5,0
7,5
0
50
100
150
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 36
Figura 3.15 – Histograma da distribuição das notas da redação de acordo com a idade dos
participantes de escolas federais
(18,19] (19,52]
[15,16] (16,17] (17,18]
0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99
0 0,2 0,4 0,6 0,80,99
0
25
50
75
100
0,0
5,0
10,0
15,0
20,0
25,0
0
20
40
60
0,00
0,50
1,00
1,50
2,00
0
30
60
90
120
F
re
q
u
ên
ci
a
Figura 3.16 – Histograma da distribuição das notas da redação de acordo com o sexo dos
participantes de escolas federais
F M
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
25
50
75
100
125
0
50
100
150
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 37
Figura 3.17 – Histograma da distribuição das notas da redação de acordo com a presença
de aparelho de DVD na residência dos participantes de escolas federais
A B
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
20
40
60
0
50
100
150
200
F
re
q
u
ên
ci
a
Figura 3.18 – Histograma da distribuição das notas da redação de acordo com a presença
de telefone celular na residência dos participantes de escolas federais
D E
A B C
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0 0,2 0,4 0,6 0,8 0,99
0
25
50
75
100
0
10
20
30
40
0
20
40
60
0,0
2,0
4,0
6,0
0
25
50
75
100
F
re
q
u
ên
ci
a
38
4 Modelagem
Analisando as estatísticas descritivas do Capítulo 3 percebe-se que a nota da
redação tem um comportamento assimétrico à esquerda, com média em torno da nota
0,73 em ambos os conjuntos de dados e ainda 16 participantes com nota zero no conjunto
de dados dos participantes de escolas privadas e 12 participantes com nota zero no
conjunto dos participantes de escolas federais. Os demais histogramas mostram que o
comportamento da distribuição das notas da redação versus as demais variáveis apresentam
formas muito diversas, como por exemplo, formas que assumem distribuições assimétricas,
distribuição uniforme em um intervalo de valores, entre outras. Devido à essa diversidade
é razoável pensar que a distribuição que irá modelar a nota da redação deve ser versátil e
devido a natureza da variável, deve englobar também as extremidades. Além disso, após o
processamento de dados observou-se que o conjunto de notas da redação não tem nenhuma
nota mil e por conta desses fatores uma distribuição de probabilidade razoável para a
modelagem é a distribuição de mistura beta ajustada em zero com parâmetro de locação
µ, de dispersão σ e parâmetro da probabilidade da variável resposta obter zero ν. Essa
distribuição tem suporte variando no intervalo [0,1) (zero a um, incluindo o zero) e é bem
versátil, podendo assumir formas diferentes ao variar os valores de µ, σ e ν.
A distribuição beta ajustada em zero é suportadapelos modelos aditivos genera-
lizados para localização, escala e forma (GAMLSS). Essa ferramenta cria estruturas de
regressão para cada um dos seguintes parâmetros: µ referente à localização, σ referente
à escala e ν e τ refente à forma da distribuição, mas antes de entrar em mais detalhes
dessa distribuição, a seguir será apresentada a classe de modelos aditivos generalizados
para localização, escala e forma e seus algoritmos de estimação dos parâmetros e após isso,
será apresentada na seção Distribuição Beta Ajustada em Zero, a função de densidade de
probabilidade e também as características dessa distribuição.
4.1 Os Modelos Aditivos Generalizados para Localização, Escala e
Forma
A classe de Modelos Aditivos Generalizados para Localização, Escala e Forma
(GAMLSS) é uma classe de modelos de regressão semiparamétricos. Sua usabilidade
ocorre ao escolher uma distribuição de probabilidade para a variável resposta em que os
parâmetros a serem estimados podem ser funções lineares, não-lineares e/ou suavizações.
Em particular, o GAMLSS permite que modelos de regressão flexíveis e suavizações sejam
ajustados aos dados. É possível modelar variáveis com distribuição que apresentam caldas
Capítulo 4. Modelagem 39
pesadas ou caldas leves e/ou com assimetria positiva ou negativa. Segundo Stasinopoulos et
al. (2017) o modelo definido na Equação 4.1 é chamado de modelo GAMLSS paramétrico.
g1(µ) = η1 = X1β1
g2(σ) = η2 = X2β2 (4.1)
g3(ν) = η3 = X3β3
g4(τ ) = η4 = X4β4
em que, Xk é a matriz de planejamento incorporando os termos aditivos lineares no modelo
e βk são os parâmetros dos coeficientes lineares e gk() é a função de ligação, em que
k = 1,2,3,4. Os vetores η1,η2, η3, η4 são chamados de preditores lineares para µ , σ , ν e
τ .
4.1.1 Processo de estimação do modelo
Ainda segundo Stasinopoulos et al. (2017), o processo de estimação do modelo
GAMLSS paramétrico consiste em utilizar os estimadores de máxima verossimilhança com
respeito a βk, k = 1,2,3,4. O logaritmo da função de verossimilhança para o modelo 4.1,
sob a suposição que as observações são independentes, é dada pela Equação 4.2.
`(µ,σ,ν,τ |Y) =
n∑
i=1
log[ f(yi|µi,σi,νi,τi) ] (4.2)
Rigby e Stasinopoulos (2005a) forneceram dois algoritmos que são utilizados para
maximizar o logaritmo da função de verossimilhança (`(µ,σ,ν,τ |Y)) com respeito a
β, eles são chamados de RS() e CG(). Mostra-se que ambos os algoritmos resultam
nas estimativas de máxima verossimilhança para β (Rigby e Stasinopoulos (2005a),
apêndice C). A diferença entre os dois algoritmos é que o RS() maximiza a função de
log-verossimilhança com relação aos parâmetros µ,σ,ν,τ atualizando os valores de um
parâmetro a cada iteração, mas de forma cíclica, enquanto que o algoritmo CG() atualiza
todos os parâmetros de uma vez a cada interação, utilizando a informação das derivadas
cruzadas. Geralmente o algoritmo RS() é mais estável e em muitos casos mais rápido para
convergir comparado com o CG() e por isso é o algoritmo padrão para estimação dos β.
Devido a esses benefícios, considera-se nesse estudo o algoritmo RS() para estimação dos
coeficientes β.
Capítulo 4. Modelagem 40
4.1.2 Algoritmo RS()
O algoritmo RS() é dividido em três etapas, a iteração externa, a iteração interna e
o retroajustamento modificado. A iteração externa repetidamente chama a iteração interna
que por sua vez chama o retroajustamento modificado. A convergência do algoritmo RS()
ocorre quando as três iterações convergem.
4.1.2.1 Iteração externa
Após escolher o vetor de inicialização (µ̂,σ̂,ν̂,τ̂ ) = (µ0,σ0,ν0,τ 0) a iteração externa
procede da seguinte maneira:
1. Ajusta-se o modelo para µ dada as últimas atualizações para σ̂,ν̂,τ̂ ;
2. Ajusta-se o modelo para σ dada as últimas atualizações para µ̂,ν̂,τ̂ ;
3. Ajusta-se o modelo para ν dada as últimas atualizações para µ̂,σ̂,τ̂ ;
4. Ajusta-se o modelo para τ dada as últimas atualizações para µ̂,σ̂,ν̂;
Após isso, calcula-se o desvio global (do inglês Global Deviance) pela fórmula
−2`(µ,σ,ν,τ |Y). Repete-se esse processo até o desvio gloval convergir.
4.1.2.2 Iteração interna
Por conveniência a notação µ = θ1, σ = θ2, ν = θ3 e τ = θ4 será usada. A
iteração interna é utilizada para ajustar os modelos a cada parâmetro θk da iteração
externa. A ideia do algoritmo é ajustar repetidamente modelos ponderados por pesos
para uma variável resposta modificada até a convergência. Na literatura dos Modelos
Lineares Generalizados (GLM) esse procedimento é conhecido como estimação iterativa
pelos mínimos quadrados reponderados. A variável resposta modificada (chamada também
de variável de trabalho) para ajustar o modelo ao parâmetro θk é dada pela Equação 4.3:
zk = ηk + w−1k ◦ uk (4.3)
em que,
1. zk,ηk,w−1k ,uk são vetores de tamanho n. Por exemplo, wk = (wk1, . . . , wkn)T ;
2. w−1k ◦ uk é o produto elemento a elemento de Hadamard;
3. ηk = gk(θk) é o vetor de preditores lineares para o vetor θk, k = 1,2,3,4 correspon-
dendo ao vetor de parâmetros (µ,σ,ν,τ )T ;
Capítulo 4. Modelagem 41
4. uk é a função score, ou a primeira derivada da função de máxima verossimi-
lhança com respeito ao preditor linear ηk apresentada na Equação 4.4. Note que
∂`(µ,σ,ν,τ |Y)
∂ηk
, ∂`(µ,σ,ν,τ |Y)
∂θk
e dθk
dηk
são vetores de tamanho n;
5. E os pesos iterativos wk para k = 1,2,3,4 são definidos na Equação 4.5:
uk =
∂`(µ,σ,ν,τ |Y)
∂ηk
= ∂`(µ,σ,ν,τ |Y)
∂θk
◦ dθk
dηk
(4.4)
wk = −fk ◦
dθk
dηk
◦ dθk
dηk
(4.5)
Há três formas de se definir fk mostradas na Equação 4.6, a depender da informação
disponível para a distribuição de probabilidade específica.
fk =

E
(
∂2`(µ,σ,ν,τ |Y)
∂θ2k
)
1
∂2`(µ,σ,ν,τ |Y)
∂θ2k
2
−∂`(µ,σ,ν,τ |Y)
∂θk
◦ ∂`(µ,σ,ν,τ |Y)
∂θk
3

(4.6)
Em que o vetor ∂
2`i(µ,σ,ν,τ |Y)
∂θ2k
tem tamanho n e elementos ∂
2`(µi,σi,νi,τi|Y)
∂θ2
ki
, i = 1, . . . , n e,
1. Leva no algoritmo de score de Fisher. Note que só poderá ser escolhido se essa
esperança existir;
2. Leva no algoritmo de score pelo método de Newton-Raphson padrão e
3. Leva no algoritmo de score pelo método de quasi Newton
Ocasionalmente, derivadas numéricas são utilizadas para definir fk no algoritmo
quasi Newton, mas em geral torna o algoritmo mais lento. Além disso, ∂
2`(µ,σ,ν,τ |Y)
∂θ2k
pode
levar em pesos negativos wk, que por sua vez não é permitido no retroajustamento
modificado e por conta disso ele não foi implementado no algoritmo do GAMLSS.
O algoritmo da iteração interna é dado da seguinte maneira: Dadas as estimativas
atuais para todos os parâmetros da distribuição de µ̂, σ̂, ν̂ e τ̂ os pesos iterativos, wk, e
a variável de trabalho interativa para o vetor de parâmetro da distribuição em questão θk
são (re)calculados e usados em um ajuste ponderado pelos pesos wk contra as variáveis
Capítulo 4. Modelagem 42
preditoras necessárias a esse parâmetro. Esse processo se repete até não haver mais
mudanças no desvio global. Note que os outros parâmetros θs , s 6= k são fixos em seus
valores atuais a cada interação interna.
Na interação interna existem dois métodos de afinamento que evita que as estima-
tivas vão além do valor máximo (overjumping). Ambos ajustam o preditor η. O primeiro
utiliza o parâmetro de passo φ, 0 < φ < 1. Considere que η0, ηf e ηn sejam os preditores
lineares ajustados respectivamente na interação interna anterior, na interação interna atual
e a proposta na nova interação interna. No primeiro método o ηn é escolhido para ser o
preditor linear como mostrado na Equação 4.7, por padrão φ = 1. O segundo método
automaticamente divide o preditor linear pela metade até cinco vezes se o desvio global
continuar aumentando, que é apresentado na Equação 4.8.
ηn = φηf + (1− φ)η0 (4.7)
ηn =
(ηf + η0)
2
(4.8)
4.1.2.3 O algoritmo de retroajustamento modificado
É utilizado o algoritmo de retroajustamento modificado para estimar os parâmetros
β. Esse algoritmo é uma versão do algoritmo de Gauss-Seidel (Hastie e Tibshirani (1990)).
Ao todo, pode-se dizer que o algoritmo RS é o algoritmo de Gauss-Seidel. Nessa etapa,deseja-se ajustar as variáveis explicativas para a variável de trabalho zk com pesos wk
(usando retroajustamento dentro da iteração interna a qual irá atualizar a estimativa do
parâmetro θk). Portanto,
1- Considerando os atuais valores de zk e wk, para o parâmetro θk, ajusta-se um modelo
de mínimos quadrados reponderados (WLS) para zk contra Xk usando os pesos wk
para obter β̂k;
2- Calcula-se � = zk −Xβ̂k;
3- É verificado se o parâmetro β̂k alterou-se, comparado com as relações anteriores. Se
houver alterado, retorna-se ao item 1, se não houver alterado finaliza-se o algoritmo.
O modelo de mínimos quadrados reponderados (WLS) (Paula (2004)) é um processo
iterativo do tipo Newton-Raphson, ele é utilizado para obter a estimativa de máxima
verossimilhança dos parâmetros β. O algoritmo para obtenção dessas estimativas é apre-
Capítulo 4. Modelagem 43
sentado em 4.9. Para mais detalhes sobre a estimação pelo método dos mínimos quadrados
reponderados pode-se consultar Paula (2004).
β(m+1) = (XTW(m)X)−1XTW(m)z(m) (4.9)
Agora com o conhecimento da estrutura do modelo GAMLSS e como o processo
de estimação funciona, será apresentado a seguir a família de distribuição beta ajustada
em zero e suas características.
4.2 Distribuição Beta Ajustada em Zero
A distribuição Beta Zero Inflated BEZI(µ,σ,ν), ou em português Beta Ajustada em
Zero, é uma mistura de distribuições entre a distribuição discreta binomial e a distribuição
contínua beta no intervalo (0,1). Segundo o Manual Stasinopoulos M; Rigby e Akantziliotou
(2008), a distribuição beta ajustada em zero é indicada para modelar situações que a
variável resposta Y pertence a um intervalo que inclui o ponto mínimo do suporte de Y , que
é zero para esse estudo. Os zeros tem uma probabilidade não negativa ν. Segundo o Manual
Stasinopoulos (2020), a função densidade de probabilidade da distribuição BEZI denotada
por BEZI(µ,σ,ν) é definida em 4.10. Segundo Ospina e Ferrari (2010) o parâmetro σ é
como um parâmetro de dispersão que quanto maior é seu valor, menor é a variância da
variável resposta.
f(y|µ,σ,ν) =

ν se y = 0
(1− ν)
(
Γ(σ)
Γ(µσ)Γ((1− µ)σ)
)
yµσ(1− y)(1−µ)σ se y ∈ (0,1)
(4.10)
Para 0 ≤ y < 1, em que 0 < µ < 1 , σ > 0 e 0 < ν < 1. Com essa parametrização
tem-se que a esperança e variância da variável resposta tem a estrutura da Equação
4.11. Note que, se ν = 0 a distribuição BEZI(µ,σ,ν) se resume a distribuição Beta(µ,σ).
Considerando a Equação 4.1, as possíveis funções de ligação para cada parâmetro da
distribuição BEZI(µ,σ,ν) são apresentadas na Tabela 4.3, note que as funções de ligação
canônicas encontram-se em negrito e estas foram selecionadas para o modelo por que
facilitam a interpretação dos resultados. Entretanto, existem outras possibilidades para
funções de ligação como por exemplo a Aranda Ordaz, mas para utilizá-las no software R
é preciso implementar. Para mais detalhes da implementação de outras funções de ligação
veja Stasinopoulos et al. (2017) na seção de funções de ligação. Para ajustar o modelo
BEZI para a nota da redação do ENEM 2019, precisou-se dividir as notas da redação de
cada participante pelo valor 1000 para que permaneça no intervalo [0,1), como descrito no
processamento dos dados do Capítulo 3, garantindo que a variável resposta está no mesmo
Capítulo 4. Modelagem 44
suporte da distribuição BEZI. Desta forma, a nota da redação passa a ser a proporção de
pontos alcançados nas competências da redação.
E(Y ) = (1− ν)µ
V (Y ) = (1− ν)
(
µ(1− µ)
σ + 1
)
+ ν(1− ν)µ2
(4.11)
Tabela 4.3 – Funções de ligação canônicas para o respectivo parâmetro da distribuição
BEZI
µ σ ν
logito logarítimica logito
probito inversa probito
complemento log-log identidade cloglog
logarítimica - logarítimica
4.3 Metodologia para seleção de modelos
Para seleção do modelo utilizou-se três critérios, o critério do desvio global do
GAMLSS definido na Equação 4.14, o do Critério de Informação de Akaike (AIC) definido
na Equação 4.12 e o do Critério de Informação de Schwarz (SBC) definido na Equação
4.13.
AIC = 2k − 2ˆ̀(µ,σ,ν,τ |Y) (4.12)
SBC = k log(n)− 2ˆ̀(µ,σ,ν,τ |Y) (4.13)
Desvio global = −2ˆ̀(µ,σ,ν,τ |Y) (4.14)
em que k é a quantidade de parâmetros considerados no ajuste, n é a quantidade de
indivíduos na amostra e ˆ̀(µ,σ,ν,τ |Y) é a verossimilhança estimada para o ajuste do
modelo.
4.3.1 Seleção das variáveis
Desta forma, partindo de um modelo nulo para cada parâmetro, adicionou-se ma-
nualmente uma variável e observou-se o Desvio Global, AIC e SBC, se eles diminuíram em
Capítulo 4. Modelagem 45
relação ao modelo sem tal variável manteve-a, mas caso contrário removeu-a e aplicou esse
mesmo procedimento a uma outra variável presente nos conjuntos de dados. Considerando
que o modelo já tivesse algumas variáveis cujo valor p estivesse menor do que 5% e se
adicionasse uma nova variável que fez com que o valor p ficasse maior que 5%, então
estudava-se qual era o motivo e mantinha no modelo apenas a combinação de variáveis que
diminuia o Desvio Global, AIC e SBC. Em linhas gerais, a seleção das variáveis explicativas
do presente trabalho se deu por meio do conceito de seleção de variáveis stepwise de forma
manual e utilizou-se dos critérios de Desvio Global, AIC e SBC. No presente trabalho
percebeu-se indícios de heterocedasticidade na relação da variável resposta com algumas
variáveis explicativas. Pode-se tomar como exemplo a relação que encontra-se no quarto
gráfico da Figura 3.2, conforme a nota de Matemática e suas Tecnologias aumenta há uma
variação maior na nota da redação dos participantes de escolas privadas. Dessa forma, no
processo do ajuste dos modelos, adicionou-se covariáveis à estrutura de regressão do σ.
4.3.2 Pacotes Utilizados
Os pacotes do software R Core Team (2021) utilizados nesse trabalho foram o
“gamlss” (Rigby e Stasinopoulos (2005b)) para ajustar o modelo BEZI(µ,σ,ν) aos dados
do estudo, o “tidyverse” (Wickham et al. (2019)) e o “hablar” (Sjoberg (2020)) ambos
usados para manipulação dos microdados do ENEM 2019 e o “tikzDevice” (Sharpsteen e
Bracken (2020)) utilizado para inserção dos gráficos gerados no software para o presente
trabalho.
4.4 Metodologia da apresentação dos resultados
Nesse trabalho serão apresentadas as estimativas pontuais dos coeficientes da
regressão, mas também serão apresentados os intervalos de confiança a 95% para as
estimativas de cada coeficiente. Os intervalos de confiança foram obtidos pelo método de
Wald baseado nos erros padrões das estimativas (Stasinopoulos et al. (2017)). As funções
de ligação utilizadas são aquelas que estão em negrito na Tabela 4.3. Para interpretação
dos resultados da modelagem aplica-se a função exponencial nos coeficientes do ajuste do
modelo. Desta forma os coeficientes para µ e ν são interpretados na escala da razão de
chances e o σ é interpretado na sua escala original.
46
5 Resultados
Os resultados que foram obtidos com a modelagem dos dados usando o pacote
“gamlss” (Rigby e Stasinopoulos (2005b)) do R encontram-se nesse capítulo. O conjunto de
dados foi dividido em três grupos de acordo com a dependencia administrativa da escola,
essa divisão apresentada na Figura 5.1. Essa divisão se fez necessária pois, ao ajustar um
modelo para o conjunto de dados completo os resíduos não se ajustaram bem e a solução
para esse problema foi dividir o conjunto de dados completo em dois grupos distintos.
O primeiro é referente aos participantes que estudaram em escolas privadas e o segundo
referente aos participantes que estudaram em escolas federais.
Figura 5.1 – Diagrama da divisão da modelagem dos dados
Escolas Privadas Escolas Federais
Devido ao tempo disponível, apenas foi possível modelar as notas da redação do conjunto
de dados dos participantes que estudaram em escolas privadas e a nota da redação do
conjunto de dados dos participantes que estudaram em escolas federais. Selecionou-se a
distribuição BEZI para as modelagens com as funções de ligação que estão apresentados
em negrito na Tabela 4.3. Os resultados dos ajustessão apresentados nas seções modelagem
para escolas privadas e modelagem para escolas federais.
5.1 Modelagem para participantes de escolas privadas
Na Tabela 3.1 são apresentadas as variáveis que foram utilizadas na modelagem
da nota da redação para os participantes do ENEM que estudavam em escolas privadas
durante o exame.
5.1.1 Seleção do modelo
Apresenta-se na Tabela 5.1 três ajustes para a nota da redação dos participantes
que estudaram em escolas privadas, utilizando o GAMLSS paramétrico com funções de
Capítulo 5. Resultados 47
ligação logito para µ e ν e logarítimica para σ. As variáveis foram escolhidas sob o conceito
do stepwise, com os critérios de Desvio Global, AIC e SBC. Dentre os ajustes na Tabela
5.2, selecionou-se aquele que apresenta o menor Desvio Global, menor AIC e menor SBC.
O primeiro tem apenas os interceptos para os parâmetros da distribuição e é chamado
de modelo nulo, o segundo contém apenas variáveis numéricas e o terceiro há variáveis
numéricas e categóricas. Dessa maneira, escolheu-se o terceiro como sendo o que melhor se
ajusta os dados.
Tabela 5.1 – Tabela de construção da modelagem das escolas privadas
Modelo
Função
de
Ligação
Variáveis Estimativa Valor t Erro padrão Valorp
1 log
(
µ
1−µ
)
Intercepto 0,968 0,020 47,498 0,000
log(σ) Intercepto 2,016 0,036 55,775 0,000
log
(
ν
1−ν
)
Intercepto −4,474 0,251 −17,797 0,000
2 log
(
µ
1−µ
)
Intercepto −3,387 0,152 −22,217 0,000
NU_NOTA_CN 2,085 0,303 6,871 0,000
NU_NOTA_CH 2,168 0,306 7,096 0,000
NU_NOTA_LC 2,409 0,436 5,530 0,000
NU_NOTA_MT 1,380 0,187 7,370 0,000
log(σ) Intercepto 2,684 0,037 72,590 0,000
log
(
ν
1−ν
)
Intercepto 6,323 1,777 3,558 0,000
NU_NOTA_LC −21,100 3,755 −5,619 0,000
3 log
(
µ
1−µ
)
Intercepto −2,575 −8,261 0,312 0,000
NU_NOTA_CN 2,044 6,770 0,302 0,000
NU_NOTA_CH 2,109 6,849 0,308 0,000
NU_NOTA_LC 2,381 5,460 0,436 0,000
NU_NOTA_MT 1,317 7,028 0,187 0,000
Q023B 0,079 2,095 0,038 0,036
NU_IDADE −0,041 −2,935 0,014 0,003
log(σ) Intercepto 2,736 66,957 0,041 0,000
TP_ESCOLA2 −0,213 −2,282 0,093 0,023
log
(
ν
1−ν
)
Intercepto 10,187 4,071 2,502 0,000
NU_NOTA_LC −12,887 −2,728 4,724 0,006
NU_NOTA_CN −17,825 −3,140 5,677 0,002
Capítulo 5. Resultados 48
Tabela 5.2 – Critérios de seleção dos modelos para a nota da redação dos alunos que
estudaram em escolas privadas
Modelo Desvio Global AIC SBC
1 −1304 −1298 −1282
2 −2255 −2239 −2197
3 −2285 −2261 −2198
5.1.2 Análise de diagnóstico
Após a seleção do modelo para as escolas privadas fez-se a análise de diagnóstico
dos resíduos desse modelo. Na Figura 5.2 é apresentado o worm plot dos resíduos. O
worm plot foi introduzido primeiramente por Buuren e Fredriks (2001) e, no contexto
do GAMLSS, é usado como uma forma de identificar se existem regiões que o modelo
não se ajusta bem aos dados. Além disso, é utilizado como uma ferramenta análoga ao
gráfico de quantis e apresenta duas parábolas que são análogas aos intervalos de confiança
(ou envelopes) do gráfico quantil-quantil normal. Na Figura 5.3 observa-se que os dados
variam em torno do zero com variância relativamente constante, a densidade estimada dos
resíduos é simétrica em torno do zero e o gráfico de quantis mostra que os resíduos seguem
uma distribuição normal, apesar de alguns pontos saírem um pouco da curva quando os
quantis teóricos estão em torno de 3, mas como pode-se ver no worm plot apresentado na
Figura 5.2, tais valores continuam dentro do intervalo de confiança. Portanto, o modelo
considerado está bem ajustado.
Figura 5.2 – Worm plot dos resíduos do modelo para os participantes que estudaram em
escolas privadas
-4 -2 0 2 4
-1
.0
-0
.5
0.
0
0.
5
1.
0
Quantil Normal Unitário
D
es
v
io
Capítulo 5. Resultados 49
Figura 5.3 – Análise dos resíduos do modelo para os participantes que estudaram em
escolas privadas
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+ +
+
+
+++
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
++
+
+
+
+
+
+
+
+
+
+
+
+ + +
+
+
+
+
+ +
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+ +
+ +
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++ + +
+
+
+
+ +
+
+
+
+ + +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+ +
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+ +
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
++
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+ ++
+
+
+
+
+
+
+
+
+
+
+
+ +
++
++ +
+ +
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+ ++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+++ ++
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+ +
+
+
+
++ +
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+
+
++
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+ +
+ +
+
+
+ +
+
+
+
+
+
+
+
+
++ +
+
+
+ ++
+
+
+
+ ++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+ +
+
+
++ +
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ ++
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+ +
+ +
+
+ +
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+ +
+ +
+
+
+
+ ++
+ +
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+ +
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+ ++
+
0.3 0.4 0.5 0.6 0.7 0.8 0.9
-3
-2
-1
0
1
2
Contra Valores Ajustados
Valores Ajustados
Q
u
a
n
ti
s
R
es
id
u
ai
s
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+

Continue navegando