Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Universidade Federal do Rio Grande do Norte
Centro de Ciências Exatas e da Terra
Departamento de Estatística
Fabrício Emiliano Dantas do Rêgo
Fatores que influenciam na nota da redação do
ENEM no Rio Grande do Norte
Natal - RN
Abril de 2021
Fabrício Emiliano Dantas do Rêgo
Fatores que influenciam na nota da redação do ENEM no
Rio Grande do Norte
Monografia de Graduação apresentada ao De-
partamento de Estatística do Centro de Ci-
ências Exatas e da Terra da Universidade
Federal do Rio Grande do Norte como re-
quisito parcial para a obtenção do grau de
Bacharel em Estatística.
Universidade Federal do Rio Grande do Norte
Centro de Ciências Exatas e da Terra
Departamento de Estatística
Orientador: Prof. Dr. Antonio Hermes Marques da Silva Junior
Natal - RN
Abril de 2021
Rêgo, Fabrício Emiliano Dantas do.
 Fatores que influenciam na nota da redação do ENEM no Rio
Grande do Norte / Fabrício Emiliano Dantas do Rêgo. - 2021.
 61f.: il.
 Monografia (Bacharelado em Estatística) - Universidade
Federal do Rio Grande do Norte, Centro de Ciências Exatas e da
Terra, Departamento de Estatística. Natal, 2021.
 Orientador: Prof. Dr. Antonio Hermes Marques da Silva Junior.
 1. Estatística - Monografia. 2. GAMLSS - Monografia. 3. INEP
- Monografia. 4. Machine Learning - Monografia. 5. Regressão
semi-paramétrica - Monografia. 6. Distribuição Beta -
Monografia. I. Silva Junior, Antonio Hermes Marques da. II.
Título.
RN/UF/CCET CDU 519.2
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET
Elaborado por Joseneide Ferreira Dantas - CRB-15/324
Fabrício Emiliano Dantas do Rêgo
Fatores que influenciam na nota da redação do ENEM no
Rio Grande do Norte
Monografia de Graduação apresentada ao De-
partamento de Estatística do Centro de Ci-
ências Exatas e da Terra da Universidade
Federal do Rio Grande do Norte como re-
quisito parcial para a obtenção do grau de
Bacharel em Estatística.
Aprovado em de de .
Prof. Dr. Antonio Hermes Marques da
Silva Junior
Orientador – DEST/UFRN
Prof. Dr. Francisco Moisés Cândido
de Medeiros
Examinador – DEST/UFRN
Profa. Dra. Fernanda de Bastiani
Examinadora – DE/UFPE
Natal - RN
Abril de 2021
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
SISTEMA INTEGRADO DE PATRIMÔNIO, ADMINISTRAÇÃO E
CONTRATOS
FOLHA DE ASSINATURAS
Emitido em 03/05/2021
ATA Nº 7/2021 - EST/CCET (12.02) 
 NÃO PROTOCOLADO)(Nº do Protocolo:
 (Assinado digitalmente em 03/05/2021 14:28 )
ANTONIO HERMES MARQUES DA SILVA JUNIOR
PROFESSOR DO MAGISTERIO SUPERIOR
EST/CCET (12.02)
Matrícula: 1714215
 (Assinado digitalmente em 05/05/2021 15:11 )
FRANCISCO MOISES CANDIDO DE MEDEIROS
PROFESSOR DO MAGISTERIO SUPERIOR
EST/CCET (12.02)
Matrícula: 2612836
 (Assinado digitalmente em 04/05/2021 10:45 )
FERNANDA DE BASTIANI
ASSINANTE EXTERNO
CPF: 062.334.179-45
Para verificar a autenticidade deste documento entre em informando seu número: ,https://sipac.ufrn.br/documentos/ 7
ano: , tipo: , data de emissão: e o código de verificação: 2021 ATA 03/05/2021 6214362fae
Dedico esse trabalho ao meu pai Irineu, à minha mãe Jeane, aos meus irmãos Ueniry
Felipe e Francisco Emiliano, à minha namorada Jaylhane, ao meu amigo Rayland, ao
meu amigo Franklyn e ao meu orientador ,e hoje amigo, Antônio Hermes, pois foram as
pessoas que me deram apoio para alcançar essa conquista.
Agradecimentos
Agradeço à minha mãe, ao meu pai e aos meus irmãos por toda alegria, amor, afeto
e conselhos para a vida. À Jaylhane, minha namorada, por me ajudar a manter os “pés no
chão”, por todo o apoio, amor, companheirismo e carinho. Ao meu amigo Rayland pela
sincera amizade, por me acompanhar nessa jornada acadêmica, profissional e partilhar
os momentos na vida. Ao meu amigo de longa data Franklyn, pela amizade firme, por se
manter presente e por todo o apoio que me foi dado, e ao meu orientador Antônio Hermes
por aceitar e me guiar nesse desafio e me aconselhar durante os obstáculos enfrentados.
Agradeço também ao Programa de Educação Tutorial e os amigos que lá fiz, pois foi para
mim um momento de crescimento acadêmico, profissional e social. Por fim, Agradeço à
Universidade Federal do Rio Grande do Norte e os seus programas de assistência social
que fizeram toda a diferença para chegar onde estou hoje.
“[...] A motivação (do senso comum) é volátil como álcool que, ao despejar um pouco
sobre a mesa, logo evapora [...]. Ao invés da motivação, precisamos de disciplina para
fazer o que precisa ser feito, precisamos também da persistência para fazê-lo várias vezes
repetidamente até atingir o objetivo final e também, um dos mais importantes aspectos, é
o comprometimento, que, querendo ou não, é se colocar vulnerável para o fracasso. A
união desses três aspectos torna-lhe apto para conseguir atingir seu objetivo final com o
maior potencial que você tem.”
Júlio Lobo.
Resumo
As notas obtidas no Exame Nacional do Ensino Médio (ENEM) são um dos mais importan-
tes critérios de acesso as universidades públicas e privadas no Brasil. O exame é composto
de provas nas áreas de Ciências Humanas e suas tecnologias, Ciências da Natureza e suas
tecnologias, Matemática e suas tecnologias, Linguagens e códigos e suas tecnologias e
Redação, sendo a última a única prova não objetiva. Diante disso, o presente trabalho aplica
a teoria do modelo beta ajustado em zeros sob a ótica dos modelos aditivos generalizados
para localização, escala e forma para realizar a análise de regressão das notas da redação
dos participantes que realizaram o ENEM 2019 no Rio Grande do Norte. Os resultados
indicam por meio das variáveis preditoras que o comportamento da nota da redação para
participantes que estudam em escolas privadas é diferente do comportamento da nota
da redação dos participantes em escolas federais, mas que em geral, quanto mais alta as
notas nas provas relacionadas com Ciências Humanas e suas tecnologias ou Linguagens e
Códigos e suas tecnologias maior a chance de atender corretamente aos critérios da nota
da redação e assim alcançar escores mais altos na redação.
Palavras-chave: GAMLSS. INEP. Machine Learning. Regressão semi-paramétrica. Dis-
tribuição Beta.
Abstract
The scores obtained in the Exame Nacional do Ensino Médio (ENEM) are one of the most
important criteria for access to both public and private universities in Brazil. The exam
consists of tests in the areas of Human Sciences and its technologies, Natural Sciences
and its technologies, Mathematics and its technologies, Languages and codes, and its
technologies, and Writing, the last being the only non-objective test. Therefore, the present
work applies the theory of the beta model adjusted in zeros from the perspective of the
generalized additive models for location, scale, and shape to perform the regression analysis
of the essay notes of the participants who took the ENEM 2019 in Rio Grande do Norte.
The results indicate through the predictor variables that the behavior of the essay grade
for participants who study in private schools is different from the behavior of the essay
grade of participants in federal schools, but that in general, the higher the grades in the
tests related to Humanities and their technologies or Languages and Codes and their
technologies the greater the chance of correctly meeting the criteria of the essay score and
thus reaching higher scores in the essay.
Keywords: GAMLSS. INEP. Machine Learning. Semi-parametric regression. Beta Distri-
bution.
Lista de ilustrações
Figura 3.1 – Histograma da distribuição de notas da redação para os participantes
de escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Figura 3.2 – Gráfico de dispersão das notas da redação versus a nota nas provas
objetivas para os participantes de escolas privadas . . . . . . . . . . . . 27
Figura 3.3 – Histograma da distribuição de notas da redaçãode acordo com a nota
em Ciências da Natureza e suas Tecnologias para os participantes de
escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 3.4 – Histograma da distribuição de notas da redação de acordo com a nota
em Ciências Humanas e suas Tecnologias para os participantes de escolas
privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 3.5 – Histograma da distribuição de notas da redação de acordo com a nota
em Linguagens e códigos e suas Tecnologias para os participantes de
escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 3.6 – Histograma da distribuição de notas da redação de acordo com a nota
em Matemática e suas Tecnologias para os participantes de escolas
privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Figura 3.7 – Histograma da distribuição de notas da redação de acordo com a pre-
sença de telefone fixo na casa dos participantes de escolas privadas . . 29
Figura 3.8 – Histograma da distribuição de notas da redação de acordo com o tipo
de escola que os participantes de escolas privadas estudaram na maior
parte do ensino médio . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Figura 3.9 – Histograma da distribuição das notas da redação para os participantes
de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Figura 3.10–Gráfico de dispersão das notas da redação versus a nota nas provas
objetivas para os participantes de escolas federais . . . . . . . . . . . . 33
Figura 3.11–Histograma da distribuição das notas da redação de acordo com as
notas em Ciências da Natureza e suas Tecnologias para os participantes
de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Figura 3.12–Histograma da distribuição das notas da redação de acordo com as
notas em Ciências Humanas e suas Tecnologias para os participantes
de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Figura 3.13–Histograma da distribuição das notas da redação de acordo com as
notas em Linguagens e Códigos e suas Tecnologias para os participantes
de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 3.14–Histograma da distribuição das notas da redação de acordo com as notas
em Matemática e suas Tecnologias para os participantes de escolas federais 35
Figura 3.15–Histograma da distribuição das notas da redação de acordo com a idade
dos participantes de escolas federais . . . . . . . . . . . . . . . . . . . . 36
Figura 3.16–Histograma da distribuição das notas da redação de acordo com o sexo
dos participantes de escolas federais . . . . . . . . . . . . . . . . . . . . 36
Figura 3.17–Histograma da distribuição das notas da redação de acordo com a
presença de aparelho de DVD na residência dos participantes de escolas
federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 3.18–Histograma da distribuição das notas da redação de acordo com a
presença de telefone celular na residência dos participantes de escolas
federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 5.1 – Diagrama da divisão da modelagem dos dados . . . . . . . . . . . . . . 46
Figura 5.2 – Worm plot dos resíduos do modelo para os participantes que estudaram
em escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 5.3 – Análise dos resíduos do modelo para os participantes que estudaram
em escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 5.4 – Análise de resíduos do modelo para os participantes que estudaram em
escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Figura 5.5 – wormplot dos resíduos do modelo para os participantes que estudaram
em escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Lista de tabelas
Tabela 3.1 – Resumo das variáveis para participantes de escolas privadas . . . . . . 24
Tabela 3.2 – Resumo das variáveis para o conjunto dos participantes de escolas
federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Tabela 4.3 – Funções de ligação canônicas para o respectivo parâmetro da distribuição
BEZI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Tabela 5.1 – Tabela de construção da modelagem das escolas privadas . . . . . . . . 47
Tabela 5.2 – Critérios de seleção dos modelos para a nota da redação dos alunos que
estudaram em escolas privadas . . . . . . . . . . . . . . . . . . . . . . 48
Tabela 5.3 – Estimativa dos coeficientes do modelo para a nota da redação dos
participantes que estudaram em escolas privadas . . . . . . . . . . . . 50
Tabela 5.4 – Tabela da estimativa dos coeficientes do modelo para a média da nota
da redação das escolas privadas . . . . . . . . . . . . . . . . . . . . . . 51
Tabela 5.5 – Construção do modelo para os participantes que estudaram em escolas
federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Tabela 5.6 – Tabela contendo critérios de seleção dos modelos para a nota da redação
dos alunos que estudaram em escolas privadas . . . . . . . . . . . . . . 54
Tabela 5.7 – Estimativa dos coeficientes do modelo para a nota da redação dos
participantes que estudaram em escolas federais . . . . . . . . . . . . . 56
Tabela 5.8 – Tabela da estimativa dos coeficientes do modelo para a média da nota
da redação das escolas federais . . . . . . . . . . . . . . . . . . . . . . 57
Sumário
Lista de ilustrações . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Lista de tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Estrutura da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 REVISÃO DA LITERATURA . . . . . . . . . . . . . . . . . . . . . . 17
3 BASE DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1 Processamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Estatísticas descritivas para participantes de escolas privadas . . . . 24
3.4 Estatísticas descritivas para participantes de escolas federais . . . . 30
4 MODELAGEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1 Os Modelos Aditivos Generalizados para Localização, Escala e Forma 38
4.1.1 Processo de estimação do modelo . . . . . . . . . . . . . . . . . . . . . 39
4.1.2 Algoritmo RS() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2.1 Iteração externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2.2 Iteração interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2.3 O algoritmo de retroajustamento modificado . . . . . . . . . . . . . . . . . . 42
4.2 Distribuição Beta Ajustada em Zero . . . . . . . . . . . . . . . . . . . 43
4.3 Metodologia para seleção de modelos . . . . . . . . . . . . . . . . . . 44
4.3.1 Seleção das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2 Pacotes Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4 Metodologia da apresentação dos resultados . . . . . . . . . . . . . . 45
5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1 Modelagem para participantes de escolas privadas . . . . . . . . . . 46
5.1.1 Seleção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1.2 Análise de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.3 Apresentação das estimativas dos coeficientes .. . . . . . . . . . . . . . . 49
5.2 Modelagem para Escolas Federais . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Seleção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.2 Análise de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.3 Apresentação das estimativas dos coeficientes . . . . . . . . . . . . . . . . 56
6 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 59
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
14
1 Introdução
O Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP),
desenvolveu, em 1998, a primeira versão do Exame Nacional do Ensino Médio (ENEM) com
o objetivo de avaliar o aprendizado, bem como influenciar o currículo do ensino médio no
Brasil. Em 1999, o exame passou a ser uma alternativa ao vestibular em 93 instituições de
ensino superior do país, em 2004 o exame passou a servir de ingresso em cursos superiores
para os estudantes que, utilizando a nota obtida na prova, puderam inscrever-se e concorrer
a bolsas de estudos integrais ou parciais em universidades particulares pelo Programa
Universidade para Todos (ProUni). A partir da criação do Sistema de Seleção Unificada
(SiSU) em 2009, o ENEM ganhou sua segunda versão que se mantém até os dias atuais e
se tornou o principal meio de acesso às universidades públicas brasileiras. Nessa versão
o exame passou a ter 45 questões objetivas nas provas dos seguintes temas: Linguagens,
Códigos e suas Tecnologias e Redação, Ciências Humanas e suas Tecnologias, Ciências
da Natureza e suas Tecnologias e Matemática e suas Tecnologias. As provas passaram a
ser aplicadas no sábado e domingo consecutivos. Em 2013 o ENEM passou a ser porta de
entrada para todas as instituições de ensino superior públicas do país. Em 2017, quando o
INEP fez uma consulta pública para levantar melhorias, o exame passou a ser aplicado em
dois domingos consecutivos, em que a redação passou a ser aplicada no primeiro domingo e
a certificação do Ensino Médio passou a não ser mais competência do ENEM, a aplicação
ficou mais acessível com a criação da videoprova em libras e mais segura com a adoção
do identificador de receptor de ponto eletrônico. O INEP disponibiliza em seu site os
microdados do ENEM desde 1998 até 2019, sendo esse último o que está sendo utilizado
para desenvolvimento desse trabalho.
1.1 Motivação
Quando se pesquisa sobre modelagem de dados do ENEM na literatura, na maioria
das vezes são encontrados estudos que utilizaram uma abordagem de modelos de regressão
com efeitos aleatórios para modelar parâmetros de localização e desconsiderando as notas
zero que os alunos obtiveram. Diante disso, a motivação para realizar esse trabalho surgiu
em modelar as notas da redação, incluindo os zeros, dos participantes do ENEM 2019
para verificar que características influenciam no comportamento da nota da redação. A
inclusão dos zeros no modelo permite desvendar as variáveis que têm relação na chance do
participante obter nota zero e com esse conhecimento permitir que o gestor da instituição
de ensino crie medidas para que diminua a chance de seus alunos obterem nota zero na
redação do ENEM.
Capítulo 1. Introdução 15
1.2 Justificativa
Esse estudo é importante por apresentar as variáveis que influenciam a nota da
redação como um todo, englobando tanto as notas zero como as que não são zero do Exame
Nacional do Ensino Médio em 2019 no estado Rio Grande do Norte (RN) para as escolas
privadas e escolas federais para que pesquisas desenvolvidas envolvendo professores e alunos
da UFRN possam contribuir para a comunidade vizinha a ela. A redação é a única prova
subjetiva do ENEM, pois o participante precisa utilizar suas habilidades e seu conhecimento
para desenvolver um texto que atenda aos critérios de avaliação, por essa razão, a nota
da redação é interessante de ser modelada. A interpretação dos resultados auxiliarão
os gestores das instituições de ensino a conhecerem melhor as variáveis que afetam o
desempenho de seus alunos no ENEM e, a partir disso, tomarem decisões que auxiliem
na melhoria da educação de suas turmas e, consequentemente, do estado. Escolheu-se o
Rio Grande do Norte como população para essa análise por que na literatura não existem
estudos que aplicam um modelo de regressão para a nota da redação considerando os zeros
obtidos para essa unidade da federação e a quantidade de zeros obtidos no ENEM não é
negligenciável. Portanto, considerar os zeros da nota da redação enriquece a literatura e os
resultados pois desvenda quais são as variáveis que influenciam na chance do participante
obter zero na nota da redação.
1.3 Objetivos
O objetivo geral desse trabalho é investigar e identificar variáveis que influenciam
na nota da redação do ENEM do ano de 2019 no estado do Rio Grande do Norte utilizando
uma abordagem de modelos de regressão semiparametricos. Portanto, para ser possível
alcançar o objetivo geral, serão respondidos os seguintes objetivos específicos:
1- Estudar o modelo beta ajustado em zero dentro do contexto da classe dos modelos
aditivos generalizados para localização, escala e forma;
2- Aplicar o ajuste do modelo beta ajustado em zero às notas da redação do ENEM
2019 no Rio Grande do Norte;
3- Com base no modelo ajustado, desvendar quais são as variáveis presentes nos
microdados que influênciam na nota da redação dos participantes do ENEM 2019
no estado do Rio Grande do Norte.
1.4 Estrutura da Monografia
A estrutura do trabalho se organiza da seguinte maneira: No Capítulo 2 é apre-
sentado o referencial teórico sobre o tema de modelagem dos microdados do ENEM, no
Capítulo 1. Introdução 16
Capítulo 3 são apresentadas estatísticas descritivas da base de dados utilizada, no Capítulo
4 é apresentado o modelo de regressão beta ajustado em zero, no Capítulo 5 são discutidos
os resultados obtidos com a modelagem e no Capítulo 6 são tratadas das considerações
finais do presente trabalho.
17
2 Revisão da literatura
O ENEM é amplamente discutido na literatura, uma vez que o exame tem o
propósito de avaliar a qualidade da educação brasileira, além de ser a porta princípal de
entrada para os brasileiros ingressarem no ensino superior nos dias atuais. Na literatura,
existem diversos trabalhos no tema de análise de regressão, mas percebeu-se que em geral
utilizam-se de modelos de efeitos aleatórios para modelar as notas nas provas do exame e
não é comum utilizar uma estrutura de regressão que considere modelar os zeros obtidos
pelos participantes. No trabalho de (PEREIRA et al., 2019) utiliza-se uma distribuição
beta ajustada em zero aos dados do ENEM 2014 tendo como variável resposta a nota
da redação e como variáveis preditoras as notas nas quatro provas objetivas, a idade e
também o sexo dos participantes. Nessa edição, os autores observaram que 51 participantes
obtiveram nota zero na redação. A aplicação desse método aos dados do ENEM foi para
averiguar o desempenho da nova classe de resíduos que os autores desenvolveram. Devido
a escassez de trabalhos que consideram as notas zero obtidas pelos participantes, abaixo
são apresentados trabalhos que utilizam métodos de análise de regressão para uma ou
mais provas que constituem a nota final do ENEM.
Travitzki, Calero e Boto (2014) estudam as possibilidades de se utilizar o ENEM
como indicador do ensino médio no Brasil por meio do uso da regressão com efeitos
aleatórios, o autor analisa a diferença entre as 5 notas obtidas pelos alunos no ENEM do
ano de 2009 e 2010. As variáveis respostas usadas foram a diferença da nota geral dos
alunos do ano de 2010 menos 2009 e a média aritmética das notas obtidas pelos alunos no
ENEM 2010.
No trabalho de Travitzki, Ferrão e Couto (2016), os autores analisaram a nota
de Linguagens e Códigos e suas tecnologias e de Matemática e Suas tecnologias dos
participantes do ENEM 2009 ao ENEM 2012 utilizando-se do método de curvas de Lorenz,
coeficiente de Gini e regressão com efeitos aleatórios. Em seus resultados evidencia-seque o acesso à educação está mais igualitário na geração dos participantes entre essas
edições comparando com o acesso à educação aos pais desses participantes. Nesse estudo
considera-se quatro UFs de acordo com o critério de selecionar duas UFs que apresentam a
maior renda per capita e duas UFs que apresentam a menor renda per capita do país. As
análises do trabalho dividiram-se em duas etapas, na primeira etapa utilizam-se as análises
das curvas de Lorenz e o respectivo coeficiente de Gini a fim de ilustrar a distribuição
da educação na população brasileira. Na segunda etapa realiza-se a análise de regressão
com efeitos aleatórios como sendo os municípios e escolas dos participantes. Nesse estudo
são criados três modelos de regressão, sendo o primeiro o modelo nulo contendo apenas o
intercepto, o efeito aleatório referente à escola j, o efeito aleatório referente ao município k
Capítulo 2. Revisão da literatura 18
e o erro desse modelo. O modelo 1 com o intercepto, dois coeficientes de variação referente
às duas variáveis preditoras (Nível Socioeconômico (NSE) e Cor/Raça), o efeito aleatório
referente à escola j e o efeito aleatório referente ao município k e o erro desse modelo. Por
fim o modelo 2 com o intercepto, um coeficiente da variável NSE variando nas diferentes
escolas, um coeficiente de variação da variável Cor/Raça e o efeito aleatório referente à
escola j, o efeito aleatório referente ao município k e o erro desse modelo. A distribuição do
erro aleatório dos modelos é �ijk ∼ N(0,σ22e). O modelo nulo é mostrado na Equação 2.1, o
modelo 1 é apresentado na Equação 2.2 e o modelo 2 é apresentado na Equação 2.3, vale
ressaltar que apenas esse trabalho considerou k como sendo o município do participante. Os
resultados alcançados pelos autores mostram que apesar de haver uma melhoria no acesso
à educação nas UFs com menor renda per capita, tal melhoria ainda é inferior ao acesso à
educação de UFs com maior renda per capita. Diante desse resultado, ao considerar para o
presente trabalho apenas os dados dos participantes nascidos e residentes do Rio Grande
do Norte mantém os resultados mais homogêneos pois esses participantes cresceram no RN
e obtiveram influências econômicas, sociais, culturais e políticas semelhantes. Portanto, os
modelos são definidos como:
yijk = β0 + uj + vk + �ijk, (2.1)
yijk = β0 + β1x1ijk + β2x2ijk + uj + vk + �ijk, (2.2)
yijk = β0 + β1jx1ijk + β2x2ijk + u0j + vk + �ijk
β1j = β1 + u1j
(2.3)
em que yijk é o desempenho nas notas das provas de matemática ou linguagens e códigos
do aluno i, pertencente à escola j e ao município k, x1ijk é a escolaridade média em anos
dos pais do aluno i, pertencente à escola j e ao município k. x2ijk é a cor da pele (variável
binária) do aluno i pertencente à escola j e ao município k, β1 e β2 são os coeficientes
fixos das variáveis x1 e x2, respectivamente, β1j é o coeficiente da variável x1, que varia
entre as diferentes escolas, ui e vk são os efeitos aleatórios na escola j e no município k,
�ijk é o erro referente ao desempenho do aluno i, pertencente à escola j e ao município k.
No trabalho Oliveira (2017) utiliza-se de métodos de mineração de dados e árvores
de decisão para encontrar características da escola que influenciam nas notas do ENEM.
Como resultado foram encontradas 52 características que influenciam no desempenho da
escola no ENEM. Esses atributos indicam que quanto melhor a infraestrutura da escola
Capítulo 2. Revisão da literatura 19
maior o desempenho desta no ENEM, mas também que fatores socioeconômicos dos alunos
influenciam no desempenho da escola no ENEM.
Albuquerque (2017) utilizando os microdados do ENEM 2015 estudou o desempenho
dos alunos na prova de Matemática e suas tecnologias. Estimou-se um modelo de regressão
com intercepto aleatório em dois níveis sendo o primeiro relacionado às características
socioeconômicas dos alunos e o segundo relacionado ao tipo de escola (pública ou privada).
Na Equação 2.4 é apresentado o modelo de regressão utilizado no trabalho.
yij = β0j + β1jXij + �ij,
β0j = γ00 + γ01Zj + u0j,
β1j = γ10
(2.4)
Em que i indica o indivíduo (i = 1 . . . nj), yij representa o desempenho do estudante
na nota de matemática que varia no intervalo de [0,1000], β0j é o intercepto, β1j é o
coeficiente angular da regressão Xij é a matriz de variáveis independentes relacionadas
ao nível dos alunos, Zj representa a variável tipo da escola, �ij e u0j são termos do erro
que pertencem ao primeiro e segundo efeitos aleatórios, respectivamente, com média 0
e variância σ2, γ10 caracteriza a média dos coeficientes de regressão das j escolas para
as variáveis independentes. Substituindo β0j e β1j na equação de regressão obtém-se a
Equação 2.5.
yij = γ00 + γ01Zj + γ10Xi + u0j + �ij (2.5)
Em Oliveira et al. (2017) realiza-se um estudo das escolas públicas do estado do
Goiás que ofertam o ensino médio utilizando os microdados do ENEM 2014 e dados
institucionais de cada escola do estado fornecidos pela Secretaria de Educação do Goiás.
Empregou-se nesse estudo a análise envoltória de dados (método não-paramétrico) e
também o modelo de regressão inflacionado de zero para identificar quais foram as escolas
mais eficientes do estado. Entende-se por escola eficiente como a escola que realiza a
alocação ótima dos recursos para obter maior desempenho. O autor compara o desempenho
dos alunos com relação ao investimento na educação segundo municípios e estado do Goiás.
Lobo, Cassuce e Cirino (2017) realizam um estudo do desempenho escolar dos
estudantes da região Nordeste que participaram do ENEM. Nesse trabalho utilizou-se o
modelo de efeitos aleatórios cuja variável resposta é a nota em matemática e os efeitos
aleatórios são considerados como o primeiro nível o estudante e o segundo nível a escola,
dentro de cada nível há uma estrutura de regressão.
Na dissertação de pós-graduação em Educação Brasileira do autor Carvalho (2017)
estuda-se os fatores socioeconômicos associados ao desempenho dos estudantes na prova de
Capítulo 2. Revisão da literatura 20
redação do Exame Nacional do Ensino Médio ENEM. Nesse estudo analisa-se a nota obtida
pelos estudantes em redação agrupadas nas diferentes variáveis que constituem o nível
socioeconômico, como raça/cor, renda familiar, tipo de escola (pública ou privada), entre
outras. As ferramentas estatísticas utilizadas foram a ANOVA, os testes de homogeneidade
de variância ou apenas teste de Levene, teste de igualdade das médias e teste de Tukey HSD.
As análises contemplam alunos de escola pública e privada do país, concluintes/concludentes
do ensino médio, que realizaram a prova de redação e responderam o questionário contextual,
incluindo o intervalo de [0,1000) em sua análise. O software utilizado para esse trabalho
foi o SPSS.
De forma análoga Fernandes (2018) utiliza modelos com efeitos aleatórios para
analisar o resultado do ENEM de cada aluno, que é formada pela média aritmética das
4 (quatro) notas das provas mais nota da redação. Na etapa do pré-processamento dos
dados, a autora excluiu os registros dos alunos que obtiveram nota zero eliminando qual
quer inflação de zero que pudessem existir. O modelo utilizado encontra-se na Equação 2.6
yij =β0j + β1jXij + β2jXij + �ij,
β0j =γ00 + γ01Zj + u0j,
β1j =γ10 + γ11Zj + u1j
(2.6)
Em que i indica cada indivíduo (i = 1, . . . , nj), j indica o tipo da escola (j = 1,2), sendo 1
para pública e 2 para particular, yij é a média aritmética das quatro provas e redação do
estudante i, ela varia no intervalo de [0,1000], β0j é o intercepto, β1j é o coeficiente angular
da regressão, Xij é a matriz de variáveis independentes relacionadas aos alunos como sexo,
escolaridade da mãe e idade, Zj é a variável pertencente ao tipo da escola, �ij, u0j e u1j
são termos do erro que pertencem aos níveis dos efeitos aleatórios com média 0 e variância
σ2, γ10 caracteriza a média dos coeficientes de regressão das j escolas para as variáveis
independentes, Se substituir β0j e β1j na equação de regressão, tem-se a Equação 2.7
yij=γ00 + γ01Zj + γ10Xi + u0j + �ij (2.7)
Os autores Pereira et al. (2019) desenvolveram uma nova classe de resíduos para
identificação de outliers em modelos de regressão ajustados em zero. O estudo utiliza
simulações com o método de Monte Carlo para validar as propriedades da nova classe
de modelos e também ajusta um modelo de regressão beta inflacionado de zero a uma
amostra aleatória de 1000 (mil) registros do ENEM de 2014 tendo como variável resposta a
nota na redação e como variáveis preditoras as 4 (quatro) notas nas provas, o gênero do(a)
aluno(a) e a idade para identificar os outliers presente nessa amostra. Por fim, constatou-se
Capítulo 2. Revisão da literatura 21
que a nova classe de resíduos é melhor para identificação de outliers na regressão beta
ajustada em zero do que os resíduos usuais.
O trabalho de Lima (2018) é uma monografia de graduação em Estatística. Nesse
trabalho utilizam-se técnicas de estatística multivariada para analisar o desempenho obtido
no ENEM 2015 pelos participantes que ingressaram na UFRN em 2016 pelo SiSU e também
estudar o desempenho no curso um ano após o ingresso na universidade. Os resultados
das análises permitiu separar os cursos em quatro grupos distintos. Percebeu-se que as
variáveis socioeconômicas têm impacto no desempenho dos participantes durante o exame,
de maneira que a competição por uma vaga na universidade não é justa para todos, sendo
o ingresso mais difícil para os participantes menos favorecidos socioeconomicamente. Entre-
tanto, as variáveis socioeconômicas não se mostraram significativas quanto ao desempenho
após o ingresso no curso e muito provavelmente por conta das políticas de incentivo da
universidade, como bolsas de estudo, auxílio creche, auxilio moradia entre outros.
Na dissertação de Silva (2020) estuda-se o modelo de regressão beta modal e
aplica-se o modelo a dois conjuntos de dados, a primeira aplicação considera a taxa de
analfabetismo tendo como variável preditora o Índice de Desenvolvimento Humano (IDH)
dos municípios do estado de Mato Grosso em 2010 e na segunda aplicação ajusta-se o
modelo proposto aos dados do ENEM 2017 para os participantes que haviam concluído o
ensino médio e foram aprovados na UFRN nesse mesmo ano, tendo como variável resposta
a porcentagem de acertos na prova de linguagens, códigos e suas tecnologias como e as
demais variáveis foram utilizadas como variáveis preditoras.
É importante informar que o trabalho de Silva (2020) tem uma proposta diferente
da proposta deste trabalho, uma vez que a variável resposta da dissertação foi a nota
em Linguagens, Códigos e suas Tecnologias do ENEM 2017 e utilizou-se do modelo de
regressão para modelar a moda da variável, o presente trabalho tem como variável resposta
a nota da redação do ENEM do ano de 2019 e utiliza-se a regressão beta ajustada em zero
tendo como objetivo desvendar quais variáveis influenciam a nota da redação.
Diante de todos os trabalhos apresentados nessa seção, o presente trabalho traz uma
nova perspectiva na análise de dados do ENEM pois, a estruturação da classe de modelos
aditivos generalizados para localização, escala e forma utilizando-se a distribuição beta
ajustada em zero permite que uma estrutura de regressão seja criada para a localização da
variável, outra estrutura de regressão para a variabilidade da variável, e outra estrutura de
regressão para a probabilidade do participante obter nota zero e demais parâmetros. As
estruturas de regressão podem ser lineares, não lineares e também podem conter funções de
suavização. Desta forma, o presente trabalho traz uma inovação para a literatura voltada
a análise de dados do ENEM.
22
3 Base de dados
3.1 Processamento dos dados
O tema da redação do ENEM 2019 era “Democratização do acesso ao cinema no
Brasil”, a nota que os alunos obtiveram na redação foi utilizada como variável resposta
na modelagem desse trabalho. Os dados dos participantes contendo tanto a nota da
redação como as demais variáveis encontram-se nos microdados do ENEM 2019 que estão
disponíveis no site oficial do Instituto Nacional de Estudos e Pesquisas Educacionais
(INEP). A população em estudo são participantes nascidos e que residiam no Rio Grande
do Norte (RN) durante a execução das provas. Fez-se essa seleção para manter no estudo os
participantes mais homogêneos, ou seja, que receberam influências econômicas, geográficas,
culturais e educacionais que existem no RN, evitando manter em estudo, alunos que
porventura nasceram no RN e mudaram-se para outro estado ou alunos que nasceram em
outro estado e mudaram-se para o RN algum tempo antes de realizar o exame. Infelizmente,
é possível que alguns alunos, apesar de nascidos e residirem no RN durante o exame,
tenham morado em algum outro estado e mudou-se de volta para o RN antes da realização
das provas. As estatísticas descritivas apresentadas nessa seção são referentes às variáveis
que se mostraram significativas na modelagem da nota da redação.
Essa população foi selecionada, pois, de acordo com Travitzki, Ferrão e Couto
(2016), há evidências de que o rendimento nominal per capita médio dos estados influenciam
no desempenho educacional do aluno e ainda de acordo com a Pesquisa Nacional por
Amostra de Domicílios Contínua PNAD (2018), os estados do nordeste apresentam uma
renda nominal per capita média homogênea, comparado com as outras regiões e selecionar
apenas o RN mantém as informações mais homogêneas.
3.2 Conjunto de dados
Para conseguir os microdados, acessou-se o site do INEP INEP (2020). Fez-se o
procedimento de organização dos dados utilizando o software R (R Core Team, 2021). O
procedimento está descrito a seguir:
1. Selecionou-se os participantes que nasceram e residiam no RN no período de execução
das provas do ENEM;
2. Excluiu-se os participantes que deixaram em branco pelo menos uma das perguntas
socioeconômicas que solicitavam a escolaridade da mãe, a escolaridade do pai, a
ocupação da mãe ou a ocupação do pai;
Capítulo 3. Base de dados 23
3. Excluiu-se os participantes que faltaram em pelo menos uma das quatro provas;
4. Haviam três indivíduos que obtiveram nota mil na redação do ENEM 2019 no RN.
Por ser uma quantidade negligível de observações não houve necessidade de aplicar
um modelo beta ajustado no zero e no um. Portanto, excluiu-se essas observações.
5. Para utilizar o modelo Beta Ajustado em Zero (BEZI) é necessário que a variável
resposta pertença ao intervalo de zero a um [0,1), para tanto, dividiu-se a nota da
redação pelo valor máximo que essa nota pode alcançar (1000).
6. Também dividiu-se por 1000 as notas em Ciências Humanas e suas Tecnologias,
Ciências da Natureza e suas Tecnologias, Linguagens e códigos e suas Tecnologias e
Matemática e suas Tecnologias para manter na mesma escala que a variável resposta.
A variável resposta, nota na redação, é uma variável quantitativa contínua assu-
mindo possíveis valores no intervalo [0, 1) incluso o zero. A redação é a única prova do
ENEM que é totalmente subjetiva, contendo cinco competências que devem ser atendidas
de forma satisfatória para atingir a nota máxima. Para corrigir a nota da redação do
participante dois professores avaliam de forma independente cada uma das competências
dando uma nota de zero a duzentos. A soma da nota dada pelo avaliador em cada uma das
competências gera a nota total, podendo chegar a mil. A nota final da redação do partici-
pante é obtida da média aritmética das notas dos dois avaliadores. As cinco competências
da nota da redação são:
1. Demonstrar domínio da modalidade escrita formal da Língua Portuguesa.
2. Compreender a proposta de redação e aplicar conceitos das várias áreas de conheci-
mento para desenvolver o tema, dentro dos limites estruturais do texto dissertativo-
argumentativo em prosa.
3. Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argu-
mentos em defesa de um ponto de vista.
4. Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção
da argumentação.
5. Elaborar propostade intervenção para o problema abordado, respeitando os direitos
humanos.
O conjunto de dados completo originou-se dos microdados do ENEM disponibili-
zados no site INEP. Após o processamento de dados, utiliza-se dois conjuntos de dados
distintos. O primeiro é o conjunto de dados referente aos participantes que estudaram
em escolas privadas contendo 1420 participantes e utilizou-se 7 variáveis, o segundo é
Capítulo 3. Base de dados 24
o conjunto de dados referente aos participantes que estudaram em escolas federais con-
tendo 1763 linhas e utilizou-se 8 variáveis. Na seção seguinte apresentam-se as estatísticas
descritivas para cada conjunto de dados.
Todas as variáveis apresentadas nas seções a seguir estão presentes no ajuste de cada
um dos conjuntos de dados. Portanto, são apresentadas a seguir duas seções de estatísticas
descritivas. Note que as variáveis que são apresentadas na seção de participantes de escolas
privadas não são as mesmas que são apresentadas na seção das escolas federais, isso se dá
por que os modelos são aplicados a dois universos diferentes e portanto as relações com as
covariáveis são diferentes.
3.3 Estatísticas descritivas para participantes de escolas privadas
As variáveis que foram utilizadas no modelo do conjunto dos participantes que
estudaram em escolas privadas foram a idade do participante (NU_IDADE), a nota em
Ciências da Natureza e suas Tecnologias (NU_NOTA_CN), a nota em Ciências Humanas
e suas Tecnologias (NU_NOTA_CH), a nota em Linguagens e Códigos e suas Tecnologias
(NU_NOTA_LC), a nota em Matemática e suas Tecnologias (NU_NOTA_MT), se há
telefone fixo na casa do participante (Q023) sendo as opções de resposta Não (A) e Sim (B) e
o Tipo de Escola que estudou no ensino médio (TP_ESCOLA), sendo as possíveis respostas
Não respondeu (1), Pública (2), Privada (3) e Federal (4). Na Tabela 3.1 apresenta-se um
resumo numérico dessas variáveis mais a Nota na redação (NU_NOTA_REDACAO) para
o presente conjunto de dados. Note que as nota nas cinco provas têm valores variando no
intervalo de 0 a 1.
Tabela 3.1 – Resumo das variáveis para participantes de
escolas privadas
Variável Tipo Resumo Numérico
NU_IDADE Quantitativo
Mínimo = 15
Quartil 1 = 17
Mediana = 17
Média = 17,53
Quartil 3 = 18
Máximo = 35
NU_NOTA_CN Quantitativo
Mínimo = 0,33
Quartil 1 = 0,46
Mediana = 0,53
Média = 0,52
Quartil 3 = 0,58
Capítulo 3. Base de dados 25
(Continuação)
Variável Tipo Resumo Numérico
Máximo = 0,85
NU_NOTA_CH Quantitativo
Mínimo = 0
Quartil 1 = 0,5
Mediana = 0,56
Média = 0,55
Quartil 3 = 0,6
Máximo = 0,76
NU_NOTA_LC Quantitativo
Mínimo = 0,32
Quartil 1 = 0,52
Mediana = 0,55
Média = 0,55
Quartil 3 = 0,59
Máximo = 0,69
NU_NOTA_MT Quantitativo
Mínimo = 0,36
Quartil 1 = 0,5
Mediana = 0,59
Média = 0,59
Quartil 3 = 0,67
Máximo = 0,98
Q023 Qualitativo
A = 1108
B = 312
TP_ESCOLA Qualitativo
1 = 0
2 = 263
3 = 1157
4 = 0
NU_NOTA_REDACAO Quantitativo
Mínimo = 0
Quartil 1 = 0,62
Mediana = 0,72
Média = 0,72
Quartil 3 = 0,84
Máximo = 0,99
Para verificar como a nota da redação se distribui de acordo com as variáveis da
Tabela 3.1, apresenta-se a seguir o histograma da nota da redação contra as variáveis
Capítulo 3. Base de dados 26
da tabela. Note que as variáveis explicativas numéricas estão divididas em intervalos,
apresentados no título de cada gráfico. Na Figura 3.1 é apresentado o histograma da
nota da redação do ENEM dos participantes que estudaram em escolas privadas, percebe-
se que esse gráfico tem um formato assimétrico a esquerda, com média em torno de
0,73 e com um pico na nota zero correspondente a 16(1,14%) participantes. Na Figura
3.2 é apresentado um gráfico de densidade em duas dimensões, em que cada ponto é
na verdade um agrupamento de pelo menos 5 notas dos participantes. Observa-se que
conforme a nota nas provas objetivas aumentam, a nota da redação aumenta também.
Segundo as Figuras 3.3, 3.4, 3.5, 3.6 conforme a nota das provas objetivas aumentam, as
notas da redação concentram-se nos valores mais altos e a quantidade de zeros diminui,
indicando que as notas nas provas objetivas influenciam positivamente na média da nota
da redação. Além disso, observa-se na Figura 3.7 que os participantes com telefone fixo
em sua residência apresentam notas na redação mais concentradas no valores mais altos e
menos zeros do que aqueles que não tem. Por fim, nota-se na Figura 3.8 que participantes
que estudaram somente em escolas privadas durante o ensino médio têm uma média
maior, menor quantidade de zeros e variabilidade menor na nota da redação do que os
participantes que estudaram a maior parte do ensino médio em escolas públicas.
Figura 3.1 – Histograma da distribuição de notas da redação para os participantes de
escolas privadas
0
25
50
75
100
125
0 0,2 0,40 0,60 0,80 0,99
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 27
Figura 3.2 – Gráfico de dispersão das notas da redação versus a nota nas provas objetivas
para os participantes de escolas privadas
NU NOTA CN NU NOTA CH NU NOTA LC NU NOTA MT
0,0 0,2 0,5 0,8 1,0 0,0 0,2 0,5 0,8 1,0 0,0 0,2 0,5 0,8 1,0 0,0 0,2 0,5 0,8 1,0
0
0,2
0,40
0,60
0,80
0,99
Proporção da nota nas provas objetivas
P
ro
p
or
çã
o
d
a
n
ot
a
d
a
R
ed
aç
ão
10 20 30 40
Frequência de pontos na vizinhança
Figura 3.3 – Histograma da distribuição de notas da redação de acordo com a nota em
Ciências da Natureza e suas Tecnologias para os participantes de escolas
privadas
(0.6,0.8] (0.8,1]
(0.2,0.4] (0.4,0.6]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
50
100
150
0,00
0,50
1,00
1,50
2,00
0,0
5,0
10,0
15,0
20,0
0
20
40
60
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 28
Figura 3.4 – Histograma da distribuição de notas da redação de acordo com a nota em
Ciências Humanas e suas Tecnologias para os participantes de escolas privadas
(0.4,0.6] (0.6,0.8]
[0,0.2] (0.2,0.4]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0,0
5,0
10,0
15,0
0
25
50
75
100
0,00
0,25
0,50
0,75
1,00
0
50
100
150
F
re
q
u
ên
ci
a
Figura 3.5 – Histograma da distribuição de notas da redação de acordo com a nota em
Linguagens e códigos e suas Tecnologias para os participantes de escolas
privadas
(0.2,0.4] (0.4,0.6] (0.6,0.8]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
20
40
60
0
50
100
150
200
0,0
2,0
4,0
6,0
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 29
Figura 3.6 – Histograma da distribuição de notas da redação de acordo com a nota em
Matemática e suas Tecnologias para os participantes de escolas privadas
(0.6,0.8] (0.8,1]
(0.2,0.4] (0.4,0.6]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
50
100
0,0
5,0
10,0
0,0
5,0
10,0
15,0
0
25
50
75
100
125
F
re
q
u
ên
ci
a
Figura 3.7 – Histograma da distribuição de notas da redação de acordo com a presença de
telefone fixo na casa dos participantes de escolas privadas
A B
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
10
20
30
40
50
0
50
100
150
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 30
Figura 3.8 – Histograma da distribuição de notas da redação de acordo com o tipo de
escola que os participantes de escolas privadas estudaram na maior parte do
ensino médio
2 3
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
50
100
150
0
10
20
30
F
re
q
u
ên
ci
a
3.4 Estatísticas descritivas para participantes de escolas federais
As variáveis que foram utilizadas no conjunto dos participantes que estudaram
em escolas federais foram a idade do participante (NU_IDADE), a nota em Ciências
da Natureza e suas Tecnologias (NU_NOTA_CN), a nota em Ciências Humanas e suas
Tecnologias (NU_NOTA_CH), a nota em Linguagens e Códigos e suas Tecnologias
(NU_NOTA_LC), a nota em Matemática e suas Tecnologias (NU_NOTA_MT), o sexo
do participante (TP_SEXO) sendo as possíveis respostas Feminino (F) e Masculino (M),
se há aparelho de DVD na residência do participante (Q020) com as possíveis respostas
Não (A) e Sim (B) e se há telefone celular na residência do participante (Q022) com
possíveisrespostas Não (A), Sim, um (B), Sim, dois (C), Sim, três (D) e Sim, quatro ou
mais (E). Na Tabela 3.2 apresenta-se um resumo numérico dessas variáveis mais a Nota
na redação (NU_NOTA_REDACAO) para o presente conjunto de dados, note que as
notas nas cinco provas têm valores variando no intervalo de 0 a 1.
Tabela 3.2 – Resumo das variáveis para o conjunto dos
participantes de escolas federais
Variável Tipo Descrição
NU_IDADE Quantitativo
Mínimo = 15
Quartil 1 = 18
Capítulo 3. Base de dados 31
(Continuação)
Variável Tipo Descrição
Mediana = 19
Média = 18,78
Quartil 3 = 19
Máximo = 51
NU_NOTA_CN Quantitativo
Mínimo = 0,34
Quartil 1 = 0,49
Mediana = 0,54
Média = 0,53
Quartil 3 = 0,58
Máximo = 0,77
NU_NOTA_CH Quantitativo
Mínimo = 0
Quartil 1 = 0,52
Mediana = 0,56
Média = 0,56
Quartil 3 = 0,6
Máximo = 0,74
NU_NOTA_LC Quantitativo
Mínimo = 0,36
Quartil 1 = 0,54
Mediana = 0,57
Média = 0,56
Quartil 3 = 0,59
Máximo = 0,71
NU_NOTA_MT Quantitativo
Mínimo = 0,36
Quartil 1 = 0,53
Mediana = 0,61
Média = 0,6
Quartil 3 = 0,68
Máximo = 0,92
TP_SEXO Qualitativo
F = 1026
M = 737
Q020 Qualitativo
A = 1321
B = 442
Q022 Qualitativo
A = 32
B = 196
Capítulo 3. Base de dados 32
(Continuação)
Variável Tipo Descrição
C = 556
D = 630
E = 349
NU_NOTA_REDACAO Quantitativo
Mínimo = 0
Quartil 1 = 0,64
Mediana = 0,72
Média = 0,73
Quartil 3 = 0,84
Máximo = 0,98
Para verificar como a nota da redação dos participantes de escolas federais se
distribuem de acordo com as variáveis da Tabela 3.2, apresenta-se a seguir os gráficos
para estudar a relação da nota da redação versus as covariáveis. Note que dividiu-se
as variáveis numéricas em intervalos que pode observá-lo no título dos histogramas. Na
Figura 3.9 é apresentado o histograma da nota da redação do ENEM dos participantes que
estudaram em escolas federais, percebe-se que esse gráfico tem um formato assimétrico a
esquerda e com média em torno de 0,73 e um pico no valor zero, representando 12 (0,68%)
dos participantes . Na Figura 3.10, observa-se que conforme a nota nas provas objetivas
aumentam a nota da redação aumenta também. Além disso nas Figuras 3.11, 3.12, 3.13,
3.14, observa-se que conforme a nota das provas objetivas aumentam, as notas da redação
concentram-se nos valores mais altos e a quantidade de zeros diminui, indicando que
as notas nas provas objetivas influenciam positivamente na média da nota da redação.
Na Figura 3.16 nota-se que os participantes de sexo masculino obtém notas um pouco
maiores na redação do que participantes de sexo feminino, entretanto, a quantidade de
zeros dentre os participantes masculinos é maior do que a quantidade de zeros dentre
participantes femininos. Na Figura 3.17 nota-se que a nota da redação dos participantes
que tem aparelho de DVD é muito semelhante aos participantes que não tem, mas há
menos zeros dentre os participantes que tem o aparelho. Por fim, na Figura 3.18 observa-se
que a nota da redação concentra-se em valores maiores conforme a quantidade de telefones
celulares na casa dos participantes cresce, além disso a quantidade de zeros é muito maior
no grupo que não tem telefone celular em suas residências comparado com aqueles que
têm pelo menos um telefone celular.
Capítulo 3. Base de dados 33
Figura 3.9 – Histograma da distribuição das notas da redação para os participantes de
escolas federais
0
100
200
300
0 0,20 0,40 0,60 0,80 0,99
F
re
q
u
ên
ci
a
Figura 3.10 – Gráfico de dispersão das notas da redação versus a nota nas provas objetivas
para os participantes de escolas federais
NU NOTA CN NU NOTA CH NU NOTA LC NU NOTA MT
0,0 0,2 0,4 0,6 0,8 0,0 0,2 0,4 0,6 0,8 0,0 0,2 0,4 0,6 0,8 0,0 0,2 0,4 0,6 0,8
0
0,2
0,40
0,60
0,80
0,99
Proporção da nota nas provas objetivas
P
ro
p
or
çã
o
d
a
n
ot
a
d
a
R
ed
aç
ão
10 20 30 40 50
Frequência de pontos na vizinhança
Capítulo 3. Base de dados 34
Figura 3.11 – Histograma da distribuição das notas da redação de acordo com as notas
em Ciências da Natureza e suas Tecnologias para os participantes de escolas
federais
(0.2,0.4] (0.4,0.6] (0.6,0.8]
0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99
0
20
40
60
0
100
200
0,0
5,0
10,0
15,0
F
re
q
u
ên
ci
a
Figura 3.12 – Histograma da distribuição das notas da redação de acordo com as notas
em Ciências Humanas e suas Tecnologias para os participantes de escolas
federais
(0.4,0.6] (0.6,0.8]
[0,0.2] (0.2,0.4]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0,0
5,0
10,0
0
30
60
90
0,00
0,25
0,50
0,75
1,00
0
100
200
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 35
Figura 3.13 – Histograma da distribuição das notas da redação de acordo com as notas em
Linguagens e Códigos e suas Tecnologias para os participantes de escolas
federais
(0.2,0.4] (0.4,0.6] (0.6,0.8]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
20
40
60
80
0
100
200
0,0
1,0
2,0
3,0
4,0
5,0
F
re
q
u
ên
ci
a
Figura 3.14 – Histograma da distribuição das notas da redação de acordo com as notas
em Matemática e suas Tecnologias para os participantes de escolas federais
(0.6,0.8] (0.8,1]
(0.2,0.4] (0.4,0.6]
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
50
100
150
0,0
2,5
5,0
7,5
10,0
12,5
0,0
2,5
5,0
7,5
0
50
100
150
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 36
Figura 3.15 – Histograma da distribuição das notas da redação de acordo com a idade dos
participantes de escolas federais
(18,19] (19,52]
[15,16] (16,17] (17,18]
0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99
0 0,2 0,4 0,6 0,80,99
0
25
50
75
100
0,0
5,0
10,0
15,0
20,0
25,0
0
20
40
60
0,00
0,50
1,00
1,50
2,00
0
30
60
90
120
F
re
q
u
ên
ci
a
Figura 3.16 – Histograma da distribuição das notas da redação de acordo com o sexo dos
participantes de escolas federais
F M
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
25
50
75
100
125
0
50
100
150
F
re
q
u
ên
ci
a
Capítulo 3. Base de dados 37
Figura 3.17 – Histograma da distribuição das notas da redação de acordo com a presença
de aparelho de DVD na residência dos participantes de escolas federais
A B
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0
20
40
60
0
50
100
150
200
F
re
q
u
ên
ci
a
Figura 3.18 – Histograma da distribuição das notas da redação de acordo com a presença
de telefone celular na residência dos participantes de escolas federais
D E
A B C
0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99
0 0,2 0,4 0,6 0,8 0,99
0
25
50
75
100
0
10
20
30
40
0
20
40
60
0,0
2,0
4,0
6,0
0
25
50
75
100
F
re
q
u
ên
ci
a
38
4 Modelagem
Analisando as estatísticas descritivas do Capítulo 3 percebe-se que a nota da
redação tem um comportamento assimétrico à esquerda, com média em torno da nota
0,73 em ambos os conjuntos de dados e ainda 16 participantes com nota zero no conjunto
de dados dos participantes de escolas privadas e 12 participantes com nota zero no
conjunto dos participantes de escolas federais. Os demais histogramas mostram que o
comportamento da distribuição das notas da redação versus as demais variáveis apresentam
formas muito diversas, como por exemplo, formas que assumem distribuições assimétricas,
distribuição uniforme em um intervalo de valores, entre outras. Devido à essa diversidade
é razoável pensar que a distribuição que irá modelar a nota da redação deve ser versátil e
devido a natureza da variável, deve englobar também as extremidades. Além disso, após o
processamento de dados observou-se que o conjunto de notas da redação não tem nenhuma
nota mil e por conta desses fatores uma distribuição de probabilidade razoável para a
modelagem é a distribuição de mistura beta ajustada em zero com parâmetro de locação
µ, de dispersão σ e parâmetro da probabilidade da variável resposta obter zero ν. Essa
distribuição tem suporte variando no intervalo [0,1) (zero a um, incluindo o zero) e é bem
versátil, podendo assumir formas diferentes ao variar os valores de µ, σ e ν.
A distribuição beta ajustada em zero é suportadapelos modelos aditivos genera-
lizados para localização, escala e forma (GAMLSS). Essa ferramenta cria estruturas de
regressão para cada um dos seguintes parâmetros: µ referente à localização, σ referente
à escala e ν e τ refente à forma da distribuição, mas antes de entrar em mais detalhes
dessa distribuição, a seguir será apresentada a classe de modelos aditivos generalizados
para localização, escala e forma e seus algoritmos de estimação dos parâmetros e após isso,
será apresentada na seção Distribuição Beta Ajustada em Zero, a função de densidade de
probabilidade e também as características dessa distribuição.
4.1 Os Modelos Aditivos Generalizados para Localização, Escala e
Forma
A classe de Modelos Aditivos Generalizados para Localização, Escala e Forma
(GAMLSS) é uma classe de modelos de regressão semiparamétricos. Sua usabilidade
ocorre ao escolher uma distribuição de probabilidade para a variável resposta em que os
parâmetros a serem estimados podem ser funções lineares, não-lineares e/ou suavizações.
Em particular, o GAMLSS permite que modelos de regressão flexíveis e suavizações sejam
ajustados aos dados. É possível modelar variáveis com distribuição que apresentam caldas
Capítulo 4. Modelagem 39
pesadas ou caldas leves e/ou com assimetria positiva ou negativa. Segundo Stasinopoulos et
al. (2017) o modelo definido na Equação 4.1 é chamado de modelo GAMLSS paramétrico.
g1(µ) = η1 = X1β1
g2(σ) = η2 = X2β2 (4.1)
g3(ν) = η3 = X3β3
g4(τ ) = η4 = X4β4
em que, Xk é a matriz de planejamento incorporando os termos aditivos lineares no modelo
e βk são os parâmetros dos coeficientes lineares e gk() é a função de ligação, em que
k = 1,2,3,4. Os vetores η1,η2, η3, η4 são chamados de preditores lineares para µ , σ , ν e
τ .
4.1.1 Processo de estimação do modelo
Ainda segundo Stasinopoulos et al. (2017), o processo de estimação do modelo
GAMLSS paramétrico consiste em utilizar os estimadores de máxima verossimilhança com
respeito a βk, k = 1,2,3,4. O logaritmo da função de verossimilhança para o modelo 4.1,
sob a suposição que as observações são independentes, é dada pela Equação 4.2.
`(µ,σ,ν,τ |Y) =
n∑
i=1
log[ f(yi|µi,σi,νi,τi) ] (4.2)
Rigby e Stasinopoulos (2005a) forneceram dois algoritmos que são utilizados para
maximizar o logaritmo da função de verossimilhança (`(µ,σ,ν,τ |Y)) com respeito a
β, eles são chamados de RS() e CG(). Mostra-se que ambos os algoritmos resultam
nas estimativas de máxima verossimilhança para β (Rigby e Stasinopoulos (2005a),
apêndice C). A diferença entre os dois algoritmos é que o RS() maximiza a função de
log-verossimilhança com relação aos parâmetros µ,σ,ν,τ atualizando os valores de um
parâmetro a cada iteração, mas de forma cíclica, enquanto que o algoritmo CG() atualiza
todos os parâmetros de uma vez a cada interação, utilizando a informação das derivadas
cruzadas. Geralmente o algoritmo RS() é mais estável e em muitos casos mais rápido para
convergir comparado com o CG() e por isso é o algoritmo padrão para estimação dos β.
Devido a esses benefícios, considera-se nesse estudo o algoritmo RS() para estimação dos
coeficientes β.
Capítulo 4. Modelagem 40
4.1.2 Algoritmo RS()
O algoritmo RS() é dividido em três etapas, a iteração externa, a iteração interna e
o retroajustamento modificado. A iteração externa repetidamente chama a iteração interna
que por sua vez chama o retroajustamento modificado. A convergência do algoritmo RS()
ocorre quando as três iterações convergem.
4.1.2.1 Iteração externa
Após escolher o vetor de inicialização (µ̂,σ̂,ν̂,τ̂ ) = (µ0,σ0,ν0,τ 0) a iteração externa
procede da seguinte maneira:
1. Ajusta-se o modelo para µ dada as últimas atualizações para σ̂,ν̂,τ̂ ;
2. Ajusta-se o modelo para σ dada as últimas atualizações para µ̂,ν̂,τ̂ ;
3. Ajusta-se o modelo para ν dada as últimas atualizações para µ̂,σ̂,τ̂ ;
4. Ajusta-se o modelo para τ dada as últimas atualizações para µ̂,σ̂,ν̂;
Após isso, calcula-se o desvio global (do inglês Global Deviance) pela fórmula
−2`(µ,σ,ν,τ |Y). Repete-se esse processo até o desvio gloval convergir.
4.1.2.2 Iteração interna
Por conveniência a notação µ = θ1, σ = θ2, ν = θ3 e τ = θ4 será usada. A
iteração interna é utilizada para ajustar os modelos a cada parâmetro θk da iteração
externa. A ideia do algoritmo é ajustar repetidamente modelos ponderados por pesos
para uma variável resposta modificada até a convergência. Na literatura dos Modelos
Lineares Generalizados (GLM) esse procedimento é conhecido como estimação iterativa
pelos mínimos quadrados reponderados. A variável resposta modificada (chamada também
de variável de trabalho) para ajustar o modelo ao parâmetro θk é dada pela Equação 4.3:
zk = ηk + w−1k ◦ uk (4.3)
em que,
1. zk,ηk,w−1k ,uk são vetores de tamanho n. Por exemplo, wk = (wk1, . . . , wkn)T ;
2. w−1k ◦ uk é o produto elemento a elemento de Hadamard;
3. ηk = gk(θk) é o vetor de preditores lineares para o vetor θk, k = 1,2,3,4 correspon-
dendo ao vetor de parâmetros (µ,σ,ν,τ )T ;
Capítulo 4. Modelagem 41
4. uk é a função score, ou a primeira derivada da função de máxima verossimi-
lhança com respeito ao preditor linear ηk apresentada na Equação 4.4. Note que
∂`(µ,σ,ν,τ |Y)
∂ηk
, ∂`(µ,σ,ν,τ |Y)
∂θk
e dθk
dηk
são vetores de tamanho n;
5. E os pesos iterativos wk para k = 1,2,3,4 são definidos na Equação 4.5:
uk =
∂`(µ,σ,ν,τ |Y)
∂ηk
= ∂`(µ,σ,ν,τ |Y)
∂θk
◦ dθk
dηk
(4.4)
wk = −fk ◦
dθk
dηk
◦ dθk
dηk
(4.5)
Há três formas de se definir fk mostradas na Equação 4.6, a depender da informação
disponível para a distribuição de probabilidade específica.
fk =

E
(
∂2`(µ,σ,ν,τ |Y)
∂θ2k
)
1
∂2`(µ,σ,ν,τ |Y)
∂θ2k
2
−∂`(µ,σ,ν,τ |Y)
∂θk
◦ ∂`(µ,σ,ν,τ |Y)
∂θk
3

(4.6)
Em que o vetor ∂
2`i(µ,σ,ν,τ |Y)
∂θ2k
tem tamanho n e elementos ∂
2`(µi,σi,νi,τi|Y)
∂θ2
ki
, i = 1, . . . , n e,
1. Leva no algoritmo de score de Fisher. Note que só poderá ser escolhido se essa
esperança existir;
2. Leva no algoritmo de score pelo método de Newton-Raphson padrão e
3. Leva no algoritmo de score pelo método de quasi Newton
Ocasionalmente, derivadas numéricas são utilizadas para definir fk no algoritmo
quasi Newton, mas em geral torna o algoritmo mais lento. Além disso, ∂
2`(µ,σ,ν,τ |Y)
∂θ2k
pode
levar em pesos negativos wk, que por sua vez não é permitido no retroajustamento
modificado e por conta disso ele não foi implementado no algoritmo do GAMLSS.
O algoritmo da iteração interna é dado da seguinte maneira: Dadas as estimativas
atuais para todos os parâmetros da distribuição de µ̂, σ̂, ν̂ e τ̂ os pesos iterativos, wk, e
a variável de trabalho interativa para o vetor de parâmetro da distribuição em questão θk
são (re)calculados e usados em um ajuste ponderado pelos pesos wk contra as variáveis
Capítulo 4. Modelagem 42
preditoras necessárias a esse parâmetro. Esse processo se repete até não haver mais
mudanças no desvio global. Note que os outros parâmetros θs , s 6= k são fixos em seus
valores atuais a cada interação interna.
Na interação interna existem dois métodos de afinamento que evita que as estima-
tivas vão além do valor máximo (overjumping). Ambos ajustam o preditor η. O primeiro
utiliza o parâmetro de passo φ, 0 < φ < 1. Considere que η0, ηf e ηn sejam os preditores
lineares ajustados respectivamente na interação interna anterior, na interação interna atual
e a proposta na nova interação interna. No primeiro método o ηn é escolhido para ser o
preditor linear como mostrado na Equação 4.7, por padrão φ = 1. O segundo método
automaticamente divide o preditor linear pela metade até cinco vezes se o desvio global
continuar aumentando, que é apresentado na Equação 4.8.
ηn = φηf + (1− φ)η0 (4.7)
ηn =
(ηf + η0)
2
(4.8)
4.1.2.3 O algoritmo de retroajustamento modificado
É utilizado o algoritmo de retroajustamento modificado para estimar os parâmetros
β. Esse algoritmo é uma versão do algoritmo de Gauss-Seidel (Hastie e Tibshirani (1990)).
Ao todo, pode-se dizer que o algoritmo RS é o algoritmo de Gauss-Seidel. Nessa etapa,deseja-se ajustar as variáveis explicativas para a variável de trabalho zk com pesos wk
(usando retroajustamento dentro da iteração interna a qual irá atualizar a estimativa do
parâmetro θk). Portanto,
1- Considerando os atuais valores de zk e wk, para o parâmetro θk, ajusta-se um modelo
de mínimos quadrados reponderados (WLS) para zk contra Xk usando os pesos wk
para obter β̂k;
2- Calcula-se � = zk −Xβ̂k;
3- É verificado se o parâmetro β̂k alterou-se, comparado com as relações anteriores. Se
houver alterado, retorna-se ao item 1, se não houver alterado finaliza-se o algoritmo.
O modelo de mínimos quadrados reponderados (WLS) (Paula (2004)) é um processo
iterativo do tipo Newton-Raphson, ele é utilizado para obter a estimativa de máxima
verossimilhança dos parâmetros β. O algoritmo para obtenção dessas estimativas é apre-
Capítulo 4. Modelagem 43
sentado em 4.9. Para mais detalhes sobre a estimação pelo método dos mínimos quadrados
reponderados pode-se consultar Paula (2004).
β(m+1) = (XTW(m)X)−1XTW(m)z(m) (4.9)
Agora com o conhecimento da estrutura do modelo GAMLSS e como o processo
de estimação funciona, será apresentado a seguir a família de distribuição beta ajustada
em zero e suas características.
4.2 Distribuição Beta Ajustada em Zero
A distribuição Beta Zero Inflated BEZI(µ,σ,ν), ou em português Beta Ajustada em
Zero, é uma mistura de distribuições entre a distribuição discreta binomial e a distribuição
contínua beta no intervalo (0,1). Segundo o Manual Stasinopoulos M; Rigby e Akantziliotou
(2008), a distribuição beta ajustada em zero é indicada para modelar situações que a
variável resposta Y pertence a um intervalo que inclui o ponto mínimo do suporte de Y , que
é zero para esse estudo. Os zeros tem uma probabilidade não negativa ν. Segundo o Manual
Stasinopoulos (2020), a função densidade de probabilidade da distribuição BEZI denotada
por BEZI(µ,σ,ν) é definida em 4.10. Segundo Ospina e Ferrari (2010) o parâmetro σ é
como um parâmetro de dispersão que quanto maior é seu valor, menor é a variância da
variável resposta.
f(y|µ,σ,ν) =

ν se y = 0
(1− ν)
(
Γ(σ)
Γ(µσ)Γ((1− µ)σ)
)
yµσ(1− y)(1−µ)σ se y ∈ (0,1)
(4.10)
Para 0 ≤ y < 1, em que 0 < µ < 1 , σ > 0 e 0 < ν < 1. Com essa parametrização
tem-se que a esperança e variância da variável resposta tem a estrutura da Equação
4.11. Note que, se ν = 0 a distribuição BEZI(µ,σ,ν) se resume a distribuição Beta(µ,σ).
Considerando a Equação 4.1, as possíveis funções de ligação para cada parâmetro da
distribuição BEZI(µ,σ,ν) são apresentadas na Tabela 4.3, note que as funções de ligação
canônicas encontram-se em negrito e estas foram selecionadas para o modelo por que
facilitam a interpretação dos resultados. Entretanto, existem outras possibilidades para
funções de ligação como por exemplo a Aranda Ordaz, mas para utilizá-las no software R
é preciso implementar. Para mais detalhes da implementação de outras funções de ligação
veja Stasinopoulos et al. (2017) na seção de funções de ligação. Para ajustar o modelo
BEZI para a nota da redação do ENEM 2019, precisou-se dividir as notas da redação de
cada participante pelo valor 1000 para que permaneça no intervalo [0,1), como descrito no
processamento dos dados do Capítulo 3, garantindo que a variável resposta está no mesmo
Capítulo 4. Modelagem 44
suporte da distribuição BEZI. Desta forma, a nota da redação passa a ser a proporção de
pontos alcançados nas competências da redação.
E(Y ) = (1− ν)µ
V (Y ) = (1− ν)
(
µ(1− µ)
σ + 1
)
+ ν(1− ν)µ2
(4.11)
Tabela 4.3 – Funções de ligação canônicas para o respectivo parâmetro da distribuição
BEZI
µ σ ν
logito logarítimica logito
probito inversa probito
complemento log-log identidade cloglog
logarítimica - logarítimica
4.3 Metodologia para seleção de modelos
Para seleção do modelo utilizou-se três critérios, o critério do desvio global do
GAMLSS definido na Equação 4.14, o do Critério de Informação de Akaike (AIC) definido
na Equação 4.12 e o do Critério de Informação de Schwarz (SBC) definido na Equação
4.13.
AIC = 2k − 2ˆ̀(µ,σ,ν,τ |Y) (4.12)
SBC = k log(n)− 2ˆ̀(µ,σ,ν,τ |Y) (4.13)
Desvio global = −2ˆ̀(µ,σ,ν,τ |Y) (4.14)
em que k é a quantidade de parâmetros considerados no ajuste, n é a quantidade de
indivíduos na amostra e ˆ̀(µ,σ,ν,τ |Y) é a verossimilhança estimada para o ajuste do
modelo.
4.3.1 Seleção das variáveis
Desta forma, partindo de um modelo nulo para cada parâmetro, adicionou-se ma-
nualmente uma variável e observou-se o Desvio Global, AIC e SBC, se eles diminuíram em
Capítulo 4. Modelagem 45
relação ao modelo sem tal variável manteve-a, mas caso contrário removeu-a e aplicou esse
mesmo procedimento a uma outra variável presente nos conjuntos de dados. Considerando
que o modelo já tivesse algumas variáveis cujo valor p estivesse menor do que 5% e se
adicionasse uma nova variável que fez com que o valor p ficasse maior que 5%, então
estudava-se qual era o motivo e mantinha no modelo apenas a combinação de variáveis que
diminuia o Desvio Global, AIC e SBC. Em linhas gerais, a seleção das variáveis explicativas
do presente trabalho se deu por meio do conceito de seleção de variáveis stepwise de forma
manual e utilizou-se dos critérios de Desvio Global, AIC e SBC. No presente trabalho
percebeu-se indícios de heterocedasticidade na relação da variável resposta com algumas
variáveis explicativas. Pode-se tomar como exemplo a relação que encontra-se no quarto
gráfico da Figura 3.2, conforme a nota de Matemática e suas Tecnologias aumenta há uma
variação maior na nota da redação dos participantes de escolas privadas. Dessa forma, no
processo do ajuste dos modelos, adicionou-se covariáveis à estrutura de regressão do σ.
4.3.2 Pacotes Utilizados
Os pacotes do software R Core Team (2021) utilizados nesse trabalho foram o
“gamlss” (Rigby e Stasinopoulos (2005b)) para ajustar o modelo BEZI(µ,σ,ν) aos dados
do estudo, o “tidyverse” (Wickham et al. (2019)) e o “hablar” (Sjoberg (2020)) ambos
usados para manipulação dos microdados do ENEM 2019 e o “tikzDevice” (Sharpsteen e
Bracken (2020)) utilizado para inserção dos gráficos gerados no software para o presente
trabalho.
4.4 Metodologia da apresentação dos resultados
Nesse trabalho serão apresentadas as estimativas pontuais dos coeficientes da
regressão, mas também serão apresentados os intervalos de confiança a 95% para as
estimativas de cada coeficiente. Os intervalos de confiança foram obtidos pelo método de
Wald baseado nos erros padrões das estimativas (Stasinopoulos et al. (2017)). As funções
de ligação utilizadas são aquelas que estão em negrito na Tabela 4.3. Para interpretação
dos resultados da modelagem aplica-se a função exponencial nos coeficientes do ajuste do
modelo. Desta forma os coeficientes para µ e ν são interpretados na escala da razão de
chances e o σ é interpretado na sua escala original.
46
5 Resultados
Os resultados que foram obtidos com a modelagem dos dados usando o pacote
“gamlss” (Rigby e Stasinopoulos (2005b)) do R encontram-se nesse capítulo. O conjunto de
dados foi dividido em três grupos de acordo com a dependencia administrativa da escola,
essa divisão apresentada na Figura 5.1. Essa divisão se fez necessária pois, ao ajustar um
modelo para o conjunto de dados completo os resíduos não se ajustaram bem e a solução
para esse problema foi dividir o conjunto de dados completo em dois grupos distintos.
O primeiro é referente aos participantes que estudaram em escolas privadas e o segundo
referente aos participantes que estudaram em escolas federais.
Figura 5.1 – Diagrama da divisão da modelagem dos dados
Escolas Privadas Escolas Federais
Devido ao tempo disponível, apenas foi possível modelar as notas da redação do conjunto
de dados dos participantes que estudaram em escolas privadas e a nota da redação do
conjunto de dados dos participantes que estudaram em escolas federais. Selecionou-se a
distribuição BEZI para as modelagens com as funções de ligação que estão apresentados
em negrito na Tabela 4.3. Os resultados dos ajustessão apresentados nas seções modelagem
para escolas privadas e modelagem para escolas federais.
5.1 Modelagem para participantes de escolas privadas
Na Tabela 3.1 são apresentadas as variáveis que foram utilizadas na modelagem
da nota da redação para os participantes do ENEM que estudavam em escolas privadas
durante o exame.
5.1.1 Seleção do modelo
Apresenta-se na Tabela 5.1 três ajustes para a nota da redação dos participantes
que estudaram em escolas privadas, utilizando o GAMLSS paramétrico com funções de
Capítulo 5. Resultados 47
ligação logito para µ e ν e logarítimica para σ. As variáveis foram escolhidas sob o conceito
do stepwise, com os critérios de Desvio Global, AIC e SBC. Dentre os ajustes na Tabela
5.2, selecionou-se aquele que apresenta o menor Desvio Global, menor AIC e menor SBC.
O primeiro tem apenas os interceptos para os parâmetros da distribuição e é chamado
de modelo nulo, o segundo contém apenas variáveis numéricas e o terceiro há variáveis
numéricas e categóricas. Dessa maneira, escolheu-se o terceiro como sendo o que melhor se
ajusta os dados.
Tabela 5.1 – Tabela de construção da modelagem das escolas privadas
Modelo
Função
de
Ligação
Variáveis Estimativa Valor t Erro padrão Valorp
1 log
(
µ
1−µ
)
Intercepto 0,968 0,020 47,498 0,000
log(σ) Intercepto 2,016 0,036 55,775 0,000
log
(
ν
1−ν
)
Intercepto −4,474 0,251 −17,797 0,000
2 log
(
µ
1−µ
)
Intercepto −3,387 0,152 −22,217 0,000
NU_NOTA_CN 2,085 0,303 6,871 0,000
NU_NOTA_CH 2,168 0,306 7,096 0,000
NU_NOTA_LC 2,409 0,436 5,530 0,000
NU_NOTA_MT 1,380 0,187 7,370 0,000
log(σ) Intercepto 2,684 0,037 72,590 0,000
log
(
ν
1−ν
)
Intercepto 6,323 1,777 3,558 0,000
NU_NOTA_LC −21,100 3,755 −5,619 0,000
3 log
(
µ
1−µ
)
Intercepto −2,575 −8,261 0,312 0,000
NU_NOTA_CN 2,044 6,770 0,302 0,000
NU_NOTA_CH 2,109 6,849 0,308 0,000
NU_NOTA_LC 2,381 5,460 0,436 0,000
NU_NOTA_MT 1,317 7,028 0,187 0,000
Q023B 0,079 2,095 0,038 0,036
NU_IDADE −0,041 −2,935 0,014 0,003
log(σ) Intercepto 2,736 66,957 0,041 0,000
TP_ESCOLA2 −0,213 −2,282 0,093 0,023
log
(
ν
1−ν
)
Intercepto 10,187 4,071 2,502 0,000
NU_NOTA_LC −12,887 −2,728 4,724 0,006
NU_NOTA_CN −17,825 −3,140 5,677 0,002
Capítulo 5. Resultados 48
Tabela 5.2 – Critérios de seleção dos modelos para a nota da redação dos alunos que
estudaram em escolas privadas
Modelo Desvio Global AIC SBC
1 −1304 −1298 −1282
2 −2255 −2239 −2197
3 −2285 −2261 −2198
5.1.2 Análise de diagnóstico
Após a seleção do modelo para as escolas privadas fez-se a análise de diagnóstico
dos resíduos desse modelo. Na Figura 5.2 é apresentado o worm plot dos resíduos. O
worm plot foi introduzido primeiramente por Buuren e Fredriks (2001) e, no contexto
do GAMLSS, é usado como uma forma de identificar se existem regiões que o modelo
não se ajusta bem aos dados. Além disso, é utilizado como uma ferramenta análoga ao
gráfico de quantis e apresenta duas parábolas que são análogas aos intervalos de confiança
(ou envelopes) do gráfico quantil-quantil normal. Na Figura 5.3 observa-se que os dados
variam em torno do zero com variância relativamente constante, a densidade estimada dos
resíduos é simétrica em torno do zero e o gráfico de quantis mostra que os resíduos seguem
uma distribuição normal, apesar de alguns pontos saírem um pouco da curva quando os
quantis teóricos estão em torno de 3, mas como pode-se ver no worm plot apresentado na
Figura 5.2, tais valores continuam dentro do intervalo de confiança. Portanto, o modelo
considerado está bem ajustado.
Figura 5.2 – Worm plot dos resíduos do modelo para os participantes que estudaram em
escolas privadas
-4 -2 0 2 4
-1
.0
-0
.5
0.
0
0.
5
1.
0
Quantil Normal Unitário
D
es
v
io
Capítulo 5. Resultados 49
Figura 5.3 – Análise dos resíduos do modelo para os participantes que estudaram em
escolas privadas
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+ +
+
+
+++
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
++
+
+
+
+
+
+
+
+
+
+
+
+ + +
+
+
+
+
+ +
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+ +
+ +
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++ + +
+
+
+
+ +
+
+
+
+ + +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+ +
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+ +
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
++
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+ ++
+
+
+
+
+
+
+
+
+
+
+
+ +
++
++ +
+ +
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+ ++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+++ ++
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+ +
+
+
+
++ +
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+
+
++
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+ +
+ +
+
+
+ +
+
+
+
+
+
+
+
+
++ +
+
+
+ ++
+
+
+
+ ++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+ +
+
+
++ +
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ ++
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+ +
+ +
+
+ +
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+ +
+ +
+
+
+
+ ++
+ +
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+ +
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+ ++
+
0.3 0.4 0.5 0.6 0.7 0.8 0.9
-3
-2
-1
0
1
2
Contra Valores Ajustados
Valores Ajustados
Q
u
a
n
ti
s
R
es
id
u
ai
s
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+++
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
++
++++
+
+
+
++
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
++
++
+++
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+++++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
++
+
++
+
+
+
+
+
+
+
+
+
++
+
+
++
++
+
+
++
+
+
+
+
+
+
+
+
+++
+
+
+++
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
++
+
+
+++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
++
+
++
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
++
++
+
+
+
+++
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+++
+
0 200 400 600 800 1000 1200 1400
-3
-2
-1
0
1
2
Contra Índice
Índice
Q
u
a
n
ti
s
R
es
id
u
ai
s
-3 -2 -1 0 1 2 3
0
.0
0
.1
0.
2
0.
3
0.
4
Densidade Estimada
Quantis Residuais
D
en
si
d
a
d
e
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+++
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
++
+ +++
+
+
+
++
+
+
+
+ ++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+++
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+++++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
++
+
++
+
+
+
+
+
+
+
+
+
++
+
+
++
++
+
+
++
+
+
+
+
+
+
+
+
+++
+
+
+++
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
++
+
+
+++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
++
+
++
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
++
++
+
+
+
+++
+ +
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+++
+
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
Gráfico Quantil-Quantil Normal
Quantis Teóricos
Q
u
an
ti
s
A
m
os
tr
a
is
5.1.3 Apresentação das estimativas dos coeficientes
Com o modelo bem ajustado, apresenta-se na Tabela 5.3 as estimativas dos coefi-
cientes para cada variável. Tais coeficientes estimados rejeitaram a hipótese de que seu
valor é igual a zero a um nível de significância de 5%. O modelo final é apresentado na
Equação 5.1.
Capítulo 5. Resultados 50
Tabela 5.3 – Estimativados coeficientes do modelo para a nota da redação dos participantes
que estudaram em escolas privadas
Função
de
Ligação
Variáveis Estimativa Erro padrão Valor t Valor p
log
(
µ
1−µ
)
Intercepto −2,575 0,312 −8,261 0,000
NU_NOTA_CN 2,044 0,302 6,770 0,000
NU_NOTA_CH 2,109 0,308 6,849 0,000
NU_NOTA_LC 2,381 0,436 5,460 0,000
NU_NOTA_MT 1,317 0,187 7,028 0,000
Q023B 0,079 0,038 2,095 0,036
NU_IDADE −0,041 0,014 −2,935 0,003
log(σ) Intercepto 2,736 0,041 66,957 0,000
TP_ESCOLA2 −0,213 0,093 −2,282 0,023
log
(
ν
1−ν
)
Intercepto 10,187 2,502 4,071 0,000
NU_NOTA_LC −12,887 4,724 −2,728 0,006
NU_NOTA_CN −17,825 5,677 −3,140 0,002
µ̂
1− µ̂ = ηµ̂ = −2,575 + 2,044 NU_NOTA_CN + 2,109 NU_NOTA_CH
+ 2,381 NU_NOTA_LC + 1,317 NU_NOTA_MT + 0,079 Q023B
− 0,041 NU_IDADE
log(σ̂) = ησ̂ = 2,736− 0,213 TP_ESCOLA2
ν̂
1− ν̂ = ην̂ = 10,187− 12,887 NU_NOTA_LC − 17,825 NU_NOTA_CN
(5.1)
Portanto, aplicando-se a exponencial em ambos os lados da Equação 5.1, obtém-se
as estimativas pontuais e intervalares a 95% de confiança presentes na Tabela 5.4. As
interpretações serão baseadas na estrutura do ajuste apresentada na Equação 5.2.
Capítulo 5. Resultados 51
Tabela 5.4 – Tabela da estimativa dos coeficientes do modelo para a média da nota da
redação das escolas privadas
Função
de
Ligação
Variáveis Estimativa Pontual Limite Superior Limite Inferior
µ
1−µ Intercepto 0,076 0,041 0,140
NU_NOTA_CN 7,721 4,272 13,943
NU_NOTA_CH 8,240 4,504 15,059
NU_NOTA_LC 10,816 4,600 25,432
NU_NOTA_MT 3,732 2,586 5,387
Q023B 1,082 1,005 1,164
NU_IDADE 0,960 0,933 0,986
σ Intercepto 15,425 8,373 28,417
TP_ESCOLA2 0,808 0,674 0,970
ν
1− ν Intercepto 26555,708 14429,067 48922,858NU_NOTA_LC 0,000 0,000 0,000
NU_NOTA_CN 0,000 0,000 0,000
µ̂
1− µ̂ = exp(ηµ̂) = 0,0762 · 7,7214
NU_NOTA_CN · 8,24NU_NOTA_CH
· 10,8157NU_NOTA_LC · 3,7322NU_NOTA_MT · 1,0822Q023B
· 0,9598NU_IDADE
σ̂ = exp(ησ̂) = 15,4252 · 0,8082TP_ESCOLA2
ν̂
1− ν̂ = exp(ην̂) = 26555,7082 · 0,000003
NU_NOTA_LC · 0,00000002NU_NOTA_CN
(5.2)
Utilizando-se os resultados da Equação 5.2, se nenhuma variável estiver presente,
então a chance do participante atender corretamente aos critérios da redação é de 0,0762.
Nesse momento tem-se que tomar cuidado ao interpretar as notas das quatro provas pois,
no processamento dos dados, foram divididas por mil, sendo assim, uma unidade na nota
dessas provas é igual a 0,001. Considerando as demais variáveis fixas, ao observar uma
unidade a mais na nota de Ciências da Natureza e suas Tecnologias a chance do participante
atender corretamente aos critérios da redação aumenta em (7,7214)0,001 = 0,205%, quando
observa-se uma unidade a mais na nota de Ciências Humanas e suas Tecnologias a chance
do participante atender corretamente aos critérios da redação aumenta em 0,211%, quando
observa-se uma unidade a mais na nota de Linguagens e Códigos e suas Tecnologias a
chance do participante atender corretamente aos critérios da redação aumenta em 0,238% e
Capítulo 5. Resultados 52
por fim quando observa-se uma unidade a mais na nota de Matemática e suas Tecnologias a
chance do participante atender corretamente aos critérios da redação aumenta em 0,132%.
Se o participante tem telefone fixo em sua residência, a chance de atender corretamente
aos critérios da redação é 0,822% maior do que se o participante não tiver. Por fim, ao
observar uma unidade a mais na idade do participante a chance dele atender corretamente
aos critérios da redação é 95,98% menor.
De acordo com Ospina e Ferrari (2010), o σ é um parâmetro relacionado com a
precisão, de forma que quanto maior for o valor de σ, menor será a variância da variável
resposta, nesse caso, a nota da redação. Na ausência de variáveis, o σ é estimado em
15,4252, mas se for observado que o participante estudou a maior parte do ensino médio
em escola privada, o σ é 0,8082 vezes maior do que o σ dos alunos que estudaram em
escolas públicas na maior parte do ensino médio.
Na ausência de variáveis a chance do aluno obter nota zero na redação é de
26.555,7282. Mas a cada unidade a mais na nota de Linguagens e Códigos e suas Tecnologias
a chance de obter nota zero na redação diminui em 98,7364% e a cada unidade a mais na
nota de Ciências da Natureza e suas Tecnologias a chance de obter nota zero na redação
diminui em 98,2428%.
5.2 Modelagem para Escolas Federais
Nessa seção encontra-se o processo de modelagem para a nota da redação dos
participantes que estudaram em escolas federais durante o ensino médio. Aqui seleciona
o melhor modelo e interpreta-se os resultados obtidos. Na Tabela 3.2 é apresentado um
resumo as variáveis que foram utilizadas no modelo para os participantes que estudaram
em escolas federais.
5.2.1 Seleção do modelo
Apresenta-se na Tabela 5.5 três ajustes, para a nota da redação dos participantes
que estudaram em escolas federais, utilizando o GAMLSS pramétrico com funções de
ligação logito para µ e ν e logarítimica para σ. As variáveis foram escolhidas sob o conceito
do stepwise, com os critérios de Desvio Global, AIC e SBC. Dentre os ajustes na Tabela
5.2, selecionou-se aquele que apresenta o menor Desvio Global, menor AIC e menor SBC.
O primeiro tem apenas os interceptos para os parâmetros da distribuição e é chamado
de modelo nulo, o segundo contém apenas variáveis numéricas e o terceiro há variáveis
numéricas e categóricas. Dessa maneira, escolheu-se o terceiro como sendo o que melhor se
ajusta os dados.
Capítulo 5. Resultados 53
Tabela 5.5 – Construção do modelo para os participantes que estudaram em escolas federais
Modelo Função deLigação Variáveis Estimativa
Erro pa-
drão Valor t
Valor
p
1 log
(
µ
1−µ
)
Intercepto 1,010 0,016 62,062 0,000
log(σ) Intercepto 2,298 0,033 70,316 0,000
log
(
ν
1−ν
)
Intercepto −4,983 0,290 −17,203 0,000
2 log
(
µ
1−µ
)
Intercepto −1,954 0,284 −6,882 0,000
NU_NOTA_CN 1,567 0,285 5,494 0,000
NU_NOTA_CH 1,807 0,290 6,228 0,000
NU_NOTA_LC 1,438 0,455 3,160 0,002
NU_NOTA_MT 1,136 0,177 6,427 0,000
log(σ) Intercepto 2,642 0,412 6,412 0,000
NU_NOTA_CN −2,414 0,656 −3,679 0,000
NU_NOTA_LC 2,253 0,925 2,435 0,015
log
(
ν
1−ν
)
Intercepto −4,211 2,088 −2,017 0,044
NU_NOTA_CH −8,672 2,951 −2,938 0,003
NU_IDADE 0,198 0,073 2,704 0,007
3 log
(
µ
1−µ
)
Intercepto −2,356 0,172 −13,729 0,000
NU_NOTA_CN 1,639 0,287 5,716 0,000
NU_NOTA_CH 1,864 0,290 6,424 0,000
NU_NOTA_LC 1,187 0,458 2,594 0,010
NU_NOTA_MT 1,467 0,179 8,182 0,000
TP_SEXOM −0,173 0,029 −5,875 0,000
log(σ) Intercepto 2,347 0,414 5,664 0,000
NU_NOTA_CN −2,096 0,661 −3,172 0,002
NU_NOTA_LC 2,426 0,924 2,626 0,009
Q020B 0,196 0,075 2,622 0,009
log
(
ν
1−ν
)
NU_NOTA_CH −8,817 3,039 −2,901 0,004
NU_IDADE 0,207 0,077 2,697 0,007
Q022B −2,727 1,252 −2,178 0,030
Q022C −2,531 0,945 −2,679 0,007
Q022D −2,521 0,949 −2,657 0,008
Q022E −2,146 1,033 −2,077 0,038
Capítulo 5. Resultados 54
Tabela 5.6 – Tabela contendo critérios de seleção dos modelos para a nota da redação dos
alunos que estudaram em escolas privadas
Modelo Desvio Glo-bal AIC SBC
1 −2115 −2109 −2093
2 −2703 −2679 −2613
3 −2748 −2714 −2620
5.2.2 Análise de diagnóstico
Após a seleção do modelo, na Figura 5.4, são apresentados os gráficos Quantis
residuais versus os valores ajustados, quantis residuais versus o índice da variável, a
densidade residual estimada e também o gráfico Quantil-Quantil Normal. Na Figura 5.5
apresenta-se o gráfico worm plot. Pode-se observar que os resíduos têm uma distribuição
aproximadamente simétrica em torno do zero com uma variação constante. Percebe-se
no gráfico Quantil-Quantil Normal que os resíduos estão distribuídos em torno da reta.
Entretanto, quando se observa o gráfico wormplot há alguns pontos que ultrapassam
os limites de confiança. Ao perceber isso, fez-se algumas tentativas de dividir os dados
em subconjuntos separando-os de acordo com o nível escolar dos pais dos alunos e de
outras variáveis, mas ao modelá-los não houveram melhorias significativas. Dessa forma,
suspeita-se que haja alguma variável explicativa que tenha um comportamento quadrático
ou cúbico quenão foi inserido no modelo, essa variável pode ainda não ter sido medida
nem no questionário socioeconômico nem nas questões que os participantes preenchem no
ato de inscrição. Portanto, O modelo para a nota da redação do ENEM para os alunos
que estudaram em escolas federais não se ajustou bem aos dados.
Capítulo 5. Resultados 55
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++ +
+ +
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ ++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
++
+
+
+
+
+
+ +
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+ +
+
+
+
+
++
+
+
++ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
+
+
+
+
+
+++
+
+
+
+
+ +
+
+
+
++
+
+
+
++
+ +
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+ +
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+ +
+
+
+
+
+
+
+
++ +
+
+
++
++ +
+
+
+
+
+
+
++
+ +
+
+
++
+
+
+
+
+
+
+
+
+ +
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+ ++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+ +
+
+
+
+
++
+ +
+
++
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ + +
+
+
+
+ +
+
+
+
+
++
+
+
++
+ +
+
+ +
+
+ +
+
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
++ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
++ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+ +
+
+
+
++
+
+
+
+
++
+ +
+
+
++
+
++
+
+
+
+
+ +
+
+
+
+ +
+
+
+
+
+
+
+
+ +
+
++ +
+
++
+
++
+
+
+
++
+ ++
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+ +
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+ +
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+ +
+
+
++
+
+
+
+
+
++
+
+
+
+
++
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
++
+
+
+ +
+ +
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
++
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+++
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
++
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+ +
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
+
+
+
+ ++ +
+
+
+
+
+
+
+
0.5 0.6 0.7 0.8 0.9
-3
-2
-1
0
1
2
Contra Valores Ajustados
Valores Ajustados
Q
u
a
n
ti
le
R
es
id
u
al
s
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+++
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
++
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+++
+
+
+
+
++
+
+
+
++
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+++
+
+
++
+++
+
+
+
+
+
+
++
++
+
+
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
++
++
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
+
+
+
++
+
+
+
+
++
+
+
++
++
+
++
+
++
+
+
+
+
+
+
+
+
+
+
++
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
++
+
+
+
++
+
+
+
+
++
++
+
+
++
+
++
+
+
+
+
++
+
+
+
++
+
++
+
+
+
+
++
+
+++
+
++
+
++
+
+
+
++
+++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
++
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
++
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+++
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
++
++
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
++++
+
+
+
+
+
+
+
0 500 1000 1500
-3
-2
-1
0
1
2
Contra Índice
Índice
Q
u
a
n
ti
le
R
es
id
u
a
ls
-3 -2 -1 0 1 2 3
0.
0
0.
1
0.
2
0.
3
0.
4
Densidade Estimada
Quantis Residuais
D
en
si
d
a
d
e
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+++
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
++
+
+
+
+
+
++
++ +
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+++
+
+
+
+
++
+
+
+
++
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+++
+
+
++
+++
+
+
+
+
+
+
++
++
+
+
++
+
+
+
+
+
+
+
+
+ +
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+ ++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
++
++
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
+
+
+
++
+
+
+
+
++
+
+
++
++
+
++
+
++
+
+
+
+
+
+
+
+
+
+
++
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
++
+
+
+
+ +
+
+
+
+
++
++
+
+
++
+
++
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
++
+
+++
+
++
+
++
+
+
+
++
+++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
++
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+ +
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+ ++
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
++
++
+
+
+
+ +
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
++ ++
+
+
+
+
+
+
+
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
Gráfico Quantil-Quantil Normal
Quantis Teóricos
Q
u
a
n
ti
s
A
m
os
tr
a
is
Figura 5.4 – Análise de resíduos do modelo para os participantes que estudaram em escolas
federais
-4 -2 0 2 4
-1
.0
-0
.5
0.
0
0.
5
1
.0
Quantil Normal Unitário
D
es
v
io
Figura 5.5 – wormplot dos resíduos do modelo para os participantes que estudaram em
escolas federais
Capítulo 5. Resultados 56
5.2.3 Apresentação das estimativas dos coeficientes
Na Tabela 5.7 são apresentandas as estimativas dos coeficientes das variáveis que
se mostraram significativas na modelagem da nota da redação para os participantes que
estudaram em escolas federais. Essas estimativas estão sob escala da função de ligação dos
parâmetros. Os coeficientes apresentados foram selecionados a um nível de significância de
5%.
Tabela 5.7 – Estimativa dos coeficientes do modelo para a nota da redação dos participantes
que estudaram em escolas federais
Função de
Ligação Variáveis Estimativa
Erro pa-
drão Valor t
Valor
p
log
(
µ
1−µ
)
Intercepto −2,356 0,172 −13,729 0,000
NU_NOTA_CN 1,639 0,287 5,716 0,000
NU_NOTA_CH 1,864 0,290 6,424 0,000
NU_NOTA_LC 1,187 0,458 2,594 0,010
NU_NOTA_MT 1,467 0,179 8,182 0,000
TP_SEXOM−0,173 0,029 −5,875 0,000
log (σ) Intercepto 2,347 0,414 5,664 0,000
NU_NOTA_CN −2,096 0,661 −3,172 0,002
NU_NOTA_LC 2,426 0,924 2,626 0,009
Q020B 0,196 0,075 2,622 0,009
log
(
ν
1−ν
)
NU_NOTA_CH −8,817 3,039 −2,901 0,004
NU_IDADE 0,207 0,077 2,697 0,007
Q022B −2,727 1,252 −2,178 0,030
Q022C −2,531 0,945 −2,679 0,007
Q022D −2,521 0,949 −2,657 0,008
Q022E −2,146 1,033 −2,077 0,038
Portanto, aplicando-se a função exponencial em ambos os lados da equação do
modelo ajustado, obtém-se as estimativas pontuais e intervalares a 95% de confiança pre-
sentes na Tabela 5.8. As interpretações serão baseadas na estrutura do ajuste apresentada
na Equação 5.3.
Capítulo 5. Resultados 57
Tabela 5.8 – Tabela da estimativa dos coeficientes do modelo para a média da nota da
redação das escolas federais
Função
de
ligação
Variáveis Estimativa Pontual Limite Inferior Limite Superior
µ
1−µ Intercepto 0,095 0,068 0,133
NU_NOTA_CN 5,150 2,936 9,031
NU_NOTA_CH 6,449 3,651 11,383
NU_NOTA_LC 3,277 1,337 8,037
NU_NOTA_MT 4,336 3,052 6,165
TP_SEXOM 0,841 0,794 0,891
σ Intercepto 10,454 7,468 14,635
NU_NOTA_CN 0,123 0,070 0,216
NU_NOTA_LC 11,314 4,615 27,748
Q020B 1,217 1,051 1,409
ν
1−ν NU_NOTA_CH 0,000 0,000 0,000
NU_IDADE 1,230 1,058 1,430
Q022B 0,009 0,000 0,805
Q022C 0,010 0,000 0,913
Q022D 0,011 0,000 0,738
µ̂
1− µ̂ = exp(ηµ̂) = 0,0948 · 5,1500
NU_NOTA_CN · 6,4495NU_NOTA_CH
· 3,2772NU_NOTA_LC · 4,3362NU_NOTA_MT · 0,8411TP_SEXOM
σ̂ = exp(ησ̂) = 10,4542 · 0,1229NU_NOTA_CN · 1,2165Q020B
ν̂
1− ν̂ = exp(ην̂) = 0,0001
NU_NOTA_CH · 1,2300NU_IDADE · 0,0654Q022B
· 0,0796Q022C · 0,0804Q022D · 0,1170Q022E
(5.3)
Utilizando-se os resultados da Equação 5.3, se nenhuma variável estiver presente,
então a chance do participante atender corretamente aos critérios da redação é de 0,0948.
Nesse modelo as notas das provas também estão divididas por mil, dessa forma uma unidade
na nota das provas é 0,001. Considerando todas as outras variáveis fixas, a cada unidade a
mais observada na nota de Ciências da Natureza e suas Tecnologias a chance do participante
atender corretamente aos critérios da redação aumenta em 5,15000,001 = 0,1640%, a cada
unidade a mais observada na nota de Ciências Humanas e suas Tecnologias a chance do
participante atender corretamente aos critérios da redação aumenta em 0,1866%, a cada
unidade a mais observada na nota de Linguagens e Códigos e suas Tecnologias a chance
do participante atender corretamente aos critérios da redação aumenta em 0,1188%, a
Capítulo 5. Resultados 58
cada unidade a mais observada na nota de Matemática e suas Tecnologias a chance do
participante atender corretamente aos critérios da redação aumenta em 0,1468% e se o
participante for do sexo masculino a chance dele atender corretamente aos critérios da
redação é de 99,98% menor do que se o participante fosse do sexo feminino.
Como mencionado, σ é um parâmetro relacionado com a precisão, de forma que
quanto maior for o valor de σ, menor será a variância da variável resposta. Na ausência de
variáveis, o modelo estima que o σ é de 10,4542. considerando todas as outras variáveis
fixas, a cada unidade a mais observada na nota de Ciências Humanas e suas Tecnologias o σ̂
diminui 0,9979 vezes, então quanto maior a nota em Ciências Humanas e suas Tecnologias,
mais variada é a nota da redação. Se o participante não tem aparelho de DVD em sua
residência, o σ̂ é 0,0196 vezes o σ do participante que tem DVD em sua residência, ou
seja, a variância do participante que não tem DVD é maior do que o participante que tem
DVD, mas com a disponibilidade de aparelhos celulares e de computadores é bem provável
que pouca gente ainda tenha aparelho de DVD em casa e por conta disso a variabilidade
seja maior no grupo que não tem o aparelho.
Considerando as demais variáveis fixas, a cada unidade a mais na nota da prova
de Ciências Humanas e suas Tecnologias a chance do participante obter zero na nota da
redação é 99,0832% menor. A cada um ano a mais na idade do participante a chance de
obter zero na nota da redação 0,0207% maior. Se o participante tiver um telefone celular
em sua residência a chance dele tirar nota zero na redação é 6,54% menor do que se o
participante não tiver nenhum celular, se o participante tiver dois telefones celulares em
sua residência a chance dele obter nota zero na redação é 7,96% menor do que se não tiver
nenhum telefone celular, se houverem três telefones celulares em sua residência, a chance
do participante obter nota zero na redação é 8,04% menor do que se não tivesse nenhum e
se houverem quatro ou mais telefones celulares na residência do participante, a chance de
se obter nota na redação é 11,70% menor do que se não houver nenhum celular. Então em
geral, quanto mais telefones celulares houverem na casa do participante é esperado que a
chance dele tirar nota zero na redação seja cada vez menor.
59
6 Considerações Finais
O interesse desse trabalho é apresentar uma análise dos fatores que influenciam
na nota da redação para que as interpretações dessa análise possam trazer melhorias na
gestão da educação dos alunos do Rio Grande do Norte, com foco na redação do ENEM.
Os objetivos desse trabalho foram estudar o modelo beta ajustado em zero dentro do
contexto da classe dos modelos aditivos generalizados para localização, escala e forma,
aplicar o ajuste do modelo beta ajustado em zero às notas da redação do ENEM 2019 no
Rio Grande do Norte e com base no modelo ajustado, apresentar quais são as variáveis
presentes nos microdados que influênciam na nota da redação dos participantes do ENEM
2019 no estado do Rio Grande do Norte. Os dois primeiros objetivos foram alcançados
com sucesso, entretanto, o terceiro objetivo foi alcançado parcialmente pois modelou-se os
dados para os participantes que estudavam em escolas privadas e também para os que
estudavam em escolas federais, mas devido ao tempo e poder computacional disponível
não foi possível modelar a nota da redação dos participantes que estudavam em escolas
estaduais e também os participantes que não mais estudavam no ano de 2019, uma vez que
esses conjuntos de dados são muito grandes e aplicar o modelo BEZI tornou-se um processo
bem custoso. Os resultados da modelagem indicam que tanto para as escolas privadas
como para as escolas federais as notas nas provas de Ciências Humanas e suas Tecnologias,
Ciências da Natureza e suas Tecnologias, Linguagens e Códigos e suas Tecnologias e
Matemática e suas Tecnologias contribuem na nota da Redação, de forma que, quanto
maior a nota dessas disciplinas, maior será a nota da redação. Para os participantes das
escolas privadas as notas de Linguagens e Códigos e Ciências Humanas e suas Tecnologias
são as que apresentam maior impacto na chance do participante atender corretamente
os critérios da Redação e no caso das escolas federais, as notas de Ciências Humanas e
Ciências da Natureza e suas Tecnologias são as variáveis que apresentam maior impacto
na chance do participante atender corretamente aos critérios da nota da Redação.
Em estudos futuros pode-se dar continuidade a esse trabalho analisando os dados
da nota da redação para os participantes das escolas estaduais e também dos participantes
que não mais estudam em instituições de ensino. Pode-se também tentar ajustar melhor os
dados da nota da redação dos participantes de escolas federais buscando outras distribuições
de probabilidades ajustadas em zero ou tentar adicionar mais variáveis com a finalidade de
controlar o comportamento quadrático ou cúbico apresentado pelos resíduos. Além disso,
quando se trata de educação existem muitas características que podem ser estudadas e
os microdados do ENEM contém insumo suficiente para estudá-las. Identificou-se nos
microdados outras variáveis como, por exemplo, há uma variável que identifica se a
participante está grávida, há outra que identifica se o participante tem alguma deficiência e,
Capítulo 6. Considerações Finais 60
em caso positivo, descreve qual é a deficiência, outra que informa se a escola do participanteé urbana ou rural, entre outras. Estudos futuros podem analisar quais variáveis influenciam
o comportamento das notas do ENEM das participantes que estão grávidas, outro trabalho
pode ser estudar as notas na prova para participantes que estudaram em escolas rurais
versus participantes que estudaram em escolas urbanas e não se limitar aos microdados do
ENEM, pois há vários outros microdados disponíveis no website do INEP que também
são insumos para dar suporte a essas análises propostas. Outro trabalho futuro pode ser a
análise da nota da redação do ENEM para todo o Brasil, pois devido ao tamanho massivo
do conjunto de dados, analisar qual quer nota a nível Brasil é bem difícil, mas muito
importante, visto que traz um retrato nacional das variáveis que mais influenciam na nota
dos participantes.
61
Referências
ALBUQUERQUE, M. M. d. Desempenho escolar dos estudantes da região Sudeste que
realizaram o ENEM : uma análise com modelos hierárquicos. 2017. Monografia (Bacharel
em Ciências Econômicas), UFOP (Universidade Federal de Ouro Preto), Mariana, Brasil.
BUUREN, S. v.; FREDRIKS, M. Worm plot: simple diagnostic device for modelling
growth reference curves. Statistics in medicine, Wiley Online Library, v. 20, n. 8, p.
1259–1277, 2001.
CARVALHO, F. E. D. d. Fatores socioeconômicos associados ao desempenho dos
estudantes na prova de redação do Exame Nacional do Ensino Médio (ENEM). 2017.
FERNANDES, J. de A. Avaliação do efeito da escola pública de MG no desempenho dos
alunos no ENEM. 2018. Monografia (Bacharel em Estatística), UFMG (Universidade
Federal de Minas Gerais), Juiz de Fora, Brasil.
HASTIE, T.; TIBSHIRANI, R. Generalized Additive Models. Nova York: Chapman &
Hall/CRC, 1990.
INEP. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. 2020.
Acesso em: 2020. Disponível em: <https://www.gov.br/inep/pt-br/acesso-a-informacao/
dados-abertos/microdados/enem>.
LIMA, A. D. d. A. Análise de desempenho no ENEM : um estudo com ingressantes na ufrn
em 2016. Dissertação (Mestrado) — Universidade Federal do Rio Grande do Norte, 2018.
LOBO, G. D.; CASSUCE, F. C. da C.; CIRINO, J. F. Avaliação do desempenho escolar
dos estudantes da região Nordeste que realizaram o ENEM: uma análise com modelos
hierárquicos. Acesso em, v. 6, n. 05, 2017.
OLIVEIRA, G. R. et al. Avaliação de eficiência das escolas públicas de ensino médio
em Goiás: uma análise de dois estágios. Economía Aplicada, Faculdade de Economia,
Administração e Contabilidade de Ribeirão Preto–USP, v. 21, n. 2, p. 163, 2017.
OLIVEIRA, P. C. dos S. A Influência das Características das Escolas do Nordeste
Brasileiro na Obtenção das Notas do ENEM. 2017.
OSPINA, R.; FERRARI, S. L. Inflated beta distributions. Statistical papers, Springer,
v. 51, n. 1, p. 111, 2010.
PAULA, G. A. Modelos de regressão: com apoio computacional. São Paulo, SP: IME-USP,
2004.
PEREIRA, G. H. A. et al. A class of residuals for outlier identification in zero adjusted
regression models. Journal of Applied Statistics, Taylor & Francis, p. 1–15, 2019.
PNAD. Pesquisa nacional por amostra de domicílios contínua. 2018.
R Core Team. R: A language and environment for statistical computing. Vienna, Austria,
2021. Disponível em: <https://www.R-project.org/>.
https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem
https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem
https://www.R-project.org/
Referências 62
RIGBY, R. A.; STASINOPOULOS, D. M. Generalized additive models for location, scale
and shape. Journal of the Royal Statistical Society: Series C (Applied Statistics), Wiley
Online Library, v. 54, n. 3, p. 507–554, 2005.
RIGBY, R. A.; STASINOPOULOS, D. M. Generalized additive models for location, scale
and shape,(with discussion). Applied Statistics, v. 54, p. 507–554, 2005.
SHARPSTEEN, C.; BRACKEN, C. tikzDevice: R Graphics Output in LaTeX Format.
[S.l.], 2020. R package version 0.12.3.1. Disponível em: <https://CRAN.R-project.org/
package=tikzDevice>.
SILVA, E. R. F. d. Modelo de regressão beta modal. Dissertação (Mestrado) — Universidade
Federal do Rio Grande do Norte, 2020.
SJOBERG, D. hablar: Non-Astonishing Results in R. [S.l.], 2020. R package version 0.3.0.
Disponível em: <https://CRAN.R-project.org/package=hablar>.
STASINOPOULOS, M. D. et al. Flexible regression and smoothing: using gamlss in r.
Flórida, EUA: CRC Press, 2017.
STASINOPOULOS, M. e. a. Distributions for Generalized Additive Models
for Location Scale and Shape. Londres, Reino Unido, 2020. Disponível em:
<https://cran.r-project.org/web/packages/gamlss.dist/gamlss.dist.pdf>.
STASINOPOULOS M; RIGBY, B.; AKANTZILIOTOU, C. Instructions on how
to use the gamlss package in R. Londres, Reino Unido, 2008. Disponível em:
<http://www.gamlss.com/wp-content/uploads/2013/01/gamlss-manual.pdf>.
TRAVITZKI, R.; CALERO, J.; BOTO, C. What does the national high school exam
(ENEM) tell brazilian society? Cepal Review, 2014.
TRAVITZKI, R.; FERRÃO, M. E.; COUTO, A. P. Desigualdades educacionais e
socioeconômicas na populaçao brasileira pré-universitária: Uma visão a partir da análise
de dados do ENEM. Education Policy Analysis Archives/Archivos Analíticos de Políticas
Educativas, Arizona State University, v. 24, p. 1–32, 2016.
WICKHAM, H. et al. Welcome to the tidyverse. Journal of Open Source Software, v. 4,
n. 43, p. 1686, 2019.
https://CRAN.R-project.org/package=tikzDevice
https://CRAN.R-project.org/package=tikzDevice
https://CRAN.R-project.org/package=hablar
https://cran.r-project.org/web/packages/gamlss.dist/gamlss.dist.pdf
http://www.gamlss.com/wp-content/uploads/2013/01/gamlss-manual.pdf
	Folha de rosto
	Folha de aprovação
	Dedicatória
	Agradecimentos
	Epígrafe
	Resumo
	Abstract
	Lista de ilustrações
	Lista de ilustrações
	Lista de tabelas
	Lista de tabelas
	Sumário
	Introdução
	Motivação
	Justificativa
	Objetivos
	Estrutura da Monografia
	Revisão da literatura
	Base de dados
	Processamento dos dados
	 Conjunto de dados 
	Estatísticas descritivas para participantes de escolas privadas
	Estatísticas descritivas para participantes de escolas federais
	Modelagem
	Os Modelos Aditivos Generalizados para Localização, Escala e Forma
	 Processo de estimação do modelo 
	 Algoritmo RS()
	Iteração externa
	Iteração interna
	O algoritmo de retroajustamento modificado
	Distribuição Beta Ajustada em Zero
	Metodologia para seleção de modelos
	Seleção das variáveis
	Pacotes Utilizados
	Metodologia da apresentação dos resultados
	Resultados
	Modelagem para participantes de escolas privadas
	Seleção do modelo
	Análise de diagnóstico
	Apresentação das estimativas dos coeficientes
	Modelagem para Escolas Federais
	Seleção do modelo
	Análise de diagnóstico
	Apresentação das estimativas dos coeficientes
	Considerações Finais
	Referências

Mais conteúdos dessa disciplina