Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Departamento de Estatística Fabrício Emiliano Dantas do Rêgo Fatores que influenciam na nota da redação do ENEM no Rio Grande do Norte Natal - RN Abril de 2021 Fabrício Emiliano Dantas do Rêgo Fatores que influenciam na nota da redação do ENEM no Rio Grande do Norte Monografia de Graduação apresentada ao De- partamento de Estatística do Centro de Ci- ências Exatas e da Terra da Universidade Federal do Rio Grande do Norte como re- quisito parcial para a obtenção do grau de Bacharel em Estatística. Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Departamento de Estatística Orientador: Prof. Dr. Antonio Hermes Marques da Silva Junior Natal - RN Abril de 2021 Rêgo, Fabrício Emiliano Dantas do. Fatores que influenciam na nota da redação do ENEM no Rio Grande do Norte / Fabrício Emiliano Dantas do Rêgo. - 2021. 61f.: il. Monografia (Bacharelado em Estatística) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Departamento de Estatística. Natal, 2021. Orientador: Prof. Dr. Antonio Hermes Marques da Silva Junior. 1. Estatística - Monografia. 2. GAMLSS - Monografia. 3. INEP - Monografia. 4. Machine Learning - Monografia. 5. Regressão semi-paramétrica - Monografia. 6. Distribuição Beta - Monografia. I. Silva Junior, Antonio Hermes Marques da. II. Título. RN/UF/CCET CDU 519.2 Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET Elaborado por Joseneide Ferreira Dantas - CRB-15/324 Fabrício Emiliano Dantas do Rêgo Fatores que influenciam na nota da redação do ENEM no Rio Grande do Norte Monografia de Graduação apresentada ao De- partamento de Estatística do Centro de Ci- ências Exatas e da Terra da Universidade Federal do Rio Grande do Norte como re- quisito parcial para a obtenção do grau de Bacharel em Estatística. Aprovado em de de . Prof. Dr. Antonio Hermes Marques da Silva Junior Orientador – DEST/UFRN Prof. Dr. Francisco Moisés Cândido de Medeiros Examinador – DEST/UFRN Profa. Dra. Fernanda de Bastiani Examinadora – DE/UFPE Natal - RN Abril de 2021 MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE SISTEMA INTEGRADO DE PATRIMÔNIO, ADMINISTRAÇÃO E CONTRATOS FOLHA DE ASSINATURAS Emitido em 03/05/2021 ATA Nº 7/2021 - EST/CCET (12.02) NÃO PROTOCOLADO)(Nº do Protocolo: (Assinado digitalmente em 03/05/2021 14:28 ) ANTONIO HERMES MARQUES DA SILVA JUNIOR PROFESSOR DO MAGISTERIO SUPERIOR EST/CCET (12.02) Matrícula: 1714215 (Assinado digitalmente em 05/05/2021 15:11 ) FRANCISCO MOISES CANDIDO DE MEDEIROS PROFESSOR DO MAGISTERIO SUPERIOR EST/CCET (12.02) Matrícula: 2612836 (Assinado digitalmente em 04/05/2021 10:45 ) FERNANDA DE BASTIANI ASSINANTE EXTERNO CPF: 062.334.179-45 Para verificar a autenticidade deste documento entre em informando seu número: ,https://sipac.ufrn.br/documentos/ 7 ano: , tipo: , data de emissão: e o código de verificação: 2021 ATA 03/05/2021 6214362fae Dedico esse trabalho ao meu pai Irineu, à minha mãe Jeane, aos meus irmãos Ueniry Felipe e Francisco Emiliano, à minha namorada Jaylhane, ao meu amigo Rayland, ao meu amigo Franklyn e ao meu orientador ,e hoje amigo, Antônio Hermes, pois foram as pessoas que me deram apoio para alcançar essa conquista. Agradecimentos Agradeço à minha mãe, ao meu pai e aos meus irmãos por toda alegria, amor, afeto e conselhos para a vida. À Jaylhane, minha namorada, por me ajudar a manter os “pés no chão”, por todo o apoio, amor, companheirismo e carinho. Ao meu amigo Rayland pela sincera amizade, por me acompanhar nessa jornada acadêmica, profissional e partilhar os momentos na vida. Ao meu amigo de longa data Franklyn, pela amizade firme, por se manter presente e por todo o apoio que me foi dado, e ao meu orientador Antônio Hermes por aceitar e me guiar nesse desafio e me aconselhar durante os obstáculos enfrentados. Agradeço também ao Programa de Educação Tutorial e os amigos que lá fiz, pois foi para mim um momento de crescimento acadêmico, profissional e social. Por fim, Agradeço à Universidade Federal do Rio Grande do Norte e os seus programas de assistência social que fizeram toda a diferença para chegar onde estou hoje. “[...] A motivação (do senso comum) é volátil como álcool que, ao despejar um pouco sobre a mesa, logo evapora [...]. Ao invés da motivação, precisamos de disciplina para fazer o que precisa ser feito, precisamos também da persistência para fazê-lo várias vezes repetidamente até atingir o objetivo final e também, um dos mais importantes aspectos, é o comprometimento, que, querendo ou não, é se colocar vulnerável para o fracasso. A união desses três aspectos torna-lhe apto para conseguir atingir seu objetivo final com o maior potencial que você tem.” Júlio Lobo. Resumo As notas obtidas no Exame Nacional do Ensino Médio (ENEM) são um dos mais importan- tes critérios de acesso as universidades públicas e privadas no Brasil. O exame é composto de provas nas áreas de Ciências Humanas e suas tecnologias, Ciências da Natureza e suas tecnologias, Matemática e suas tecnologias, Linguagens e códigos e suas tecnologias e Redação, sendo a última a única prova não objetiva. Diante disso, o presente trabalho aplica a teoria do modelo beta ajustado em zeros sob a ótica dos modelos aditivos generalizados para localização, escala e forma para realizar a análise de regressão das notas da redação dos participantes que realizaram o ENEM 2019 no Rio Grande do Norte. Os resultados indicam por meio das variáveis preditoras que o comportamento da nota da redação para participantes que estudam em escolas privadas é diferente do comportamento da nota da redação dos participantes em escolas federais, mas que em geral, quanto mais alta as notas nas provas relacionadas com Ciências Humanas e suas tecnologias ou Linguagens e Códigos e suas tecnologias maior a chance de atender corretamente aos critérios da nota da redação e assim alcançar escores mais altos na redação. Palavras-chave: GAMLSS. INEP. Machine Learning. Regressão semi-paramétrica. Dis- tribuição Beta. Abstract The scores obtained in the Exame Nacional do Ensino Médio (ENEM) are one of the most important criteria for access to both public and private universities in Brazil. The exam consists of tests in the areas of Human Sciences and its technologies, Natural Sciences and its technologies, Mathematics and its technologies, Languages and codes, and its technologies, and Writing, the last being the only non-objective test. Therefore, the present work applies the theory of the beta model adjusted in zeros from the perspective of the generalized additive models for location, scale, and shape to perform the regression analysis of the essay notes of the participants who took the ENEM 2019 in Rio Grande do Norte. The results indicate through the predictor variables that the behavior of the essay grade for participants who study in private schools is different from the behavior of the essay grade of participants in federal schools, but that in general, the higher the grades in the tests related to Humanities and their technologies or Languages and Codes and their technologies the greater the chance of correctly meeting the criteria of the essay score and thus reaching higher scores in the essay. Keywords: GAMLSS. INEP. Machine Learning. Semi-parametric regression. Beta Distri- bution. Lista de ilustrações Figura 3.1 – Histograma da distribuição de notas da redação para os participantes de escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Figura 3.2 – Gráfico de dispersão das notas da redação versus a nota nas provas objetivas para os participantes de escolas privadas . . . . . . . . . . . . 27 Figura 3.3 – Histograma da distribuição de notas da redaçãode acordo com a nota em Ciências da Natureza e suas Tecnologias para os participantes de escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Figura 3.4 – Histograma da distribuição de notas da redação de acordo com a nota em Ciências Humanas e suas Tecnologias para os participantes de escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Figura 3.5 – Histograma da distribuição de notas da redação de acordo com a nota em Linguagens e códigos e suas Tecnologias para os participantes de escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Figura 3.6 – Histograma da distribuição de notas da redação de acordo com a nota em Matemática e suas Tecnologias para os participantes de escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Figura 3.7 – Histograma da distribuição de notas da redação de acordo com a pre- sença de telefone fixo na casa dos participantes de escolas privadas . . 29 Figura 3.8 – Histograma da distribuição de notas da redação de acordo com o tipo de escola que os participantes de escolas privadas estudaram na maior parte do ensino médio . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Figura 3.9 – Histograma da distribuição das notas da redação para os participantes de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Figura 3.10–Gráfico de dispersão das notas da redação versus a nota nas provas objetivas para os participantes de escolas federais . . . . . . . . . . . . 33 Figura 3.11–Histograma da distribuição das notas da redação de acordo com as notas em Ciências da Natureza e suas Tecnologias para os participantes de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Figura 3.12–Histograma da distribuição das notas da redação de acordo com as notas em Ciências Humanas e suas Tecnologias para os participantes de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Figura 3.13–Histograma da distribuição das notas da redação de acordo com as notas em Linguagens e Códigos e suas Tecnologias para os participantes de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Figura 3.14–Histograma da distribuição das notas da redação de acordo com as notas em Matemática e suas Tecnologias para os participantes de escolas federais 35 Figura 3.15–Histograma da distribuição das notas da redação de acordo com a idade dos participantes de escolas federais . . . . . . . . . . . . . . . . . . . . 36 Figura 3.16–Histograma da distribuição das notas da redação de acordo com o sexo dos participantes de escolas federais . . . . . . . . . . . . . . . . . . . . 36 Figura 3.17–Histograma da distribuição das notas da redação de acordo com a presença de aparelho de DVD na residência dos participantes de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Figura 3.18–Histograma da distribuição das notas da redação de acordo com a presença de telefone celular na residência dos participantes de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Figura 5.1 – Diagrama da divisão da modelagem dos dados . . . . . . . . . . . . . . 46 Figura 5.2 – Worm plot dos resíduos do modelo para os participantes que estudaram em escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Figura 5.3 – Análise dos resíduos do modelo para os participantes que estudaram em escolas privadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Figura 5.4 – Análise de resíduos do modelo para os participantes que estudaram em escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Figura 5.5 – wormplot dos resíduos do modelo para os participantes que estudaram em escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Lista de tabelas Tabela 3.1 – Resumo das variáveis para participantes de escolas privadas . . . . . . 24 Tabela 3.2 – Resumo das variáveis para o conjunto dos participantes de escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Tabela 4.3 – Funções de ligação canônicas para o respectivo parâmetro da distribuição BEZI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Tabela 5.1 – Tabela de construção da modelagem das escolas privadas . . . . . . . . 47 Tabela 5.2 – Critérios de seleção dos modelos para a nota da redação dos alunos que estudaram em escolas privadas . . . . . . . . . . . . . . . . . . . . . . 48 Tabela 5.3 – Estimativa dos coeficientes do modelo para a nota da redação dos participantes que estudaram em escolas privadas . . . . . . . . . . . . 50 Tabela 5.4 – Tabela da estimativa dos coeficientes do modelo para a média da nota da redação das escolas privadas . . . . . . . . . . . . . . . . . . . . . . 51 Tabela 5.5 – Construção do modelo para os participantes que estudaram em escolas federais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Tabela 5.6 – Tabela contendo critérios de seleção dos modelos para a nota da redação dos alunos que estudaram em escolas privadas . . . . . . . . . . . . . . 54 Tabela 5.7 – Estimativa dos coeficientes do modelo para a nota da redação dos participantes que estudaram em escolas federais . . . . . . . . . . . . . 56 Tabela 5.8 – Tabela da estimativa dos coeficientes do modelo para a média da nota da redação das escolas federais . . . . . . . . . . . . . . . . . . . . . . 57 Sumário Lista de ilustrações . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Lista de tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.4 Estrutura da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . 15 2 REVISÃO DA LITERATURA . . . . . . . . . . . . . . . . . . . . . . 17 3 BASE DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.1 Processamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2 Conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.3 Estatísticas descritivas para participantes de escolas privadas . . . . 24 3.4 Estatísticas descritivas para participantes de escolas federais . . . . 30 4 MODELAGEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.1 Os Modelos Aditivos Generalizados para Localização, Escala e Forma 38 4.1.1 Processo de estimação do modelo . . . . . . . . . . . . . . . . . . . . . 39 4.1.2 Algoritmo RS() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.1.2.1 Iteração externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.1.2.2 Iteração interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.1.2.3 O algoritmo de retroajustamento modificado . . . . . . . . . . . . . . . . . . 42 4.2 Distribuição Beta Ajustada em Zero . . . . . . . . . . . . . . . . . . . 43 4.3 Metodologia para seleção de modelos . . . . . . . . . . . . . . . . . . 44 4.3.1 Seleção das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.3.2 Pacotes Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.4 Metodologia da apresentação dos resultados . . . . . . . . . . . . . . 45 5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.1 Modelagem para participantes de escolas privadas . . . . . . . . . . 46 5.1.1 Seleção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.1.2 Análise de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.1.3 Apresentação das estimativas dos coeficientes .. . . . . . . . . . . . . . . 49 5.2 Modelagem para Escolas Federais . . . . . . . . . . . . . . . . . . . . 52 5.2.1 Seleção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5.2.2 Análise de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.2.3 Apresentação das estimativas dos coeficientes . . . . . . . . . . . . . . . . 56 6 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 59 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 14 1 Introdução O Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), desenvolveu, em 1998, a primeira versão do Exame Nacional do Ensino Médio (ENEM) com o objetivo de avaliar o aprendizado, bem como influenciar o currículo do ensino médio no Brasil. Em 1999, o exame passou a ser uma alternativa ao vestibular em 93 instituições de ensino superior do país, em 2004 o exame passou a servir de ingresso em cursos superiores para os estudantes que, utilizando a nota obtida na prova, puderam inscrever-se e concorrer a bolsas de estudos integrais ou parciais em universidades particulares pelo Programa Universidade para Todos (ProUni). A partir da criação do Sistema de Seleção Unificada (SiSU) em 2009, o ENEM ganhou sua segunda versão que se mantém até os dias atuais e se tornou o principal meio de acesso às universidades públicas brasileiras. Nessa versão o exame passou a ter 45 questões objetivas nas provas dos seguintes temas: Linguagens, Códigos e suas Tecnologias e Redação, Ciências Humanas e suas Tecnologias, Ciências da Natureza e suas Tecnologias e Matemática e suas Tecnologias. As provas passaram a ser aplicadas no sábado e domingo consecutivos. Em 2013 o ENEM passou a ser porta de entrada para todas as instituições de ensino superior públicas do país. Em 2017, quando o INEP fez uma consulta pública para levantar melhorias, o exame passou a ser aplicado em dois domingos consecutivos, em que a redação passou a ser aplicada no primeiro domingo e a certificação do Ensino Médio passou a não ser mais competência do ENEM, a aplicação ficou mais acessível com a criação da videoprova em libras e mais segura com a adoção do identificador de receptor de ponto eletrônico. O INEP disponibiliza em seu site os microdados do ENEM desde 1998 até 2019, sendo esse último o que está sendo utilizado para desenvolvimento desse trabalho. 1.1 Motivação Quando se pesquisa sobre modelagem de dados do ENEM na literatura, na maioria das vezes são encontrados estudos que utilizaram uma abordagem de modelos de regressão com efeitos aleatórios para modelar parâmetros de localização e desconsiderando as notas zero que os alunos obtiveram. Diante disso, a motivação para realizar esse trabalho surgiu em modelar as notas da redação, incluindo os zeros, dos participantes do ENEM 2019 para verificar que características influenciam no comportamento da nota da redação. A inclusão dos zeros no modelo permite desvendar as variáveis que têm relação na chance do participante obter nota zero e com esse conhecimento permitir que o gestor da instituição de ensino crie medidas para que diminua a chance de seus alunos obterem nota zero na redação do ENEM. Capítulo 1. Introdução 15 1.2 Justificativa Esse estudo é importante por apresentar as variáveis que influenciam a nota da redação como um todo, englobando tanto as notas zero como as que não são zero do Exame Nacional do Ensino Médio em 2019 no estado Rio Grande do Norte (RN) para as escolas privadas e escolas federais para que pesquisas desenvolvidas envolvendo professores e alunos da UFRN possam contribuir para a comunidade vizinha a ela. A redação é a única prova subjetiva do ENEM, pois o participante precisa utilizar suas habilidades e seu conhecimento para desenvolver um texto que atenda aos critérios de avaliação, por essa razão, a nota da redação é interessante de ser modelada. A interpretação dos resultados auxiliarão os gestores das instituições de ensino a conhecerem melhor as variáveis que afetam o desempenho de seus alunos no ENEM e, a partir disso, tomarem decisões que auxiliem na melhoria da educação de suas turmas e, consequentemente, do estado. Escolheu-se o Rio Grande do Norte como população para essa análise por que na literatura não existem estudos que aplicam um modelo de regressão para a nota da redação considerando os zeros obtidos para essa unidade da federação e a quantidade de zeros obtidos no ENEM não é negligenciável. Portanto, considerar os zeros da nota da redação enriquece a literatura e os resultados pois desvenda quais são as variáveis que influenciam na chance do participante obter zero na nota da redação. 1.3 Objetivos O objetivo geral desse trabalho é investigar e identificar variáveis que influenciam na nota da redação do ENEM do ano de 2019 no estado do Rio Grande do Norte utilizando uma abordagem de modelos de regressão semiparametricos. Portanto, para ser possível alcançar o objetivo geral, serão respondidos os seguintes objetivos específicos: 1- Estudar o modelo beta ajustado em zero dentro do contexto da classe dos modelos aditivos generalizados para localização, escala e forma; 2- Aplicar o ajuste do modelo beta ajustado em zero às notas da redação do ENEM 2019 no Rio Grande do Norte; 3- Com base no modelo ajustado, desvendar quais são as variáveis presentes nos microdados que influênciam na nota da redação dos participantes do ENEM 2019 no estado do Rio Grande do Norte. 1.4 Estrutura da Monografia A estrutura do trabalho se organiza da seguinte maneira: No Capítulo 2 é apre- sentado o referencial teórico sobre o tema de modelagem dos microdados do ENEM, no Capítulo 1. Introdução 16 Capítulo 3 são apresentadas estatísticas descritivas da base de dados utilizada, no Capítulo 4 é apresentado o modelo de regressão beta ajustado em zero, no Capítulo 5 são discutidos os resultados obtidos com a modelagem e no Capítulo 6 são tratadas das considerações finais do presente trabalho. 17 2 Revisão da literatura O ENEM é amplamente discutido na literatura, uma vez que o exame tem o propósito de avaliar a qualidade da educação brasileira, além de ser a porta princípal de entrada para os brasileiros ingressarem no ensino superior nos dias atuais. Na literatura, existem diversos trabalhos no tema de análise de regressão, mas percebeu-se que em geral utilizam-se de modelos de efeitos aleatórios para modelar as notas nas provas do exame e não é comum utilizar uma estrutura de regressão que considere modelar os zeros obtidos pelos participantes. No trabalho de (PEREIRA et al., 2019) utiliza-se uma distribuição beta ajustada em zero aos dados do ENEM 2014 tendo como variável resposta a nota da redação e como variáveis preditoras as notas nas quatro provas objetivas, a idade e também o sexo dos participantes. Nessa edição, os autores observaram que 51 participantes obtiveram nota zero na redação. A aplicação desse método aos dados do ENEM foi para averiguar o desempenho da nova classe de resíduos que os autores desenvolveram. Devido a escassez de trabalhos que consideram as notas zero obtidas pelos participantes, abaixo são apresentados trabalhos que utilizam métodos de análise de regressão para uma ou mais provas que constituem a nota final do ENEM. Travitzki, Calero e Boto (2014) estudam as possibilidades de se utilizar o ENEM como indicador do ensino médio no Brasil por meio do uso da regressão com efeitos aleatórios, o autor analisa a diferença entre as 5 notas obtidas pelos alunos no ENEM do ano de 2009 e 2010. As variáveis respostas usadas foram a diferença da nota geral dos alunos do ano de 2010 menos 2009 e a média aritmética das notas obtidas pelos alunos no ENEM 2010. No trabalho de Travitzki, Ferrão e Couto (2016), os autores analisaram a nota de Linguagens e Códigos e suas tecnologias e de Matemática e Suas tecnologias dos participantes do ENEM 2009 ao ENEM 2012 utilizando-se do método de curvas de Lorenz, coeficiente de Gini e regressão com efeitos aleatórios. Em seus resultados evidencia-seque o acesso à educação está mais igualitário na geração dos participantes entre essas edições comparando com o acesso à educação aos pais desses participantes. Nesse estudo considera-se quatro UFs de acordo com o critério de selecionar duas UFs que apresentam a maior renda per capita e duas UFs que apresentam a menor renda per capita do país. As análises do trabalho dividiram-se em duas etapas, na primeira etapa utilizam-se as análises das curvas de Lorenz e o respectivo coeficiente de Gini a fim de ilustrar a distribuição da educação na população brasileira. Na segunda etapa realiza-se a análise de regressão com efeitos aleatórios como sendo os municípios e escolas dos participantes. Nesse estudo são criados três modelos de regressão, sendo o primeiro o modelo nulo contendo apenas o intercepto, o efeito aleatório referente à escola j, o efeito aleatório referente ao município k Capítulo 2. Revisão da literatura 18 e o erro desse modelo. O modelo 1 com o intercepto, dois coeficientes de variação referente às duas variáveis preditoras (Nível Socioeconômico (NSE) e Cor/Raça), o efeito aleatório referente à escola j e o efeito aleatório referente ao município k e o erro desse modelo. Por fim o modelo 2 com o intercepto, um coeficiente da variável NSE variando nas diferentes escolas, um coeficiente de variação da variável Cor/Raça e o efeito aleatório referente à escola j, o efeito aleatório referente ao município k e o erro desse modelo. A distribuição do erro aleatório dos modelos é �ijk ∼ N(0,σ22e). O modelo nulo é mostrado na Equação 2.1, o modelo 1 é apresentado na Equação 2.2 e o modelo 2 é apresentado na Equação 2.3, vale ressaltar que apenas esse trabalho considerou k como sendo o município do participante. Os resultados alcançados pelos autores mostram que apesar de haver uma melhoria no acesso à educação nas UFs com menor renda per capita, tal melhoria ainda é inferior ao acesso à educação de UFs com maior renda per capita. Diante desse resultado, ao considerar para o presente trabalho apenas os dados dos participantes nascidos e residentes do Rio Grande do Norte mantém os resultados mais homogêneos pois esses participantes cresceram no RN e obtiveram influências econômicas, sociais, culturais e políticas semelhantes. Portanto, os modelos são definidos como: yijk = β0 + uj + vk + �ijk, (2.1) yijk = β0 + β1x1ijk + β2x2ijk + uj + vk + �ijk, (2.2) yijk = β0 + β1jx1ijk + β2x2ijk + u0j + vk + �ijk β1j = β1 + u1j (2.3) em que yijk é o desempenho nas notas das provas de matemática ou linguagens e códigos do aluno i, pertencente à escola j e ao município k, x1ijk é a escolaridade média em anos dos pais do aluno i, pertencente à escola j e ao município k. x2ijk é a cor da pele (variável binária) do aluno i pertencente à escola j e ao município k, β1 e β2 são os coeficientes fixos das variáveis x1 e x2, respectivamente, β1j é o coeficiente da variável x1, que varia entre as diferentes escolas, ui e vk são os efeitos aleatórios na escola j e no município k, �ijk é o erro referente ao desempenho do aluno i, pertencente à escola j e ao município k. No trabalho Oliveira (2017) utiliza-se de métodos de mineração de dados e árvores de decisão para encontrar características da escola que influenciam nas notas do ENEM. Como resultado foram encontradas 52 características que influenciam no desempenho da escola no ENEM. Esses atributos indicam que quanto melhor a infraestrutura da escola Capítulo 2. Revisão da literatura 19 maior o desempenho desta no ENEM, mas também que fatores socioeconômicos dos alunos influenciam no desempenho da escola no ENEM. Albuquerque (2017) utilizando os microdados do ENEM 2015 estudou o desempenho dos alunos na prova de Matemática e suas tecnologias. Estimou-se um modelo de regressão com intercepto aleatório em dois níveis sendo o primeiro relacionado às características socioeconômicas dos alunos e o segundo relacionado ao tipo de escola (pública ou privada). Na Equação 2.4 é apresentado o modelo de regressão utilizado no trabalho. yij = β0j + β1jXij + �ij, β0j = γ00 + γ01Zj + u0j, β1j = γ10 (2.4) Em que i indica o indivíduo (i = 1 . . . nj), yij representa o desempenho do estudante na nota de matemática que varia no intervalo de [0,1000], β0j é o intercepto, β1j é o coeficiente angular da regressão Xij é a matriz de variáveis independentes relacionadas ao nível dos alunos, Zj representa a variável tipo da escola, �ij e u0j são termos do erro que pertencem ao primeiro e segundo efeitos aleatórios, respectivamente, com média 0 e variância σ2, γ10 caracteriza a média dos coeficientes de regressão das j escolas para as variáveis independentes. Substituindo β0j e β1j na equação de regressão obtém-se a Equação 2.5. yij = γ00 + γ01Zj + γ10Xi + u0j + �ij (2.5) Em Oliveira et al. (2017) realiza-se um estudo das escolas públicas do estado do Goiás que ofertam o ensino médio utilizando os microdados do ENEM 2014 e dados institucionais de cada escola do estado fornecidos pela Secretaria de Educação do Goiás. Empregou-se nesse estudo a análise envoltória de dados (método não-paramétrico) e também o modelo de regressão inflacionado de zero para identificar quais foram as escolas mais eficientes do estado. Entende-se por escola eficiente como a escola que realiza a alocação ótima dos recursos para obter maior desempenho. O autor compara o desempenho dos alunos com relação ao investimento na educação segundo municípios e estado do Goiás. Lobo, Cassuce e Cirino (2017) realizam um estudo do desempenho escolar dos estudantes da região Nordeste que participaram do ENEM. Nesse trabalho utilizou-se o modelo de efeitos aleatórios cuja variável resposta é a nota em matemática e os efeitos aleatórios são considerados como o primeiro nível o estudante e o segundo nível a escola, dentro de cada nível há uma estrutura de regressão. Na dissertação de pós-graduação em Educação Brasileira do autor Carvalho (2017) estuda-se os fatores socioeconômicos associados ao desempenho dos estudantes na prova de Capítulo 2. Revisão da literatura 20 redação do Exame Nacional do Ensino Médio ENEM. Nesse estudo analisa-se a nota obtida pelos estudantes em redação agrupadas nas diferentes variáveis que constituem o nível socioeconômico, como raça/cor, renda familiar, tipo de escola (pública ou privada), entre outras. As ferramentas estatísticas utilizadas foram a ANOVA, os testes de homogeneidade de variância ou apenas teste de Levene, teste de igualdade das médias e teste de Tukey HSD. As análises contemplam alunos de escola pública e privada do país, concluintes/concludentes do ensino médio, que realizaram a prova de redação e responderam o questionário contextual, incluindo o intervalo de [0,1000) em sua análise. O software utilizado para esse trabalho foi o SPSS. De forma análoga Fernandes (2018) utiliza modelos com efeitos aleatórios para analisar o resultado do ENEM de cada aluno, que é formada pela média aritmética das 4 (quatro) notas das provas mais nota da redação. Na etapa do pré-processamento dos dados, a autora excluiu os registros dos alunos que obtiveram nota zero eliminando qual quer inflação de zero que pudessem existir. O modelo utilizado encontra-se na Equação 2.6 yij =β0j + β1jXij + β2jXij + �ij, β0j =γ00 + γ01Zj + u0j, β1j =γ10 + γ11Zj + u1j (2.6) Em que i indica cada indivíduo (i = 1, . . . , nj), j indica o tipo da escola (j = 1,2), sendo 1 para pública e 2 para particular, yij é a média aritmética das quatro provas e redação do estudante i, ela varia no intervalo de [0,1000], β0j é o intercepto, β1j é o coeficiente angular da regressão, Xij é a matriz de variáveis independentes relacionadas aos alunos como sexo, escolaridade da mãe e idade, Zj é a variável pertencente ao tipo da escola, �ij, u0j e u1j são termos do erro que pertencem aos níveis dos efeitos aleatórios com média 0 e variância σ2, γ10 caracteriza a média dos coeficientes de regressão das j escolas para as variáveis independentes, Se substituir β0j e β1j na equação de regressão, tem-se a Equação 2.7 yij=γ00 + γ01Zj + γ10Xi + u0j + �ij (2.7) Os autores Pereira et al. (2019) desenvolveram uma nova classe de resíduos para identificação de outliers em modelos de regressão ajustados em zero. O estudo utiliza simulações com o método de Monte Carlo para validar as propriedades da nova classe de modelos e também ajusta um modelo de regressão beta inflacionado de zero a uma amostra aleatória de 1000 (mil) registros do ENEM de 2014 tendo como variável resposta a nota na redação e como variáveis preditoras as 4 (quatro) notas nas provas, o gênero do(a) aluno(a) e a idade para identificar os outliers presente nessa amostra. Por fim, constatou-se Capítulo 2. Revisão da literatura 21 que a nova classe de resíduos é melhor para identificação de outliers na regressão beta ajustada em zero do que os resíduos usuais. O trabalho de Lima (2018) é uma monografia de graduação em Estatística. Nesse trabalho utilizam-se técnicas de estatística multivariada para analisar o desempenho obtido no ENEM 2015 pelos participantes que ingressaram na UFRN em 2016 pelo SiSU e também estudar o desempenho no curso um ano após o ingresso na universidade. Os resultados das análises permitiu separar os cursos em quatro grupos distintos. Percebeu-se que as variáveis socioeconômicas têm impacto no desempenho dos participantes durante o exame, de maneira que a competição por uma vaga na universidade não é justa para todos, sendo o ingresso mais difícil para os participantes menos favorecidos socioeconomicamente. Entre- tanto, as variáveis socioeconômicas não se mostraram significativas quanto ao desempenho após o ingresso no curso e muito provavelmente por conta das políticas de incentivo da universidade, como bolsas de estudo, auxílio creche, auxilio moradia entre outros. Na dissertação de Silva (2020) estuda-se o modelo de regressão beta modal e aplica-se o modelo a dois conjuntos de dados, a primeira aplicação considera a taxa de analfabetismo tendo como variável preditora o Índice de Desenvolvimento Humano (IDH) dos municípios do estado de Mato Grosso em 2010 e na segunda aplicação ajusta-se o modelo proposto aos dados do ENEM 2017 para os participantes que haviam concluído o ensino médio e foram aprovados na UFRN nesse mesmo ano, tendo como variável resposta a porcentagem de acertos na prova de linguagens, códigos e suas tecnologias como e as demais variáveis foram utilizadas como variáveis preditoras. É importante informar que o trabalho de Silva (2020) tem uma proposta diferente da proposta deste trabalho, uma vez que a variável resposta da dissertação foi a nota em Linguagens, Códigos e suas Tecnologias do ENEM 2017 e utilizou-se do modelo de regressão para modelar a moda da variável, o presente trabalho tem como variável resposta a nota da redação do ENEM do ano de 2019 e utiliza-se a regressão beta ajustada em zero tendo como objetivo desvendar quais variáveis influenciam a nota da redação. Diante de todos os trabalhos apresentados nessa seção, o presente trabalho traz uma nova perspectiva na análise de dados do ENEM pois, a estruturação da classe de modelos aditivos generalizados para localização, escala e forma utilizando-se a distribuição beta ajustada em zero permite que uma estrutura de regressão seja criada para a localização da variável, outra estrutura de regressão para a variabilidade da variável, e outra estrutura de regressão para a probabilidade do participante obter nota zero e demais parâmetros. As estruturas de regressão podem ser lineares, não lineares e também podem conter funções de suavização. Desta forma, o presente trabalho traz uma inovação para a literatura voltada a análise de dados do ENEM. 22 3 Base de dados 3.1 Processamento dos dados O tema da redação do ENEM 2019 era “Democratização do acesso ao cinema no Brasil”, a nota que os alunos obtiveram na redação foi utilizada como variável resposta na modelagem desse trabalho. Os dados dos participantes contendo tanto a nota da redação como as demais variáveis encontram-se nos microdados do ENEM 2019 que estão disponíveis no site oficial do Instituto Nacional de Estudos e Pesquisas Educacionais (INEP). A população em estudo são participantes nascidos e que residiam no Rio Grande do Norte (RN) durante a execução das provas. Fez-se essa seleção para manter no estudo os participantes mais homogêneos, ou seja, que receberam influências econômicas, geográficas, culturais e educacionais que existem no RN, evitando manter em estudo, alunos que porventura nasceram no RN e mudaram-se para outro estado ou alunos que nasceram em outro estado e mudaram-se para o RN algum tempo antes de realizar o exame. Infelizmente, é possível que alguns alunos, apesar de nascidos e residirem no RN durante o exame, tenham morado em algum outro estado e mudou-se de volta para o RN antes da realização das provas. As estatísticas descritivas apresentadas nessa seção são referentes às variáveis que se mostraram significativas na modelagem da nota da redação. Essa população foi selecionada, pois, de acordo com Travitzki, Ferrão e Couto (2016), há evidências de que o rendimento nominal per capita médio dos estados influenciam no desempenho educacional do aluno e ainda de acordo com a Pesquisa Nacional por Amostra de Domicílios Contínua PNAD (2018), os estados do nordeste apresentam uma renda nominal per capita média homogênea, comparado com as outras regiões e selecionar apenas o RN mantém as informações mais homogêneas. 3.2 Conjunto de dados Para conseguir os microdados, acessou-se o site do INEP INEP (2020). Fez-se o procedimento de organização dos dados utilizando o software R (R Core Team, 2021). O procedimento está descrito a seguir: 1. Selecionou-se os participantes que nasceram e residiam no RN no período de execução das provas do ENEM; 2. Excluiu-se os participantes que deixaram em branco pelo menos uma das perguntas socioeconômicas que solicitavam a escolaridade da mãe, a escolaridade do pai, a ocupação da mãe ou a ocupação do pai; Capítulo 3. Base de dados 23 3. Excluiu-se os participantes que faltaram em pelo menos uma das quatro provas; 4. Haviam três indivíduos que obtiveram nota mil na redação do ENEM 2019 no RN. Por ser uma quantidade negligível de observações não houve necessidade de aplicar um modelo beta ajustado no zero e no um. Portanto, excluiu-se essas observações. 5. Para utilizar o modelo Beta Ajustado em Zero (BEZI) é necessário que a variável resposta pertença ao intervalo de zero a um [0,1), para tanto, dividiu-se a nota da redação pelo valor máximo que essa nota pode alcançar (1000). 6. Também dividiu-se por 1000 as notas em Ciências Humanas e suas Tecnologias, Ciências da Natureza e suas Tecnologias, Linguagens e códigos e suas Tecnologias e Matemática e suas Tecnologias para manter na mesma escala que a variável resposta. A variável resposta, nota na redação, é uma variável quantitativa contínua assu- mindo possíveis valores no intervalo [0, 1) incluso o zero. A redação é a única prova do ENEM que é totalmente subjetiva, contendo cinco competências que devem ser atendidas de forma satisfatória para atingir a nota máxima. Para corrigir a nota da redação do participante dois professores avaliam de forma independente cada uma das competências dando uma nota de zero a duzentos. A soma da nota dada pelo avaliador em cada uma das competências gera a nota total, podendo chegar a mil. A nota final da redação do partici- pante é obtida da média aritmética das notas dos dois avaliadores. As cinco competências da nota da redação são: 1. Demonstrar domínio da modalidade escrita formal da Língua Portuguesa. 2. Compreender a proposta de redação e aplicar conceitos das várias áreas de conheci- mento para desenvolver o tema, dentro dos limites estruturais do texto dissertativo- argumentativo em prosa. 3. Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argu- mentos em defesa de um ponto de vista. 4. Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção da argumentação. 5. Elaborar propostade intervenção para o problema abordado, respeitando os direitos humanos. O conjunto de dados completo originou-se dos microdados do ENEM disponibili- zados no site INEP. Após o processamento de dados, utiliza-se dois conjuntos de dados distintos. O primeiro é o conjunto de dados referente aos participantes que estudaram em escolas privadas contendo 1420 participantes e utilizou-se 7 variáveis, o segundo é Capítulo 3. Base de dados 24 o conjunto de dados referente aos participantes que estudaram em escolas federais con- tendo 1763 linhas e utilizou-se 8 variáveis. Na seção seguinte apresentam-se as estatísticas descritivas para cada conjunto de dados. Todas as variáveis apresentadas nas seções a seguir estão presentes no ajuste de cada um dos conjuntos de dados. Portanto, são apresentadas a seguir duas seções de estatísticas descritivas. Note que as variáveis que são apresentadas na seção de participantes de escolas privadas não são as mesmas que são apresentadas na seção das escolas federais, isso se dá por que os modelos são aplicados a dois universos diferentes e portanto as relações com as covariáveis são diferentes. 3.3 Estatísticas descritivas para participantes de escolas privadas As variáveis que foram utilizadas no modelo do conjunto dos participantes que estudaram em escolas privadas foram a idade do participante (NU_IDADE), a nota em Ciências da Natureza e suas Tecnologias (NU_NOTA_CN), a nota em Ciências Humanas e suas Tecnologias (NU_NOTA_CH), a nota em Linguagens e Códigos e suas Tecnologias (NU_NOTA_LC), a nota em Matemática e suas Tecnologias (NU_NOTA_MT), se há telefone fixo na casa do participante (Q023) sendo as opções de resposta Não (A) e Sim (B) e o Tipo de Escola que estudou no ensino médio (TP_ESCOLA), sendo as possíveis respostas Não respondeu (1), Pública (2), Privada (3) e Federal (4). Na Tabela 3.1 apresenta-se um resumo numérico dessas variáveis mais a Nota na redação (NU_NOTA_REDACAO) para o presente conjunto de dados. Note que as nota nas cinco provas têm valores variando no intervalo de 0 a 1. Tabela 3.1 – Resumo das variáveis para participantes de escolas privadas Variável Tipo Resumo Numérico NU_IDADE Quantitativo Mínimo = 15 Quartil 1 = 17 Mediana = 17 Média = 17,53 Quartil 3 = 18 Máximo = 35 NU_NOTA_CN Quantitativo Mínimo = 0,33 Quartil 1 = 0,46 Mediana = 0,53 Média = 0,52 Quartil 3 = 0,58 Capítulo 3. Base de dados 25 (Continuação) Variável Tipo Resumo Numérico Máximo = 0,85 NU_NOTA_CH Quantitativo Mínimo = 0 Quartil 1 = 0,5 Mediana = 0,56 Média = 0,55 Quartil 3 = 0,6 Máximo = 0,76 NU_NOTA_LC Quantitativo Mínimo = 0,32 Quartil 1 = 0,52 Mediana = 0,55 Média = 0,55 Quartil 3 = 0,59 Máximo = 0,69 NU_NOTA_MT Quantitativo Mínimo = 0,36 Quartil 1 = 0,5 Mediana = 0,59 Média = 0,59 Quartil 3 = 0,67 Máximo = 0,98 Q023 Qualitativo A = 1108 B = 312 TP_ESCOLA Qualitativo 1 = 0 2 = 263 3 = 1157 4 = 0 NU_NOTA_REDACAO Quantitativo Mínimo = 0 Quartil 1 = 0,62 Mediana = 0,72 Média = 0,72 Quartil 3 = 0,84 Máximo = 0,99 Para verificar como a nota da redação se distribui de acordo com as variáveis da Tabela 3.1, apresenta-se a seguir o histograma da nota da redação contra as variáveis Capítulo 3. Base de dados 26 da tabela. Note que as variáveis explicativas numéricas estão divididas em intervalos, apresentados no título de cada gráfico. Na Figura 3.1 é apresentado o histograma da nota da redação do ENEM dos participantes que estudaram em escolas privadas, percebe- se que esse gráfico tem um formato assimétrico a esquerda, com média em torno de 0,73 e com um pico na nota zero correspondente a 16(1,14%) participantes. Na Figura 3.2 é apresentado um gráfico de densidade em duas dimensões, em que cada ponto é na verdade um agrupamento de pelo menos 5 notas dos participantes. Observa-se que conforme a nota nas provas objetivas aumentam, a nota da redação aumenta também. Segundo as Figuras 3.3, 3.4, 3.5, 3.6 conforme a nota das provas objetivas aumentam, as notas da redação concentram-se nos valores mais altos e a quantidade de zeros diminui, indicando que as notas nas provas objetivas influenciam positivamente na média da nota da redação. Além disso, observa-se na Figura 3.7 que os participantes com telefone fixo em sua residência apresentam notas na redação mais concentradas no valores mais altos e menos zeros do que aqueles que não tem. Por fim, nota-se na Figura 3.8 que participantes que estudaram somente em escolas privadas durante o ensino médio têm uma média maior, menor quantidade de zeros e variabilidade menor na nota da redação do que os participantes que estudaram a maior parte do ensino médio em escolas públicas. Figura 3.1 – Histograma da distribuição de notas da redação para os participantes de escolas privadas 0 25 50 75 100 125 0 0,2 0,40 0,60 0,80 0,99 F re q u ên ci a Capítulo 3. Base de dados 27 Figura 3.2 – Gráfico de dispersão das notas da redação versus a nota nas provas objetivas para os participantes de escolas privadas NU NOTA CN NU NOTA CH NU NOTA LC NU NOTA MT 0,0 0,2 0,5 0,8 1,0 0,0 0,2 0,5 0,8 1,0 0,0 0,2 0,5 0,8 1,0 0,0 0,2 0,5 0,8 1,0 0 0,2 0,40 0,60 0,80 0,99 Proporção da nota nas provas objetivas P ro p or çã o d a n ot a d a R ed aç ão 10 20 30 40 Frequência de pontos na vizinhança Figura 3.3 – Histograma da distribuição de notas da redação de acordo com a nota em Ciências da Natureza e suas Tecnologias para os participantes de escolas privadas (0.6,0.8] (0.8,1] (0.2,0.4] (0.4,0.6] 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 50 100 150 0,00 0,50 1,00 1,50 2,00 0,0 5,0 10,0 15,0 20,0 0 20 40 60 F re q u ên ci a Capítulo 3. Base de dados 28 Figura 3.4 – Histograma da distribuição de notas da redação de acordo com a nota em Ciências Humanas e suas Tecnologias para os participantes de escolas privadas (0.4,0.6] (0.6,0.8] [0,0.2] (0.2,0.4] 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0,0 5,0 10,0 15,0 0 25 50 75 100 0,00 0,25 0,50 0,75 1,00 0 50 100 150 F re q u ên ci a Figura 3.5 – Histograma da distribuição de notas da redação de acordo com a nota em Linguagens e códigos e suas Tecnologias para os participantes de escolas privadas (0.2,0.4] (0.4,0.6] (0.6,0.8] 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 20 40 60 0 50 100 150 200 0,0 2,0 4,0 6,0 F re q u ên ci a Capítulo 3. Base de dados 29 Figura 3.6 – Histograma da distribuição de notas da redação de acordo com a nota em Matemática e suas Tecnologias para os participantes de escolas privadas (0.6,0.8] (0.8,1] (0.2,0.4] (0.4,0.6] 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 50 100 0,0 5,0 10,0 0,0 5,0 10,0 15,0 0 25 50 75 100 125 F re q u ên ci a Figura 3.7 – Histograma da distribuição de notas da redação de acordo com a presença de telefone fixo na casa dos participantes de escolas privadas A B 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 10 20 30 40 50 0 50 100 150 F re q u ên ci a Capítulo 3. Base de dados 30 Figura 3.8 – Histograma da distribuição de notas da redação de acordo com o tipo de escola que os participantes de escolas privadas estudaram na maior parte do ensino médio 2 3 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 50 100 150 0 10 20 30 F re q u ên ci a 3.4 Estatísticas descritivas para participantes de escolas federais As variáveis que foram utilizadas no conjunto dos participantes que estudaram em escolas federais foram a idade do participante (NU_IDADE), a nota em Ciências da Natureza e suas Tecnologias (NU_NOTA_CN), a nota em Ciências Humanas e suas Tecnologias (NU_NOTA_CH), a nota em Linguagens e Códigos e suas Tecnologias (NU_NOTA_LC), a nota em Matemática e suas Tecnologias (NU_NOTA_MT), o sexo do participante (TP_SEXO) sendo as possíveis respostas Feminino (F) e Masculino (M), se há aparelho de DVD na residência do participante (Q020) com as possíveis respostas Não (A) e Sim (B) e se há telefone celular na residência do participante (Q022) com possíveisrespostas Não (A), Sim, um (B), Sim, dois (C), Sim, três (D) e Sim, quatro ou mais (E). Na Tabela 3.2 apresenta-se um resumo numérico dessas variáveis mais a Nota na redação (NU_NOTA_REDACAO) para o presente conjunto de dados, note que as notas nas cinco provas têm valores variando no intervalo de 0 a 1. Tabela 3.2 – Resumo das variáveis para o conjunto dos participantes de escolas federais Variável Tipo Descrição NU_IDADE Quantitativo Mínimo = 15 Quartil 1 = 18 Capítulo 3. Base de dados 31 (Continuação) Variável Tipo Descrição Mediana = 19 Média = 18,78 Quartil 3 = 19 Máximo = 51 NU_NOTA_CN Quantitativo Mínimo = 0,34 Quartil 1 = 0,49 Mediana = 0,54 Média = 0,53 Quartil 3 = 0,58 Máximo = 0,77 NU_NOTA_CH Quantitativo Mínimo = 0 Quartil 1 = 0,52 Mediana = 0,56 Média = 0,56 Quartil 3 = 0,6 Máximo = 0,74 NU_NOTA_LC Quantitativo Mínimo = 0,36 Quartil 1 = 0,54 Mediana = 0,57 Média = 0,56 Quartil 3 = 0,59 Máximo = 0,71 NU_NOTA_MT Quantitativo Mínimo = 0,36 Quartil 1 = 0,53 Mediana = 0,61 Média = 0,6 Quartil 3 = 0,68 Máximo = 0,92 TP_SEXO Qualitativo F = 1026 M = 737 Q020 Qualitativo A = 1321 B = 442 Q022 Qualitativo A = 32 B = 196 Capítulo 3. Base de dados 32 (Continuação) Variável Tipo Descrição C = 556 D = 630 E = 349 NU_NOTA_REDACAO Quantitativo Mínimo = 0 Quartil 1 = 0,64 Mediana = 0,72 Média = 0,73 Quartil 3 = 0,84 Máximo = 0,98 Para verificar como a nota da redação dos participantes de escolas federais se distribuem de acordo com as variáveis da Tabela 3.2, apresenta-se a seguir os gráficos para estudar a relação da nota da redação versus as covariáveis. Note que dividiu-se as variáveis numéricas em intervalos que pode observá-lo no título dos histogramas. Na Figura 3.9 é apresentado o histograma da nota da redação do ENEM dos participantes que estudaram em escolas federais, percebe-se que esse gráfico tem um formato assimétrico a esquerda e com média em torno de 0,73 e um pico no valor zero, representando 12 (0,68%) dos participantes . Na Figura 3.10, observa-se que conforme a nota nas provas objetivas aumentam a nota da redação aumenta também. Além disso nas Figuras 3.11, 3.12, 3.13, 3.14, observa-se que conforme a nota das provas objetivas aumentam, as notas da redação concentram-se nos valores mais altos e a quantidade de zeros diminui, indicando que as notas nas provas objetivas influenciam positivamente na média da nota da redação. Na Figura 3.16 nota-se que os participantes de sexo masculino obtém notas um pouco maiores na redação do que participantes de sexo feminino, entretanto, a quantidade de zeros dentre os participantes masculinos é maior do que a quantidade de zeros dentre participantes femininos. Na Figura 3.17 nota-se que a nota da redação dos participantes que tem aparelho de DVD é muito semelhante aos participantes que não tem, mas há menos zeros dentre os participantes que tem o aparelho. Por fim, na Figura 3.18 observa-se que a nota da redação concentra-se em valores maiores conforme a quantidade de telefones celulares na casa dos participantes cresce, além disso a quantidade de zeros é muito maior no grupo que não tem telefone celular em suas residências comparado com aqueles que têm pelo menos um telefone celular. Capítulo 3. Base de dados 33 Figura 3.9 – Histograma da distribuição das notas da redação para os participantes de escolas federais 0 100 200 300 0 0,20 0,40 0,60 0,80 0,99 F re q u ên ci a Figura 3.10 – Gráfico de dispersão das notas da redação versus a nota nas provas objetivas para os participantes de escolas federais NU NOTA CN NU NOTA CH NU NOTA LC NU NOTA MT 0,0 0,2 0,4 0,6 0,8 0,0 0,2 0,4 0,6 0,8 0,0 0,2 0,4 0,6 0,8 0,0 0,2 0,4 0,6 0,8 0 0,2 0,40 0,60 0,80 0,99 Proporção da nota nas provas objetivas P ro p or çã o d a n ot a d a R ed aç ão 10 20 30 40 50 Frequência de pontos na vizinhança Capítulo 3. Base de dados 34 Figura 3.11 – Histograma da distribuição das notas da redação de acordo com as notas em Ciências da Natureza e suas Tecnologias para os participantes de escolas federais (0.2,0.4] (0.4,0.6] (0.6,0.8] 0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99 0 20 40 60 0 100 200 0,0 5,0 10,0 15,0 F re q u ên ci a Figura 3.12 – Histograma da distribuição das notas da redação de acordo com as notas em Ciências Humanas e suas Tecnologias para os participantes de escolas federais (0.4,0.6] (0.6,0.8] [0,0.2] (0.2,0.4] 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0,0 5,0 10,0 0 30 60 90 0,00 0,25 0,50 0,75 1,00 0 100 200 F re q u ên ci a Capítulo 3. Base de dados 35 Figura 3.13 – Histograma da distribuição das notas da redação de acordo com as notas em Linguagens e Códigos e suas Tecnologias para os participantes de escolas federais (0.2,0.4] (0.4,0.6] (0.6,0.8] 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 20 40 60 80 0 100 200 0,0 1,0 2,0 3,0 4,0 5,0 F re q u ên ci a Figura 3.14 – Histograma da distribuição das notas da redação de acordo com as notas em Matemática e suas Tecnologias para os participantes de escolas federais (0.6,0.8] (0.8,1] (0.2,0.4] (0.4,0.6] 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 50 100 150 0,0 2,5 5,0 7,5 10,0 12,5 0,0 2,5 5,0 7,5 0 50 100 150 F re q u ên ci a Capítulo 3. Base de dados 36 Figura 3.15 – Histograma da distribuição das notas da redação de acordo com a idade dos participantes de escolas federais (18,19] (19,52] [15,16] (16,17] (17,18] 0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99 0 0,2 0,4 0,6 0,80,99 0 25 50 75 100 0,0 5,0 10,0 15,0 20,0 25,0 0 20 40 60 0,00 0,50 1,00 1,50 2,00 0 30 60 90 120 F re q u ên ci a Figura 3.16 – Histograma da distribuição das notas da redação de acordo com o sexo dos participantes de escolas federais F M 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 25 50 75 100 125 0 50 100 150 F re q u ên ci a Capítulo 3. Base de dados 37 Figura 3.17 – Histograma da distribuição das notas da redação de acordo com a presença de aparelho de DVD na residência dos participantes de escolas federais A B 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 20 40 60 0 50 100 150 200 F re q u ên ci a Figura 3.18 – Histograma da distribuição das notas da redação de acordo com a presença de telefone celular na residência dos participantes de escolas federais D E A B C 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 0,2 0,4 0,6 0,8 0,99 0 25 50 75 100 0 10 20 30 40 0 20 40 60 0,0 2,0 4,0 6,0 0 25 50 75 100 F re q u ên ci a 38 4 Modelagem Analisando as estatísticas descritivas do Capítulo 3 percebe-se que a nota da redação tem um comportamento assimétrico à esquerda, com média em torno da nota 0,73 em ambos os conjuntos de dados e ainda 16 participantes com nota zero no conjunto de dados dos participantes de escolas privadas e 12 participantes com nota zero no conjunto dos participantes de escolas federais. Os demais histogramas mostram que o comportamento da distribuição das notas da redação versus as demais variáveis apresentam formas muito diversas, como por exemplo, formas que assumem distribuições assimétricas, distribuição uniforme em um intervalo de valores, entre outras. Devido à essa diversidade é razoável pensar que a distribuição que irá modelar a nota da redação deve ser versátil e devido a natureza da variável, deve englobar também as extremidades. Além disso, após o processamento de dados observou-se que o conjunto de notas da redação não tem nenhuma nota mil e por conta desses fatores uma distribuição de probabilidade razoável para a modelagem é a distribuição de mistura beta ajustada em zero com parâmetro de locação µ, de dispersão σ e parâmetro da probabilidade da variável resposta obter zero ν. Essa distribuição tem suporte variando no intervalo [0,1) (zero a um, incluindo o zero) e é bem versátil, podendo assumir formas diferentes ao variar os valores de µ, σ e ν. A distribuição beta ajustada em zero é suportadapelos modelos aditivos genera- lizados para localização, escala e forma (GAMLSS). Essa ferramenta cria estruturas de regressão para cada um dos seguintes parâmetros: µ referente à localização, σ referente à escala e ν e τ refente à forma da distribuição, mas antes de entrar em mais detalhes dessa distribuição, a seguir será apresentada a classe de modelos aditivos generalizados para localização, escala e forma e seus algoritmos de estimação dos parâmetros e após isso, será apresentada na seção Distribuição Beta Ajustada em Zero, a função de densidade de probabilidade e também as características dessa distribuição. 4.1 Os Modelos Aditivos Generalizados para Localização, Escala e Forma A classe de Modelos Aditivos Generalizados para Localização, Escala e Forma (GAMLSS) é uma classe de modelos de regressão semiparamétricos. Sua usabilidade ocorre ao escolher uma distribuição de probabilidade para a variável resposta em que os parâmetros a serem estimados podem ser funções lineares, não-lineares e/ou suavizações. Em particular, o GAMLSS permite que modelos de regressão flexíveis e suavizações sejam ajustados aos dados. É possível modelar variáveis com distribuição que apresentam caldas Capítulo 4. Modelagem 39 pesadas ou caldas leves e/ou com assimetria positiva ou negativa. Segundo Stasinopoulos et al. (2017) o modelo definido na Equação 4.1 é chamado de modelo GAMLSS paramétrico. g1(µ) = η1 = X1β1 g2(σ) = η2 = X2β2 (4.1) g3(ν) = η3 = X3β3 g4(τ ) = η4 = X4β4 em que, Xk é a matriz de planejamento incorporando os termos aditivos lineares no modelo e βk são os parâmetros dos coeficientes lineares e gk() é a função de ligação, em que k = 1,2,3,4. Os vetores η1,η2, η3, η4 são chamados de preditores lineares para µ , σ , ν e τ . 4.1.1 Processo de estimação do modelo Ainda segundo Stasinopoulos et al. (2017), o processo de estimação do modelo GAMLSS paramétrico consiste em utilizar os estimadores de máxima verossimilhança com respeito a βk, k = 1,2,3,4. O logaritmo da função de verossimilhança para o modelo 4.1, sob a suposição que as observações são independentes, é dada pela Equação 4.2. `(µ,σ,ν,τ |Y) = n∑ i=1 log[ f(yi|µi,σi,νi,τi) ] (4.2) Rigby e Stasinopoulos (2005a) forneceram dois algoritmos que são utilizados para maximizar o logaritmo da função de verossimilhança (`(µ,σ,ν,τ |Y)) com respeito a β, eles são chamados de RS() e CG(). Mostra-se que ambos os algoritmos resultam nas estimativas de máxima verossimilhança para β (Rigby e Stasinopoulos (2005a), apêndice C). A diferença entre os dois algoritmos é que o RS() maximiza a função de log-verossimilhança com relação aos parâmetros µ,σ,ν,τ atualizando os valores de um parâmetro a cada iteração, mas de forma cíclica, enquanto que o algoritmo CG() atualiza todos os parâmetros de uma vez a cada interação, utilizando a informação das derivadas cruzadas. Geralmente o algoritmo RS() é mais estável e em muitos casos mais rápido para convergir comparado com o CG() e por isso é o algoritmo padrão para estimação dos β. Devido a esses benefícios, considera-se nesse estudo o algoritmo RS() para estimação dos coeficientes β. Capítulo 4. Modelagem 40 4.1.2 Algoritmo RS() O algoritmo RS() é dividido em três etapas, a iteração externa, a iteração interna e o retroajustamento modificado. A iteração externa repetidamente chama a iteração interna que por sua vez chama o retroajustamento modificado. A convergência do algoritmo RS() ocorre quando as três iterações convergem. 4.1.2.1 Iteração externa Após escolher o vetor de inicialização (µ̂,σ̂,ν̂,τ̂ ) = (µ0,σ0,ν0,τ 0) a iteração externa procede da seguinte maneira: 1. Ajusta-se o modelo para µ dada as últimas atualizações para σ̂,ν̂,τ̂ ; 2. Ajusta-se o modelo para σ dada as últimas atualizações para µ̂,ν̂,τ̂ ; 3. Ajusta-se o modelo para ν dada as últimas atualizações para µ̂,σ̂,τ̂ ; 4. Ajusta-se o modelo para τ dada as últimas atualizações para µ̂,σ̂,ν̂; Após isso, calcula-se o desvio global (do inglês Global Deviance) pela fórmula −2`(µ,σ,ν,τ |Y). Repete-se esse processo até o desvio gloval convergir. 4.1.2.2 Iteração interna Por conveniência a notação µ = θ1, σ = θ2, ν = θ3 e τ = θ4 será usada. A iteração interna é utilizada para ajustar os modelos a cada parâmetro θk da iteração externa. A ideia do algoritmo é ajustar repetidamente modelos ponderados por pesos para uma variável resposta modificada até a convergência. Na literatura dos Modelos Lineares Generalizados (GLM) esse procedimento é conhecido como estimação iterativa pelos mínimos quadrados reponderados. A variável resposta modificada (chamada também de variável de trabalho) para ajustar o modelo ao parâmetro θk é dada pela Equação 4.3: zk = ηk + w−1k ◦ uk (4.3) em que, 1. zk,ηk,w−1k ,uk são vetores de tamanho n. Por exemplo, wk = (wk1, . . . , wkn)T ; 2. w−1k ◦ uk é o produto elemento a elemento de Hadamard; 3. ηk = gk(θk) é o vetor de preditores lineares para o vetor θk, k = 1,2,3,4 correspon- dendo ao vetor de parâmetros (µ,σ,ν,τ )T ; Capítulo 4. Modelagem 41 4. uk é a função score, ou a primeira derivada da função de máxima verossimi- lhança com respeito ao preditor linear ηk apresentada na Equação 4.4. Note que ∂`(µ,σ,ν,τ |Y) ∂ηk , ∂`(µ,σ,ν,τ |Y) ∂θk e dθk dηk são vetores de tamanho n; 5. E os pesos iterativos wk para k = 1,2,3,4 são definidos na Equação 4.5: uk = ∂`(µ,σ,ν,τ |Y) ∂ηk = ∂`(µ,σ,ν,τ |Y) ∂θk ◦ dθk dηk (4.4) wk = −fk ◦ dθk dηk ◦ dθk dηk (4.5) Há três formas de se definir fk mostradas na Equação 4.6, a depender da informação disponível para a distribuição de probabilidade específica. fk = E ( ∂2`(µ,σ,ν,τ |Y) ∂θ2k ) 1 ∂2`(µ,σ,ν,τ |Y) ∂θ2k 2 −∂`(µ,σ,ν,τ |Y) ∂θk ◦ ∂`(µ,σ,ν,τ |Y) ∂θk 3 (4.6) Em que o vetor ∂ 2`i(µ,σ,ν,τ |Y) ∂θ2k tem tamanho n e elementos ∂ 2`(µi,σi,νi,τi|Y) ∂θ2 ki , i = 1, . . . , n e, 1. Leva no algoritmo de score de Fisher. Note que só poderá ser escolhido se essa esperança existir; 2. Leva no algoritmo de score pelo método de Newton-Raphson padrão e 3. Leva no algoritmo de score pelo método de quasi Newton Ocasionalmente, derivadas numéricas são utilizadas para definir fk no algoritmo quasi Newton, mas em geral torna o algoritmo mais lento. Além disso, ∂ 2`(µ,σ,ν,τ |Y) ∂θ2k pode levar em pesos negativos wk, que por sua vez não é permitido no retroajustamento modificado e por conta disso ele não foi implementado no algoritmo do GAMLSS. O algoritmo da iteração interna é dado da seguinte maneira: Dadas as estimativas atuais para todos os parâmetros da distribuição de µ̂, σ̂, ν̂ e τ̂ os pesos iterativos, wk, e a variável de trabalho interativa para o vetor de parâmetro da distribuição em questão θk são (re)calculados e usados em um ajuste ponderado pelos pesos wk contra as variáveis Capítulo 4. Modelagem 42 preditoras necessárias a esse parâmetro. Esse processo se repete até não haver mais mudanças no desvio global. Note que os outros parâmetros θs , s 6= k são fixos em seus valores atuais a cada interação interna. Na interação interna existem dois métodos de afinamento que evita que as estima- tivas vão além do valor máximo (overjumping). Ambos ajustam o preditor η. O primeiro utiliza o parâmetro de passo φ, 0 < φ < 1. Considere que η0, ηf e ηn sejam os preditores lineares ajustados respectivamente na interação interna anterior, na interação interna atual e a proposta na nova interação interna. No primeiro método o ηn é escolhido para ser o preditor linear como mostrado na Equação 4.7, por padrão φ = 1. O segundo método automaticamente divide o preditor linear pela metade até cinco vezes se o desvio global continuar aumentando, que é apresentado na Equação 4.8. ηn = φηf + (1− φ)η0 (4.7) ηn = (ηf + η0) 2 (4.8) 4.1.2.3 O algoritmo de retroajustamento modificado É utilizado o algoritmo de retroajustamento modificado para estimar os parâmetros β. Esse algoritmo é uma versão do algoritmo de Gauss-Seidel (Hastie e Tibshirani (1990)). Ao todo, pode-se dizer que o algoritmo RS é o algoritmo de Gauss-Seidel. Nessa etapa,deseja-se ajustar as variáveis explicativas para a variável de trabalho zk com pesos wk (usando retroajustamento dentro da iteração interna a qual irá atualizar a estimativa do parâmetro θk). Portanto, 1- Considerando os atuais valores de zk e wk, para o parâmetro θk, ajusta-se um modelo de mínimos quadrados reponderados (WLS) para zk contra Xk usando os pesos wk para obter β̂k; 2- Calcula-se � = zk −Xβ̂k; 3- É verificado se o parâmetro β̂k alterou-se, comparado com as relações anteriores. Se houver alterado, retorna-se ao item 1, se não houver alterado finaliza-se o algoritmo. O modelo de mínimos quadrados reponderados (WLS) (Paula (2004)) é um processo iterativo do tipo Newton-Raphson, ele é utilizado para obter a estimativa de máxima verossimilhança dos parâmetros β. O algoritmo para obtenção dessas estimativas é apre- Capítulo 4. Modelagem 43 sentado em 4.9. Para mais detalhes sobre a estimação pelo método dos mínimos quadrados reponderados pode-se consultar Paula (2004). β(m+1) = (XTW(m)X)−1XTW(m)z(m) (4.9) Agora com o conhecimento da estrutura do modelo GAMLSS e como o processo de estimação funciona, será apresentado a seguir a família de distribuição beta ajustada em zero e suas características. 4.2 Distribuição Beta Ajustada em Zero A distribuição Beta Zero Inflated BEZI(µ,σ,ν), ou em português Beta Ajustada em Zero, é uma mistura de distribuições entre a distribuição discreta binomial e a distribuição contínua beta no intervalo (0,1). Segundo o Manual Stasinopoulos M; Rigby e Akantziliotou (2008), a distribuição beta ajustada em zero é indicada para modelar situações que a variável resposta Y pertence a um intervalo que inclui o ponto mínimo do suporte de Y , que é zero para esse estudo. Os zeros tem uma probabilidade não negativa ν. Segundo o Manual Stasinopoulos (2020), a função densidade de probabilidade da distribuição BEZI denotada por BEZI(µ,σ,ν) é definida em 4.10. Segundo Ospina e Ferrari (2010) o parâmetro σ é como um parâmetro de dispersão que quanto maior é seu valor, menor é a variância da variável resposta. f(y|µ,σ,ν) = ν se y = 0 (1− ν) ( Γ(σ) Γ(µσ)Γ((1− µ)σ) ) yµσ(1− y)(1−µ)σ se y ∈ (0,1) (4.10) Para 0 ≤ y < 1, em que 0 < µ < 1 , σ > 0 e 0 < ν < 1. Com essa parametrização tem-se que a esperança e variância da variável resposta tem a estrutura da Equação 4.11. Note que, se ν = 0 a distribuição BEZI(µ,σ,ν) se resume a distribuição Beta(µ,σ). Considerando a Equação 4.1, as possíveis funções de ligação para cada parâmetro da distribuição BEZI(µ,σ,ν) são apresentadas na Tabela 4.3, note que as funções de ligação canônicas encontram-se em negrito e estas foram selecionadas para o modelo por que facilitam a interpretação dos resultados. Entretanto, existem outras possibilidades para funções de ligação como por exemplo a Aranda Ordaz, mas para utilizá-las no software R é preciso implementar. Para mais detalhes da implementação de outras funções de ligação veja Stasinopoulos et al. (2017) na seção de funções de ligação. Para ajustar o modelo BEZI para a nota da redação do ENEM 2019, precisou-se dividir as notas da redação de cada participante pelo valor 1000 para que permaneça no intervalo [0,1), como descrito no processamento dos dados do Capítulo 3, garantindo que a variável resposta está no mesmo Capítulo 4. Modelagem 44 suporte da distribuição BEZI. Desta forma, a nota da redação passa a ser a proporção de pontos alcançados nas competências da redação. E(Y ) = (1− ν)µ V (Y ) = (1− ν) ( µ(1− µ) σ + 1 ) + ν(1− ν)µ2 (4.11) Tabela 4.3 – Funções de ligação canônicas para o respectivo parâmetro da distribuição BEZI µ σ ν logito logarítimica logito probito inversa probito complemento log-log identidade cloglog logarítimica - logarítimica 4.3 Metodologia para seleção de modelos Para seleção do modelo utilizou-se três critérios, o critério do desvio global do GAMLSS definido na Equação 4.14, o do Critério de Informação de Akaike (AIC) definido na Equação 4.12 e o do Critério de Informação de Schwarz (SBC) definido na Equação 4.13. AIC = 2k − 2ˆ̀(µ,σ,ν,τ |Y) (4.12) SBC = k log(n)− 2ˆ̀(µ,σ,ν,τ |Y) (4.13) Desvio global = −2ˆ̀(µ,σ,ν,τ |Y) (4.14) em que k é a quantidade de parâmetros considerados no ajuste, n é a quantidade de indivíduos na amostra e ˆ̀(µ,σ,ν,τ |Y) é a verossimilhança estimada para o ajuste do modelo. 4.3.1 Seleção das variáveis Desta forma, partindo de um modelo nulo para cada parâmetro, adicionou-se ma- nualmente uma variável e observou-se o Desvio Global, AIC e SBC, se eles diminuíram em Capítulo 4. Modelagem 45 relação ao modelo sem tal variável manteve-a, mas caso contrário removeu-a e aplicou esse mesmo procedimento a uma outra variável presente nos conjuntos de dados. Considerando que o modelo já tivesse algumas variáveis cujo valor p estivesse menor do que 5% e se adicionasse uma nova variável que fez com que o valor p ficasse maior que 5%, então estudava-se qual era o motivo e mantinha no modelo apenas a combinação de variáveis que diminuia o Desvio Global, AIC e SBC. Em linhas gerais, a seleção das variáveis explicativas do presente trabalho se deu por meio do conceito de seleção de variáveis stepwise de forma manual e utilizou-se dos critérios de Desvio Global, AIC e SBC. No presente trabalho percebeu-se indícios de heterocedasticidade na relação da variável resposta com algumas variáveis explicativas. Pode-se tomar como exemplo a relação que encontra-se no quarto gráfico da Figura 3.2, conforme a nota de Matemática e suas Tecnologias aumenta há uma variação maior na nota da redação dos participantes de escolas privadas. Dessa forma, no processo do ajuste dos modelos, adicionou-se covariáveis à estrutura de regressão do σ. 4.3.2 Pacotes Utilizados Os pacotes do software R Core Team (2021) utilizados nesse trabalho foram o “gamlss” (Rigby e Stasinopoulos (2005b)) para ajustar o modelo BEZI(µ,σ,ν) aos dados do estudo, o “tidyverse” (Wickham et al. (2019)) e o “hablar” (Sjoberg (2020)) ambos usados para manipulação dos microdados do ENEM 2019 e o “tikzDevice” (Sharpsteen e Bracken (2020)) utilizado para inserção dos gráficos gerados no software para o presente trabalho. 4.4 Metodologia da apresentação dos resultados Nesse trabalho serão apresentadas as estimativas pontuais dos coeficientes da regressão, mas também serão apresentados os intervalos de confiança a 95% para as estimativas de cada coeficiente. Os intervalos de confiança foram obtidos pelo método de Wald baseado nos erros padrões das estimativas (Stasinopoulos et al. (2017)). As funções de ligação utilizadas são aquelas que estão em negrito na Tabela 4.3. Para interpretação dos resultados da modelagem aplica-se a função exponencial nos coeficientes do ajuste do modelo. Desta forma os coeficientes para µ e ν são interpretados na escala da razão de chances e o σ é interpretado na sua escala original. 46 5 Resultados Os resultados que foram obtidos com a modelagem dos dados usando o pacote “gamlss” (Rigby e Stasinopoulos (2005b)) do R encontram-se nesse capítulo. O conjunto de dados foi dividido em três grupos de acordo com a dependencia administrativa da escola, essa divisão apresentada na Figura 5.1. Essa divisão se fez necessária pois, ao ajustar um modelo para o conjunto de dados completo os resíduos não se ajustaram bem e a solução para esse problema foi dividir o conjunto de dados completo em dois grupos distintos. O primeiro é referente aos participantes que estudaram em escolas privadas e o segundo referente aos participantes que estudaram em escolas federais. Figura 5.1 – Diagrama da divisão da modelagem dos dados Escolas Privadas Escolas Federais Devido ao tempo disponível, apenas foi possível modelar as notas da redação do conjunto de dados dos participantes que estudaram em escolas privadas e a nota da redação do conjunto de dados dos participantes que estudaram em escolas federais. Selecionou-se a distribuição BEZI para as modelagens com as funções de ligação que estão apresentados em negrito na Tabela 4.3. Os resultados dos ajustessão apresentados nas seções modelagem para escolas privadas e modelagem para escolas federais. 5.1 Modelagem para participantes de escolas privadas Na Tabela 3.1 são apresentadas as variáveis que foram utilizadas na modelagem da nota da redação para os participantes do ENEM que estudavam em escolas privadas durante o exame. 5.1.1 Seleção do modelo Apresenta-se na Tabela 5.1 três ajustes para a nota da redação dos participantes que estudaram em escolas privadas, utilizando o GAMLSS paramétrico com funções de Capítulo 5. Resultados 47 ligação logito para µ e ν e logarítimica para σ. As variáveis foram escolhidas sob o conceito do stepwise, com os critérios de Desvio Global, AIC e SBC. Dentre os ajustes na Tabela 5.2, selecionou-se aquele que apresenta o menor Desvio Global, menor AIC e menor SBC. O primeiro tem apenas os interceptos para os parâmetros da distribuição e é chamado de modelo nulo, o segundo contém apenas variáveis numéricas e o terceiro há variáveis numéricas e categóricas. Dessa maneira, escolheu-se o terceiro como sendo o que melhor se ajusta os dados. Tabela 5.1 – Tabela de construção da modelagem das escolas privadas Modelo Função de Ligação Variáveis Estimativa Valor t Erro padrão Valorp 1 log ( µ 1−µ ) Intercepto 0,968 0,020 47,498 0,000 log(σ) Intercepto 2,016 0,036 55,775 0,000 log ( ν 1−ν ) Intercepto −4,474 0,251 −17,797 0,000 2 log ( µ 1−µ ) Intercepto −3,387 0,152 −22,217 0,000 NU_NOTA_CN 2,085 0,303 6,871 0,000 NU_NOTA_CH 2,168 0,306 7,096 0,000 NU_NOTA_LC 2,409 0,436 5,530 0,000 NU_NOTA_MT 1,380 0,187 7,370 0,000 log(σ) Intercepto 2,684 0,037 72,590 0,000 log ( ν 1−ν ) Intercepto 6,323 1,777 3,558 0,000 NU_NOTA_LC −21,100 3,755 −5,619 0,000 3 log ( µ 1−µ ) Intercepto −2,575 −8,261 0,312 0,000 NU_NOTA_CN 2,044 6,770 0,302 0,000 NU_NOTA_CH 2,109 6,849 0,308 0,000 NU_NOTA_LC 2,381 5,460 0,436 0,000 NU_NOTA_MT 1,317 7,028 0,187 0,000 Q023B 0,079 2,095 0,038 0,036 NU_IDADE −0,041 −2,935 0,014 0,003 log(σ) Intercepto 2,736 66,957 0,041 0,000 TP_ESCOLA2 −0,213 −2,282 0,093 0,023 log ( ν 1−ν ) Intercepto 10,187 4,071 2,502 0,000 NU_NOTA_LC −12,887 −2,728 4,724 0,006 NU_NOTA_CN −17,825 −3,140 5,677 0,002 Capítulo 5. Resultados 48 Tabela 5.2 – Critérios de seleção dos modelos para a nota da redação dos alunos que estudaram em escolas privadas Modelo Desvio Global AIC SBC 1 −1304 −1298 −1282 2 −2255 −2239 −2197 3 −2285 −2261 −2198 5.1.2 Análise de diagnóstico Após a seleção do modelo para as escolas privadas fez-se a análise de diagnóstico dos resíduos desse modelo. Na Figura 5.2 é apresentado o worm plot dos resíduos. O worm plot foi introduzido primeiramente por Buuren e Fredriks (2001) e, no contexto do GAMLSS, é usado como uma forma de identificar se existem regiões que o modelo não se ajusta bem aos dados. Além disso, é utilizado como uma ferramenta análoga ao gráfico de quantis e apresenta duas parábolas que são análogas aos intervalos de confiança (ou envelopes) do gráfico quantil-quantil normal. Na Figura 5.3 observa-se que os dados variam em torno do zero com variância relativamente constante, a densidade estimada dos resíduos é simétrica em torno do zero e o gráfico de quantis mostra que os resíduos seguem uma distribuição normal, apesar de alguns pontos saírem um pouco da curva quando os quantis teóricos estão em torno de 3, mas como pode-se ver no worm plot apresentado na Figura 5.2, tais valores continuam dentro do intervalo de confiança. Portanto, o modelo considerado está bem ajustado. Figura 5.2 – Worm plot dos resíduos do modelo para os participantes que estudaram em escolas privadas -4 -2 0 2 4 -1 .0 -0 .5 0. 0 0. 5 1. 0 Quantil Normal Unitário D es v io Capítulo 5. Resultados 49 Figura 5.3 – Análise dos resíduos do modelo para os participantes que estudaram em escolas privadas + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + +++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ ++ + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + ++ + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + ++ ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + +++ + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + ++ + + + + + ++ + + ++ + + + + + +++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + ++ + + + + ++ + + + + + + + + + + + + + ++ ++ + + + + + ++ + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + ++ ++ + + + + + + + + + + + + + + ++ ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + ++ + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + +++ ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + ++ + ++ + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + ++ + + + + ++ + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ ++ + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + ++ + + + + + ++ + + + + + ++ + + + + + + + + + + + + + + ++ + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + ++ + + + + + + + + + + ++ + 0.3 0.4 0.5 0.6 0.7 0.8 0.9 -3 -2 -1 0 1 2 Contra Valores Ajustados Valores Ajustados Q u a n ti s R es id u ai s + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + ++ + + +++ + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + ++ ++ + + + + + + + + + +
Compartilhar