Módulo 10 - Avaliação do princípio ao fim B

•

UNINTER

Rafa Castro

05/03/2020

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Direito/administração Geral

1.152 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Avaliação aleatorizada 
do início ao fim
Como a pressão dos pares afeta 
investimentos educacionais?
Leonardo Bursztyn
Professor da Universidade de Chicago
Pesquisador afiliado do J-PAL
Objetivos da aula
• Conhecer a avaliação de impacto aleatorizada de uma política 
do início ao fim
• Traçar paralelo com a teoria abordada ao longo das aulas 
anteriores, reconhecendo a prática de cada uma das etapas 
de uma avaliação
2
I. Por que avaliar impacto?
II. Como aleatorizar, tamanho amostral e poder
III. Medição
IV. Aspectos operacionais e desafios
V. Uso da evidência
Estrutura
I. Por que avaliar impacto?
II. Como aleatorizar, tamanho amostral e poder
III. Medição
IV. Aspectos operacionais e desafios
V. Uso da evidência
Estrutura
Problema: efeitos negativos da pressão de pares na 
educação
• A adolescência é um período chave para o desenvolvimento acadêmico, 
em que decisões podem afetar o futuro profissional das pessoas
• É também o período em que se acredita haver maior vulnerabilidade à 
pressão de pares
• Estudos recentes sugerem que a motivação de estudantes, além de se 
referenciar nos ganhos futuros da educação, também pode variar em 
função do desejo por aprovação social (ser popular ou ajustar-se ou do 
receio de sofrer sanções sociais - bullying)
5
Pressão de pares e 
investimentos educacionais
Estados Unidos - Califórnia
6
Fonte: J-PAL
7
Contexto
• Apesar da percepção difundida de que pressões dos pares afeta escolhas, 
há pouca evidência empírica sobre seus efeitos
• Assim, ainda há desconhecimento sobre os mecanismos por meio do quais 
a pressão dos pares opera
• Na educação, nos interessa especialmente conhecer essa dinâmica no 
período da adolescência, e também nos contextos estudados de alunos 
com maior vulnerabilidade social
1. Experimento natural
• Impacto de se revelar ranking dos melhores alunos de cursos de reforço 
para provas sobre suas notas
• Fenômeno natural ocorrido em 2011 – 2012 nos Estados Unidos
Contexto: duas análises
2. Experimento em campo
• Impacto de se divulgar o interesse em cursos pré-vestibular (SAT) 
sobre a decisão de aceitar bolsas de estudos
• Pesquisa experimental realizada em 2013 – 2014 em Los Angeles
8
1. Experimento natural
• Aplicado sobre um programa online de reforço em leitura e matemática 
voltado para provais finais de ensino médio
• Alunos contavam com um mês de uso na plataforma de questões de múltipla 
escolha enquanto recebiam pareceres (feedbacks) privados sobre seu 
desempenho
• Sem prévio aviso, o sistema sofreu alterações: passou a pontuar os exercícios e 
divulgar a todos os alunos o ranking geral dos 3 melhores alunos, e o individual
• Para melhor isolar o teste da pressão dos pares, e verificar se efeitos se aplicam 
para além dos estudantes de reforço, foi feito o experimento de campo
9
2. Experimento de campo
• Aplicado sobre um programa online de preparo complementar para o SAT
• Foi oferecido aos alunos acesso ao curso, enfatizando aleatoriamente se a 
decisão de adesão seria privada incluindo ou excluindo os colegas de sala
• Teste foi realizado com alunos das turmas mais e menos avançadas
• Para conhecer ainda mais profundamente como se opera a decisão dos 
estudantes com melhor e pior performance, foi 
• Perguntado a eles se consideravam importante ser popular
• Refeita a amostra para apenas aqueles integrantes de disciplinas mais e menos avançadas 
concomitantemente
10
11
Pergunta da avaliação
Os estudantes estão dispostos a se desviar da escolha que eles realmente 
acreditam ser a melhor (seja em termos acadêmicos, seja de investimento) por 
conta dessas preocupações sociais?
• Caso de estudantes pertencentes a cursos de reforço escolar
• Caso de estudantes da grade curricular comum, pertencentes a salas de 
melhor/pior performance
I. Por que avaliar impacto?
II. Como aleatorizar, tamanho amostral e poder
III. Medição
IV. Aspectos operacionais e desafios
V. Uso da evidência
Amostragem & Designação
Experimento natural (ranking)
Programa online de 
reforço escolar em 
múltipla escolha permitia 
que cada aluno 
conhecesse sua nota 
Mudança no 
sistema não 
comunicada
Programa permite 
conhecer o ranking 
individual além daquele 
dos melhores alunos
Tempo
Início do ano escolar
1 mês 1 dia Resto do ano
13
14
Comparação
Experimento natural (ranking)
Performance dos alunos depois 
da divulgação do ranking 
individual e geral dos melhores 
alunos
Performance dos alunos antes
da divulgação do ranking 
individual e geral dos melhores 
alunos
X
Variações de acordo com o nível de desempenho do 
estudante
Intervenção
Experimento 
natural 
(ranking)
Fonte: Bursztyn & Jensen, 2015
Alunos com performance inicial pior Alunos com performance inicial média
Alunos com performance inicial boa
Alunos com performance inicial melhor
N
ú
m
e
ro
 m
é
d
io
 d
e
 r
e
sp
o
st
a
s 
c
o
rr
e
ta
s 
p
o
r 
d
ia
N
ú
m
e
ro
 m
é
d
io
 d
e
 r
e
sp
o
st
a
s 
c
o
rr
e
ta
s 
p
o
r 
d
ia
N
ú
m
e
ro
 m
é
d
io
 d
e
 r
e
sp
o
st
a
s 
c
o
rr
e
ta
s 
p
o
r 
d
ia
N
ú
m
e
ro
 m
é
d
io
 d
e
 r
e
sp
o
st
a
s 
c
o
rr
e
ta
s 
p
o
r 
d
ia
Alteração
Alteração Alteração
Alteração
Para melhor isolar o teste da pressão dos pares,
e verificar se efeitos se aplicam para além dos 
estudantes de reforço, foi feito também o 
experimento de campo aleatorizado
16
Amostragem & Designação
Experimento de campo (adesão)
População 
de interesse
Escolas 
vulneráveis dos 
EUA
Amostra
4 escolas 
vulneráveis de 
Los Angeles
Aulas 
padrão
Designação 
aleatória 
Tratamento
Excluindo os colegas 
de sala
Controle
Incluindo colegas de 
sala
Tratamento
Excluindo os colegas 
de sala
Controle
Incluindo colegas de 
sala
Alunos que cursam, ao 
mesmo tempo, disciplinas 
em salas de aula padrão 
e mais avançadas
Designação 
aleatória 
Aulas 
avançadas
18
Comparação
Probabilidade de adesão de 
estudantes cuja escolha não 
seria divulgada para colegas
Probabilidade de adesão de 
estudantes cuja escolha seria
divulgada para colegas
X
Variações de acordo com o nível de desempenho da sala 
em que foi aplicada a pesquisa (padrão ou alto), bem como 
análise sobre a importância atribuída à popularidade
I. Por que avaliar impacto?
II. Como aleatorizar, tamanho amostral e poder
III. Medição
IV. Aspectos operacionais e desafios
V. Uso da evidência
Medição
• Experimento natural
– Análise antes-depois que contou com dados administrativos
• Experimento de campo
– Contaminações foram evitadas a partir da manutenção completa da 
situação dos alunos durante o tratamento.
– A intervenção foi pequena (tratou-se do preenchimento de um 
formulário simples), discreta (cortou comunicação durante seu 
preenchimento) e rápida (não levou mais de dez minutos)
– Experiência de um segundo questionário sobre a importância da 
popularidade
20
Tratamento
Privacidade da adesão 
excluindo colegas de sala
Controle
Privacidade da adesão 
incluindo colegas de sala
Fonte: Bursztyn 
& Jensen, 2015
I. Por que avaliar impacto?
II. Como aleatorizar, tamanho amostral e poder
III. Medição
IV. Aspectos operacionais e desafios
V. Uso da evidência
23
Aspectos operacionais
Experimento natural (ranking)
• Pesquisa utilizou dados administrativos, três anos depois da mudança, 
relativos ao período de alteração da exposição do ranking
24
Aspectos operacionais
Experimento de campo (adesão)
• Pesquisa entrevistou 825 estudantes do último ano do ensino médio de 26 salas 
de aula das 4 escolas escolhidas
– 560 estudantes de disciplinas em classes de desempenho padrão
– 265 estudantes de disciplinas em classes de desempenho melhor 
– Dos 825, ~42% frequentavam tanto classes de melhor desempenho quanto aquelas 
de desempenho padrão
• Ida a campo contou com o apoio e coordenação junto a agentes 
implementadores das políticas educacionais, mas nem professores nemestudantes souberam com antecedência da proposta da pesquisa
25
Desafios após o desenho
Experimento natural (ranking)
Validade interna
• Fragilidade pelo construto utilizado (não aleatorização, placebo)
Validade externa
• Fragilidade pela amostra escolhida (alunos em reforço escolar)
26
Desafios após o desenho
Experimento de campo (adesão)
Validade interna
• Robustez pelo construto utilizado (aleatorização, apenas uma diferenciação)
• Dificuldades de implementação da pesquisa
Validade externa
• Fragilidade pela particularidade da amostra (alunos de algumas das escolas mais 
pobres de Los Angeles)
...embora o número de formandos que aplique para o SAT corresponda às médias do 
estado
I. Por que avaliar impacto?
II. Como aleatorizar, tamanho amostral e poder
III. Medição
IV. Aspectos operacionais e desafios
V. Uso da evidência
Quais foram os efeitos da divulgação de 
rankings individuais e dos melhores alunos 
nos resultados acadêmicos?
28
Resultados
Experimento natural (ranking)
Fonte: Bursztyn & Jensen, 2015
Número médio de 
respostas corretas ao 
dia
Efeito da introdução do 
novo sistema nas notas 
diárias
R quadrado
Núm. Observações
Amostra Completa
Variável Dependente
Efeitos dos pontos e do sistema de ranqueamento
Quartil 1 Quartil 2 Quartil 3 Quartil 4
Número de respostas corretas ao dia
Resultados
Experimento natural (ranking)
Fonte: Bursztyn & Jensen, 2015
Número médio de 
respostas corretas ao 
dia
Efeito da introdução do 
novo sistema nas notas 
diárias
R quadrado
Núm. Observações
Amostra Completa
Variável Dependente
Efeitos dos pontos e do sistema de ranqueamento
Quartil 1 Quartil 2 Quartil 3 Quartil 4
Número de respostas corretas ao dia
Resultados
Experimento natural (ranking)
Fonte: Bursztyn & Jensen, 2015
Número médio de 
respostas corretas ao 
dia
Efeito da introdução do 
novo sistema nas notas 
diárias
R quadrado
Num. Observações
Amostra Completa
Variável Dependente
Efeitos dos pontos e do sistema de ranqueamento
Quartil 1 Quartil 2 Quartil 3 Quartil 4
Número de respostas corretas ao dia
Resultados
Experimento natural (ranking)
Fonte: Bursztyn & Jensen, 2015
Número médio de 
respostas corretas ao 
dia
Efeito da introdução do 
novo sistema nas notas 
diárias
R quadrado
Núm. Observações
Amostra Completa
Variável Dependente
Efeitos dos pontos e do sistema de ranqueamento
Quartil 1 Quartil 2 Quartil 3 Quartil 4
Número de respostas corretas ao dia
Resultados
Experimento natural (ranking)
Fonte: Bursztyn & Jensen, 2015
Número médio de 
respostas corretas ao 
dia
Efeito da introdução do 
novo sistema nas notas 
diárias
R quadrado
Num. Observações
Amostra Completa
Variável Dependente
Efeitos dos pontos e do sistema de ranqueamento
Quartil 1 Quartil 2 Quartil 3 Quartil 4
Número de respostas corretas ao dia
34
Resultados
Experimento natural (ranking)
Estudantes reduzem seus esforços ativamente para evitar aparecer no ranking 
divulgado
• Contudo, de acordo com o desenho da pesquisa não podemos entender 
pressão dos pares como causa da aversão aos rankings
• Também foi testado um placebo: em nenhum outro período, observou-se 
queda de performance semelhante dos melhores alunos
35
Alguns mecanismos alternativos considerados são
Experimento natural (ranking)
• O ranking pode ter criado pressão competitiva que afetou adversamente a 
capacidade relativa dos estudantes com melhor performance?
– Não. Este grupo teve mais acertos e, ao mesmo tempo, mais respostas deixadas 
em branco
• Se o ranking gerou pressão competitiva negativa para os estudantes, este 
efeito deveria ser menor quando o sistema for usado em casa?
– Não. A hipótese da mitigação da pressão dos pares quando em casa foi 
rejeitada empiricamente
36
Outros mecanismos alternativos considerados são
Experimento natural (ranking)
• A informação poderia ter afetado a performance dos alunos de melhor 
desempenho quando, ao conhecerem seu diferencial, reduziram esforços?
– Não. Estudantes já teriam tido sinalizações de sua performance antes do ranking 
do site
• As mudanças de performance podem ter se dado pela novidade no sistema?
– Não. A tendência se concentrou nos alunos com melhor desempenho
• É possível que melhores alunos tenham recebido questões mais difíceis?
– Não. A seleção dos exercícios era aleatória
Quais foram os efeitos da divulgação de adesão 
ao curso extraclasse nas taxas de adesão?
37
Resultados
Experimento de 
campo 
(adesão)
Fonte: Bursztyn & Jensen, 2015 Decisão Privada Decisão PrivadaDecisão Pública Decisão Pública
Disciplinas de 
desempenho 
padrão
Disciplinas de 
alto 
desempenho
Tornar público fez 
com que alunos de 
desempenho padrão 
aderissem 11% menos 
ao curso, enquanto 
que entre alunos das 
classes de alto 
desempenho gerou 
elevação de 1% na 
adesão
Assim, no caso, a 
decisão de tornar 
público não é 
universalmente 
ruim
Taxas de adesão para decisões públicas e privadas, classes 
de desempenho padrão e alto
Ta
x
a
 d
e
 a
d
e
sã
o
Fonte: Bursztyn & Jensen, 2015
Importante ser 
popular
Taxas de adesão para decisões públicas e privadas, importância de ser popular
classes de desempenho padrão classes de alto desempenho
Não importante ser 
popular
Decisão PúblicaDecisão PrivadaDecisão PúblicaDecisão Privada Decisão PúblicaDecisão PrivadaDecisão PúblicaDecisão Privada
Importante ser 
popular
Não importante ser 
popular
39
Ta
x
a
 d
e
 a
d
e
sã
o
Fonte: Bursztyn & Jensen, 2015
Importante ser 
popular
Taxas de adesão para decisões públicas e privadas, importância de ser popular
classes de desempenho padrão classes de alto desempenho
Não importante ser 
popular
Decisão PúblicaDecisão PrivadaDecisão PúblicaDecisão Privada Decisão PúblicaDecisão PrivadaDecisão PúblicaDecisão Privada
Importante ser 
popular
Não importante ser 
popular
20 p.p.
40
Ta
x
a
 d
e
 a
d
e
sã
o
41
Conclusões
Alunos de classes de alto desempenho x classes de desempenho padrão
• O tratamento de tornar pública a decisão de adesão ao curso fez com que alunos 
de classes de desempenho padrão aderissem menos ao curso
– Embora a decisão de tornar pública não seja universalmente ruim
Alunos pertencentes ambos os tipos de classes ao mesmo tempo
• Neste caso, os efeitos da publicização são negativos para alunos em salas padrão e 
positivos para aqueles das melhores salas
• Quando a análise separou 3 grupos diferentes, pertencentes a classes de 
desempenho (1) padrão, (2) misto e (3) melhor, o resultado foi ainda mais significativo
Alunos que atribuem maior x menor importância a ser popular
• Os efeitos se confirmaram novamente, mas de maneira reforçada
42
Uso de evidência
Políticas de educação
• A partir das evidências obtidas pelo estudo, é possível problematizar, em 
políticas de educação, as consequências de se expor estudantes à 
pressão dos pares, de acordo com seu contexto
• Vale ressaltar que, pelo fato de o estudo ter buscado espaços amostrais 
com estudantes vulneráveis (menor renda per capita, maior presença de 
minorias sociais, bairros menos privilegiados, etc.), seus resultados são mais 
facilmente replicáveis a contextos que também apresentem populações 
com o mesmo perfil – as que encontram, tipicamente, dificuldades mais 
relevantes para seu desenvolvimento acadêmico e profissional
Uso direto da evidência do estudo natural