Buscar

Módulo 02 - Por que aleatorizar 20171026

Prévia do material em texto

Por que aleatorizar?
Claudio Ferraz
Professor PUC-Rio
Pesquisador afiliado do J-PAL
Estrutura
1. Inferência causal
2. O que é impacto?
3. Métodos de avaliação de impacto
4. Avaliações aleatorizadas
5. Críticas e limitações
2
Introdução
Correlação não implica causalidade
• Quando avaliamos um programa, precisamos separar correlações de 
causalidade
• Correlação acontece quando duas coisas andam juntas, mas isso não 
implica que uma é causa da outra
3
Qualidade da educação dos países
Pontuação média na prova PISA de linguagem 4Fonte: The Economist
Consumo de sorvete 
per capita (litros por 
ano)
O problema da inferência causal
Pensemos no seguinte caso:
5
Uma família do semiárido rural brasileiro apresentava situação de
insegurança alimentar
O governo, buscando promover alternativas para o convívio com a seca e
com atividades agrícolas familiares, lançou um programa de distribuição de
cisternas para a captação de água da chuva
O problema da inferência causal
Alguns anos depois, observamos que famílias contempladas pelo programa 
passaram a uma situação de segurança alimentar
Podemos concluir com essa informação que o Programa Cisternas solucionou 
a situação de insegurança alimentar da família? 
6
O problema da inferência causal
• O gestor do Programa Cisternas quer saber se foi o acesso à água que
solucionou o problema da família
• O avaliador diz que não é possível obter uma conclusão, já que é
impossível conhecer o que aconteceria com esta família se ela não tivesse
sido beneficiada pelo Programa Cisternas
• Para poder medir o impacto do programa, precisamos saber o que teria
acontecido com cada família com e sem a cisterna
7
O problema da inferência causal
• Não podemos calcular o impacto de um tratamento para um indivíduo i
porque não podemos observar o mesmo indivíduo nos dois estados (com e
sem tratamento)
• Para avaliar o impacto de um programa, precisamos de uma estimativa do
nosso contrafactual
– Contrafactual é o resultado que os mesmos participantes de um programa
teriam obtido em um mesmo momento do tempo, mas no caso hipotético de
não participarem do programa
8
O que é impacto?
O que queremos medir?
• Com a avaliação de impacto, queremos determinar os efeitos causados pelo 
programa
• Para isso, devemos separar o efeito do programa do efeito que outras variáveis 
podem ter nos resultados observados
10
11
Problema da atribuição causal
• As pessoas que decidem realizar uma ação têm características diferentes das
pessoas que não o fazem
• As pessoas escolhidas para receber um benefício têm características
diferentes das pessoas que não foram escolhidas
Esse problema é conhecido como problema de seleção
O que é impacto?
Resultados que os 
participantes do programa 
obtêm um tempo depois de 
participar do programa
Resultados que esses mesmos 
participantes teriam obtido 
nesse mesmo momento no 
caso hipotético de não terem 
participado do programa
IMPACTO
Contrafactual
13
• O contrafactual é hipotético: representa o estado que aquela população 
teria experimentado se o programa não tivesse sido aplicado
Nunca poderemos observá-lo
O problema da inferência causal
Impacto do 
programa
Resultado 
com o 
programa
Resultado 
sem o 
programa
13
14
Tempo
Resultado
Início do 
programa
Qual é o impacto do programa?
Qual é o impacto do programa?
15
Tempo
Impacto
Resultado
Início do 
programa
O que é impacto?
16
Impacto
Tempo
Início do 
programa
Resultado
O que é impacto?
17
Impacto
Tempo
Resultado
Início do 
programa
Como medir impacto?
• Para que seja possível estimar impacto, precisamos construir um
contrafactual
• Para estimá-lo, precisamos selecionar um grupo de comparação
que seja igual ao grupo de participantes antes da intervenção
Os diferentes métodos de avaliação de impacto se diferenciam em 
como estimam o contrafactual
18
Métodos de avaliação de impacto
Métodos de avaliação de impacto
A principal diferença entre os distintos métodos é como
se estima o contrafactual: como definimos quem forma
o grupo de controle
Métodos não 
experimentais
• Antes e depois
• Diferença 
simples
Métodos quasi-
experimentais
• Regressão 
multivariada
• Diferenças em 
diferenças
• Pareamento
• Regressão 
descontínua
Método 
experimental
• Seleção 
aleatorizada 
dos grupos de 
tratamento e 
controle
20
21
Fonte: J-PAL
Exemplo
Capacitações de jovens na Colômbia
Capacitações de jovens na Colômbia
22
Em 2001, o governo colombiano implementou o programa Jovens em Ação
• Objetivo: fornecer capacitação a jovens para que eles encontrassem 
emprego
• População-alvo: jovens de 18 a 25 anos, de baixa renda
23
• Para medir o impacto, tipicamente escolhemos uma variável de interesse 
(educação, saúde, taxa de emprego, etc.)
• Suponhamos que queremos medir o impacto de Jovens em Ação sobre a 
taxa de emprego juvenil
• Como medimos?
Capacitações de jovens na Colômbia
Antes e depois
24
Antes e depois
• Descrição: mede como os participantes do programa mudam ao longo do 
tempo 
• Grupo de controle: os mesmos participantes, antes de entrar no programa
• Premissa: não há fatores relevantes no tempo que afetem o resultado além 
do programa
25
Antes e depois
Capacitação de jovens na Colômbia
Taxa de 
emprego
47%
70%
Tempo
Concluímos que o 
programa teve um 
efeito positivo de 
50%
Antes da 
capacitação
Depois da 
capacitação
Média
Antes 47%
Depois 70%
Diferença (p.p.) 23. p.p.
Mudança % 50%
28
Antes e depois: qual é o impacto?
IMPACTO 
POSITIVO 
+50%
CONTRAFACTUAL
2001 
INÍCIO DO
PROGRAMA 27
Taxa de 
emprego
Tempo
Grupo de 
tratamento
Diferença simples
28
Diferença simples
• Descrição: Mede a diferença entre os participantes e não participantes 
depois do programa 
• Grupo de Controle: não participantes sobre os quais os dados são recolhidos 
depois do programa
• Premissa: a única diferença entre os participantes e não participantes é o 
programa. Os dois grupos têm a mesma probabilidade de participar do 
programa
29
Diferença simples
Capacitação de jovens na Colômbia
Média
Não participaram 64%
Participaram 70%
Diferença (p.p.) 6 p.p.**
Aumento
(Mudança %)
~10%
Taxa de 
emprego
64%
70%
Não participantes Participantes
Concluímos que o 
programa teve um impacto 
positivo de ~10% nos jovens 
que participaram
32
Diferenças em diferenças
31
Diferenças em diferenças
Descrição:
• Combina o método de antes e depois com o método de diferença simples
• Compara a mudança no tempo da variável de resultado entre o grupo 
que recebe e o grupo que não recebe o programa
• Corrige por diferenças pré-existentes nos dois grupos (observáveis e não 
observáveis)
Grupo de controle: não participantes sobre os quais os dados são recolhidos 
antes e depois do programa
35
Diferenças em diferenças
Capacitações de jovens na Colômbia
46,9
70,2
41,9
63,8
0
20
40
60
80
Antes de la capacitación Después de la capacitacisón
Participaron No participaron
Taxa de 
emprego 
(%)
A B C D
Después de la capacitación
Participaram Não participaram 
Depois da capacitaçãoAntes da capacitação
36
Diferenças em diferenças
Capacitação de jovens na Colômbia
D
Antes da 
capacitação
Depois da 
capacitação
Participaram 46,9% (A) 70,2% (B)
Não participaram 41,9% (C) 63,8% (D)
Diferença (p.p.) 5 p.p 6,4 p.p 1,4 p.p
(A-C) (B-D) (B-D) - (A-C)
O cálculo das diferenças 
pode ser feito por colunas...
Diferenças em diferenças
Capacitação de jovens na Colômbia
D
Antes da 
capacitação
Depois da 
capacitação
Diferença
Participaram 46,9% (A) 70,2% (B) 23,3 p.p (B-A)
Não participaram 41,9% (C) 63,8% (D) 21,9 p.p (D-C)
1,4 p.p (B-A) - (D-C)
...ou por linhas
38
C
o
n
su
m
o
D
T=0 T=1 Tempo
Participou do 
Programa
Não participou
do Programa
Contrafactual
Diferenças em diferenças
Ta
x
a
d
e
 e
m
p
re
g
o A
B
C
Impacto = (A-B) – (C-D)39
Diferenças em diferenças
• Descrição: Compara a mudança no tempo da variável de resultado entre o 
grupo beneficiado e o não beneficiado pelo programa
• Grupo de controle: não participantes sobre os quais os dados são recolhidos 
antes e depois do programa
• Premissa: Assume que, na ausência do programa, tendências entre 
participantes e não participantes se manteriam paralelas 
40
Regressão multivariada
38
• Descrição: permite ver a relação entre o fato de participar de um programa e 
uma variável de interesse, mantendo constante ou “controlando” por outras 
variáveis
– Por exemplo: renda dos pais, educação, etc.
• Grupo de controle: não participantes sobre os quais se coletam dados 
detalhados sobre variáveis observáveis
Regressão multivariada
39
Regressão multivariada
• Se os jovens fossem comparados em relação à renda de seus pais, qual seria 
a relação entre participar no Jovens em Ação e a taxa de emprego? 
• Ao comparar os grupos controlando pela renda dos pais, observamos que a 
maior parte da diferença se reduz!
Impacto no Emprego (Y)
Regressão linear +10%
Regressão linear multivariada + 4%
40
• Descrição: permite ver a relação entre o fato de participar de um programa 
e uma variável de interesse, levando em consideração mantendo 
constante ou “controlando” por outras variáveis
• Grupo de controle: não participantes sobre os quais se coletam dados 
detalhados sobre variáveis observáveis
• Premissa: não existe viés devido a variáveis omitidas 
Regressão multivariada
41
Pareamento
42
Pareamento
• Descrição: para cada unidade de tratamento, busca-se o melhor “par” de 
outra população sem tratamento
• Grupo de controle: para cada participante, busca-se ao menos um não 
participante que é idêntico nas características selecionadas
47
Buscamos pares idênticos
Capacitação de jovens na Colômbia
Mostra não tratada 
(potenciais controles)
Tratamento Controle
Taxa de 
emprego
65% 63,2%
Diferença + 2,7p.p.
48
Pareamento
• Descrição: para cada unidade de tratamento, busca-se o melhor “par” 
de outra população sem tratamento
• Grupo de controle: para cada participante, busca-se ao menos um não 
participante que é idêntico nas características selecionadas
• Premissa: as características não selecionadas para o pareamento não 
influenciam nos resultados
49
Regressão descontínua
46
Regressão descontínua
• Descrição: Os indivíduos são classificados com base em critérios mensuráveis. 
Uma linha de corte determina se uma pessoa é elegível ou não. Comparam-
se as pessoas que estão logo acima e abaixo da linha de corte
• Grupo de controle: as pessoas logo acima ou abaixo do ponto de corte e 
que não são elegíveis
51
Capacitação de jovens na Colômbia
Índice de vulnerabilidade
Taxa de 
emprego
Linha
de corte
Não elegível 
para 
capacitação
Elegível para 
capacitação
52
Capacitação de jovens na Colômbia
Vulnerabilidade
Linha
de corte
Sem 
capacitação
Com capacitação
Impacto
Taxa de 
emprego
53
Regressão descontínua
• Descrição: Os indivíduos são classificados com base em critérios 
mensuráveis. Uma linha de corte determina se uma pessoa é elegível ou 
não. Comparam-se as pessoas que estão logo acima e abaixo do limite
• Grupo de controle: as pessoas logo abaixo do limite (e que por isso não 
recebem o programa)
• Premissas:
− A linha de corte é um limite estrito de entrada ou não no programa
− Efetivamente não existem diferenças significativas entre as pessoas
acima e abaixo do corte
54
Avaliações aleatorizadas
O que é uma avaliação aleatorizada
• A definição do grupo que receberá o tratamento é feita por meio de um
sorteio. Com isso, encontra-se um grupo de controle válido
• Objetivo:
Selecionar um grupo que tenha características iguais ao grupo de
participantes em todas as dimensões, exceto em receber ou não o
programa
52
Por que aleatorizar?
• Uma escolha aleatória bem feita elimina o viés de seleção antes que o 
programa se inicie
• Qualquer diferença observável nos indicadores de resultados pode ser 
atribuída ao programa
53
54
Na ausência do programa, grupos de tratamento e controle 
são comparáveis
em variáveis observáveis e não observáveis
População elegível
Grupo de
tratamento
Grupo de 
controle
Avaliação aleatorizada
55
Fora da 
avaliação
Amostra 
da 
avaliação
Tratamento
Controle
População 
total
População 
alvo
Alocação 
aleatória
Premissas
• Aleatorização bem feita gera grupos estatisticamente idênticos
• Isso pode ser comprovado com teste de equilíbrio
– Compara as características dos dois grupos na linha de base
56
Avaliação aleatorizada
• Descrição: utiliza-se um sorteio para designar unidades ao grupo de 
tratamento e ao grupo de controle
• Grupo de controle: a parte da população elegível que, de maneira 
aleatória, é designada ao grupo de controle
• Premissas: respeita-se o protocolo de designação aleatória, e os dois 
grupos são estatisticamente idênticos
62
Críticas e limitações à avaliação 
aleatorizada
Críticas frequentes
• As avaliações aleatorizadas são tecnicamente superiores aos outros 
métodos apresentados (não e quasi-experimentais), e são mais fáceis de 
entender
• Mas...
são éticas?
são viáveis por seus custos e sua duração?
são generalizáveis?
64
São éticas?
• Há poucas políticas que podem atender a todos de uma vez
• A designação aleatória pode ser o modo mais justo de alocar um recurso escasso
• Pode-se fazer uma intervenção em fases, em que todos eventualmente 
recebem o programa
• Não é necessário que o grupo de controle não obtenha nada
65
São éticas?
• Pode ser que o impacto do programa seja negativo
• Não é ético desperdiçar o dinheiro em programas que não funcionam
• Não é ético não aprender
66
Quando aleatorizar?
1. Quando há excesso ou déficit de demanda
2. Quando um programa está sendo testado com um piloto
3. Quando um programa incorpora novos serviços, novos 
destinatários ou novos lugares
4. Quando um programa deve ser implementado em etapas
5. Quando um programa tem um critério de admissão numérico
Conclusão: existem numerosas oportunidades!
67
63
Quando não aleatorizar?
• Muitas perguntas relevantes não exigem uma avaliação de impacto
• Por exemplo: temos um programa de entrega de alimentos a pessoas da 
terceira idade, mas elas não estão recebendo ou utilizando o benefício
• Na próxima aula, veremos que perguntas requerem uma avaliação de 
impacto para serem respondidas
São viáveis por seus custos?
• O que encarece um bom levantamento de dados é seu rigor (tamanho 
da amostra)
• É possível fazer avaliações aleatorizadas baratas
• Vantagem de dispor de bons dados administrativos
• Em uma avaliação experimental, não é estritamente necessário levantar 
uma linha de base
69
São viáveis por seus custos?
• São caras comparadas a quê?
• As políticas não baseadas em evidência podem acabar sendo muito mais caras
• É melhor ter poucos estudos de boa qualidade do que muitos estudos de 
baixa qualidade
• As lições extraídas são um bem público
• Grande parte do trabalho que o J-PAL faz consiste em encontrar soluções 
custo-efetivas para problemas de políticas públicas
70
São viáveis por sua duração?
• Depende do que queremos medir, e não do tempo de avaliação
• Ocorre o mesmo com outros métodos de avaliação de impacto: é 
necessário esperar que a intervenção produza seus resultados
• Em muitas avaliações, os resultados são calculados cedo demais (antes que 
o impacto seja produzido), resultando na atribuição de um impacto diferente 
do real
71
São generalizáveis?
“Avaliações aleatorizadas não têm validade externa”
• São tão válidos externamente quanto outros modos de avaliação de impacto
• É possível (e se deve) fazer replicações de políticas efetivas
• Não é possível ter validade externa sem validade interna
72
As vantagens de uma avaliação
aleatorizada
Vantagens
Se são corretamente desenhadase implementadas, as avaliações 
experimentais: 
• Eliminam qualquer viés que poderia vir a ocorrer em uma avaliação não 
experimental
• A aleatorização faz com que os grupos sejam comparáveis em variáveis 
observáveis e não observáveis
• Não é necessário fazer muitas premissas, como nas avaliações não 
experimentais
• Os resultados são fáceis de interpretar
Importante para avaliação de políticas públicas!
75
 
Case 2: Remedial Education in India
Evaluating the Balsakhi Program
Incorporating random assignment into the program 
Case 2: Remedial Education in India
Evaluating the Balsakhi Program
Incorporating random assignment into the program 
Exemplo: Programa Balsakhi
Fonte: J-PAL
Comparação de métodos de avaliação para o 
Programa Balsakhi
Método Impacto
(1) Antes e depois 26.42*
(2) Diferença simples -5.05*
(3) Diferenças em diferenças 6.82*
(4) Regressão multivariada 1.92 
(5) Avaliação aleatorizada 5.87*
* Estatisticamente significativo a 5%
77
Exemplo: Programa Read Índia
Fonte: J-PAL
Comparação de métodos de avaliação
para Read India
Método Impacto
(1) Antes e depois 0.60*
(2) Diferença simples -0.90*
(3) Diferenças em diferenças 0.31*
(4) Regresssão multivariada 0.06 
(5) Avaliação aleatorizada 0.88*
* Estatisticamente significativo a 5%
79
Conclusão
Em resumo
O método importa!
81
Métodos de avaliação de impacto
76
Método Suposições
Antes e depois
Não há fatores relevantes no tempo que afetam o resultado além 
do próprio programa
Diferença simples
A única diferença entre os participantes e não participantes é o 
programa. Ambos os grupos têm a mesma probabilidade de 
participar antes do início do programa
Diferenças em 
diferenças
Na ausência do programa, tendências entre participantes e não 
participantes se manteriam paralelas
Regressão multivariada Não existe viés em variáveis omitidas na avaliação
Pareamento
As características não selecionadas para o pareamento não 
tornam os resultados enviesados
Regressão descontínua
A linha de corte é um limite estrito de designação para o 
programa. Efetivamente não existem diferenças significativas 
entre as pessoas acima e abaixo do corte
Aleatorização Os grupos de tratamento e controle estão balanceados
Em resumo
• Neste curso, queremos transmitir que um método de avaliação de
impacto é superior aos demais: as avaliações aleatorizadas
• Argumento conceitual: se são corretamente desenhadas e
implementadas, as avaliações aleatorizadas constituem o método mais
confiável para estimar o impacto de um programa
• Argumento empírico: diferentes métodos podem gerar diferentes
estimativas do impacto
83

Continue navegando