Baixe o app para aproveitar ainda mais
Prévia do material em texto
Por que aleatorizar? Claudio Ferraz Professor PUC-Rio Pesquisador afiliado do J-PAL Estrutura 1. Inferência causal 2. O que é impacto? 3. Métodos de avaliação de impacto 4. Avaliações aleatorizadas 5. Críticas e limitações 2 Introdução Correlação não implica causalidade • Quando avaliamos um programa, precisamos separar correlações de causalidade • Correlação acontece quando duas coisas andam juntas, mas isso não implica que uma é causa da outra 3 Qualidade da educação dos países Pontuação média na prova PISA de linguagem 4Fonte: The Economist Consumo de sorvete per capita (litros por ano) O problema da inferência causal Pensemos no seguinte caso: 5 Uma família do semiárido rural brasileiro apresentava situação de insegurança alimentar O governo, buscando promover alternativas para o convívio com a seca e com atividades agrícolas familiares, lançou um programa de distribuição de cisternas para a captação de água da chuva O problema da inferência causal Alguns anos depois, observamos que famílias contempladas pelo programa passaram a uma situação de segurança alimentar Podemos concluir com essa informação que o Programa Cisternas solucionou a situação de insegurança alimentar da família? 6 O problema da inferência causal • O gestor do Programa Cisternas quer saber se foi o acesso à água que solucionou o problema da família • O avaliador diz que não é possível obter uma conclusão, já que é impossível conhecer o que aconteceria com esta família se ela não tivesse sido beneficiada pelo Programa Cisternas • Para poder medir o impacto do programa, precisamos saber o que teria acontecido com cada família com e sem a cisterna 7 O problema da inferência causal • Não podemos calcular o impacto de um tratamento para um indivíduo i porque não podemos observar o mesmo indivíduo nos dois estados (com e sem tratamento) • Para avaliar o impacto de um programa, precisamos de uma estimativa do nosso contrafactual – Contrafactual é o resultado que os mesmos participantes de um programa teriam obtido em um mesmo momento do tempo, mas no caso hipotético de não participarem do programa 8 O que é impacto? O que queremos medir? • Com a avaliação de impacto, queremos determinar os efeitos causados pelo programa • Para isso, devemos separar o efeito do programa do efeito que outras variáveis podem ter nos resultados observados 10 11 Problema da atribuição causal • As pessoas que decidem realizar uma ação têm características diferentes das pessoas que não o fazem • As pessoas escolhidas para receber um benefício têm características diferentes das pessoas que não foram escolhidas Esse problema é conhecido como problema de seleção O que é impacto? Resultados que os participantes do programa obtêm um tempo depois de participar do programa Resultados que esses mesmos participantes teriam obtido nesse mesmo momento no caso hipotético de não terem participado do programa IMPACTO Contrafactual 13 • O contrafactual é hipotético: representa o estado que aquela população teria experimentado se o programa não tivesse sido aplicado Nunca poderemos observá-lo O problema da inferência causal Impacto do programa Resultado com o programa Resultado sem o programa 13 14 Tempo Resultado Início do programa Qual é o impacto do programa? Qual é o impacto do programa? 15 Tempo Impacto Resultado Início do programa O que é impacto? 16 Impacto Tempo Início do programa Resultado O que é impacto? 17 Impacto Tempo Resultado Início do programa Como medir impacto? • Para que seja possível estimar impacto, precisamos construir um contrafactual • Para estimá-lo, precisamos selecionar um grupo de comparação que seja igual ao grupo de participantes antes da intervenção Os diferentes métodos de avaliação de impacto se diferenciam em como estimam o contrafactual 18 Métodos de avaliação de impacto Métodos de avaliação de impacto A principal diferença entre os distintos métodos é como se estima o contrafactual: como definimos quem forma o grupo de controle Métodos não experimentais • Antes e depois • Diferença simples Métodos quasi- experimentais • Regressão multivariada • Diferenças em diferenças • Pareamento • Regressão descontínua Método experimental • Seleção aleatorizada dos grupos de tratamento e controle 20 21 Fonte: J-PAL Exemplo Capacitações de jovens na Colômbia Capacitações de jovens na Colômbia 22 Em 2001, o governo colombiano implementou o programa Jovens em Ação • Objetivo: fornecer capacitação a jovens para que eles encontrassem emprego • População-alvo: jovens de 18 a 25 anos, de baixa renda 23 • Para medir o impacto, tipicamente escolhemos uma variável de interesse (educação, saúde, taxa de emprego, etc.) • Suponhamos que queremos medir o impacto de Jovens em Ação sobre a taxa de emprego juvenil • Como medimos? Capacitações de jovens na Colômbia Antes e depois 24 Antes e depois • Descrição: mede como os participantes do programa mudam ao longo do tempo • Grupo de controle: os mesmos participantes, antes de entrar no programa • Premissa: não há fatores relevantes no tempo que afetem o resultado além do programa 25 Antes e depois Capacitação de jovens na Colômbia Taxa de emprego 47% 70% Tempo Concluímos que o programa teve um efeito positivo de 50% Antes da capacitação Depois da capacitação Média Antes 47% Depois 70% Diferença (p.p.) 23. p.p. Mudança % 50% 28 Antes e depois: qual é o impacto? IMPACTO POSITIVO +50% CONTRAFACTUAL 2001 INÍCIO DO PROGRAMA 27 Taxa de emprego Tempo Grupo de tratamento Diferença simples 28 Diferença simples • Descrição: Mede a diferença entre os participantes e não participantes depois do programa • Grupo de Controle: não participantes sobre os quais os dados são recolhidos depois do programa • Premissa: a única diferença entre os participantes e não participantes é o programa. Os dois grupos têm a mesma probabilidade de participar do programa 29 Diferença simples Capacitação de jovens na Colômbia Média Não participaram 64% Participaram 70% Diferença (p.p.) 6 p.p.** Aumento (Mudança %) ~10% Taxa de emprego 64% 70% Não participantes Participantes Concluímos que o programa teve um impacto positivo de ~10% nos jovens que participaram 32 Diferenças em diferenças 31 Diferenças em diferenças Descrição: • Combina o método de antes e depois com o método de diferença simples • Compara a mudança no tempo da variável de resultado entre o grupo que recebe e o grupo que não recebe o programa • Corrige por diferenças pré-existentes nos dois grupos (observáveis e não observáveis) Grupo de controle: não participantes sobre os quais os dados são recolhidos antes e depois do programa 35 Diferenças em diferenças Capacitações de jovens na Colômbia 46,9 70,2 41,9 63,8 0 20 40 60 80 Antes de la capacitación Después de la capacitacisón Participaron No participaron Taxa de emprego (%) A B C D Después de la capacitación Participaram Não participaram Depois da capacitaçãoAntes da capacitação 36 Diferenças em diferenças Capacitação de jovens na Colômbia D Antes da capacitação Depois da capacitação Participaram 46,9% (A) 70,2% (B) Não participaram 41,9% (C) 63,8% (D) Diferença (p.p.) 5 p.p 6,4 p.p 1,4 p.p (A-C) (B-D) (B-D) - (A-C) O cálculo das diferenças pode ser feito por colunas... Diferenças em diferenças Capacitação de jovens na Colômbia D Antes da capacitação Depois da capacitação Diferença Participaram 46,9% (A) 70,2% (B) 23,3 p.p (B-A) Não participaram 41,9% (C) 63,8% (D) 21,9 p.p (D-C) 1,4 p.p (B-A) - (D-C) ...ou por linhas 38 C o n su m o D T=0 T=1 Tempo Participou do Programa Não participou do Programa Contrafactual Diferenças em diferenças Ta x a d e e m p re g o A B C Impacto = (A-B) – (C-D)39 Diferenças em diferenças • Descrição: Compara a mudança no tempo da variável de resultado entre o grupo beneficiado e o não beneficiado pelo programa • Grupo de controle: não participantes sobre os quais os dados são recolhidos antes e depois do programa • Premissa: Assume que, na ausência do programa, tendências entre participantes e não participantes se manteriam paralelas 40 Regressão multivariada 38 • Descrição: permite ver a relação entre o fato de participar de um programa e uma variável de interesse, mantendo constante ou “controlando” por outras variáveis – Por exemplo: renda dos pais, educação, etc. • Grupo de controle: não participantes sobre os quais se coletam dados detalhados sobre variáveis observáveis Regressão multivariada 39 Regressão multivariada • Se os jovens fossem comparados em relação à renda de seus pais, qual seria a relação entre participar no Jovens em Ação e a taxa de emprego? • Ao comparar os grupos controlando pela renda dos pais, observamos que a maior parte da diferença se reduz! Impacto no Emprego (Y) Regressão linear +10% Regressão linear multivariada + 4% 40 • Descrição: permite ver a relação entre o fato de participar de um programa e uma variável de interesse, levando em consideração mantendo constante ou “controlando” por outras variáveis • Grupo de controle: não participantes sobre os quais se coletam dados detalhados sobre variáveis observáveis • Premissa: não existe viés devido a variáveis omitidas Regressão multivariada 41 Pareamento 42 Pareamento • Descrição: para cada unidade de tratamento, busca-se o melhor “par” de outra população sem tratamento • Grupo de controle: para cada participante, busca-se ao menos um não participante que é idêntico nas características selecionadas 47 Buscamos pares idênticos Capacitação de jovens na Colômbia Mostra não tratada (potenciais controles) Tratamento Controle Taxa de emprego 65% 63,2% Diferença + 2,7p.p. 48 Pareamento • Descrição: para cada unidade de tratamento, busca-se o melhor “par” de outra população sem tratamento • Grupo de controle: para cada participante, busca-se ao menos um não participante que é idêntico nas características selecionadas • Premissa: as características não selecionadas para o pareamento não influenciam nos resultados 49 Regressão descontínua 46 Regressão descontínua • Descrição: Os indivíduos são classificados com base em critérios mensuráveis. Uma linha de corte determina se uma pessoa é elegível ou não. Comparam- se as pessoas que estão logo acima e abaixo da linha de corte • Grupo de controle: as pessoas logo acima ou abaixo do ponto de corte e que não são elegíveis 51 Capacitação de jovens na Colômbia Índice de vulnerabilidade Taxa de emprego Linha de corte Não elegível para capacitação Elegível para capacitação 52 Capacitação de jovens na Colômbia Vulnerabilidade Linha de corte Sem capacitação Com capacitação Impacto Taxa de emprego 53 Regressão descontínua • Descrição: Os indivíduos são classificados com base em critérios mensuráveis. Uma linha de corte determina se uma pessoa é elegível ou não. Comparam-se as pessoas que estão logo acima e abaixo do limite • Grupo de controle: as pessoas logo abaixo do limite (e que por isso não recebem o programa) • Premissas: − A linha de corte é um limite estrito de entrada ou não no programa − Efetivamente não existem diferenças significativas entre as pessoas acima e abaixo do corte 54 Avaliações aleatorizadas O que é uma avaliação aleatorizada • A definição do grupo que receberá o tratamento é feita por meio de um sorteio. Com isso, encontra-se um grupo de controle válido • Objetivo: Selecionar um grupo que tenha características iguais ao grupo de participantes em todas as dimensões, exceto em receber ou não o programa 52 Por que aleatorizar? • Uma escolha aleatória bem feita elimina o viés de seleção antes que o programa se inicie • Qualquer diferença observável nos indicadores de resultados pode ser atribuída ao programa 53 54 Na ausência do programa, grupos de tratamento e controle são comparáveis em variáveis observáveis e não observáveis População elegível Grupo de tratamento Grupo de controle Avaliação aleatorizada 55 Fora da avaliação Amostra da avaliação Tratamento Controle População total População alvo Alocação aleatória Premissas • Aleatorização bem feita gera grupos estatisticamente idênticos • Isso pode ser comprovado com teste de equilíbrio – Compara as características dos dois grupos na linha de base 56 Avaliação aleatorizada • Descrição: utiliza-se um sorteio para designar unidades ao grupo de tratamento e ao grupo de controle • Grupo de controle: a parte da população elegível que, de maneira aleatória, é designada ao grupo de controle • Premissas: respeita-se o protocolo de designação aleatória, e os dois grupos são estatisticamente idênticos 62 Críticas e limitações à avaliação aleatorizada Críticas frequentes • As avaliações aleatorizadas são tecnicamente superiores aos outros métodos apresentados (não e quasi-experimentais), e são mais fáceis de entender • Mas... são éticas? são viáveis por seus custos e sua duração? são generalizáveis? 64 São éticas? • Há poucas políticas que podem atender a todos de uma vez • A designação aleatória pode ser o modo mais justo de alocar um recurso escasso • Pode-se fazer uma intervenção em fases, em que todos eventualmente recebem o programa • Não é necessário que o grupo de controle não obtenha nada 65 São éticas? • Pode ser que o impacto do programa seja negativo • Não é ético desperdiçar o dinheiro em programas que não funcionam • Não é ético não aprender 66 Quando aleatorizar? 1. Quando há excesso ou déficit de demanda 2. Quando um programa está sendo testado com um piloto 3. Quando um programa incorpora novos serviços, novos destinatários ou novos lugares 4. Quando um programa deve ser implementado em etapas 5. Quando um programa tem um critério de admissão numérico Conclusão: existem numerosas oportunidades! 67 63 Quando não aleatorizar? • Muitas perguntas relevantes não exigem uma avaliação de impacto • Por exemplo: temos um programa de entrega de alimentos a pessoas da terceira idade, mas elas não estão recebendo ou utilizando o benefício • Na próxima aula, veremos que perguntas requerem uma avaliação de impacto para serem respondidas São viáveis por seus custos? • O que encarece um bom levantamento de dados é seu rigor (tamanho da amostra) • É possível fazer avaliações aleatorizadas baratas • Vantagem de dispor de bons dados administrativos • Em uma avaliação experimental, não é estritamente necessário levantar uma linha de base 69 São viáveis por seus custos? • São caras comparadas a quê? • As políticas não baseadas em evidência podem acabar sendo muito mais caras • É melhor ter poucos estudos de boa qualidade do que muitos estudos de baixa qualidade • As lições extraídas são um bem público • Grande parte do trabalho que o J-PAL faz consiste em encontrar soluções custo-efetivas para problemas de políticas públicas 70 São viáveis por sua duração? • Depende do que queremos medir, e não do tempo de avaliação • Ocorre o mesmo com outros métodos de avaliação de impacto: é necessário esperar que a intervenção produza seus resultados • Em muitas avaliações, os resultados são calculados cedo demais (antes que o impacto seja produzido), resultando na atribuição de um impacto diferente do real 71 São generalizáveis? “Avaliações aleatorizadas não têm validade externa” • São tão válidos externamente quanto outros modos de avaliação de impacto • É possível (e se deve) fazer replicações de políticas efetivas • Não é possível ter validade externa sem validade interna 72 As vantagens de uma avaliação aleatorizada Vantagens Se são corretamente desenhadase implementadas, as avaliações experimentais: • Eliminam qualquer viés que poderia vir a ocorrer em uma avaliação não experimental • A aleatorização faz com que os grupos sejam comparáveis em variáveis observáveis e não observáveis • Não é necessário fazer muitas premissas, como nas avaliações não experimentais • Os resultados são fáceis de interpretar Importante para avaliação de políticas públicas! 75 Case 2: Remedial Education in India Evaluating the Balsakhi Program Incorporating random assignment into the program Case 2: Remedial Education in India Evaluating the Balsakhi Program Incorporating random assignment into the program Exemplo: Programa Balsakhi Fonte: J-PAL Comparação de métodos de avaliação para o Programa Balsakhi Método Impacto (1) Antes e depois 26.42* (2) Diferença simples -5.05* (3) Diferenças em diferenças 6.82* (4) Regressão multivariada 1.92 (5) Avaliação aleatorizada 5.87* * Estatisticamente significativo a 5% 77 Exemplo: Programa Read Índia Fonte: J-PAL Comparação de métodos de avaliação para Read India Método Impacto (1) Antes e depois 0.60* (2) Diferença simples -0.90* (3) Diferenças em diferenças 0.31* (4) Regresssão multivariada 0.06 (5) Avaliação aleatorizada 0.88* * Estatisticamente significativo a 5% 79 Conclusão Em resumo O método importa! 81 Métodos de avaliação de impacto 76 Método Suposições Antes e depois Não há fatores relevantes no tempo que afetam o resultado além do próprio programa Diferença simples A única diferença entre os participantes e não participantes é o programa. Ambos os grupos têm a mesma probabilidade de participar antes do início do programa Diferenças em diferenças Na ausência do programa, tendências entre participantes e não participantes se manteriam paralelas Regressão multivariada Não existe viés em variáveis omitidas na avaliação Pareamento As características não selecionadas para o pareamento não tornam os resultados enviesados Regressão descontínua A linha de corte é um limite estrito de designação para o programa. Efetivamente não existem diferenças significativas entre as pessoas acima e abaixo do corte Aleatorização Os grupos de tratamento e controle estão balanceados Em resumo • Neste curso, queremos transmitir que um método de avaliação de impacto é superior aos demais: as avaliações aleatorizadas • Argumento conceitual: se são corretamente desenhadas e implementadas, as avaliações aleatorizadas constituem o método mais confiável para estimar o impacto de um programa • Argumento empírico: diferentes métodos podem gerar diferentes estimativas do impacto 83
Compartilhar