Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Módulo 01 - Por que avaliar impacto.pdf Por que avaliar o impacto de políticas públicas? Claudio Ferraz Professor da PUC-Rio Pesquisador afiliado do J-PAL Objetivos • Entender o que é uma avaliação de impacto • Compreender a importância das avaliações de impacto • Conhecer os principais obstáculos para a produção e o uso das avaliações de impacto 2 Questão central em políticas públicas Se recursos humanos e financeiros usados para o desenho e implementação de políticas públicas são limitados ...em que iniciativas devemos focar para enfrentar os problemas sociais? 3 Como aumentar a participação escolar? (número de matrículas e frequência) Suponha que você trabalhe no Ministério da Educação e uma das prioridades do governo é aumentar a frequência escolar O ministro diz que há R$ 10 milhões disponíveis para investir em um programa para alcançar esse objetivo Ele te pergunta em que programa você recomenda investir. O que você responde? Fonte: J-PAL Como aumentar a frequência escolar? 5 Uniformes escolares Novas escolas Livros gratuitos Informação sobre retornos à educação Transferências monetárias Bolsas de estudo por mérito Estrutura 1. Tipos de avaliação 2. A importância de se avaliar impacto 3. Produção e uso de avaliações de impacto 4. Conclusão 6 Tipos de avaliação Avaliação é o processo que consiste em emitir juízos de valor sobre as atividades e resultados de uma política, estratégia ou projeto Implica, necessariamente, dois elementos: • Construir uma descrição detalhada e precisa do desempenho de um programa • Comparar com um critério ou padrão pré-estabelecido para julgar o desempenho O que é avaliação? 9 O que é avaliação? Avaliação Avaliação de programas Avaliação de impacto 10 Tipos de avaliação de programas Impact Evaluation Cost-Effectiveness Analysis Avaliação de Necessidades Avaliação Teórica Avaliação de Processos Avaliação de Impacto Avaliação de Eficiência 10 Avaliação de necessidades Impact Evaluation Cost-Effectiveness Analysis Avaliação de Necessidades Avaliação Teórica Avaliação de Processos Avaliação de Impacto Avaliação de Eficiência 11 Avaliação de necessidades Estudo sistemático que • Identifica a natureza, o alcance e as causas de uma necessidade • Define e descreve a população- alvo a ser atendida • Determina a intervenção necessária para solucionar a necessidade Resultados atuais Resultados desejados Necessidade Necessidade População-alvo Solução 12 Perguntas que requerem uma avaliação de necessidades • Qual é a natureza e a magnitude do problema ou necessidade? • Quais são as possíveis causas? • Quais são as características da população-alvo? • Quais programas são os mais pertinentes para essa população? • Quais programas já existem para resolver o problema? 13 Exemplo: Construção de moradias em comunidades vulneráveis na América Latina Fonte: Techo 14 Organização da sociedade civil que visa superar a situação de pobreza em comunidades vulneráveis por meio da construção de moradias. Atua em países na América Latina, inclusive no Brasil Número de domicílios em favelas (assentamentos irregulares) no Brasil 15 Fonte: Censos de 1991, 2000 e 2010, em Pasternak e D’Otaviano (2016), “Favelas no Brasil e em São Paulo: Avanços nas Análises a Partir da Leitura Territorial do Censo de 2010”. Cad. Metrop São Paulo, Vol 18, n° 35, p.79. 0 500.000 1.000.000 1.500.000 2.000.000 2.500.000 3.000.000 3.500.000 1980 1991 2000 2010 Domicílios em comunidades subnormais no Brasil Avaliação teórica 16 Impact Evaluation Cost-Effectiveness Analysis Avaliação de Necessidades Avaliação Teórica Avaliação de Processos Avaliação de Impacto Avaliação de Eficiência Avaliação teórica • Avalia a teoria que está por trás do programa: – É viável e factível? – Atende às necessidades da população-alvo? • Marco Lógico • Teoria da Mudança Descrever a teoria • Revisão da literatura • Painel de especialistas • Entrevistas Determinar sua qualidade 17 Perguntas que requerem uma avaliação da teoria • Quais são os resultados finais que são esperados alcançar com o programa? • Como se pretende chegar a esses resultados finais? (Por meio de quais insumos, atividades, produtos e resultados intermediários?) • Que suposições e riscos estão implícitos em nossa teoria da mudança? • Quão razoáveis são essas suposições, e quão grandes são os riscos? 18 Teoria da Mudança do TECHO 19 Altos níveis de pobreza em assentamentos precários Voluntários Maior satisfação Maior disposição à acumulação de ativos Maior sensação de segurança Melhores relações familiares Melhores moradias Material de construção Maior empregabilidade Problema / necessidade Resultados finais Resultados intermediários Produto Insumos / atividades Avaliação de processos Impact Evaluation Cost-Effectiveness Analysis Avaliação de Necessidades Avaliação Teórica Avaliação de Processos Avaliação de Impacto Avaliação de Eficiência 20 Da teoria à prática • A teoria da mudança nos diz como o programa deveria funcionar, mas implementar um programa de acordo com o planejado não é fácil • Assim, é importante estudar o que acontece na prática, e uma avaliação de processos avalia a implementação de um programa 21 Perguntas que requerem uma avaliação de processos O programa está sendo implementado corretamente? • Segundo o planejado? • Cumpre com os padrões relevantes? • Permite alcançar os objetivos? – Quantas pessoas estão recebendo o serviço? São as pessoas certas? – O serviço recebido é adequado em termos de quantidade, qualidade e tipo? – A equipe que executa o programa conta com todas as competências requeridas? – Como os recursos são geridos? 22 Avaliação de processos do TECHO 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Tutorias educativas Fomento produtivo Assessorias jurídicas Oficinas optativas Plano de saúde Bibliotecas Oficinas populares % de áreas onde foram implementadas intervenções Fonte: CIS 2009, Processos de intervenção social de UTP CH em acampamentos em que se formaram comités na região metropolitana. 23 Avaliação de processos do TECHO 24 0% 5% 10% 15% 20% 25% 30% 35% 40% Coordenação com o escritório Participação nas atividades de campo além da sua atribuição Constância da atividade Compromisso com a comunidade Relação com as familias Aspectos em que se deve melhorar o trabalho dos voluntários nas comunidades Fonte: CIS 2009, Processos de intervenção social de UTP CH em acampamentos em que se formaram comités na região metropolitana. Avaliação de impacto 25 Impact Evaluation Cost-Effectiveness Analysis Avaliação de Necessidades Avaliação Teórica Avaliação de Processos Avaliação de Impacto Avaliação de Eficiência O que é impacto? Mudanças diretamente atribuíveis ao programa (Gertler et al.) 26 Contrafactual O que é impacto? 27 Resultado dos beneficiários depois de participarem do programa Resultado que esses mesmos beneficiários obteriam, no caso hipotético de não terem participado do programa IMPACTO Perguntas que requerem uma avaliação de impacto O programa teve os efeitos esperados sobre os beneficiários? • Esses efeitos se mantiveram com o tempo? • Todos os componentes do programa são necessários para obter impacto? • Alguns grupos de beneficiários estão mais afetados pela intervenção do que outros? • Existem efeitos adversos não planejados? 28 Fonte: Techo Avaliação de impacto - TECHO Avaliação de impacto das casas emergenciais em comunidades vulneráveis de três países • El Salvador • Uruguai • México Qual foi o impacto? 30 Satisfação com a qualidade de vida Satisfação com a proteção que a residência oferece contra a chuva20% 16% Não houve impacto em: • Consumo de bens • Mercado de trabalho • Saúde Processos vs. Impacto Avaliação de Processos Como? Por que? Mede o progresso em relação aos objetivos Monitoramento contínuo e frequente Realizada durante a implementação do programa Pode ser realizada pela equipe do programa ou parceiro externo Evidência descritiva Avaliação de Impacto Quanto? Mede quanto do progresso em relação aos objetivos é causado pelo programa Pontual, limitada no tempo Desenhada antes da implementação, com resultados finais após programa ser implementado De preferência, realizada externamente com apoio das equipes do programa Evidência causal Avaliação de eficiência 32 Impact Evaluation Cost-Effectiveness Analysis Avaliação de Necessidades Avaliação Teórica Avaliação de Processos Avaliação de Impacto Avaliação de Eficiência Avaliação de eficiência Análise custo-benefício: compara os benefícios do programa com seus custos • Implica monetizar os custos e benefícios • É realizada geralmente ex-ante Análise custo-efetividade: compara a mudança na variável de impacto principal com os custos do programa • Permite comparar o impacto relativo de diferentes intervenções • É realizada geralmente ex-post 33 Perguntas que requerem uma avaliação de eficiência O impacto foi alcançado de uma maneira eficiente? • O custo do programa é razoável em relação à magnitude do impacto? • Existem intervenções alternativas que cumpririam os mesmos objetivos a um menor custo? • Os recursos são usados de maneira eficiente? 34 Análise custo-benefício em casas emergenciais Mudança na medida de impacto (taxa de pobreza) dividido por medida de custo (reais) Custo do programa 35 Em resumo • O programa está baseado em uma boa conceituação do problema que se busca solucionar? Avaliação de Necessidades • A teoria por trás do programa é factível?Avaliação Teórica • O programa está sendo implementado segundo o planejado? Avaliação de Processos • O programa alcançou os objetivos para os quais foi desenhado? Avaliação de Impacto • O impacto foi alcançado de maneira eficiente?Avaliação de Eficiência 38 A importância de se avaliar impacto Por que avaliar impacto? Existem vários motivos pelos quais estamos interessados em avaliar um programa: 1. Melhorar o programa 2. Tornar o gasto público mais eficiente 3. Gerar conhecimento sobre políticas públicas 41 1. Melhorar o programa Gerar informação focada no desenho ou na reformulação do programa, com a finalidade de melhorar seu desempenho e resultados • Encontrar soluções concretas e as implementar em curto prazo • Permite entender a importância relativa dos componentes e processos do programa 42 2. Tornar o gasto público mais eficiente Emitir um juízo sobre o uso eficiente dos recursos • Útil para tomar decisões em relação à alocação de recursos, continuidade do programa • Interessa aos tomadores de decisão de alto nível (ex. governadores, prefeitos, legisladores) 43 3. Responder perguntas de relevância geral Gerar bens públicos, contribuindo para o conhecimento em ciências sociais e econômicas – Produz conhecimento sobre mecanismos e efeitos de uma intervenção – Serve de base para inovações e novos enfoques, com potencial para replicações e ganhos de escala 44 Exemplo: Programas de transferência de renda (ex. Bolsa Família) Fonte: Fiszbein y Schady, Banco Mundial; 2009 Grande crescimento em dez anos Relevância global de se conhecer o impacto desta política Fonte: Fiszbein y Schady, Banco Mundial; 2009 O exemplo do programa no México 47 Exemplo: programa de transferência de renda no México O que permitiu o êxito do programa? • Evidência científica sobre impactos • Avaliação rigorosa feita por acadêmicos externos sem interesses políticos 48 Exemplo: programa de transferência de renda no México Qual foi o papel da evidência? • Deu sustentabilidade política ao programa no tempo • Entregou informação ao mundo sobre a efetividade da inovação (a custo político e financeiro muito baixo) • Ajudou a melhorar o desenho do programa ao longo do tempo 49 Avaliações de impacto e o uso de seus resultados Como decidimos quais programas implementar? 48 Programas/ Políticas Conhecimento Evidência Experiência pessoal ou coletiva Ideologia Própria Externa Apoio Orçamento Político Capacidade 49 Política pública baseada em ideologia e opinião Política pública baseada em evidência Como decidimos quais programas implementar? Fonte: Brandon Reynolds, apoiado pela University of Cape Town Graduate School of Development Policy and Practice Precisamos de mais evidência e de um maior uso da evidência existente 50 Crescimento de avaliações aleatorizadas 51 Número de avaliações aleatorizadas publicadas na área de desenvolvimento internacional Ano de publicação Fonte: Cameron et al (2016) Fonte: https://ClinicalTrials.gov 11 de janeiro de 2017 Mas ainda há muito trabalho a ser feito Evidência em medicina 234.107 estudos clínicos https://clinicaltrials.gov/ 53 1. Medir impacto fora do laboratório é complexo • Problema de confiabilidade do impacto estimado • Importância de uma análise de dados adequada e bem justificada – Estamos isolando o efeito do programa de outros elementos relevantes? – Qual é a estratégia de identificação causal? – Estamos trabalhando com grupos comparáveis? Por que existe tão pouca evidência? Por que existe tão pouca evidência? 54 2. Difícil pensar na avaliação a tempo • Precisamos pensar na avaliação de um programa antes de ser implementado 3. Incentivos • Governos querem respostas rápidas, mas avaliações bem feitas tomam tempo • Conhecimento sobre políticas públicas é um bem público 55 Mesmo quando existe evidência rigorosa, muitas vezes ela não é usada sistematicamente para o desenho de programas • Dificuldade em identificar a diferença entre a evidência “rigorosa” e aquela que não é… – Baixa credibilidade por seu mau uso – Pouco conhecimento de causalidade • Falta de cultura de avaliação e aprendizagem • Validade externa: resultados de uma avaliação se aplicam a outros contextos? Uso de evidência Quando não avaliar impacto? • Quando já existe evidência suficiente sobre a efetividade de uma intervenção • Quando o programa não está maduro e seu desenho está sujeito a alterações • Quando não é possível identificar um grupo de comparação válido 60 Quando avaliar impacto? • Quando existem perguntas causais sem resposta • Quando existe incerteza sobre a melhor estratégia de intervenção para atacar um problema • Quando está sendo implementado um programa-piloto • Quando se prevê ampliar um programa • Quando um programa está sendo implementado de maneira gradual • Quando o programa incorpora novos serviços ou beneficiários 61 Conclusões Em resumo • Existem diferentes tipos de avaliações. Neste curso, focaremos em avaliações de impacto, que respondem a perguntas sobre causa e efeito • Avaliar impacto pode ajudar a melhorar o desenho dos programas sociais, aumentar a eficiência do gasto público e aprender sobre políticas bem sucedidas • Há grande espaço para mais produção e uso de evidência empírica rigorosa 59 Módulo 02 - Por que aleatorizar 20171026.pdf Por que aleatorizar? Claudio Ferraz Professor PUC-Rio Pesquisador afiliado do J-PAL Estrutura 1. Inferência causal 2. O que é impacto? 3. Métodos de avaliação de impacto 4. Avaliações aleatorizadas 5. Críticas e limitações 2 Introdução Correlação não implica causalidade • Quando avaliamos um programa, precisamos separar correlações de causalidade • Correlação acontece quando duas coisas andam juntas, mas isso não implica que uma é causa da outra 3 Qualidade da educação dos países Pontuação média na prova PISA de linguagem 4Fonte: The Economist Consumo de sorvete per capita (litros por ano) O problema da inferência causal Pensemos no seguinte caso: 5 Uma família do semiárido rural brasileiro apresentava situação de insegurança alimentar O governo, buscando promover alternativas para o convívio com a seca e com atividades agrícolas familiares, lançou um programa de distribuição de cisternas para a captação de água da chuva O problema da inferência causal Alguns anos depois, observamos que famílias contempladas pelo programa passaram a uma situação de segurança alimentar Podemos concluir com essa informação que o Programa Cisternas solucionou a situação de insegurança alimentar da família? 6 O problema da inferência causal • O gestor do Programa Cisternas quer saber se foi o acesso à água que solucionou o problema da família • O avaliador diz que não é possível obter uma conclusão, já que é impossível conhecer o que aconteceria com esta família se ela não tivesse sido beneficiada pelo Programa Cisternas • Para poder medir o impacto do programa, precisamos saber o que teria acontecido com cada família com e sem a cisterna 7 O problema da inferência causal • Não podemos calcular o impacto de um tratamento para um indivíduo i porque não podemos observar o mesmo indivíduo nos dois estados (com e sem tratamento) • Para avaliar o impacto de um programa, precisamos de uma estimativa do nosso contrafactual – Contrafactual é o resultado que os mesmos participantes de um programa teriam obtido em um mesmo momento do tempo, mas no caso hipotético de não participarem do programa 8 O que é impacto? O que queremos medir? • Com a avaliação de impacto, queremos determinar os efeitos causados pelo programa • Para isso, devemos separar o efeito do programa do efeito que outras variáveis podem ter nos resultados observados 10 11 Problema da atribuição causal • As pessoas que decidem realizar uma ação têm características diferentes das pessoas que não o fazem • As pessoas escolhidas para receber um benefício têm características diferentes das pessoas que não foram escolhidas Esse problema é conhecido como problema de seleção O que é impacto? Resultados que os participantes do programa obtêm um tempo depois de participar do programa Resultados que esses mesmos participantes teriam obtido nesse mesmo momento no caso hipotético de não terem participado do programa IMPACTO Contrafactual 13 • O contrafactual é hipotético: representa o estado que aquela população teria experimentado se o programa não tivesse sido aplicado Nunca poderemos observá-lo O problema da inferência causal Impacto do programa Resultado com o programa Resultado sem o programa 13 14 Tempo Resultado Início do programa Qual é o impacto do programa? Qual é o impacto do programa? 15 Tempo Impacto Resultado Início do programa O que é impacto? 16 Impacto Tempo Início do programa Resultado O que é impacto? 17 Impacto Tempo Resultado Início do programa Como medir impacto? • Para que seja possível estimar impacto, precisamos construir um contrafactual • Para estimá-lo, precisamos selecionar um grupo de comparação que seja igual ao grupo de participantes antes da intervenção Os diferentes métodos de avaliação de impacto se diferenciam em como estimam o contrafactual 18 Métodos de avaliação de impacto Métodos de avaliação de impacto A principal diferença entre os distintos métodos é como se estima o contrafactual: como definimos quem forma o grupo de controle Métodos não experimentais • Antes e depois • Diferença simples Métodos quasi- experimentais • Regressão multivariada • Diferenças em diferenças • Pareamento • Regressão descontínua Método experimental • Seleção aleatorizada dos grupos de tratamento e controle 20 21 Fonte: J-PAL Exemplo Capacitações de jovens na Colômbia Capacitações de jovens na Colômbia 22 Em 2001, o governo colombiano implementou o programa Jovens em Ação • Objetivo: fornecer capacitação a jovens para que eles encontrassem emprego • População-alvo: jovens de 18 a 25 anos, de baixa renda 23 • Para medir o impacto, tipicamente escolhemos uma variável de interesse (educação, saúde, taxa de emprego, etc.) • Suponhamos que queremos medir o impacto de Jovens em Ação sobre a taxa de emprego juvenil • Como medimos? Capacitações de jovens na Colômbia Antes e depois 24 Antes e depois • Descrição: mede como os participantes do programa mudam ao longo do tempo • Grupo de controle: os mesmos participantes, antes de entrar no programa • Premissa: não há fatores relevantes no tempo que afetem o resultado além do programa 25 Antes e depois Capacitação de jovens na Colômbia Taxa de emprego 47% 70% Tempo Concluímos que o programa teve um efeito positivo de 50% Antes da capacitação Depois da capacitação Média Antes 47% Depois 70% Diferença (p.p.) 23. p.p. Mudança % 50% 28 Antes e depois: qual é o impacto? IMPACTO POSITIVO +50% CONTRAFACTUAL 2001 INÍCIO DO PROGRAMA 27 Taxa de emprego Tempo Grupo de tratamento Diferença simples 28 Diferença simples • Descrição: Mede a diferença entre os participantes e não participantes depois do programa • Grupo de Controle: não participantes sobre os quais os dados são recolhidos depois do programa • Premissa: a única diferença entre os participantes e não participantes é o programa. Os dois grupos têm a mesma probabilidade de participar do programa 29 Diferença simples Capacitação de jovens na Colômbia Média Não participaram 64% Participaram 70% Diferença (p.p.) 6 p.p.** Aumento (Mudança %) ~10% Taxa de emprego 64% 70% Não participantes Participantes Concluímos que o programa teve um impacto positivo de ~10% nos jovens que participaram 32 Diferenças em diferenças 31 Diferenças em diferenças Descrição: • Combina o método de antes e depois com o método de diferença simples • Compara a mudança no tempo da variável de resultado entre o grupo que recebe e o grupo que não recebe o programa • Corrige por diferenças pré-existentes nos dois grupos (observáveis e não observáveis) Grupo de controle: não participantes sobre os quais os dados são recolhidos antes e depois do programa 35 Diferenças em diferenças Capacitações de jovens na Colômbia 46,9 70,2 41,9 63,8 0 20 40 60 80 Antes de la capacitación Después de la capacitacisón Participaron No participaron Taxa de emprego (%) A B C D Después de la capacitación Participaram Não participaram Depois da capacitaçãoAntes da capacitação 36 Diferenças em diferenças Capacitação de jovens na Colômbia D Antes da capacitação Depois da capacitação Participaram 46,9% (A) 70,2% (B) Não participaram 41,9% (C) 63,8% (D) Diferença (p.p.) 5 p.p 6,4 p.p 1,4 p.p (A-C) (B-D) (B-D) - (A-C) O cálculo das diferenças pode ser feito por colunas... Diferenças em diferenças Capacitação de jovens na Colômbia D Antes da capacitação Depois da capacitação Diferença Participaram 46,9% (A) 70,2% (B) 23,3 p.p (B-A) Não participaram 41,9% (C) 63,8% (D) 21,9 p.p (D-C) 1,4 p.p (B-A) - (D-C) ...ou por linhas 38 C o n su m o D T=0 T=1 Tempo Participou do Programa Não participou do Programa Contrafactual Diferenças em diferenças Ta x a d e e m p re g o A B C Impacto = (A-B) – (C-D) 39 Diferenças em diferenças • Descrição: Compara a mudança no tempo da variável de resultado entre o grupo beneficiado e o não beneficiado pelo programa • Grupo de controle: não participantes sobre os quais os dados são recolhidos antes e depois do programa • Premissa: Assume que, na ausência do programa, tendências entre participantes e não participantes se manteriam paralelas 40 Regressão multivariada 38 • Descrição: permite ver a relação entre o fato de participar de um programa e uma variável de interesse, mantendo constante ou “controlando” por outras variáveis – Por exemplo: renda dos pais, educação, etc. • Grupo de controle: não participantes sobre os quais se coletam dados detalhados sobre variáveis observáveis Regressão multivariada 39 Regressão multivariada • Se os jovens fossem comparados em relação à renda de seus pais, qual seria a relação entre participar no Jovens em Ação e a taxa de emprego? • Ao comparar os grupos controlando pela renda dos pais, observamos que a maior parte da diferença se reduz! Impacto no Emprego (Y) Regressão linear +10% Regressão linear multivariada + 4% 40 • Descrição: permite ver a relação entre o fato de participar de um programa e uma variável de interesse, levando em consideração mantendo constante ou “controlando” por outras variáveis • Grupo de controle: não participantes sobre os quais se coletam dados detalhados sobre variáveis observáveis • Premissa: não existe viés devido a variáveis omitidas Regressão multivariada 41 Pareamento 42 Pareamento • Descrição: para cada unidade de tratamento, busca-se o melhor “par” de outra população sem tratamento • Grupo de controle: para cada participante, busca-se ao menos um não participante que é idêntico nas características selecionadas 47 Buscamos pares idênticos Capacitação de jovens na Colômbia Mostra não tratada (potenciais controles) Tratamento Controle Taxa de emprego 65% 63,2% Diferença + 2,7p.p. 48 Pareamento • Descrição: para cada unidade de tratamento, busca-se o melhor “par” de outra população sem tratamento • Grupo de controle: para cada participante, busca-se ao menos um não participante que é idêntico nas características selecionadas • Premissa: as características não selecionadas para o pareamento não influenciam nos resultados 49 Regressão descontínua 46 Regressão descontínua • Descrição: Os indivíduos são classificados com base em critérios mensuráveis. Uma linha de corte determina se uma pessoa é elegível ou não. Comparam- se as pessoas que estão logo acima e abaixo da linha de corte • Grupo de controle: as pessoas logo acima ou abaixo do ponto de corte e que não são elegíveis 51 Capacitação de jovens na Colômbia Índice de vulnerabilidade Taxa de emprego Linha de corte Não elegível para capacitação Elegível para capacitação 52 Capacitação de jovens na Colômbia Vulnerabilidade Linha de corte Sem capacitação Com capacitação Impacto Taxa de emprego 53 Regressão descontínua • Descrição: Os indivíduos são classificados com base em critérios mensuráveis. Uma linha de corte determina se uma pessoa é elegível ou não. Comparam-se as pessoas que estão logo acima e abaixo do limite • Grupo de controle: as pessoas logo abaixo do limite (e que por isso não recebem o programa) • Premissas: − A linha de corte é um limite estrito de entrada ou não no programa − Efetivamente não existem diferenças significativas entre as pessoas acima e abaixo do corte 54 Avaliações aleatorizadas O que é uma avaliação aleatorizada • A definição do grupo que receberá o tratamento é feita por meio de um sorteio. Com isso, encontra-se um grupo de controle válido • Objetivo: Selecionar um grupo que tenha características iguais ao grupo de participantes em todas as dimensões, exceto em receber ou não o programa 52 Por que aleatorizar? • Uma escolha aleatória bem feita elimina o viés de seleção antes que o programa se inicie • Qualquer diferença observável nos indicadores de resultados pode ser atribuída ao programa 53 54 Na ausência do programa, grupos de tratamento e controle são comparáveis em variáveis observáveis e não observáveis População elegível Grupo de tratamento Grupo de controle Avaliação aleatorizada 55 Fora da avaliação Amostra da avaliação Tratamento Controle População total População alvo Alocação aleatória Premissas • Aleatorização bem feita gera grupos estatisticamente idênticos • Isso pode ser comprovado com teste de equilíbrio – Compara as características dos dois grupos na linha de base 56 Avaliação aleatorizada • Descrição: utiliza-se um sorteio para designar unidades ao grupo de tratamento e ao grupo de controle • Grupo de controle: a parte da população elegível que, de maneira aleatória, é designada ao grupo de controle • Premissas: respeita-se o protocolo de designação aleatória, e os dois grupos são estatisticamente idênticos 62 Críticas e limitações à avaliação aleatorizada Críticas frequentes • As avaliações aleatorizadas são tecnicamente superiores aos outros métodos apresentados (não e quasi-experimentais), e são mais fáceis de entender • Mas... são éticas? são viáveis por seus custos e sua duração? são generalizáveis? 64 São éticas? • Há poucas políticas que podem atender a todos de uma vez • A designação aleatória pode ser o modo mais justo de alocar um recurso escasso • Pode-se fazer uma intervenção em fases, em que todos eventualmente recebem o programa • Não é necessário que o grupo de controle não obtenha nada 65 São éticas? • Pode ser que o impacto do programa seja negativo • Não é ético desperdiçar o dinheiro em programas que não funcionam • Não é ético não aprender 66 Quando aleatorizar? 1. Quando há excesso ou déficit de demanda 2. Quando um programa está sendo testado com um piloto 3. Quando um programa incorpora novos serviços, novos destinatários ou novos lugares 4. Quando um programa deve ser implementado em etapas 5. Quando um programa tem um critério de admissão numérico Conclusão: existem numerosas oportunidades! 67 63 Quando não aleatorizar? • Muitas perguntas relevantes não exigem uma avaliação de impacto • Por exemplo: temos um programa de entrega de alimentos a pessoas da terceira idade, mas elas não estão recebendo ou utilizando o benefício • Na próxima aula, veremos que perguntas requerem uma avaliação de impacto para serem respondidas São viáveis por seus custos? • O que encarece um bom levantamento de dados é seu rigor (tamanho da amostra) • É possível fazer avaliações aleatorizadas baratas • Vantagem de dispor de bons dados administrativos • Em uma avaliação experimental, não é estritamente necessário levantar uma linha de base 69 São viáveis por seus custos? • São caras comparadas a quê? • As políticas não baseadas em evidência podem acabar sendo muito mais caras • É melhor ter poucos estudos de boa qualidade do que muitos estudos de baixa qualidade • As lições extraídas são um bem público • Grande parte do trabalho que o J-PAL faz consiste em encontrar soluções custo-efetivas para problemas de políticas públicas 70 São viáveis por sua duração? • Depende do que queremos medir, e não do tempo de avaliação • Ocorre o mesmo com outros métodos de avaliação de impacto: é necessário esperar que a intervenção produza seus resultados • Em muitas avaliações, os resultados são calculados cedo demais (antes que o impacto seja produzido), resultando na atribuição de um impacto diferente do real 71 São generalizáveis? “Avaliações aleatorizadas não têm validade externa” • São tão válidos externamente quanto outros modos de avaliação de impacto • É possível (e se deve) fazer replicações de políticas efetivas • Não é possível ter validade externa sem validade interna 72 As vantagens de uma avaliação aleatorizada Vantagens Se são corretamente desenhadas e implementadas, as avaliações experimentais: • Eliminam qualquer viés que poderia vir a ocorrer em uma avaliação não experimental • A aleatorização faz com que os grupos sejam comparáveis em variáveis observáveis e não observáveis • Não é necessário fazer muitas premissas, como nas avaliações não experimentais • Os resultados são fáceis de interpretar Importante para avaliação de políticas públicas! 75 Case 2: Remedial Education in India Evaluating the Balsakhi Program Incorporating random assignment into the program Case 2: Remedial Education in India Evaluating the Balsakhi Program Incorporating random assignment into the program Exemplo: Programa Balsakhi Fonte: J-PAL Comparação de métodos de avaliação para o Programa Balsakhi Método Impacto (1) Antes e depois 26.42* (2) Diferença simples -5.05* (3) Diferenças em diferenças 6.82* (4) Regressão multivariada 1.92 (5) Avaliação aleatorizada 5.87* * Estatisticamente significativo a 5% 77 Exemplo: Programa Read Índia Fonte: J-PAL Comparação de métodos de avaliação para Read India Método Impacto (1) Antes e depois 0.60* (2) Diferença simples -0.90* (3) Diferenças em diferenças 0.31* (4) Regresssão multivariada 0.06 (5) Avaliação aleatorizada 0.88* * Estatisticamente significativo a 5% 79 Conclusão Em resumo O método importa! 81 Métodos de avaliação de impacto 76 Método Suposições Antes e depois Não há fatores relevantes no tempo que afetam o resultado além do próprio programa Diferença simples A única diferença entre os participantes e não participantes é o programa. Ambos os grupos têm a mesma probabilidade de participar antes do início do programa Diferenças em diferenças Na ausência do programa, tendências entre participantes e não participantes se manteriam paralelas Regressão multivariada Não existe viés em variáveis omitidas na avaliação Pareamento As características não selecionadas para o pareamento não tornam os resultados enviesados Regressão descontínua A linha de corte é um limite estrito de designação para o programa. Efetivamente não existem diferenças significativas entre as pessoas acima e abaixo do corte Aleatorização Os grupos de tratamento e controle estão balanceados Em resumo • Neste curso, queremos transmitir que um método de avaliação de impacto é superior aos demais: as avaliações aleatorizadas • Argumento conceitual: se são corretamente desenhadas e implementadas, as avaliações aleatorizadas constituem o método mais confiável para estimar o impacto de um programa • Argumento empírico: diferentes métodos podem gerar diferentes estimativas do impacto 83 Módulo 03 - Teoria da Mudança 20171003.pdf Teoria da Mudança Carolina Morais Araújo Gerente do J-PAL no Brasil Revisão: Tipos de avaliação Impact Evaluation Cost-Effectiveness Analysis Avaliação de Necessidades Avaliação Teórica Avaliação de Processos Avaliação de Impacto Avaliação de Eficiência 2 Estrutura • O que é a Teoria da Mudança? • Como fazer uma Teoria da Mudança? • Por que a Teoria da Mudança é importante? 3 O que é a Teoria da Mudança? O que é a Teoria da Mudança? • A Teoria da Mudança é uma descrição ampla e ilustrada de como se espera que aconteça uma mudança num contexto particular • A Teoria da Mudança é um meio de sabermos até onde vamos (resultados) e como chegamos (processos) • Detalha todas as mudanças implícitas que têm que ocorrer entre as atividades de um programa e seus objetivos de longo prazo 5 Objetivos da Teoria da Mudança • Comunicação e descrição da intervenção • Desenho de Intervenção e Planejamento Estratégico • Monitoramento e Avaliação 6 7 Fonte: Oxfam America, Freedom From Hunger A Teoria da Mudança pode ter diferentes formas… 8 A Teoria da Mudança pode ter diferentes formas… Fonte: AmplifyChange 9 A Teoria da Mudança pode ter diferentes formas… Fonte: Infographic (artofagency.com) Outra abordagem: o marco lógico 10 Objetivos Indicadores Fonte de verificação Premissas Impacto Propósito Componentes Atividades Nosso exemplo de Teoria da Mudança 11 Resultado final Problema/ Necessidade Insumo/ Atividade Produto Resultado Intermediário Produto Resultado Intermediário Resultado Intermediário Resultado final Como construir uma Teoria da Mudança? Exemplo: Programa Um Laptop por Aluno Fonte: http://one. laptop.org 13 Cinco passos 1. Definir o propósito 2. Completar a cadeia causal 3. Identificar premissas e riscos 4. Resumir a hipótese causal 5. Definir indicadores 14 1. Definir o propósito O que é o propósito? • É a mudança macro que queremos realizar com nosso programa • Também pode ser pensado como a “razão pela qual existe nosso programa” • Muitas vezes, assemelha-se à missão da organização que implementa o programa 15 1. Definir o propósito Um laptop por aluno: • Melhorar a educação básica de regiões vulneráveis 16 2. Completar a cadeia causal 17 Resultado final Problema/ Necessidade Insumo/ Atividade Produto Resultado Intermediário Produto Resultado Intermediário Resultado Intermediário Resultado final Problemas/ Necessidades • Explicitam as carências que queremos enfrentar, não o objetivo que queremos alcançar • Especificam a população-alvo • Relacionam-se diretamente aos resultados finais do programa Problema/ Necessidade Insumos/ Atividade Produto Resultado final Resultado Intermediário Produto Resultado Intermediário Resultado Intermediário Resultado final 18 Exemplo: Um Laptop por Aluno 19 Problema/ necessidade Baixo desempenho escolar Resultados finais • São as mudanças de longo prazo que queremos conseguir provocar com nosso programa • São o avanço no estado de desenvolvimento de nossa população-alvo • Estão diretamente relacionados às necessidades Problema / Necessidade Insumos / Atividade Produto Resultado final Resultado Intermediário Produto Resultado Intermediário Resultado Intermediário Resultado final 20 Exemplo: Um Laptop por Aluno 21 Problema/ necessidade Resultado final Baixo desempenho escolar Melhor desempenho escolar 2. Completar a cadeia causal Do final ao início Problema / Necessidade Insumos / Atividades Produto Resultado final Resultado Intermediário Produto Resultado Intermediário Resultado Intermediário Resultado final 22 Útil na etapa de desenho do programa Pensar na Teoria da Mudança nos obriga a focar nos resultados que queremos provocar e comprovar a credibilidade das nossas premissas Identificar a melhor estratégia para conseguir o resultado desejado 23 2. Completar a cadeia causal Do início ao fim 24 Problema/ Necessidade Insumos/ Atividades Produto Resultado final Resultado Intermediário Produto Resultado Intermediário Resultado Intermediário Resultado final Resultados intermediários • Mudanças que se realizam devido à intervenção e que são necessárias para se chegar ao resultado final • Mudanças em – Atitudes – Conhecimentos – Capacidades – Comportamentos • Essas mudanças são um dos principais focos das avaliações de impacto Problema/ Necessidade Insumos/ Atividade Produto Resultado final Resultado Intermediário Produto Resultado Intermediário Resultado Intermediário Resultado final 25 Exemplo 26 Problema/ necessidade Resultados finais Resultados intermediários Baixo desempenho escolar Melhor desempenho escolar Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais interessantes e de melhor qualidade Uso de laptops em casa Uso de laptops em aula • Resultados diretos das atividades programadas • Muitas vezes, são uma reformulação das atividades do ponto de vista dos beneficiários Produtos Problema/ Necessidade Insumos/ Atividade Resultado Intermediário Resultado Intermediário Resultado Intermediário Resultado final Resultado final Produto 2Produto 1 28 Problemas/ necessidade Resultados finais Resultados intermediários Produtos Baixo desempenho escolar Melhor desempenho escolar Uso de laptops em casa Alunos e professores com laptops Professores capacitados Uso de laptops em aula Mais frequência e matrículas Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade • Os recursos e as ações importantes para se chegar aos produtos do programa, do ponto de vista de quem o implementa Insumos/atividades Problema/ Necessidade Insumos/ Atividades Produto Resultado final Resultado Intermediário Produto Resultado Intermediário Resultado Intermediário Resultado final 30 Problemas/ necessidades Resultados finais Resultados intermediários Produtos Insumos/ atividades Baixo desempenho escolar Melhor desempenho escolar Uso de laptops em casa Alunos e professores com laptops Curso para professores sobre uso de laptops em aula Professores capacitados Uso de laptops em aula Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Entrega de laptops com material pedagógico 2. Completar a cadeia causal 31 Desenho e implementação do programa Impactos do programa Problema/ Necessidade Insumos/ Atividades Produto Resultado final Resultado Intermediário Produto Resultado Intermediário Resultado Intermediário Resultado final Como construir uma Teoria da Mudança? 3. Identificar premissas e riscos Premissas Condições externas necessárias que devem ser cumpridas para que a cadeia causal estabelecida na Teoria da Mudança seja válida Riscos Efeitos negativos não esperados gerados pelo programa No contexto de uma avaliação de impacto Premissas e riscos podem ser perguntas de pesquisa que uma avaliação de impacto pode responder 33 34 Baixo desempenho escolar Melhor desempenho escolar Uso de laptops em casa Alunos e professores com laptops Curso para professores sobre uso de laptops em aula Entrega de laptops com material pedagógico a alunos e professores Professores capacitados Uso de laptops em aula Premissa: as escolas contam com acesso à rede elétrica Risco: os alunos usam mais os laptops para escutar música e jogar, reduzindo o tempo dedicado a lições e leitura Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade 4. Resumir a hipótese causal Formulação: “Se [atividades] geram [produtos], isto deveria levar a [resultados intermediários] que ao final melhorarão [resultados finais], contribuindo para [propósito]” “Se a entrega de laptops nas escolas permite que mais alunos e professores possuam um computador, isto deveria levar a um aumento da motivação dos alunos, que, ao usar mais os laptops, estudarão mais e melhor, o que ao final melhorará seu rendimento escolar, contribuindo para a melhora da educação básica em regiões vulneráveis” 35 5. Definir indicadores Para avaliar se um programa é bem-sucedido ou não, é necessário medir resultados tangíveis Devemos desenvolver indicadores que nos permitam • Quantificar os insumos/atividades • Avaliar a implementação do programa • Quantificar os resultados e impactos • Registrar as percepções de quem está no programa 36 N° de laptops enviados para escolas 37 Baixo desempenho escolar Melhor desempenho escolar Uso de laptops em casa Alunos e professores com laptops Professores capacitados Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Uso de laptops em aula Número de horas de uso dos laptops na escola Pontuação em provas de matemática e português Curso para professores sobre uso de laptops em aula Entrega de laptops com material didático a alunos e professores Número de horas de uso dos laptops em casa N° de professores capacitados N° de cursos organizados N° de alunos e professores que possuem um laptop Taxa de presença em sala de aula Frequência de uso dos laptops em casa Taxa de satisfação de alunos Pontuação em provas de matemática e português Por que a Teoria da Mudança é importante? • Permite identificar perguntas de avaliação, geralmente relacionadas às premissas identificadas pela teoria da mudança • Ajuda a definir que dados coletar e que variáveis medir • Ajuda a entender o “porquê” de um programa gerar determinados resultados • Importante para definir conhecimento mais generalizável e mecanismos para replicar programas em diferentes contextos 39 Ajuda a desenhar a avaliação de impacto Baixo desempenho escolar Melhor desempenho escolar Uso de laptops em casa Alunos e professores com laptops Professores capacitados Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Uso de laptops em aula ? Curso para professores sobre uso de laptops em aula Entrega de laptops com material pedagógico a alunos e professores 40 Melhor desempenho escolar Uso de laptops em casa Alunos e professores com laptops Professores capacitados Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Uso de laptops em aula Não há impacto Curso para professores sobre uso de laptops em aula Entrega de laptops com material pedagógico a alunos e professores 41 Baixo desempenho escolar Melhor desempenho escolar Uso de laptops em aula Alunos e professores com laptops Professores capacitados Mais tempo dedicado a lições e leituras Mais presença e matrícula Aulas mais divertidas e de melhor qualidade Uso de laptops em casa Entrega de laptops a alunos e professores Alunos e professores com laptops Professores capacitados Curso para professores sobre uso de laptops em aula Entrega de laptops com material pedagógico a alunos e professores 42 Baixo desempenho escolar Não há impacto Melhor desempenho escolar Uso de laptops em casa Alunos e professores com laptops Professores capacitados Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Uso de laptops em aula Curso para professores sobre uso de laptops em aula Entrega de laptops com material pedagógico a alunos e professores Não há impacto 43 Baixo desempenho escolar Melhor desempenho escolar Curso para professores sobre uso de laptops em aula Entrega de laptops com material pedagógico a alunos e professores Alunos e professores com laptops Professores capacitados Uso de laptops em casa Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Uso de laptops em aula 44 Baixo desempenho escolar Não há impacto Melhor desempenho escolar Impacto positivo Alunos e professores com laptops Professores capacitados Curso para professores sobre uso de laptops em aula Entrega de laptops com material pedagógico a alunos e professores Uso de laptops em casa Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Uso de laptops em aula 45 Baixo desempenho escolar Uso de laptops em casa Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Uso de laptops em aula Melhor desempenho escolar Impacto positivo Alunos e professores com laptops Professores capacitados Curso para professores sobre uso de laptops em aula Entrega de laptops com material pedagógico a alunos e professores 46 Baixo desempenho escolar Uso de laptops em casa Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Uso de laptops em aula Melhor desempenho escolar Impacto positivo Alunos e professores com laptops Professores capacitados Curso para professores sobre uso de laptops em aula Entrega de laptops com material pedagógico a alunos e professores 47 Baixo desempenho escolar Conclusões Em resumo • A Teoria da Mudança torna explícito o caminho que se espera para um programa gerar impacto • Os cinco passos para construir uma Teoria da Mudança são: definir o propósito, construir a cadeia causal, identificar as premissas e os riscos, descrever a hipótese causal e definir indicadores • A Teoria da Mudança pode ajudar a desenhar uma avaliação de impacto que não apenas meça se um programa é efetivo ou não, mas também quais são os mecanismos necessários para que o impacto aconteça 49 Pontos em comum da Teoria da Mudança • Consiste em um mapa dinâmico sobre o programa • Mostra relação de causa e efeito entre os diferentes elementos e resultados de uma intervenção • É um instrumento não apenas descritivo, mas explicativo 50 Módulo 04 - Como aleatorizar 20171003.pdf Como aleatorizar? Bruno Ferman Professor da FGV-SP Pesquisador afiliado do J-PAL Importância Os experimentos aleatorizados constituem o método mais confiável para estimar o impacto de um programa, sempre e quando forem corretamente desenhados e realizados 2 Objetivos • Entender que é possível aleatorizar de maneiras diferentes • Compreender que a melhor maneira não existe: depende do contexto • Ser capaz de identificar a maneira mais adequada para um programa determinado 3 Estrutura da aula • O que é uma avaliação aleatorizada? • Tipos de aleatorização • Desenhos de aleatorização 4 O que é uma avaliação aleatorizada? O que significa “aleatório”? Dicionário Michaelis “aleatório a· le· a· tó· ri· o adjetivo Que depende do acaso ou de acontecimentos incertos, favoráveis ou não a um determinado evento; casual; contingente, fortuito.” • Em estatística – Não contém padrões reconhecíveis ou regularidades – Cada possível resultado tem a mesma probabilidade de acontecer 6 Amostragem aleatória vs. Designação aleatória 7 Amostragem aleatória Designação aleatória 8 Amostragem aleatória vs. Designação aleatória População de interesse Amostra Tratamento Controle DesignaçãoAmostragem (opcional) Nesta aula veremos diferentes maneiras para aleatorizar a designação Tipos de aleatorização Tipos de aleatorização • Aleatorização completa • Aleatorização restritiva • Aleatorização estratificada • Aleatorização por cluster 10 Aleatorização completa: probabilidade fixa • Aleatorização sem nenhuma restrição • Probabilidade fixa de ser designado ao grupo de tratamento (ex.: 50%) • Pode resultar em um grupo de tratamento um pouco maior/menor do que o esperado 11 ID Moeda Grupo 1 Cara Tratamento 2 Cara Tratamento 3 Coroa Controle 4 Cara Tratamento 5 Coroa Controle 6 Cara Tratamento 7 Coroa Controle 8 Coroa Controle 9 Cara Tratamento 10 Cara Tratamento Total T: 6 C: 4 Aleatorização restritiva: proporção fixa • Pré-determina-se o número de pessoas em T e C • Determina-se de maneira aleatória quem conforma ambos os grupos • Ordenar as pessoas de maneira aleatória • Tirar números de uma urna • Usar gerador de números aleatórios • Requer espaço amostral Fonte: Chris Blattman 12 13 Aleatorização estratificada Nordeste Sudeste Amostra de avaliação Grupo ControleGrupo Tratamento Dividir a amostra por região Aleatorizar dentro de cada região Centro-Oeste Criar grupos de tratamento e controle 15 Aleatorização estratificada • Por que estratificar? – Para assegurar equilíbrio nas variáveis de interesse – Para aumentar o poder estatístico – Para estudar subgrupos – Por razões políticas ou logísticas • Quais variáveis utilizar? – Variáveis correlacionadas com o resultado de interesse – Variáveis das quais se deseja fazer uma análise de subgrupo Aleatorização por cluster (agrupamento) • A unidade de aleatorização não é o indivíduo, mas um grupo de indivíduos (escolas, municípios, cidades, etc.) • Todos os indivíduos de um mesmo agrupamento recebem a mesma designação 16 Unidade de aleatorização: individual 17 Unidade de aleatorização: individual 18 Tratamento Controle Unidade de aleatorização: por cluster 19 Unidade de aleatorização: escola 20 Unidade de aleatorização: escola 21 Tratamento Controle 22 Vantagens e desvantagens • Vantagens Por vezes, tratar a amostra em clusters permite viabilizar uma pesquisa por motivos – Logísticos – De contaminação – De interesse para gestores públicos • Desvantagens Agrupamento em clusters incorre na redução da amostra, gerando – Perda de poder – Redução da precisão Desenhos de aleatorização Desenhos de aleatorização Diferentes opções de desenho incluem: – Loteria básica – Por etapas – Múltiplos tratamentos – De estímulos Essas alternativas não são excludentes 24 Loteria básica Loteria básica • As unidades (indivíduos, casas, escolas, etc.) são designadas aleatoriamente ao grupo de tratamento e ao grupo de controle – O grupo de tratamento obtém acesso ao programa – O grupo de controle NÃO obtém acesso ao programa 26 Loteria básica 27 Tratamento Controle Loteria básica • Quando é útil? – Quando não há recurso suficiente para cobrir todas as pessoas elegíveis ao programa • Que possível restrição poderia ter? – O grupo que não recebe o programa (o grupo de controle) pode não cooperar com a avaliação 28 Exemplo: Programa de Ampliação de Cobertura da Educação Secundária (Colômbia) • 1.600 candidatos a bolsas de estudo para estudantes de bairros desfavorecidos: cobrem mais da metade do custo de frequentar uma escola privada na Colômbia • Demanda excede o número de bolsas de estudo disponíveis ...aleatoriza-se a entrega das bolsas 29 30 Loteria básica: exemplo Amostra 1.600 candidatos à bolsa de estudo Tratamento 800 estudantes recebem bolsa Controle 800 estudantes não recebem bolsa Desenho por etapas Desenho por etapas • Quando todos os candidatos devem receber o programa, mas o programa é implementado em etapas – Pode-se escolher aleatoriamente quem participa na primeira etapa e quem participa nas etapas seguintes • No início, os grupos que ainda não receberam o programa fazem parte do grupo de controle 32 Desenho por etapas Etapa 1 Tratamento: 1/3 Controle: 2/3 Etapa 2 Tratamento: 2/3 Controle: 1/3 Finaliza avaliação aleatória Etapa 3 Tratamento: 3/3 Controle: 0 33 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 3 33 3 3 3 3 33 3 33 3 3 3 Desenho por etapas • Quando é útil? – Quando implementar o programa de uma só vez não é factível – Quando não se pode excluir ninguém completamente – Em última análise, todos recebem o programa • Que possível restrição poderia ter? – Difícil de medir efeitos a longo prazo – Possibilidade do grupo de controle alterar seu comportamento antecipando o tratamento no período seguinte 34 Exemplo: Programa Bolsa Verde, de Pagamento por Serviços Ambientais (Brasil) • Há famílias que preenchem os requisitos necessários para serem beneficiárias, mas que ainda não integram o programa: há um excesso de demanda • Se o programa tivesse um aumento no número de vagas, o critério de definição de quais famílias da fila de espera seriam beneficiadas poderia ser sorteio de um primeiro grupo • Depois de alguns anos de tratamento, tentar-se-á verificar se houve um aumento, nas regiões e famílias inicialmente contempladas, em: – Cobertura vegetal – Consumo de bens duráveis – Valor das propriedades 35 36 Desenho por etapas: Exemplo Amostra 2.000 potenciais beneficiários ainda não haviam sido selecionados Tratamento 1.000 candidatos são beneficiados Controle 1.000 famílias aguardam mais pelo benefício Tratamento 1.000 famílias são beneficiadas Tratamento 1.000 famílias são beneficiadas Etapa 1 Etapa 2 Desenho de múltiplos tratamentos Desenho de múltiplos tratamentos Às vezes queremos testar • Qual de várias intervenções tem maior impacto? • Qual é o componente mais efetivo do programa? • Qual é a intensidade ideal do tratamento? • Qual é a interação entre diferentes componentes de um programa? É possível aleatorizar múltiplos tratamentos e analisar como se comparam uns com os outros e como se complementam 38 Tratamento 1 Tratamento 2 Tratamento 3 Múltiplos tratamentos Múltiplos tratamentos 40 Que possível restrição poderia haver? • Quando não há um grupo de controle puro, o impacto estimado mede apenas o impacto relativo de uma intervenção versus outra ...além disso, são necessárias amostras muito grandes nos casos em que há vários tratamentos e se deseja fazer uma comparação entre eles Exemplo: Efeito do envio de SMS aos pais na frequência de alunos (Brasil) 43 • Há evidência crescente na literatura de que melhorar a comunicação entre pais e escolas melhora a performance dos estudantes • O funcionamento dos mecanismos é menos claro e se desejava conhecê- lo mais detalhadamente • Há uma avaliação experimental em curso em São Paulo utilizando diferentes tratamentos de SMSs enviadas aos pais: – Conscientização (“Ir à escola todos os dias é importante para as notas de Maria”) – Conscientização + informação (“Maria faltou à escola menos de três vezes nas últimas 3 semanas”) – Conscientização + informação relativa (“Maria faltou à escola menos de três vezes nas últimas 3 semanas. A média da sala dela no mesmo período foi de quatro faltas.”) 44 Amostra Pais de estudantes de escolas públicas de São Paulo Tratamento 1 Recebem mensagem tipo 1 (Conscientização) Controle Não recebe mensagens Tratamento 2 Recebem mensagem tipo 2 (Conscientização + Informação) Tratamento 3 Recebem mensagem tipo 3 (Conscientização + Informação relativa) Exemplo: Efeito do envio de SMS aos pais na frequência de alunos (Brasil) Esquema de incentivos à participação Esquema de incentivos à participação • Às vezes é prático ou eticamente impossível designar o acesso a um programa de forma aleatória – Mas a maioria dos programas tem uma participação inferior a 100% da população alvo • Nesses casos é possível oferecer aleatoriamente um estímulo para participar da intervenção 46 Esquema de incentivos à participação 47 Estímulo Sem estímulo Participam Não participaram Cumprem Não cumprem Esquema de incentivos à participação 48 Comparar incentivados com não incentivados Não comparar participantes com não participantes Ajustar por não cumprimento na fase de análise Estes devem estar correlacionados Estímulo Sem estímulo Participam Não participaram Cumprem Não cumprem Esquema de incentivos à participação 49 Que possível restrição poderia ter? • Mede o impacto daqueles que respondem ao incentivo • Necessita de um incentivo suficientemente potente para elevar a quantidade de participantes • O próprio incentivo pode ter um efeito direto sobre a variável de interesse Exemplo: Programa de capacitação a microempreendedores (Chile) 50 • São oferecidas 20h de oficinas de capacitação a microempresas • Quatro módulos: orçamento, poupança, empréstimo responsável e investimento • Cobertura – Beneficiários de alguns programas de empreendimento do Fundo Chileno de Solidariedade e Investimento Social – Três regiões do Chile (V, VII, Região Metropolitana) 51 Exemplo: Programa de capacitação a microempreendedores (Chile) Amostra 4.570 beneficiários de programas de empreendimento do FOSIS Com incentivo 1.959 pessoas receberam convite Sem incentivo 2.611 pessoas não receberam convite Capacitados Não capacitados Não capacitados Capacitados Conclusões Em resumo • É possível aleatorizar de muitas maneiras diferentes – diferentes opções de acordo com o tipo e o desenho de aleatorização • A melhor maneira não existe: depende do contexto • Pensar bem como aleatorizar… – assegura validade interna – permite responder a perguntas mais interessantes 53 Módulo 05 - Poder estatístico 20171003.pdf Poder estatístico Bruno Ferman Professor da FGV-SP Pesquisador afiliado do J-PAL Objetivos • Entender o que é poder estatístico • Compreender a importância do poder estatístico no desenho de uma avaliação de impacto • Entender como se determina o poder estatístico e como ele se relaciona com o tamanho da amostra e outros elementos de desenho de uma avaliação 2 Estrutura 1. O que é poder estatístico? 2. A importância do poder estatístico 3. Fatores que afetam o poder estatístico 3 O que é poder estatístico? Incerteza e poder estatístico • O poder estatístico é a probabilidade de se detectar o impacto de um programa quando referido impacto existe na população • Por que falamos da probabilidade de se detectar um impacto existente? Porque, ao trabalhar com dados de uma amostra, sempre existe um certo grau de incerteza 5 Variabilidade amostral • A amostra é um subgrupo de uma população • Distintas amostras extraídas de uma mesma população produzem diferentes resultados • Isso se chama variabilidade amostral: os valores calculados a partir de amostras variam de uma amostra a outra 6 Exemplo de variabilidade amostral P o p u la ç ã o -a lv o Tratamento Controle 8 9 8 6 99 129 8 8 9 8 9 10 5 10 6 12 9 129 10 6 9 8 109 2 9 12 9 8 6 6 8 10 12 9 Indicador: dias de desemprego Suponha que queremos estudar o impacto de um programa de formação profissional Para baratear custos, tomamos duas amostras representativas: uma do grupo de tratamento e outra do grupo de controle 7 P o p u la ç ã o a lv o Tratamento Controle 8 9 8 6 99 129 8 8 9 8 9 10 5 10 6 12 9 129 10 6 6 9 8 109 2 9 12 9 8 6 6 2 Tratamento: 9 + 8 + 6 + 6 + 2 5 = 6,2 8 10 12 9 Controle: 9 + 12 + 10 + 8 + 9 5 = 9,6 Concluímos que o programa teve um efeito positivo de -3,4 dias de desemprego Exemplo de variabilidade amostral Indicador: dias de desemprego Extraímos uma amostra entre o grupo de tratamento e uma do grupo de controle, e assim verificamos: 8 P o p u la ç ã o a lv o Tratamento Controle 8 9 8 6 99 9 8 8 9 8 9 10 5 10 6 12 9 129 6 6 9 8 109 2 9 9 8 6 6 2 Tratamento: 9 + 10 + 6 + 8 + 12 5 = 8 10 12 9 Controle: 9 + 6 + 10 + 8 + 5 5 = Agora concluímos que o programa teve um efeito negativo de +1,4 dia de desemprego Exemplo de variabilidade amostral Indicador: dias de desemprego Mas se as amostras forem escolhidas de outra maneira... 9 10 8 12 6 9 5 9 8 10 6 7.6 9 Um cenário típico em que há um efeito positivo percebido Duas causas podem explicar diferença de resultados a partir de uma só amostra: a. Na população realmente existe uma diferença entre o grupo de tratamento e controle: o programa teve impacto b. A diferença estimada é fruto de erro amostral. Na realidade, não houve impacto (a diferença real entre os dois grupos é zero) ERRO TIPO 1 10 Um cenário típico em que não há efeito percebido Duas causas podem explicar diferença de resultados a partir de uma só amostra: a. Na população realmente não existe uma diferença entre o grupo de tratamento e controle: o programa não teve impacto b. A ausência de diferença na estimação é fruto de erro amostral. Na realidade, houve impacto (a diferença real entre os dois grupos é diferente de zero) ERRO TIPO 2 Mas como sabemos se o que observamos se encaixa em A ou B? 11 A importância do poder estatístico Dois tipos de erros estatísticos Dois tipos de erros estatísticos Erro tipo I (falso positivo) Erro tipo II (falso negativo) Você está grávido! Você não está grávida! 15 Dois tipos de erros estatísticos CONCLUSÃO Programa teve impacto A VERDADE SIM Programa teve impacto NÃO Programa não teve impacto Concluímos que o programa teve impacto, quando na realidade não teve 16 Dois tipos de erros estatísticos O que falta nesta tabela? CONCLUSÃO Programa teve impacto A VERDADE SIM Programa teve impacto NÃO Programa não teve impacto Concluímos que o programa teve impacto, quando na realidade não teve 17 Dois tipos de erros estatísticos CONCLUSÃO Programa teve impacto Programa não teve impacto A VERDADE SIM Programa teve impacto Concluímos que o programa não teve impacto, quando na realidade teve (mas a amostra é muito pequena para detectar o impacto) NÃO Programa não teve impacto Concluímos que o programa teve impacto, quando na realidade não teve 18 Erro tipo I CONCLUSÃO Programa teve impacto Programa não teve impacto A VERDADE SIM Programa teve impacto Concluímos que o programa não teve impacto, quando na realidade teve (mas a amostra é muito pequena para detectar o impacto) NÃO Programa não teve impacto Concluímos que o programa teve impacto, quando na realidade não teve Erro tipo I 19 Poder estatístico Poder estatístico Poder Estatístico: probabilidade de detectar um impacto quando ele existe CONCLUSÃO Programa teve impacto Programa não teve impacto A VERDADE SIM Programa teve impacto Concluímos que o programa não teve impacto, quando na realidade teve (mas a amostra é muito pequena para detectar o impacto) NÃO Programa não teve impacto Concluímos que o programa teve impacto, quando na realidade não teve 20 Erro tipo II CONCLUSÃO Programa teve impacto Programa não teve impacto A VERDADE SIM Programa teve impacto Concluímos que o programa não teve impacto, quando na realidade teve (mas a amostra é muito pequena para detectar o impacto) NÃO Programa não teve impacto Concluímos que o programa teve impacto, quando na realidade não teve Erro tipo II 21 CONCLUSÃO SIM Programa teve impacto NÃO Programa não teve impacto A VERDADE Efeito Sem efeito Poder estatístico Você não está grávido! Você está grávida! Você não está grávida! 22 22 Por que o poder estatístico é importante? Avaliação com baixo poder estatístico Alta probabilidade de erro tipo II (falso negativo) Risco de se encerrar ou mudar um programa que é efetivo Exemplo: Programa de microcrédito em Gana Como diferentes taxas de juros afetam a demanda por microcrédito? 23 24 A cada 100 donos de negócios… … 15 participaram de oficina sobre microcrédito Exemplo: Sensibilidade a taxa de juros (Gana) 25 Exemplo: Sensibilidade a taxa de juros (Gana) Dos 15 participantes… 5 começaram a preencher formulário 2 completaram o formulário 1 pediu o microcrédito 26 Baixa taxa de participação nas oficinas Amostra pequena Baixo poder estatístico Avaliação foi cancelada Exemplo: Sensibilidade a taxa de juros (Gana) Fatores que afetam o poder estatístico Fatores que afetam o poder estatístico • Tamanho da amostra • Tamanho do efeito • Participação (take-up) • Variância • Proporções de alocação experimental • Clusters 30 Tamanho da amostra • Fazemos um experimento com uma amostra, que é um subgrupo escolhido aleatoriamente da população População Amostra Amostragem aleatória 29 Tamanho da amostra • Quanto maior a amostra, mais representativa ela será da população População Amostra Amostragem aleatória 30 Tamanho da amostra Quanto maior a amostra • Mais representativa ela será da população • Mais provável que o experimento capture qualquer impacto que ocorre na população • Menor chance de erros tipo II (não detectar impacto) • Maior poder e precisão 31 Uma amostra maior dá maior poder à avaliação experimental 32 Poder Tamanho da amostra 1 0.75 0.5 0.3 Regra de ouro número 1 Regra de ouro número 1 Uma amostra maior dá maior poder à avaliação experimental Menos poder Mais poder 33 Fatores que afetam o poder estatístico • Tamanho da amostra • Tamanho do efeito • Participação (take-up) • Variância • Proporções de alocação experimental • Clusters 37 Exemplo: Prova Brasil (Brasil) • A avaliação, realizada pelo Instituto Nacional de Estudos e Pesquisas Educacionais (Inep), é aplicada em todo o país, e é composta por uma prova, realizada pelos alunos do quinto e do nono ano de escolas rurais e urbanas • Um programa tem como meta melhorar os resultados das escolas tratadas em 20 pontos • Outro programa visa melhorar os resultados em 1 ponto É mais fácil de perceber as mudanças de 20 pontos do que de 1 ponto É muito mais provável que meu grupo de tratamento seja, por um acaso, aleatorizado com uma nota em média um ponto acima da média da população do que com 20 pontos acima da população como um todo 35 Efeito grande Efeito pequeno Se o efeito é pequeno, precisamos de uma “lupa” com maior aumento para vê-lo 2.5x 10x 36 Regra de ouro número 2 O tamanho do efeito e o tamanho da amostra são inversamente proporcionais a um nível de poder estatístico Exige amostra menor Exige amostra maior Efeito grande Efeito pequeno 37 Fatores que afetam o poder estatístico • Tamanho da amostra • Tamanho do efeito • Participação (take-up) • Variância • Proporções de alocação experimental • Clusters 43 Participação e tamanho do efeito • Suponha um programa que dá fertilizantes a cada família rural beneficiada • Suponha que entregamos o benefício do programa a quatro pessoas (grupo de tratamento) e temos outras quatro pessoas do grupo de controle que não o recebem 39 Tamanho do efeito com 100% de participação Tratamento Controle 40 * * f f f f * * f = receberam fertilizantes * = utilizaram os fertilizantes recebidos Tamanho do efeito com 50% de participação Tratamento Controle 41 f = receberam fertilizantes * = utilizaram os fertilizantes recebidos * * f f f f Regra de ouro número 3 • Participação imperfeita implica um menor efeito e vai exigir uma amostra maior para um nível de poder dado (regra de ouro número 2) • Se já se antecipa que o programa terá uma participação imperfeita, é necessário planejar uma amostra maior Exige uma amostra menor Exige uma amostra maior Participação perfeita Participação imperfeita 42 f f ff * f f * ff * * ** Fatores que afetam o poder estatístico • Tamanho da amostra • Tamanho do efeito • Participação (take-up) • Variância • Proporções de alocação experimental • Clusters 49 Variância • Suponha que temos um programa de saúde para aumentar a altura de crianças que vivem em extrema pobreza no Norte do Brasil • Mas existe grande variância na altura da população • Risco: podemos acabar com uma amostra que tem a maioria dos altos… ou uma com a maioria de baixos AmostraPopulação Amostragem aleatória 44 Variância • Em uma população com muita variância, há uma probabilidade maior de que nossa amostra não seja representativa • Por outro lado, em uma população com pouca variação na altura, é mais provável que a amostra seja representativa AmostraPopulação Amostragem aleatória 45 Implicações de maior variância • Se no final do programa as crianças tratadas são mais altas que as crianças do grupo de controle... • É porque o grupo de tratamento tinha crianças mais altas ou é porque o programa funciona? Controle Tratamento População Amostra Amostragem aleatória Programa implementado 46 Implicações de maior variância Se a população tem uma altura similar no início, seria fácil saber: • É mais provável que tenhamos uma amostra representativa • E a diferença que vemos no final deve ser explicada pelo programa 47 Controle Tratamento População Amostra Amostragem aleatória Programa implementado Regra de ouro número 4 • Para um nível de poder estatístico, quanto maior a variância, maior a amostra de que necessitamos Precisamos de uma amostra menor Precisamos de uma amostra maior Maior variância Menor variância 48 Fatores que afetam o poder estatístico • Tamanho da amostra • Tamanho do efeito • Participação (take-up) • Variância • Proporções de alocação experimental • Clusters 56 50 Aumentar o tamanho da amostra aumenta o poder estatístico, mas cada vez menos Poder Tamanho da amostra 1 0.75 0.5 0.3 Maximizando o poder em uma amostra • P é a proporção do tratamento na amostra …P sempre será um número entre 0 a 1 • Para ter o máximo de poder estatístico para o tamanho de uma dada amostra, devemos minimizar • Este termo é minimizado quando 𝑃 = 0,5: a metade da amostra está no grupo de tratamento 51 Regra de ouro número 5 • Para um nível de amostra, o poder estatístico é maximizado quando a amostra é dividida igualmente entre os grupos de tratamento e controle Controle (n=4) Tratamento (n=4)Amostra (n=8) 52 Fatores que afetam o poder estatístico • Tamanho da amostra • Tamanho do efeito • Participação (take-up) • Variância • Proporções de alocação experimental • Clusters (Agrupamentos) 61 Os indivíduos dentro de um cluster podem se comportar da mesma maneira Controle Tratamento População 54 Regra de ouro número 6 • Para uma dada amostra, aleatorizar por clusters reduz o poder estatístico Precisamos de amostra menor Precisamos de amostra maior 55 • Para uma dada amostra, há menos poder estatístico quando se aleatoriza por clusters • Apesar disso, pode ser que aleatorizar por clusters seja a melhor opção por outras razões: externalidades, razões logísticas etc. Em geral, o número de clusters é determinante para o poder estatístico, não o número de pessoas em cada cluster 56 Regra de ouro número 6 Controle Tratamento População 57 Ou os indivíduos dentro de um cluster podem se comportar de maneira diferente A correlação intra-clusters (CIC) mede o quanto os indivíduos dentro de um cluster são similares no que se refere à variável de interesse • CIC pode ser alto • CIC pode ser baixo Correlação Intra-Clusters (CIC) 58 Regra de ouro número 7 • Para um dado nível de poder estatístico, uma maior Correlação Intra- Clusters (CIC) é necessária uma amostra maior – Quanto maior o CIC, a melhor solução é aumentar a amostra incluindo mais clusters, em vez de mais indivíduos aos clusters Precisamos de amostra menor Precisamos de amostra maior 59 • Distintas amostras extraídas de uma mesma população produzem resultados distintos • É necessário ter poder estatístico para detectar o impacto de um programa • O tamanho da amostra é o principal determinante do poder estatístico Conclusões 69 Regras de ouro 1. Amostra maior Mais poder estatístico 2. Para detectar efeito menor Necessidade de amostra maior 3. Participação (take-up) baixa Necessidade de amostra maior 4. Alta variância na população Necessidade de amostra maior 5. Para uma dada amostra, um número igual de unidades no grupo de tratamento e no grupo de controle maximiza o poder 6. Para uma dada amostra, agrupar clusters significa menor poder 7. Maior correlação entre clusters é necessário maior tamanho de amostra 61 Módulo 06 - Medição 20171026.pdf Medição Cristine Pinto Professora da FGV-SP Um laptop por aluno Fonte: http://one.laptop.org/ 2 3 Problemas/ necessidades Resultados finais Resultados intermediários Produtos Insumos/ atividades Baixo desempenho escolar Melhor desempenho escolar Uso de laptops em casa Alunos e professores com laptops Curso para professores sobre uso de laptops em aula Professores capacitados Uso de laptops em aula Mais presença e matrícula Mais tempo dedicado a lições e leituras Aulas mais divertidas e de melhor qualidade Entrega de laptops com material pedagógico 4 Baixo desempenho escolar Melhor desempenho escolar Uso de laptops em aula Alunos e professores com laptops Professores capacitados Mais tempo dedicado a lições e leituras Mais presença e matrícula Aulas mais divertidas e de melhor qualidade Uso de laptops em casa % de estudantes que disseram ter usado o laptop em sua casa na semana anterior Pontuação em provas de matemática e português Curso a professores sobre uso de laptops em aulaLaptops com material didático entregues a alunos e professores N° de laptops entregues Taxa de uso em visitas surpresa N° de professores que fizeram o curso N° de cursos organizados N° de alunos e professores com acesso a um laptop Taxa de absenteísmo e matrícula % que estudou em casa e % que leu um livro na semana anterior Índice de motivação dos alunos Pontuação em provas de matemática e português Esquema da apresentação 1. Objetivos da medição 2. O processo de responder a uma pergunta 3. Erros de medição 4. Fontes de dados 5. Melhores práticas 5 Objetivos da medição O objetivo da medição 7 Exato e preciso Inexato e preciso Exato e impreciso Inexato e
Compartilhar