Prévia do material em texto
Curso de introdução à avaliação De impacto para programas sociais Na aula 2, você irá compreender os conceitos de correlação e causalidade, bem como o entendimento sobre a construção de um contrafactual. Em seguida, você será apresentado à diversos métodos de avaliação de impacto: não experimentais, quasi-experimentais e método experimental, para conhecer os pontos positivos e negativos de cada um. Dando continuidade ao tema, você irá entender o processo de aleatorização de um experimento: etapa fundamental na implementação de uma avaliação de impacto. Introdução da aula 2 No primeiro módulo deste curso, tratamos da relevância da produção e uso de evidências científicas para a efetividade da política social. Mostramos o risco do uso da intuição como guia para a implementação de políticas públicas e falamos dos variados níveis de incerteza a que gestores e decisores políticos estão sujeitos na definição da melhor estratégia de intervenção para atacar um problema. Nessas situações, vimos que a avaliação de impacto – um tipo específico de avaliação – é essencial para entendermos se as relações de causalidade esperadas no âmbito de um programa ocorreram e conduziram à mudança pretendida. Neste módulo, vamos nos aprofundar na temática da avaliação de impacto. Os principais tópicos que abordaremos são: • A distinção entre correlação e causalidade • O papel do contrafactual • Métodos de avaliação de impacto • A avaliação de impacto experimental • Aleatorização e viés de seleção Correlação e Causalidade Nesta altura de nosso curso, é bem possível que você já esteja convencido (a) da necessidade de verificar se os programas sociais estão de fato entregando os resultados desejados. O que talvez não esteja suficientemente clara ainda é a diferença entre os métodos disponíveis para fazer isso e por que deles são ditos mais rigorosos que outro. Alguém poderia compreensivelmente argumentar que, se o impacto é uma realidade objetivamente observável, bastaria analisarmos se, de fato, a vida dos beneficiários de determinado programa social melhorou após a sua introdução. Será mesmo? Infelizmente, a realidade em que as políticas públicas operam é mais complexa que isso. Comparar o "antes e depois" de uma política não nos permite estabelecer uma relação de causalidade na maioria das situações, porque, na vida real, os beneficiários de programas sociais estão sujeitos a uma série de influências e, sem metodologias rigorosas, não é possível isolar o efeito delas. Se a vida do público alvo de um programa melhorou após sua criação, isso por si só não nos permite determinar que este é um programa efetivo, pois é possível que estejamos observando uma simples correlação. Quando dois fatores andam juntos, estamos diante de uma correlação. Já a causalidade ocorre quando um desses fatores determina o outro. Esta é uma distinção fundamental na área de avaliação de impacto, porque implementar um programa social com base em correlações seria tão problemático quanto recorrer à intuição como guia para políticas públicas. É possível encontrar elevado grau de correlação entre dois fatores sem que isso signifique que uma causa a outra. O site Spurious Correlations, por exemplo, se notabilizou por apresentar alguns casos de correlações absurdas que ilustram bem esse ponto. Veja algumas dessas situações: Fonte dos dados: Federal Aviation Administration e National Science Foundation / Elaboração: Spurious Correlations De acordo com o caso acima, alguém que tomasse decisões unicamente com base em correlações teria de concluir que a melhor maneira de aumentar o número de lançamentos de foguetes é investir na criação de novos programas de doutorado em sociologia ou que a importação de petróleo norueguês é danosa para a segurança no trânsito. Naturalmente, ambas as hipóteses nos soam absurdas e, com razão, duvidaríamos da sanidade mental de qualquer um que ousasse propor tais soluções. Não deveríamos, pois, aceitar com maior facilidade comparações de antes e depois baseadas na mesma lógica falha quando os fatores correlacionados nos parecem mais razoáveis ou sugerem uma ligação que vai ao encontro de nossas pré-concepções. Qual a diferença entre correlação e causalidade? Qual das duas abordagens deve ser considerada em uma avaliação de um programa? RESPOSTA: Podemos dizer que quando dois fatores andam juntos, estamos diante de uma correlação. Já a causalidade ocorre quando um desses fatores determina o outro. Assim, a causalidade deve ser considerada durante a avaliação e não a correlação. O contrafactual Para conhecer o impacto de um programa em quem participa dele precisamos entender o que aconteceria com esses indivíduos se eles não tivessem participado desse programa. Por exemplo, para poder medir o impacto de um programa como o Pronatec, precisamos investigar o que teria acontecido com cada concluinte desse programa de formação técnica e profissional se ele ou ela não tivesse recebido essa oportunidade. Contrafactual: resultado que os mesmos participantes de um programa teriam obtido em um mesmo momento do tempo, mas no caso hipotético de não participarem do programa Veja a representação abaixo: Resultado que os mesmos participantes de um programa O segundo termo dessa subtração é o que chamamos contrafactual. Você já foi apresentado a esse recurso utilizado na avaliação de programas. Vamos agora, nos aprofundar nesse tópico. O contrafactual é necessariamente hipotético porque não podemos observar a evolução do mesmo indivíduo nos dois cenários (com e sem o programa). Trata-se, portanto, de uma estimativa do resultado que um indivíduo ou grupo teria experimentado se o programa em análise não tivesse sido implementado programa teriam obtido em um mesmo momento do tempo, mas no caso hipotético de não participarem do programa. O vídeo a seguir, demonstra a importância do contrafactual no contexto de um programa social. Repare na importância desse recurso na comparação entre participantes e não participantes do programa. De que forma a construção de um contrafactual pode amenizar o problema de seleção? RESPOSTA: O problema de seleção é observado quando temos grupos que, por alguma razão, não podem ser comparados. Por exemplo: pessoas que decidem realizar uma ação possuem características diferentes daquelas que não o fazem. Assim, não podemos compará-las. Quando elaboramos um contrafactual para esse contexto, consideramos um grupo hipotético que poderia servir como comparação com o grupo que está recebendo o programa de verdade. Métodos de avaliação de impacto Estimar o contrafactual é um dos principais desafios de uma avaliação de impacto, pois implica a definição de um grupo controle – isto é, o grupo de indivíduos que será usado como comparação na avaliação. Os diferentes métodos de avaliação de impacto se diferenciam, principalmente, em função de como fazem essa estimação e das técnicas que empregam para a definição do grupo de controle. O quadro abaixo resume os principais métodos de avaliação de impacto: Métodos não experimentais: · Antes e depois · Diferença simples Métodos Quasi-experimentais: · Diferenças em diferenças · Regressão multivariada · Pareamento · Regressão descontínua Método Experimental Seleção aleatorizada dos grupos de tratamento e controle A principal diferença entre cada um dos métodos é a forma como o contrafactual será definido. Ou seja, como será definido o grupo de controle. O vídeo a seguir, explica as três categorias de métodos: não experimentais; quasi-experimentais e o método experimental. 2-Qual é o fator fundamental que diferencia os diversos métodos de avaliação de impacto listados acima? RESPOSTA: O principal fator de diferenciação é se o método utiliza um contrafactual e, se utiliza, de que forma ele será construído. O que é uma avaliação aleatorizada? Como você aprendeu no item anterior, um experimento aleatorizado é aquele em que a designação dos grupos de tratamento e controle são definidos por meio de um sorteio. Busca-se formar dois grupos com participantes muito parecidossendo a diferença entre eles o fato dos indivíduos do grupo de tratamento participarem do programa, enquanto os do grupo de controle não participarem. Com isso busca-se evitar um viés de seleção. O vídeo a seguir, além de conceituar o que é uma avaliação aleatorizada, também explica as razões para se adotar esse recurso nas pesquisas de avaliação. É correto afirmar que, se realizada corretamente, a aleatorização permite que qualquer diferença observável nos indicadores de resultados pode ser atribuída ao programa que está sendo avaliado? RESPOSTA: Sim. Ao utilizarmos o sorteio de forma correta para definir os grupos de tratamento e controle, podemos garantir que a diferença entre os dois grupos se dará exclusivamente pela implementação do programa Mitos da aleatorização Avaliações de impacto feitas de forma aleatorizada costumam ser controversas e sofrem diferentes críticas em diversas situações. Nesta parte do curso, falaremos um pouco sobre essas críticas, buscando demonstrar que, apesar de serem questões importantes e que devem ser levantadas, na maior parte dos casos, elas são mitos que não correspondem à realidade. Neste curso, veremos os seguintes questionamentos: · Avaliações aleatorizadas são éticas? · Avaliações aleatorizadas são caras? · Avaliações aleatorizadas levam muito tempo para serem feitas? · Avaliações aleatorizadas têm validade externa? Vamos analisar cada uma das críticas separadamente, buscando demonstrar como elas devem ser relativizadas. Mitos da aleatorização Mito 1: “Avaliações de impacto aleatorizadas são antiéticas. ” Etíca Será que a participação em um programa é sempre benéfica? Isto é, quem não participa necessariamente está sendo prejudicado? Como vimos, muitos programas têm efeito zero ou até mesmo efeito negativo nos participantes. É delicado defender a inclusão de todos os potenciais beneficiários em um programa sem evidências de que o efeito é o esperado. Além disso, muitas vezes há limitações orçamentárias e gargalos de gestão para atender desde o início da implantação todos os potenciais beneficiários de uma vez só, em todos os municípios. A maior parte das políticas públicas demanda tempo, orçamento e experiência gerencial para atingir todo o público-alvo. Quando não há disponibilidade de vagas para todos ao mesmo tempo, sortear quem recebe o programa primeiro é uma estratégia que permite que todos os interessados tenham as mesmas chances de participar do programa. Portanto, a crítica de que avaliações de impacto são antiéticas é desinformada e ingênua, pois não considera a possibilidade de os programas terem efeitos contrários do esperado ou nulos, nem a realidade de implementação das políticas públicas, suas limitações territoriais e orçamentárias. O vídeo a seguir, explica esses e outros pontos sobre o mito da falta de ética nas avaliações de impacto aleatorizadas. Mito 2: “Avaliações de impacto aleatorizadas são muito caras.” Custos Outro mito sobre avaliações de impacto é que elas são demasiadamente caras e que, por tal motivo, é melhor destinar os recursos integralmente aos programas. Podemos dividir o custo de uma pesquisa de avaliação nas seguintes categorias: • Custo do programa. Não deve ser incluído dentro do custo da pesquisa, afinal o programa acontecerá de maneira independente desta. • Custo do desenho da pesquisa. O desenho da pesquisa exige certa experiência e conhecimento teórico e prático. Mas este trabalho de planejamento não é caro. Além do mais, em geral, a comunidade de acadêmicos tem interesse em se envolver, principalmente com o objetivo de produzir pesquisas. Há também diversos organismos internacionais que financiam pesquisas de avaliação de impacto e oferecem apoio gratuito para a produção e disseminação de conhecimento. • Coleta de dados. Com certeza, a coleta de dados pode ser o componente mais caro da pesquisa. Realizar entrevistas domiciliares, por exemplo, é algo custoso. Dependendo da abrangência geográfica, isso pode ser ainda mais caro. Entretanto, cabe lembrar que a existência de dados relativos ao programa é fundamental para a sua boa gestão, independentemente de uma pesquisa de avaliação. Além disso, se a pesquisa for desenhada em parceria com a área finalística responsável pelo programa, essa coleta pode ser incorporada ao próprio desenho do programa, reduzindo custos. Finalmente, em muitos casos podemos fazer uso de dados administrativos para fazer esse acompanhamento. Vale lembrar que, mesmo que uma avaliação envolva uma custosa coleta de dados, os custos de não fazer uma avaliação, quando falamos de políticas públicas de larga escala, são sempre muito maiores. O vídeo a seguir aborda diversos aspectos sobre o mito do alto custo das avaliações aleatorizada Mitos da aleatorização Mito 3: “Avaliações de impacto aleatorizadas não são generalizáveis.” Uma crítica comum às avaliações aleatorizadas é a afirmação de que elas não possuem validade externa. Ou seja, que os resultados de uma avaliação em um determinado contexto, não poderiam ser considerados em outra situação. No entanto, isso nem sempre é verdade. Muitas avaliações aleatorizadas possuem potencial de serem válidas para outros cenários, inclusive outros países, como é explicado no vídeo a seguir. Mito 4: “Avaliações de impacto aleatorizadas demoram demais.” Duração Pesquisas de avaliação de impacto não são intrinsecamente demoradas. A avaliação de impacto leva o tempo que se espera que a política ou programa promova seus efeitos no público-alvo. Se um programa promete trazer benefícios em uma semana de implementação, pode-se avaliar o impacto desse programa em apenas uma semana para verificar se a expectativa corresponde. Porém, principalmente na área social, leva tempo para produzir impacto em alguma população. Por exemplo, dificilmente um programa educacional vai fazer com que os estudantes aumentem em 20% suas notas com apenas uma semana de intervenção pedagógica. A duração da pesquisa depende do tempo que o programa leva para produzir efeitos observáveis. Não faz sentido esperar que uma política ou programa que tenha por objetivo modificar resultados de longo prazo seja avaliada no curto prazo. Desse modo, a avaliação deve se adequar ao horizonte da ação. Por isso, não raramente as avaliações de impacto são feitas com um prazo de alguns meses ou anos. Podemos afirmar que uma das vantagens do método de avaliação de impacto diferenças em diferenças é o fato de não haver a realização de um sorteio para a definição dos grupos de tratamento e controle? RESPOSTA: Na realidade, o fato de não haver um sorteio para definir os grupos é uma das principais críticas feitas a esse método. Outro problema ocorre quando as retas dos grupos não são paralelas, dificultando a comparação e inviabilizando os resultados. Qual é a principal dificuldade em se aplicar o método de pareamento? RESPOSTA: A maior dificuldade é justamente encontrar pares nos grupos de tratamento e controle com precisão, sem que haja características não selecionadas que possam interferir no resultado. É correto afirmar que, ao selecionar indivíduos abaixo ou acima da linha de corte estabelecida, o método da regressão descontínua busca minimizar as possíveis diferenças existentes entre o público-alvo? RESPOSTA: Sim. Uma das premissas para esse método é a de que não existam diferenças significativas entre pessoas acima e abaixo do corte. Revisão da aula anterior Nos módulos anteriores aprendemos sobre avaliação de programas sociais. No módulo I vimos os usos e evidências para informar políticas públicas, os tipos de avaliação existentes e quando utilizar cada uma delas, com destaque para a avaliação de impacto, que deve ser usada quando se deseja mensurar a efetividade de determinada política. Aprendemos também sobre a Teoria da Mudança, uma das ferramentas utilizadas para ajudar a desenhar avaliações. No módulo II vimos os principais tipos de avaliação de impacto. Elas diferem entre si, basicamente pela forma de designaro grupo de tratamento (que receberá o programa) e o grupo de controle (que não receberá o programa). Nesse contexto, o método experimental é considerado superior aos demais, pois garante que os grupos sejam idênticos em todas as características, exceto em relação ao recebimento do benefício pelo grupo de tratamento. O módulo II também se debruçou de forma mais detalhada sobre as avaliações de impacto experimentais (ou aleatorizadas), expondo sua definição, críticas e adequação, e seus principais pressupostos. Neste terceiro módulo você irá aprender mais detalhadamente sobre aleatorização, compreendendo conceitos como poder estatístico e erro amostral. A aleatorização nos fornece instrumentos para, após a definição da amostra, escolher quais indivíduos irão participar do grupo de tratamento e de controle. Já o poder estatístico nos ensina como garantir que o resultado encontrado no experimento possua um alto grau de confiabilidade Um experimento onde a aleatorização é realizada predeterminando-se a proporção de indivíduos dos grupos de tratamento e controle pode ser classificado como um experimento com aleatorização restritiva? RESPOSTA: Sim. Essas são características da aleatorização restritiva. Ela mantém a proporção fixa, podendo, no entanto, variar a probabilidade. Aleatorização completa A aleatorização completa, como o próprio nome diz, designa que os indivíduos da amostra serão alocados para o grupo de tratamento ou de controle aleatoriamente por meio de probabilidade fixa. Por exemplo: para cada indivíduo, joga-se uma moeda: se der cara, o indivíduo é do grupo de tratamento; se der coroa, é do grupo de controle. Ou seja, a probabilidade do indivíduo ser de um grupo ou de outro será fixa (50%) Um experimento com cinquenta observações realizado com aleatorização completa pode gerar um grupo de controle de 30 indivíduos e um grupo de tratamento de 20 indivíduos? RESPOSTA: Sim. Desde que a probabilidade se mantenha fixa, isso é possível de ocorrer. Aleatorização restritiva A aleatorização restritiva é bastante similar à aleatorização completa que vimos no item anterior. No entanto, em vez de apresentar a probabilidade fixa, essa técnica mantém a proporção fixa. Isso significa que a proporção de indivíduos nos grupos de controle e de tratamento é predeterminada. Com isso, evita-se a possibilidade de termos grupos com tamanhos diferentes como acontece na aleatorização completa. Enquanto a aleatorização completa mantém A probabilidade fixa, a aleatorização restritiva Mantém a proporção fixa. Um experimento onde a aleatorização é realizada predeterminando-se a proporção de indivíduos dos grupos de tratamento e controle pode ser classificado como um experimento com aleatorização restritiva? RESPOSTA: Sim. Essas são características da aleatorização restritiva. Ela mantém a proporção fixa, podendo, no entanto, variar a probabilidade. Aleatorização estratificada A aleatorização estratificada primeiramente divide os indivíduos da amostra em subgrupos de acordo com critérios preestabelecidos. Em seguida, é realizada a aleatorização em grupos de controle e tratamento dentro de cada subgrupo. Esse tipo de aleatorização permite manter, para algumas variáveis selecionadas, um balanceamento entre o grupo de tratamento e o grupo de controle. A aleatorização estratificada é útil quando se deseja ter uma representatividade de minorias. Um exemplo é a realização de uma avaliação de política nacional onde se queira obter representatividade de todas as regiões. Caso seja realizada uma aleatorização simples, corre-se o risco de ter pouca representatividade de regiões menos habitáveis. Assim, é recomendável separar a amostra primeiramente por região para, em seguida, promover a aleatorização dentro de cada região. Veja no vídeo abaixo a explicação desse exemplo: Além de melhorar a representatividade dos grupos, a aleatorização estratificada também oferece a possibilidade de estudar os subgrupos isoladamente ou mesmo realizar análises comparativas entre eles. O vídeo a seguir, explica outras vantagens desse tipo de aleatorização. Ao estratificarmos os indivíduos de uma amostra em subgrupos, não precisamos mais aleatorizar esses grupos para o experimento? RESPOSTA: Mesmo após a estratificação, é necessário realizar a aleatorização do experimento. É importante ressaltar também a escolha das variáveis que serão utilizadas para formar os subgrupos Aleatorização por agrupamentos (cluster) A aleatorização por agrupamentos (cluster) ocorre quando a unidade de aleatorização não é por indivíduo, mas por agrupamento específico (por exemplo: escolas, hospitais, etc). Assim, quando uma escola está no grupo de tratamento, todos os alunos que pertencem a ela recebem o tratamento. Por consequência, quando a escola está no grupo de controle, os alunos dessa escola não recebem o tratamento. O vídeo a seguir explica o exemplo de um agrupamento feito por escolas. Ao contrário das aleatorizações individuais, nesse caso, o número de indivíduos para o cálculo da amostra é o numero de grupos Uma desvantagem desse tipo de aleatorização é a perda de precisão, pois a amostra se torna menor ao considerarmos os grupos e não os indivíduos. Por outro lado, esse método pode ser vantajoso por questões logísticas ou em casos em que há o risco de contaminação da amostra. Assista o vídeo a seguir para compreender as vantagens e desvantagens em se utilizar clusters na aleatorização. Quando aleatorizamos agrupando os indivíduos de um experimento, ganhamos ou perdemos em precisão nos resultados obtidos? RESPOSTA: Ao aleatorizar por agrupamentos (ou clusters), o número de indivíduos deixa de ser a quantidade de participantes e passa a ser o número de grupos formados. Como o número de grupos é menor que o de participantes, perdemos uma parte da precisão do experimento. Desenhos de Aleatorização: Nessa parte do curso, iremos conhecer alguns desenhos de aleatorização. Ao contrário dos tipos de aleatorização, os desenhos dependem, de forma geral, da maneira como poderemos designar as pessoas para o grupo de controle. Assim, há casos em que: · É possível deixar algum elegível sem acesso ao programa, · Só é possível deixar algum elegível sem acesso ao programa temporariamente, · Não é possível deixar ninguém de fora, caso estes queiram participar. Os tipos de desenho de aleatorização ensinam como proceder em cada uma dessas situações. Neste curso, iremos apresentar quatro opções de desenho de aleatorização: Loteria básica Por etapas Múltiplos tratamentos De estímulos A seguir, você irá conhecer cada tipo de desenho de aleatorização em detalhes. Na loteria básica, as unidades de análise são designadas aleatoriamente em grupo de tratamento e de controle. Este desenho de aleatorização é adequado quando não há recurso para cobrir todas as pessoas elegíveis ao programa. Apesar de ser um desenho de aleatorização simples e barato, pode oferecer algumas dificuldades para verificar os resultados sobre o grupo de controle. Entenda melhor as vantagens e desvantagens assistindo o vídeo a seguir. Apesar de ser o desenho mais simples de ser implementado, a loteria básica pode apresentar a desvantagem quanto à cooperação. Explique essa dificuldade com base no que você aprendeu no vídeo acima. RESPOSTA: O grupo de controle pode ter menos incentivo a cooperar com a avaliação, gerando um prejuízo na comparação com o grupo de tratamento. Isso pode vir a comprometer a validade do experimento. Curso de introdução à avaliaç de impacto Desenho por etapas No desenho por etapas o objetivo é atender todas as pessoas do programa, mas não todas as pessoas de uma vez. Assim, seleciona-se aleatoriamente as pessoas que primeiramente irão participar do programa. As demais pessoas formam o grupo do controle. Em um segundo momento as pessoas desse grupo de controle também irão participar do programa. Veja no vídeo abaixo, um exemplo de desenho realizado em duas etapas. Por que na última etapa de uma aleatorização realizada poretapas, a comparação entre o grupo de controle e tratamento deve ser realizada por estimativa? RESPOSTA: Isso ocorre porque na última fase, todos os indivíduos farão parte do grupo de tratamento. Assim, não haverá indivíduos no grupo de controle. Dessa forma, a comparação deverá ser feita por estimativa. Como o comportamento do grupo de controle pode ser alterado ao longo da implementação do desenho por etapas? RESPOSTA: Caso os indivíduos do grupo de controle saibam previamente que, no futuro, irão participar do grupo de tratamento, é possível que eles adotem um comportamento diferente daquele que eles teriam caso não soubessem. No desenho por múltiplos tratamentos, temos um programa com vários componentes que podem ser combinados de diversas maneiras entre si. Nesse caso, busca-se saber qual a melhor forma de interação entre eles. Com isso, é possível obter variados grupos de tratamento. Veja a explicação do vídeo a seguir. Vamos a um exemplo: imagine que temos como objetivo melhorar a frequência escolar dos alunos da rede pública por meio do envio de SMS aos pais dos estudantes. No entanto, não sabemos exatamente qual a melhor forma de realizar esse contato. Podemos tentar de três formas: conscientização, informação ou conscientização e informação. Para cada uma, teremos um grupo de tratamento diferente. O vídeo abaixo descreve o passo a passo desse processo Qual a importância de manter um grupo de controle quando se está optando por um experimento com vários tipos de tratamento? RESPOSTA: Ao mantermos um grupo de controle em um experimento com diversos tratamentos, podemos comparar cada abordagem com o grupo de controle, permitindo avaliar não apenas o efeito geral do programa, como também o efeito de cada tratamento separadamente. O método de esquemas de incentivo à participação é adequado nos casos em que não é viável excluir os indivíduos caso eles queiram participar do programa. Não é possível, assim, separar os grupos de tratamento e controle. Nesse caso, busca-se aleatorizar incentivos para a participação ao programa e não o acesso ao programa. O experimento não busca aleatorizar quem irá receber ou deixar de receber o programa, mas sim selecionar um grupo dentro da amostra que será estimulado a participar da ação. A outra parte não receberá esse estímulo. Assim, dentro do grupo de pessoas que participam do programa, haverá aquelas que receberam o estímulo e aquelas que entraram no programa sem essa motivação. Da mesma forma, dentre aqueles que não participam haverá pessoas que foram incentivadas e aquelas que não receberam estímulo. Obviamente, é esperado que os indivíduos que foram estimulados participem em maior número do programa. A ideia é justamente comparar esses dois grupos (incentivados participantes e não incentivados participantes). O vídeo abaixo dá mais detalhes sobre esse desenho de aleatorização. Esse incentivo pode ser mensagens de SMS enviadas ao público alvo com informações a respeito do programa, ou até mesmo pequenos prêmios para aqueles que participarem. Assim, supõe-se que o grupo que recebeu o incentivo para a participação no programa tenha uma média maior de participação do que o outro grupo. Esse desenho parte do pressuposto que praticamente nenhum programa irá alcançar a totalidade da sua população alvo. Dessa forma, sempre haverá pessoas que, mesmo sendo elegíveis, não irão participar. Vamos conhecer no vídeo abaixo, um exemplo de como esse tipo de aleatorização pode ser utilizado nos casos em que todos os participantes da amostra são elegíveis a recebem o tratamento. Fique atento em como impacto é medido comparando os resultados do grupo incentivado em relação ao grupo não incentivado. Esse desenho de aleatorização também apresenta algumas restrições. Ele deve ser aplicado em uma amostra que responda ao incentivo. Caso contrário, o efeito do estímulo não produzirá uma aleatorização apropriada. Além disso, o estímulo tem que ser suficiente para atrair um número adequado de participantes. O vídeo a seguir, trata das restrições do desenho de aleatorização por estímulos. É correto afirmar que a aleatorização com incentivo à participação divide a amostra entre quem recebe e quem deixa de receber o programa? RESPOSTA: Não. A aleatorização não será feita com base em quem irá receber o programa e quem irá ficar de fora, mas sim entre os que serão estimulados a participar do programa e aqueles que não receberão esse incentivo. O que é o poder estatístico? O conceito de poder estatístico está relacionado com a confiabilidade do resultado do experimento, ou seja, em que grau esse resultado reflete o verdadeiro impacto do programa na população alvo. Podemos definir o poder estatístico como: A probabilidade de se detectar, numa amostra, o impacto de um programa, quando referido impacto existe na população. Repare que estamos falando da probabilidade de se chegar a um resultado confiável, uma vez que trabalhar com amostras sempre gera algum grau de incerteza sobre o resultado final. Como a amostra é um subgrupo da população ela pode, em alguns casos, apresentar um resultado diferente daquele que seria apontado caso o experimento incluísse toda população. Escolher corretamente as amostras dentro da população é muito importante para o sucesso de um experimento. Diferentes amostras podem levar o pesquisador a resultados diversos. Essas oscilações de resultados são provocadas pela variabilidade amostral, ou seja, os valores calculados a partir de amostras variam de um subgrupo para outro. Assista o vídeo a seguir para relembrar o que já foi aprendido até o momento e como o conceito de poder estatístico se insere nesse contexto. Vamos a um exemplo bem simples para compreender como diferentes amostras podem gerar resultados tão variados que podem vir a comprometer o resultado de uma avaliação. Imagine um grupo formado por nove números: 1 1 1 5 5 5 9 9 9 Queremos saber a média aritmética simples dessa população. Para encontrar esse valor (note que estamos considerando todos os elementos), temos que somar todos os números e dividir por 9 (que é o número de elementos). 1 + 1 + 1 + 5 + 5 + 5 + 9 + 9 + 9 = 45 Agora, basta dividir 45 por 9 (que é o número de elementos da população). Com isso, temos a média aritmética igual a 5. Média aritmética da população = 5 Agora, imagine que você precise extrair uma amostra de 3 elementos para analisar e tirar conclusões sobre essa população. Veja abaixo, três possíveis amostras e suas respectivas médias aritméticas. Tente descobrir qual seria a melhor opção a ser escolhida para o experimento. Amostra A: 1, 5, 9 (média = 5) Amostra B: 1, 5, 5 (média = 3,6) Amostra C: 1, 1, 1 (média = 1) A melhor amostra é a opção A. Veja que a média aritmética encontrada nesse subgrupo representa corretamente aquela encontrada na população. Já a amostra B não é tão boa, pois apresentou um resultado um pouco diferente daquele verificado nos nove elementos originais. A amostra C é considerada ruim, pois a média encontrada está muito distante do resultado da população. Cada amostra apresenta uma média aritmética diferente. A essas diferenças de resultado dá-se o nome de variabilidade amostral. A seleção da amostra está intimamente relacionada com o poder estatístico do teste. Quanto melhor for o subgrupo escolhido, maior será o poder estatístico, pois os elementos selecionados irão gerar um resultado mais próximo ao da população. É por isso que a escolha da amostra deve ser realizada de forma bastante criteriosa. Por exemplo, o tamanho das amostras pode influenciar a confiabilidade do experimento. Amostras menores barateiam o custo da pesquisa, mas ao mesmo tempo podem fazer com que os indivíduos analisados não sejam o suficiente para verificar o impacto do experimento. Também não é adequado estabelecer o maior tamanho de amostra possível, visto que amostras maiores encarecem e aumentam o tempo de execução da pesquisa. Deve haver um equilíbrio entre o tamanho ideal da amostra, considerando o custo da pesquisae o poder de representatividade da população desta. Além do tamanho da amostra, você irá conhecer diversos fatores que podem aumentar o poder estatístico do experimento da sua avaliação de impacto. Conheça um outro exemplo de variabilidade amostral assistindo o vídeo abaixo. No exemplo do vídeo também é possível verificar que, dependendo da amostra, os resultados podem não apenas ser diferentes, como também conflitantes. O programa aplicado no grupo de tratamento gerou um resultado positivo (menos dias de desemprego) na primeira amostra e um resultado negativo (maior período de desemprego) na segunda amostra. Qual é o resultado correto? Como o avaliador é capaz de atribuir confiabilidade ao experimento de forma a evitar um resultado equivocado? Esses costumam ser os principais questionamentos dos avaliadores. Veja que, no primeiro caso, o resultado positivo apresentado pode ser atribuído a duas possibilidades: · O programa de fato surtiu efeito e reduziu o tempo de desemprego; ou · O programa não surtiu efeito e o resultado obtido é decorrência de algum erro no processo de seleção das amostras (erro amostral). Já no segundo cenário, o resultado negativo pode ser consequência também de duas possibilidades: · O programa de fato não surtiu efeito e não foi capaz de reduzir o tempo de desemprego dos participantes; ou · O programa surtiu efeito, mas o experimento não foi capaz de identificá-lo devido a algum erro no processo de seleção das amostras (erro amostral). Em muitos casos, identificar esses erros se torna muito difícil. Para isso, é preciso que os avaliadores conheçam bem as características de cada erro e quais as são as causas mais comuns de cada tipo de erro amostral. É isso que você irá conhecer a seguir. Responda a questão abaixo para fixar o que aprendeu. Os valores calculados a partir de amostras Variam de uma amostra para outra. Isso se chama variabilidade amostral. Como o poder estatístico se relaciona com o tamanho da amostra? RESPOSTA: Em geral, podemos afirmar que o tamanho da amostra pode influenciar a confiabilidade o experimento. Em muitos casos, amostras pequenas podem fazer com que os indivíduos analisados não sejam o suficiente para verificar o impacto do experimento. 2 – Erros associados ao Poder Estatístico O poder estatístico é importante visto que mede se o resultado do impacto encontrado na amostra da população corresponde ao impacto do programa na população de fato. No fim, o que se deseja saber é se o programa é eficaz ou não. Um baixo poder estatístico pode ocasionar dois tipos de erros: · Erro tipo I (também chamado de falso positivo): Esse tipo de erro induz o avaliador a acreditar que o programa é efetivo, quando na realidade não está gerando impacto. Ou seja, o experimento aponta uma diferença entre o grupo de tratamento e controle, induzindo o avaliador a atribuir essa diferença ao programa. No entanto, a diferença estimada é fruto de um erro amostral. · Erro tipo II (também chamado de falso negativo): No segundo caso, ocorre o oposto. O resultado do experimento leva o avaliador a crer que o programa não está gerando impacto, quando na verdade está. Ou seja, o experimento não aponta uma diferença entre o grupo de tratamento e controle. No entanto, essa ausência de diferença na estimação é fruto de erro amostral. Na realidade, houve impacto gerado pelo programa, mas ele não está sendo identificado pelo experimento. Acompanhe no vídeo abaixo a explicação para os dois tipos de erros e suas consequências, por meio de um quadro comparativo. Veja que quando os erros são evitados, o poder estatístico do experimento aumenta. Uma possível consequência negativa do ERRO I é a continuidade ou mesmo expansão de um programa que não é efetivo, mas que o experimento erroneamente aponta como eficaz. Já uma possível consequência do ERRO II é a descontinuação de um programa que apresenta gera resultados positivos, mas que não foram identificados devido a uma falha no experimento. Entender os fatores que determinam o poder estatístico do experimento é importante porque, em avaliações com baixo poder estatístico, há uma alta probabilidade de erros do tipo II, ou seja, encontrar, no experimento, que o programa não tem impacto, quando na realidade ele tem. Evitar ou reduzir o feito dos ERROS I e II é uma das principais preocupações de um avaliador durante a realização de um experimento. No entanto, conhecer e identificar o erro nem sempre é suficiente. É preciso também saber quais são os fatores que levam à ocorrência de um falso positivo ou negativo. No exemplo de Gana, o tamanho da amostra foi o principal problema, mas ainda há outros fatores que causam essas interferências. Vamos conhecê-los a seguir. Mas antes, teste seus conhecimentos nos exercícios abaixo: Como chamamos o tipo de erro que leva o avaliador a crer que o programa não está gerando impacto, quando na verdade está? RESPOSTA: É o erro tipo II, também chamado de falso negativo. Ou seja, o experimento não aponta uma diferença entre o grupo de tratamento e controle. No entanto, essa ausência de diferença na estimação é fruto de erro amostral. Na realidade, houve impacto gerado pelo programa, mas ele não está sendo identificado pelo experimento. Fatores que afetam o Poder Estatístico Você já aprendeu o que é o poder estatístico e que ele pode ser influenciado por erros classificados como falso positivo (erro do tipo I) e falso negativo (erro do tipo II). Agora, você vai conhecer quais os fatores que contribuem para reduzir o poder estatístico, ou seja, aspectos que podem reduzir o grau de confiabilidade do experimento. Tamanho da amostra Tamanho do efeito Participação Variância Proporções de alocação experimental Nível de agrupamentos (clusters) Tamanho da amostra Você já aprendeu que uma amostra é um subgrupo da população escolhido aleatoriamente para participar de um experimento. Quanto maior a amostra, maior a confiança que teremos de que ela representa a população. Isso é o que diz a nossa primeira regra de ouro: Regra de ouro 1: Uma amostra maior dá maior poder estatístico à avaliação experimental Curso de introdução à avaliação de impacto para programas sociais Uma amostra grande também diminui a chance de erro do tipo II (falso negativo) que é quando o programa possui impacto, mas este não é identificado no experimento. Assista o vídeo a seguir, para uma explicação mais detalhada. Em seguida, responda as questões propostas sobre o tema. Porque em muitos casos, uma amostra pequena pode afetar negativamente o poder estatístico de um experimento? RESPOSTA: Isso ocorre porque, quando a amostra é reduzida, há o risco de, por variabilidade amostral, os indivíduos selecionados serem, em média, diferentes da população total, causando uma redução do poder estatístico. Tamanho do efeito Outro fator que também altera o poder estatístico, é o tamanho do efeito. Assim, quanto maior for o efeito de um programa, em geral, mais fácil será captar esse impacto no experimento. O contrário também pode ocorrer: se o efeito for muito fraco, mais difícil será identificar o impacto no experimento e maiores serão as chances de ocorrer o erro II (falso negativo) que é quando um acredita-se que um programa não esteja sendo eficaz, quando na realidade, está gerando impacto. Regra de ouro 2: O tamanho do efeito e o tamanho da amostra são inversamente proporcionais a um nível de poder estatístico. Isso significa que podemos utilizar uma amostra reduzida se o efeito que buscamos identificar for grande. Porém, se é um efeito pequeno que buscamos identificar, precisaremos de uma amostra maior para encontrá-lo De que maneira a intensidade de um efeito é capaz de influenciar no poder estatístico de um experimento? E qual o papel do tamanho da amostra nesse contexto? RESPOSTA: Se o efeito for muito fraco, será mais difícil de se identificar o impacto no experimento. Ou seja, ele pode estar ocorrendo, mas não ser identificado (erro tipo II - falso negativo). Ao aumentarmos o tamanho da amostra, podemos tambémelevarmos a chance de detectarmos o efeito. Participação A participação no programa é um fator importante para o poder estatístico de um experimento, uma vez que após a designação dos grupos de tratamento e controle, alguns indivíduos selecionados para comparação optam pela não participação no programa ao longo do experimento, ocasionando o que chamamos de participação imperfeita. Nesses casos, é necessário que o tamanho da amostra seja dimensionado considerando uma margem de evasão dos participantes. Você deve lembrar que a regra de ouro número dois diz que o tamanho do efeito e o tamanho da amostra são inversamente proporcionais a um nível de poder estatístico. Logo, uma baixa participação na avaliação deve ser compensada com a previsão de uma amostra maior. Isso é o que informa a nossa regra de ouro número três: Regra de ouro 3: Se já se antecipa que o programa terá uma participação imperfeita, é necessário planejar uma amostra maior. O exemplo apresentado no vídeo abaixo demonstra como a participação dos grupo pode influenciar o poder estatístico do experimento de uma forma positiva ou negativa. O que é a participação imperfeita? Como podemos reduzir os efeitos negativos desse fator em uma experiência? RESPOSTA: a participação imperfeita ocorre quando alguns indivíduos selecionados para comparação optem por não participar do programa ao longo do experimento, comprometendo o poder estatístico do experimento. Ao prever essa possibilidade, o avaliador pode aumentar o número de observações de uma amostra, de forma a compensar o efeito da perda de participantes. Variância Caso a população alvo do programa seja muito diferente entre si, ou seja, com variância elevada, há uma probabilidade maior de que a amostra não represente de forma adequada a população. Por outro lado, em uma população onde os indivíduos sejam mais parecidos entre si, é mais provável que a amostra seja representativa. A nossa quarta regra trata desse assunto. Regra de ouro 4: Para um nível de poder estatístico, quanto maior a variância, maior a amostra que necessitamos. O vídeo abaixo explica por meio de exemplos como uma população muito variada pode afetar o poder estatístico de um experimento. O que é melhor para o poder estatístico de um experimento: uma população mais parecida ou diferente entre si? RESPOSTA: quanto mais parecida entre si for a população alvo do experimento, menor será a variância, logo, maior será o poder estatístico, uma vez que será menor o risco da ocorrência de erros. Proporções de alocação experimental Uma dúvida comum na elaboração de um experimento é a definição da proporção de participantes do grupo de tratamento e controle. Será que é válido alocar um número maior de participantes no grupo de tratamento ou no grupo de controle? O fato é que ao compararmos os grupos, estamos verificando a média amostral do grupo de tratamento e do grupo de controle. Estatisticamente, o poder estatístico de um experimento será maximizado quando o tamanho do grupo de tratamento for igual ao do grupo de controle. Isso é o que nos diz a regra de ouro número cinco: Regra de ouro 5: Para um determinado nível de amostra, o poder estatístico é maximizado quando a amostra é dividida igualmente entre os grupos de tratamento e controle. Qual seria uma divisão mais eficiente entre os grupos de tratamento e controle: 50% tratamento e 50% controle ou 30% tratamento e 70% controle? RESPOSTA: O poder estatístico é maximizado quando grupos de amostra e controle possuem a mesma proporção. Logo, a divisão mais eficiente é aquela que prevê 50% da amostra para o grupo de tratamento e 50% para o grupo de controle. Nível de agrupamentos (clusters) Dizemos que um experimento é realizado por agrupamentos (clusters), quando contabilizamos grupos de indivíduos em vez de cada participante isoladamente. Por exemplo: podemos dividir os participantes de um experimento de acordo com as escolas em que eles estudam. Nesse caso podemos ter 10 alunos da escola X, 12 alunos da escola Y e 8 alunos da escola Z. A partir do momento que agrupamos os alunos, passamos a contabilizar o número de grupos (3 escolas) em vez do número de alunos (30 alunos). E como o poder estatístico é avaliado nesse caso? Em geral quando aleatorizamos por agrupamentos, o número de clusters irá influenciar o poder estatístico e não o número de participantes em cada cluster. Em consequência disso, acabamos por perder poder estatístico. É o que diz a nossa regra de ouro número 6: Regra de ouro 6: Para uma determinada amostra, há menos poder estatístico quando se aleatoriza por agrupamentos (clusters). Mesmo com essa perda de poder estatístico, a aleatorização por clusters pode ser a melhor opção devido a alguma razão específica do experimento, como logística, por exemplo. Para mais detalhes, assista o vídeo abaixo: Quando falamos sobre o poder estatístico de experimentos realizados com agrupamentos, temos também que levar em conta as similaridades que existem entre os indivíduos dentro de cada grupo. É o que chamamos de correlação intra-cluster (CIC). Um grupo com alta CIC, possui pouca variabilidade entre seus membros. Já uma CIC baixa evidencia um grupo heterogêneo com alta variabilidade entre seus componentes. Estatisticamente, se grupos de um experimento possuem correlações intra-clusters altas, significa que é recomendável aumentar a quantidade de grupos para podermos ter um poder estatístico maior. Essa é a nossa sétima regra de ouro: Regra de ouro 7: Para um dado nível de poder estatístico, uma maior Correlação Intra-Clusters (CIC), é necessário uma amostra maior. Quando um experimento é realizado por agrupamentos, dizemos que o grau de similaridades existentes entre os indivíduos de determinado grupo é medido pela Correlação Intra-Cluster (CIC). Um grupo com pouca variabilidade possui uma CIC alta ou baixa? RESPOSTA: Quando há pouca variabilidade entre os indivíduos de um grupo, ou seja, quando o grupo apresenta muitas similaridades, a CIC é alta. Já no caso de um grupo heterogêneo, a CIC é baixa, pois os indivíduos apresentam baixo grau de similaridades